搜索引擎优化学习:预处理过程

       天鸿在之前的文章《搜索引擎蜘蛛spider初探—类型篇》介绍过蜘蛛的分类及抓取策略,那么从抓取网页链接,到最后用户搜索时看到的搜索结果排序之间经历过哪些加工过程呢?这就是天鸿今天要讲的主题:搜索引擎的预处理过程。因为预处理过程非常复杂,即使百度内部的算法工程师也不能完整知道所有的步骤,但是作为一名seoer,大概知道其过程就可以了,这也是很有必要的,因为只有知道了搜索引擎是如何工作的,我们才能对症下药,做讨它喜欢的事。总体来讲搜索引擎预处理分为以下几步:提取文章→分词消噪→去重页面→计算页面重要程度→建立索引数据库,然后用户搜索关键词的时候,搜索引擎将已经生成的排序结果直接调出来提供给用户。

       之前的知识提到过蜘蛛都是顺着链接爬行的,那么当蜘蛛发现一个链接后,就会将该页面中的所有文字提取出来,这里用天鸿seo博客首页用站长工具的模拟抓取做个示范,大致就是下图这样:

搜索引擎优化学习:预处理过程

       这里插句话:搜索引擎现在也可以识别图片中的文字,但是我们在网站上使用图片时还是要注意写上alt属性,因为虽然搜索引擎可以识别,但是会比较占用服务器资源,我们之间告诉它这张图片是描述什么的等于帮它节省资源,它会回报你的!抓取出文字后搜索引擎就要开始判断页面的内容,启动分词消噪步骤,比如“烟台seo”这个词,就可以分为“烟台”“seo”“烟台seo”,后面的词都会这么不断地切出来。正文中难免有一些“哦”“的”等语气词及其他没意义的词,搜索引擎在提取内容的时候不会考虑到这些词给判断内容带来的影响,所以叫“消噪”。

       之后搜索引擎会将提取完内容的页面内容跟之前已经索引的内容进行比对,对于那种低质量站点(无脑抄袭转载)的页面会直接剔除,有同学有疑问说我看到互联网上存在着大量重复页面,不同新闻网站之间互相抄袭转载新闻,如果搜索引擎去重了怎么还能有这么多重复页面呢?之前天鸿在搜索引擎蜘蛛介绍那一篇中提到过,搜索引擎对不同权重的站点的待遇是不一样的,不同网站之间即使写了完全同样的文章,网站标题描述等边角地方的文字内容也是不一样的,所以百度里面没有两个完全相同的页面。当然搜索引擎更喜欢原创内容这是官方都明确表达过的,这也是建议大家多写原创的原因之一。

       之后搜索引擎就要进行极为重要的一步:判断页面重要性。首先就要根据前几个步骤的结果判断出页面在讲什么内容,以备将其调入对应的索引数据库中。然后会根据比如域名年龄,网站历史信任度,页面打开速度,服务器稳定性,原创度,外部链接重要性及推荐程度等指标判断页面的重要程度。

       最后就到了建立索引数据库阶段,根据刚才计算出来的页面重要性,给予对应搜索词相应的排序。比如搜索引擎抓取了天鸿seo博客里面的一篇讲seo技术的文章,判断出来是在讲seo技术,计算出重要性后,在索引数据库里进行排序。当用户搜索seo的时候,我的页面排在哪;当用户搜索seo技术的时候,我的页面在哪里……最后用户搜索的时候,直接呈献给用户。

       搜索引擎的工作原理非常复杂,所以天鸿就多用举例子来说明问题,有的例子为了形象,可能失去了部分恰当,欢迎读者留言批评指正,如果你喜欢,欢迎转发给需要的人。

重点知识:搜索引擎优化学习:预处理过程

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.thseoer.com/SEOjishu/13.html