百度如何判断页面与关键词的相关性

百度如何判断相关性?有哪些因素会对相关性产生直接的影响?这些都是大家争论不休的话题,而且与SEO是息息相关的。搜索引擎所使用最原始的方法,我们可以这样来理解:一个词,在某个网页中出来的次数多,那么这个网页就与该词相关,也就是俗称的关键词密度也叫词频,详见:为网站合理的布局关键词,事实上随着搜索引擎技术的不断成熟和更新,已经有越来越多的因素可以用来判定了。

TF-IDF

之前有转载过一篇关于TF-IDF的文章,写得比较详细,大家认真看一下,可以对TF-IDF有一个很好的理解:搜索引擎排序基础:TF-IDF框架 ,搞懂这个方法,以下要谈到的细节就更加容易理解了,这里不再啰嗦。

标题出现关键词

在一个页面的标题中出现了关键词,这显然该关键词与该页面是非常相关的,这也是百度非常看重的地方,以标题出现关键词来判断页面的相关性,哪怕仅仅只是出现了一次,百度也会认为它是非常具有相关性的。

主题匹配度

搜索引擎会分析该页面并将该页面的主题提取出来,再加上可以根据用户搜索的词来计算出来一个主题匹配的程度,匹配的程度越高,显然就是越相关的。

领域相关性

简单来说就是该站点或页面是否出自知名、权威的站点,比如:马特·卡茨他是谷歌反垃圾组的老大,出自他博客的内容,显然被SEOer们当作圣经,因为他是这个领域的权威人士,如果其它非知名权威的站点或页面,那这个页面与该词也不具备领域的相关性的。

其它因素

重要位置出现:如果该词出现在该页面比较重要的位置,从这方面讲也是可以判断出该页面的相关性的。

页面长度:页面要有一定的内容,没有什么内容的页面或者是内容太短的页面通常会被搜索引擎认为不太靠谱。

作弊:通过穿插关键词、工具伪原创等形式,在百度如何去重当中也讲过这些方式其实搜索引擎同样可以判断出来,而且会有作弊嫌疑从而被惩罚。

据百度官方的技术工程师透露,类似以上提到的这些影响百度搜索系统的因素在百度的构架当中会有数百个之多,再加上百度的封闭,使得外界更难以去捉摸百度的其它因素。当然,封闭的目的是担心我们知道得太多从而影响百度的商业(事实上现在SEO也确实在影响了),但也给了一些有心人机会,由于封闭,极少部分童鞋能够通过实践找到百度的漏洞(也就是算法当中某个小细节不完善),从而可以直接影响百度的搜索质量(当然也能从百度获得巨大的流量,有了流量还愁啥?),在这方面看来,封闭不知道是对国人的评价太高,还是对百度自己的不自信我们不得而知,金华认为从长远来讲,这一定是阻碍了中国网民加速进步的进程。