百度如何去除重复内容

互联网上的资源目前公开可以得到的大概数据约为千亿以上级别,而百度是中文搜索引擎,它搜索返回的数据饱和程度约为1亿,谷歌可返回约为250亿 ,在这千亿级互联网的资源中有绝大部分是重复的,而搜索引擎的资源有限,所以搜索引擎内部自身会有一套机制来去除掉一些重复的内容,但这并不意味着搜索引擎就不收录重复内容,只是对重复内容进行相应的处理,从中挑选一部分符合条件的页面来排序。

重复判断

如何判断两个或更多页面是否为重复内容?这个问题相信很多人都很迷茫,而且一直在用网上流传的那些所谓的伪原创方法,像替换关键词、打乱段落、文章拼凑等,无论是怎么做,其实百度都有办法可以识别出来的

百度目前所采用的是提取文章指纹的模式,简单来讲是一种基于词频的处理:

通常一篇内容,出现在互联网上无数个站点上的时候,它们会被列入统一的一个倒排索引库,而百度在索引时会将这篇文章进行分词处理,通常是提取出三种词:高频词、中频词及低频词。

高频词由于很多页面都在用,所以并不能说明问题,自然提取出来的词是要去掉高频词的。同样,低频词由于所使用的较少,也不能作为参考,同样是要去除掉的,那么只剩下中频词。

据百度构架工程师透露,百度采用提取中频词来做对比的方式对去重后的页面进行比对,发现这两篇文章甚至更多篇文章的内容表达的页面是一样的,所以说在一篇文章中对分出来的、使用频率适中的词是最能表达一篇文章中的意思的。

这只是比较主流的一种作法,当然百度还会根据分词出来的词义试图来理解文章的内容,这是持久战,随着越来越智能化的搜索引擎,像上面所说的那种文章拼凑,根本无法读通、伤害用户体验的文章将同样会被百度识别出来的。

如何应对

重复内容其实在实际做站的过程中很难去避免的,尤其是对具有规模的网站,有数十万、上百万页面的网站,重复内容同样都会有很多的,就好像我们写个人博客也不可能保证100%原创的,像金华的博客也时不时会转载一些相关的技术文章,当然还有一种情况是作者认为是自己写的,实际上经过百度比对发现中频词其实是一样的,那同样相当于重复内容的。

重复内容其实并不是那么可怕,文章最开始的时候金华就说了,并不是百度不会收录重复内容,而是会从重复内容中挑选一些符合条件的页面进而让它们来参与排名,而这些条件因素是非常多的,对用户的价值、点击率、社会化因素、网站权威度等等,都是这些条件的因素。

如果我们无法改变页面的中频词,那么就努力做好其它方面的条件因素吧

现在网络上流传的一种作法是二八定律,80%的重复内容+20%的原创内容,其实理论是没有错,但我们实际做站的过程中真的能很好的遵循吗?这个肯定是很难的,与其这样被动的做,倒不如大大方方的对网站的重复内容进行更多的曝光,使其更多的体现出对用户的价值、有更高的点击率及社会化因素,长此以往下去,我们的目标就只有一个,得到百度的权威度认可,这个是最最关键的因素!

写的思路比较乱,表达不是很清楚,仅以此作个记录。