当前位置：首页 > 搜索引擎 > 原创内容的判断搜索引擎的盲区

原创内容的判断搜索引擎的盲区

时间：2012-08-13 20:36:22 作者：来源：点击：

8月10日，百度站长门诊开放日，很多站长提到了网站原创内容被百度判定为转载，而把转载网站判定为原创的问题，并且lee也暗示近期将会对网站原创内容的识别改进算法。详情见：8月10日百度站长门诊开放日问题集锦。

紧接着在8月11日，谷歌宣布将对搜索成果进行重年夜调剂，下降侵权网站的排名，谷歌在收到版权持有人对网站年夜量侵权指控通知后，便会下降该网站在谷歌搜索成果中的排名。搜索引擎作为互联网最重要的流量入口，肩负着保持网站和用户的，用户、搜索引擎、网站成为一个互惠互利的共生系统。可是，作为搜索引擎难点的原创内容判断到底会对用户和网站造成什么影响?

用户篇：

用户早已习惯了通过搜索引擎寻找自己需要的信息，搜索引擎是用户的东西，一般用户也很少关心信息的来历，只关心信息自己是否满足需求。即绝年夜大都用户不在乎信息的创作发现者，也不在乎来历于哪个网站。如用户通过搜索引擎达到新浪或搜狐等年夜型网站，无形中就增强了对信息的信任度。即便该信息并不是是年夜型网站的原创。

搜索引擎篇：

搜索引擎办事的对象是用户，而不是网站;搜索引擎的首要任务是为用户提供有价值的信息。一般用户不在乎信息的原创，可是，搜索引擎为了维护搜索成果的公允和整个网络情况秩序，必须在复杂的网络中判定原创和转载，对年夜量产生高质量原创内容的网站更高的权重和更好的排名，带来更多的流量;对年夜量转载剽窃的网站降权。但这一切的前提是搜索引擎能准确无误的识别原创和转载，不但对百度，即便是谷歌，也没能做到让人满意的境地。

抛开手艺布景，纯粹从常识的角度，首先想到的就是时间，原创必定比转载的内容呈现的要早。假定文章1由网站A原创，被新浪转载后，其他各年夜网站又纷繁重新浪转载，一时间网络上呈现年夜量的转载。据统计，搜索引擎目前只发现收录了整个互联网年夜概30%的数据，而这已经是一个天文数字，在资源有限的情况下，搜索引擎无法做到实时监控整个互联网的信息，于是，新浪成为文章1的原创者。

其次，按照文章的版权的信息，越来越多的文章会带有版权说明，虽然很多无良的转载会去失落这段信息，可是，总会有人留下这段信息，蜘蛛按照文章的版权信息来识别原创和转载。理论上可行，事实上，很多无良的转载不但去失落了原来的版权信息，甚至加上了自己的版权，这就造成了同一篇文章多个原创出处的现象。

别的，搜索引擎工作有抓取、分词、去噪、提炼关头词等过程，与文章内容并没有多年夜关联的版权信息往往在去噪过程中就被剥离。即便搜索引擎调剂算法，保存的版权信息，同样无法避免上述无良转载的窘境。

网站篇：

网站既要包管自己产生年夜量的高质量信息来讨好搜索引擎，又要做好用户体验来挽留用户，还常常受到搜索引擎的欺负，就像一个受气的小媳妇。很多站长常常埋怨搜索引擎，却疏忽了一点，搜索引擎的客户是用户，不是网站，搜索引擎并没有义务要给网站流量。

可是，搜索引擎的不公和手艺缺陷，带来可骇的马太效应，年夜网站越来越强，小网站越来越弱。年夜网站随意剽窃依旧排名坚挺，流量不竭。小网站辛辛苦苦的生产，最后却是为他人做嫁衣，排名没有，门可罗雀。

可以看到，搜索引擎的用户不在乎信息生产者，可是这却关系到搜索引擎上游客户——网站的死活，关系到整个互联网情况，也是搜索引擎必须要降服的盲区。

分享到：