会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 搜索引擎 > 百度分词手艺研究与猜想

百度分词手艺研究与猜想

时间:2012-06-04 19:47:09   作者:   来源:   点击:

百度搜索引擎在中文范畴市场占有率第一的地位,严格来讲是他有了一套很是好的分词手艺。当然高深的分词手艺我们是无法探知的。但我们可以从一些概况的一些"管"来窥其里面的"豹"。今天就为年夜家谈一谈关于百度分词的一点点根基的猜想。

首先我们要体会百度分词的条件,其实不是所有的词城市有分词产生,例如我们搜索"年夜学生",返回的成果,我们会看到精准匹配,那么百度就对这个词没有进行了分词措置,看下图:

而我们搜索"片子下载",百度就会将这些词拆分为"片子"、"下载"和"片子下载",如下图:

于是有朋友猜想会不会百度以三个中文字为限,起头实施分词呢?年夜家可以多次测试一下,这种说法是相当有市场的,可是后面我又搜索关头词的时候发现一个问题,如果一个词已经被百度词库收为一个伶仃的词,那么不管他多么长,百度也会先推荐精准匹配网页,然后推荐分词匹配网页。

例如年夜家搜索"不管你们信不信",一般来讲这样的句子必定是要被分词措置的,可是因为去年动车事件,这个句子已经成为年夜家常常使用的词语,百度也已经对这个词比较认可了,将他收入词库中,那么它便可以实现精准匹配。如下图,网页题目中都是精准匹配,未见分词匹配:

结论猜想:用户搜索某个关头词,百度会按照自己词库先进行精准匹配,如果这个词是很常常使用的词,那么百度就会挪用相关的网页成果,如果不存在就进行分词措置,得出的搜索成果也会产生一些分词措置情况,至于成果排名影响因素比较多,比如网站的权重会影响到搜索的成果排名,具体的需要深入阐发,这里就不班门弄斧了。

本文由杭州搜索引擎优化(xun搜索引擎优化)网编颁发,欢迎年夜家转载,转载时请保存此链接,谢谢合作!

分享到:

网友评论