会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 搜索引擎 > 让搜索逾越语言的鸿沟 谈跨语言信息检索手艺

让搜索逾越语言的鸿沟 谈跨语言信息检索手艺

时间:2012-06-15 18:24:23   作者:   来源:   点击:

跨语言信息检索,是信息检索范畴中的一个研究课题。近10几年来,由于互联网的飞速成长,这方面的研究受到了学术界的普遍重视。将这项手艺应用于搜索,可以帮忙我们查找到更多的有用信息,例如外语相关页面、多语言页面以及语言无关的资源(如图片)等等。这些信息可以年夜年夜丰富搜索的成果,满足用户多样的需求。在跨语言信息检索的研究中,有一些研究功能已经趋于成熟,达到可以应用的状态。事实上,Yahoo和谷歌在5,6年前就已经起头提供多语言的搜索办事。毫无疑问,在这方面他们已经走在了世界的前列。目前,百度的各项国际化业务正在如火如荼的展开,对跨语言手艺来讲,正是用武之地。相信不久的未来,它将会在搜索国际化过程中饰演举足轻重的角色。来,就让我们一探事实吧。

假定你搜索"中菲黄岩岛对峙",如果你是一个普通用户,你想知道的多是这个事件的汗青渊源和成长动态;如果你是一个文艺用户,你想知道的多是中国愤青们的爱国言论。没问题,现有的中文搜索完全可以满足你的需求。

可是,如果你是一个XX用户,你对中国网站的内容不满足,很想知道外国的媒体是怎么报导的,外国民众是怎么谈论这个事件的。那么欠好意思,中文搜索引擎就无能为力了。这是因为,中文搜索引擎都是中文作为根本来构建的,它往往只收录了中文数据,只斟酌了中文的特性,只斟酌了该中国网民的需求。可是,当我们想要做跨语言搜索时,搜索就变得坚苦了。且不说我们没有抓取那么多外文数据。即便我们有数据了,由于不合语言之间的巨年夜差别,以及各个国度各类各样的网络习惯,我们也很难精准地搜索到相关的外文信息。也就是说,语言的不合给搜索带来了一道鸿沟。

那么,这道鸿沟就不克不及逾越了么?当然不是。事实上很多年前人们就已经起头斟酌这个问题了。在学术界,对这个问题有个专有名词,叫跨语言信息检索(Cross-Language Information Retrieval)。早在上个世纪60年代,现代信息检索的奠定人,美国康奈尔年夜学的Salton传授颁发了一篇《Automatic processing of foreign language documents》,首先打开了跨语言信息检索的年夜门。可是由于那个时代还没有互联网,研究也只能停留在简单实验阶段,甚至跨语言信息检索的概念还没有正式提出。到了上世纪90年代,美国国度标准手艺研究所(National Institute of Standards and Technology)和美国情报局前沿研发勾当中心(Advanced Research and Development Activity center of the U.S. Department of Defense)结合进行了信息检索范畴最重要的会议——"TREC"会议(The Text REtrieval Conference)。到了1996年,在瑞士所进行的SIGIR-96会议中,首次呈现了以跨语检索为研究主题的研讨会。而到了2000年,欧盟成立了"跨语言评估论坛"(Cross Language Evaluation Forum),每年按期进行跨语检索研讨会,并且推动跨语检索手艺评比。从此,跨语言信息检索酿成了信息检索范畴的一个炙手可热的研究课题,无数英雄豪杰参与其中。

闲话少说,我们该进入正题了:对跨语言信息检索问题该如何解决呢?接下来让我们揭开它的面纱。

在说跨语言信息检索之前,我们先回顾一下经典信息检索是怎样做的,如图1所示:首先,对用户的query,我们要对它进行特征提取,使之酿成一个特征向量,用于匹配文档。其次,对已经抓取的文档,我们也对它进行特征提取,并赐与这些特征一些权重,来暗示它们的重要水平。再次,我们对query的特征和文档的特征进行相似度计较,来判断哪些文档跟query相关,哪些不相关。信息检索最常常使用的相似度计较体例是求cosine,其它还可以从语义主题的角度去描述相似性,这个就不详细介绍了。有了相似度,我们可以按照相似度对文档进行排序,并将最相关的一些作为检索成果。对检索成果,用户可能会提供一些反馈,比如用户的点击。这些反馈可以奉告我们,在搜索成果里面哪些是用户需要的。这些信息可以用来权衡检索的效果,来对检索模型进一步提升。

在信息检索的流程中,我们可以看出跨语言检索的难点:当query的语言和文档的语言不应时,query和文档的特征空间是不合的。中文的特征调集(某个中文词语呈现与否)与英文的特征调集(某个英文词语呈现与否)的交集少少,这致使原有的相似度计较体例在跨语言时失效了。

分享到:

网友评论