让搜索跨越语言的鸿沟谈跨语言信息检索技术

类别：移动互联网 | 发布时间:2012-6-18 16:53:51 | 网迅科技　 | 　阅读次数：　

那么，这道鸿沟就不能跨越了么？当然不是。事实上很多年前人们就已经开始考虑这个问题了。在学术界，对这个问题有个专有名词，叫跨语言信息检索（Cross-Language Information Retrieval）。早在上个世纪60年代，现代信息检索的奠基人，美国康奈尔大学的Salton教授发表了一篇《Automatic processing of foreign language documents》，首先打开了跨语言信息检索的大门。但是由于那个时代还没有互联网，研究也只能停留在简单实验阶段，甚至跨语言信息检索的概念还没有正式提出。到了上世纪90年代，美国国家标准技术研究所（National Institute of Standards and Technology）和美国情报局前沿研发活动中心（Advanced Research and Development Activity center of the U.S. Department of Defense）联合举办了信息检索领域最重要的会议——“TREC”会议（The Text REtrieval Conference）。到了1996年，在瑞士所举办的SIGIR-96会议中，首次出现了以跨语检索为研究主题的研讨会。而到了2000年，欧盟成立了“跨语言评估论坛”（Cross Language Evaluation Forum），每年定期举办跨语检索研讨会，并且推动跨语检索技术评比。从此，跨语言信息检索变成了信息检索领域的一个炙手可热的研究课题，无数英雄豪杰参与其中。

闲话少说，我们该进入正题了：对于跨语言信息检索问题该如何解决呢？接下来让我们揭开它的面纱。

在说跨语言信息检索之前，我们先回顾一下经典信息检索是怎样做的，如图1所示：首先，对于用户的query，我们要对它进行特征提取，使之变成一个特征向量，用于匹配文档。其次，对于已经抓取的文档，我们也对它进行特征提取，并给予这些特征一些权重，来表示它们的重要程度。再次，我们对query的特征和文档的特征进行相似度计算，来判断哪些文档跟query相关，哪些不相关。信息检索最常用的相似度计算方法是求cosine，其它还可以从语义主题的角度去描述相似性，这个就不详细介绍了。有了相似度，我们可以根据相似度对文档进行排序，并将最相关的一些作为检索结果。对于检索结果，用户可能会提供一些反馈，比如用户的点击。这些反馈可以告诉我们，在搜索结果里面哪些是用户需要的。这些信息可以用来衡量检索的效果，来对检索模型进一步提升。

在信息检索的流程中，我们可以看出跨语言检索的难点：当query的语言和文档的语言不同时，query和文档的特征空间是不同的。中文的特征集合（某个中文词语出现与否）与英文的特征集合（某个英文词语出现与否）的交集极少，这导致原有的相似度计算方式在跨语言时失效了。

那么这个问题怎么解决呢？

对于跨语言，我们自然而然想到的一种方式就是：翻译。我们可以通过翻译的方式把一个语言的词语映射到另一语言上，从而让query和文档处于同一个特征空间中，然后再利用单语下的检索模型进行检索和排序，这样就可以实现跨语言检索了。

Query翻译——把query翻译到文档的语言下，然后用这些翻译后的query在文档中进行检索。对于query中的词语，我们可以选择若干可能的翻译，用于扩大召回。这可以看作是一种query扩展。

文档翻译——把文档翻译到query的语言下，然后用原有query对翻译的文档进行检索。文档的翻译一般是在线下进行的。一篇源语言的文档通过自动的翻译（如机器翻译）变换成一篇目标语言下的文档。

这两种方式都是可以达到跨语言检索目的的，我们在实践中应该采用哪种方式呢？下面我们分析一下这两种方式的优劣：

从上述优劣比较中我们可以看出，文档翻译虽然可能提供更准确的翻译，但它需要更多的线下处理时间，需要更多的存储空间，实用性较差。鉴于此，无论是学术界还是工业界，一般采用的都是Query翻译的方式。

此文关键字：宝鸡网

在线项目合作

网迅科技结合创新的设计理念与专业技术，为客户制定从策划到创意再到技术的系列支持，帮助企业通过全新的媒体展示平台实现更多价值。如果您喜欢我们的项目，有兴趣合作？请您联系我们，以便我们能够为您提供可行的价值服务。

项目需求提交

宝鸡网迅科技信息技术有限公司

地址:陕西省宝鸡市渭滨区石鼓工业园区
热线: 13619177922
传真: 0917 - 3639162
Email: wangxuntech@163.com
业务QQ: 278260220 , 2446392356
ICP编号: 陕ICP备15006670号
 陕公网安备 61030202000249号

热线电话:

13619177922

关于我们

宝鸡网迅科技是集宝鸡网站建设、响应式网站开发、营销型网站建设、网站SEO优化、企业网络营销、企业office定制培训、大学精品资源课程建设、企业招投标PPT设计与制作等服务的信息化服务公司。网迅科技结合创新的设计理念与专业技术，为客户提供整合的网站开发及SEO优化方案，帮助企业通过全新的媒体展示平台，实现全网营销，获取更多价值...

@2015 wangxunkeji.net Design | 钛锻件 | 钛棒| 钛合金棒| TC4钛合金 | 钛靶| 钛合金锻件| 钛环

| yorimetal

让搜索跨越语言的鸿沟 谈跨语言信息检索技术

在线项目合作

宝鸡网迅科技信息技术有限公司

关于我们

让搜索跨越语言的鸿沟谈跨语言信息检索技术