会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 搜索引擎 > 一款用于改进图片搜索效果的标注游戏

一款用于改进图片搜索效果的标注游戏

时间:2012-06-02 18:38:02   作者:   来源:   点击:

(2)系统在挑选"判断者"的时候会选择不合的账号,并且对IP地址进行位置转换,选择一个距离"描述者"较远的"判断者";

(3)系统会记实"标注文字"的分派汗青记实,不会将同一个"标注文字"重复分派给同一个"判断者","描述者"和"判断者"之间的延续作弊本钱很高;

四、相关图片的选取体例

系统在挑选"相关图片"给"判断者"的时候,需要解决如下问题:

(1)不克不及呈现极端相似甚至重复的图片;

(2)图片之间要对标注文字有区分度和标注引导作用;

对第1点不难理解,因为呈现极端相似甚至重复图片的时候,那么"判断者"就没法选择图片。对第2点我们举个例子说明一下,例如下面这张图片(甲壳虫汽车):

图6:甲壳虫汽车

"描述者"在一起头的时候很可能仅仅标注"甲壳虫","甲壳虫"这个信息虽然没有错,可是在应用到图片检索的时候会存在歧义,因为"甲壳虫"可能对应"甲壳虫汽车"、"甲壳虫虫豸"和"甲壳虫乐队",为了引导"描述者"进一步标注出有区分度的标注信息,系统会按照"甲壳虫"这个关头字选取出如下三张图片:

图7、标注信息无区分度

这时候"判断者"按照"甲壳虫"无法判断"描述者"所描述的图片是哪一张,从而双方都获得不合系统嘉奖的积分,从而推动"描述者"进一步标注更加详细和有区分度的信息,例如"描述者"可能会进一步描述为:"甲壳虫汽车、红色、年夜众",这时候"判断者"就很容易判断出图片。

系统在选择展现图片的时候,会按照标注中的关头字从图片库中进行组合选取,例如标注文字中可以提取出关头字K1、K2K3,系统会对关头字进行组合(K1,K2)、(K2、K3)和(K1,K2,K3)等从图片库中提取相关的图片,这是一个按照关头字检索图片的过程。

选取出相关的候选图片后,我们会用"感知哈希函数"对图片进行相似度计较,我们选用基于DCT离散余弦变换的图像感知哈希,计较出两张图片的汉明距离,并且设置阈值为26(可以调剂),小于26的情况下我们认为两张图片极端相似,从而不选择这张图片,例如如下两张图片的计较成果:

图8、Hamming Distance=24.000000 ( <26, 相似 )

图9、Hamming Distance=40.000000 ( >26,不相似 )

通过汉明距离的计较,我们选用图9中的黄色甲壳虫,而不选用图8中第2张红色甲壳虫,因为这张图片和标注文字对应的图片极端相似。

五、系统的数据通信流

如图10,图片标注系统划分为三层布局:表示层、逻辑层和数据层,各层的功能如下:

(1)表示层:图片标注系统包含Web前端、Android前端和IOS前端等不合终端,用户可以通过这些终端参与图片标注;

(2)逻辑层:逻辑层是整个系统比较复杂的部分,包含数据预措置、核心调剂和标注办理三个不合模块,后面我们会详细介绍各个模块的功能;

(3)数据层:图片标注系统对图片URL调集等原始数据进行措置,最终产出带有用户标注信息的数据集,图中的"用户数据"就是用户信息,而"IP地区数据"是用于判断用户所在物理位置用的词典。

图10、图片标注系统布局

下面我们对系统最为复杂的"逻辑层"进行介绍,"逻辑层"包含"数据预措置"、"核心调剂"和"标注办理"三部分,功能如下:

(1)数据预措置:

A、为了改良一些图片所在办事器响应慢致使终端用户期待时间太长的问题,数据预措置模块会对原始图片URL进行探测,检测响应速度,筛选出响应时间慢的URL,并且对响应时间慢的图片进行后台抓取保存,当终端请求这些图片的时候会向后台请求,而不请求原URL地址;

分享到:

网友评论