会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 搜索引擎 > 一款用于改进图片搜索效果的标注游戏

一款用于改进图片搜索效果的标注游戏

时间:2012-06-02 18:38:02   作者:   来源:   点击:

【摘要】:

图片搜索由于在搜索目标上的特殊性,往往依赖于图片所在网页的文原本判断图片的内容(我们成为图片周边文本)。而周边文本往往不克不及很好的表达图片的内容,并且一张图片往往在多个网页中被引用,图片周边文本也不太一致,甚至于很多图片并没有周边文本,因此给图片搜索算法提出了更高挑战。

通过"众包"的体例(百度众测平台)为图片进行信息标注,从而提高搜索引擎的准确性和召回率往往是一个比较有效的体例,并且标注的数据可以作为图片机械学习的样本数据,对提高图片机械学习的准确率也有很年夜的效果;可是在图片标注的过程中也有很多问题需要解决,例如:

(1)用户作弊问题:在"众包"平台中,有因为兴趣欢愉喜爱参与标注的,也有因为平台鼓励机制而参与标注的,因此会存在部分用户为了获得嘉奖而进行作弊的行为,这些作弊行为会给标注数据的准确率带来很年夜的影响;

(2)如何对用户的标注进行引导,使得标注的信息更加准确,让用户的标注本钱更低,标注过程更加有趣味性,从而提高标注的效率;

本文所提到的就是一种带有防作弊功能的,能够对用户的标注信息进行细分引导,从而使得标注数据越来越切确的图片标注体例。

在本文所描述的图片标注游戏中,用户被区分为两种类型:

(1)描述者:对系统展现的一张图片用一段文字或几组关头字进行描述,表达出图片的内容和特点;

(2)判断者:系统向其展现多张图片(一般情况下为4张)以及一段描述文字,这段描述文字所对应的图片也包含在所展现的图片傍边,判断者按照"描述文字"挑选出对应的图片;

用户可以随时在"描述者"和"判断者"之间切换身份,可是不会呈现用户自己判断自己所描述的图片的情况。系统将"描述者"描述的图片分派给"判断者"的时候有一套算法确保不会分派给"原描述者",并且也不会分派给距离"描述者"较近或可能认识的"判断者"。我们在文章后面会描述这个分派算法。

一、"描述者"描述图片的过程

图1: 图片标注系统

如图1,当用户点击"图片标注系统"的"描述图片"按钮之后,系统会从图片数据集(图片URL调集)中随机挑选出100个图片URL,然后逐个给用户展示图片(如图2和3)。

图2:描述图片(甲壳虫虫豸)

图3:描述图片(甲壳虫汽车)

图4:描述图片(甲壳虫乐队)

2、"判断者"判断图片的过程

图5:判断图片

当用户选择"判断图片"的时候,系统也会选择随机选择100个已经有标注(就是有用户描述)的图片,每次展示一段标注文字以及相应的4张图片(可以是更多张,系统可以配置)。如图5,最上面蓝色框里面是已有用户标注"甲壳虫汽车",中间是系统挑选出来的4张图片,挑选的算法后面会有详细介绍。挑选的图片傍边包含用户标注对应的图片,例如图5中就是对应中间的红色甲壳虫汽车。

当用户判断出图片之后,只要用鼠标点击相应的图片就会在图片周边有红色的方框将图片圈住,用户点击继续判断便可提交判断成果并进入到下一个标注文字的判断。

三、"判断者"的选取体例

为了避免作弊,系统有一套"判断者"选取体例,主要避免如下的作弊行为:

(1)"描述者"判断自己所标注的图片;

(2)"描述者"和"判断者"之间协同作弊;

系统的措置体例如下:

(1)"描述者"在标注图片的时候,系统会记实描述者的账号和IP地址;

分享到:

网友评论