`

IR领域标准

    博客分类:
  • ML
  • DM
 
阅读更多

信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。

IR的评价指标,通常分为三个方面:
(1)效率(Efficiency)—可以采用通常的评价方法:时间开销、空间开销、响应速度。
(2)效果(Effectiveness):返回的文档中有多少相关文档、所有相关文档中返回了多少、返回得靠不靠前。
(3)其他指标:覆盖率(Coverage)、访问量、数据更新速度。

如何评价不同检索系统的效果呢?一般是针对相同的文档集合,相同的查询主题集合,相同的评价指标,不同的检索系统进行比较。相关的评测系统有:
(1)The Cranfield Experiments, Cyril W. Cleverdon, 1957 –1968 (上百篇文档集合)
(2)SMART System,Gerald Salton, 1964-1988 (数千篇文档集合)
(3)TREC(Text Retrieval Conference), Donna Harman, 美国标准技术研究所, 1992 -(上百万篇文档),信息检索的“奥运会”

信息检索的评价指标可以分为两类:
(1)对单个查询进行评估的指标:对单个查询得到一个结果
(2)对多个查询进行评估的指标(通常用于对系统的评价):求平均

<wbr></wbr>

一、单个查询的评价指标
P&R

召回率(Recall)=检出的相关文档数/相关文档数,也称为查全率,R∈[0,1]
准确率(Precision)=检出的相关文档数/检出文档数,也称为查准率,P∈[0,1]
假设:文本集中所有文献已进行了检查

信息检索IR的评价指标综述

关于召回率的计算
(1)对于大规模语料集合,列举每个查询的所有相关文档是不可能的事情,因此,不可能准确地计算召回率
(2)缓冲池(Pooling)方法:对多个检索系统的Top N个结果组成的集合进行标注,标注出的相关文档集合作为整个相关文档集合。这种做法被验证是可行的,在TREC会议中被广泛采用。

虽然Precision和Recall都很重要,但是不同的应用、不用的用户可能会对两者的要求不一样。因此,实际应用中应该考虑这点。
(1)垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是尽量少将正常邮件判定成垃圾邮件。
(2)有些用户希望返回的结果全一点,他有时间挑选;有些用户希望返回结果准一点,他不需要结果很全就能完成任务。


F值和E值
(1)F值:召回率R和正确率P的调和平均值,if P=0 or R=0, then F=0, else 采用下式计算:
信息检索IR的评价指标综述
或者公式:
信息检索IR的评价指标综述
F值也被称为F1值(F1 measure),因为recall和precision的权重一样。
更通用的公式如下:
信息检索IR的评价指标综述
其中F2值(更重视召回率)和F0.5值(更重视准确率)也是非常常用的指标值。

(2)E值:召回率R和正确率P的加权平均值,b>1表示更重视P
信息检索IR的评价指标综述
或者公式:
信息检索IR的评价指标综述
F和E的关系如下:
信息检索IR的评价指标综述

引入序的作用

R-Precision:计算序列中前R个位置文献的准确率。R指与当前查询相关的文献总数。

P-R曲线
P-R曲线是正确率-召回率曲线(precision versus recall curve)。检索结果以排序方式排列,用户不可能马上看到全部文档,因此,在用户观察的过程中,正确率和召回率在不断变化(vary)。可以求出在召回率分别为:0%,10%,20%,30%,…, 90%,100%上对应的正确率,然后描出图像。
某个查询q的标准答案集合为:Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}
某个IR系统对q的检索结果如下:

信息检索IR的评价指标综述

绘成曲线图如下:

信息检索IR的评价指标综述

P-R曲线的插值问题,对于前面的例子,假设Rq={d3,d56,d129}
(1)3. d56 R=0.33,P=0.33;8. d129 R=0.66, P=0.25; 15. d3 R=1,P=0.2
(2)不存在10%, 20%,…,90%的召回率点,而只存在33.3%, 66.7%, 100%三个召回率点
(3)在这种情况下,需要利用存在的召回率点对不存在的召回率点进行插值(interpolate)
(4)对于t%,如果不存在该召回率点,则定义t%为从t%到(t+10)%中最大的正确率值。
(5)对于上例,0%,10%,20%,30%上正确率为0.33,40%~60%对应0.25,70%以上对应0.2

P-R曲线的优点:简单直观;既考虑了检索结果的覆盖度,又考虑了检索结果的排序情况
P-R曲线的缺点:单个查询的P-R曲线虽然直观,但是难以明确表示两个查询的检索结果的优劣。

P-R曲线如何可以转化为单一指标呢?一般有两种方法:
(1)Break Point:P-R曲线上P=R的那个点。这样可以直接进行单值比较
(2)11点平均正确率(11 point average precision):在召回率分别为0,0.1,0.2,…,1.0的十一个点上的正确率求平均,等价于插值的AP。


AP
平均正确率(Average Precision, AP):对不同召回率点上的正确率进行平均。
(1)未插值的AP: 某个查询Q共有6个相关结果,某系统排序返回了5篇相关文档,其位置分别是第1,第2,第5,第10,第20位,则AP=(1/1+2/2+3/5+4/10+5/20+0)/6
(2)插值的AP:在召回率分别为0,0.1,0.2,…,1.0的十一个点上的正确率求平均,等价于11点平均
(3)只对返回的相关文档进行计算的AP, AP=(1/1+2/2+3/5+4/10+5/20)/5,倾向那些快速返回结果的系统,没有考虑召回率。

不考虑召回率情况下,单个查询评价指标还有:
(1)Precision@N:在第N个位置上的正确率,对于搜索引擎,考虑到大部分作者只关注前一、两页的结果,P@10,P@20对大规模搜索引擎非常有效
(2)NDCG:后面详细介绍。
(3)Bpref:Binary preference,2005年首次引入到TREC的Terabyte任务中。


NDCG
每个文档不仅仅只有相关和不相关两种情况,而是有相关度级别,比如0,1,2,3。我们可以假设,对于返回结果:相关度级别越高的结果越多越好;相关度级别越高的结果越靠前越好。
NDCG(Normalized Discounted Cumulative Gain):计算相对复杂。对于排在结位置n处的NDCG的计算公式如下图所示:

信息检索IR的评价指标综述

在MAP中,四个文档和query要么相关,要么不相关,也就是相关度非0即1。NDCG中改进了下,相关度分成从0到r的r+1的等级(r可设定)。当取r=5时,等级设定如下图所示:(应该还有r=1那一级,原文档有误,不过这里不影响理解。当然注意Value这一项,咱们也可以直接定义分值,如0-3分值。求了2方实际上把Value的差异变大了,便于对比评测)

信息检索IR的评价指标综述

例如现在有一个query={abc},返回下图左列的Ranked List(URL),当假设用户的选择与排序结果无关(即每一级都等概率被选中),则生成的累计增益值(从1到n的所有的位置上的贡献值都被加起来作为最终的评价结果,这样,一个一定长度的文档序列被转换成了一个相关分值的序列)。如下图最右列所示:

信息检索IR的评价指标综述

考虑到一般情况下用户会优先点选排在前面的搜索结果,所以应该引入一个折算因子(discounting factor): log(2)/log(1+rank)。(也就是1/log2(1+rank))。这时将获得DCG值(Discounted Cumulative Gain)如下如所示:

信息检索IR的评价指标综述

最后,为了使不同等级上的搜索结果的得分值容易比较,需要将DCG值归一化的到NDCG值。操作如下图所示,首先计算理想返回结果List的DCG值:

信息检索IR的评价指标综述

然后用DCG/MaxDCG就得到NDCG值,如下图所示:

信息检索IR的评价指标综述

画出图如下:

信息检索IR的评价指标综述

NDCG优点:图形直观,易解释;支持非二值的相关度定义,比P-R曲线更精确;能够反映用户的行为特征(如:用户的持续性persistence)
NDCG缺点:相关度的定义难以一致;需要参数设定。


Bpref
Bpref(Binary preference),2005年首次引入到TREC的Terabyte任务中。只考虑对返回结果列表中的经过判断后的文档进行评价。在相关性判断完整的情况下,bpref具有与MAP相一致的评价结果。在测试集相关性判断不完全的情况下,bpref依然具有很好的应用(比MAP更好)。这个评价指标主要关心不相关文档在相关文档之前出现的次数。具体公式为:
信息检索IR的评价指标综述
其中,对每个Topic,已判定结果中有R个相关结果。r 是相关文档,n是Top R篇不相关文档集合的子集。(n ranked higher than r是指当前相关结果项之前有n个不相关的结果)

下面举个例子来说明bpref的性能,假设检索结果集S为:
S ={D1 ,D2 •,D3 * ,D4 * ,D5 •,D6 ,D7 •,D8 ,D9 ,D10 }
其中D2、D5 和D7是相关文档,D3 和D4为未经判断的文档。
对这个例子来说,R=3; bpref= 1/3 [(1 -1/3) + (1 -1/3) + (1 -2/3)]。


二、多个查询的评价指标
多个查询的评价指标,一般就是对单个查询的评价进行求平均。平均的求法一般有两种:
(1)宏平均(Macro Average):对每个查询求出某个指标,然后对这些指标进行算术平均
(2)微平均(Micro Average):将所有查询视为一个查询,将各种情况的文档总数求和,然后进行指标的计算
例如:Micro Precision=(对所有查询检出的相关文档总数)/(对所有查询检出的文档总数)
宏平均对所有查询一视同仁,微平均受返回相关文档数目比较大的查询影响。
宏平均和微平均的例子:
两个查询q1、q2的标准答案数目分别为100个和50个,某系统对q1检索出80个结果,其中正确数目为40,系统对q2检索出30个结果,其中正确数目为24,则:
P1=40/80=0.5, R1=40/100=0.4
P2=24/30=0.8, R2=24/50=0.48
MacroP=(P1+P2)/2=0.65
MacroR=(R1+R2)/2=0.44
MicroP=(40+24)/(80+30)=0.58
MicroR=(40+24)/(100+50)=0.43

<wbr></wbr>

MAP
MAP(MeanAP:Mean Average Precision):对所有查询的AP求宏平均。具体而言,单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。
多个查询下的查准率/查全率曲线,可通过计算其平均查准率得到,公式如下(Nq为查询的数量) :
信息检索IR的评价指标综述
P(r) 是指查全率为r时的平均查准率, Pi(r)指查全率为r时的第i个查询的查准率 .

例如:假设有两个主题,主题1有4个相关网页,主题2有5个相关网页。某系统对于主题1检索出4个相关网页,其rank分别为1, 2, 4, 7;对于主题2检索出3个相关网页,其rank分别为1,3,5。对于主题1,平均准确率为(1/1+2/2+3/4+4/7)/4=0.83。对于主题2,平均准确率为(1/1+2/3+3/5+0+0)/5=0.45。则MAP= (0.83+0.45)/2=0.64。”

MRR
MRR(Mean Reciprocal Rank) :对于某些IR系统(如问答系统或主页发现系统),只关心第一个标准答案返回的位置(Rank),越前越好,这个位置的倒数称为RR,对问题集合求平均,则得到MRR。(把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的问题取平均)
例子:两个问题,系统对第一个问题返回的标准答案的Rank是2,对第二个问题返回的标准答案的Rank是4,则系统的MRR为(1/2+1/4)/2=3/8
再举个例子:有3个query如下图所示:(黑体为返回结果中最匹配的一项)
信息检索IR的评价指标综述
可计算这个系统的MRR值为:(1/3 + 1/2 + 1)/3 = 11/18=0.61。

GMAP
GMAP(Geometric MAP):TREC2004 Robust 任务引进。
先看一个例子:从MAP(宏平均)来看,系统A好于系统B,但是从每个查询来看,3个查询中有2个Topic B比A有提高,其中一个提高的幅度达到300%。

信息检索IR的评价指标综述

因此,我们计算几何平均值:
信息检索IR的评价指标综述
例子中:GMAPa=0.056,GMAPb=0.086。GMAPa<GMAPb
GMAP和MAP各有利弊,可以配合使用,如果存在难Topic时,GMAP更能体现细微差别。

<wbr></wbr>

三、面向用户的评价指标
前面的指标都没有考虑用户因素。而相关不相关由用户判定。假定用户已知的相关文档集合为U,检索结果和U的交集为Ru,则可以定义覆盖率(Coverage) C=|Ru|/|U|,表示系统找到的用户已知的相关文档比例。假定检索结果中返回一些用户以前未知的相关文档Rk,则可以定义出新颖率(Novelty Ratio)N=|Rk|/(|Ru|+|Rk|),表示系统返回的新相关文档的比例。
相对查全率:检索系统检索出的相关文档数量与用户期望得到的相关文档的数量的比例。
查全努力:用户期望得到的相关文档与为了得到这些相关文档而在检索结果中审查文档数量的比率。

信息检索IR的评价指标综述


图示覆盖率和新颖率


四、评价指标总结
最基本的评价指标:召回率、准确率
不足:
1、一些评价指标,如R-Precision,MAP,P@10等,都只考虑经过Pooling技术之后判断的相关文档的排序。
2、对判断不相关文档与未经判断的文档的差别并没有考虑。
3、测试集越来越大,由于相关性判断还基本上是人工判断,因此建立完整的相关性判断变得越来越难。


参考资料:
http://wenku.baidu.com/view/1c6fb7d7b9f3f90f76c61b74<wbr>.html</wbr>
http://en.wikipedia.org/wiki/Precision_and_recall
http://www.cnblogs.com/eyeszjwang/articles/2368087.html

转载请注明出处:互联网旁观者~黄言之http://blog.sina.com.cn/netreview/

 

分享到:
评论

相关推荐

    ITS 技术标准化发展动态

    ◦ CALM应用领域中,正在制定通信协议堆栈1、2层的RF-DSRC, IR-DSRC, 2GC, 3GC(Cellular)标准;2层以上则为了应用TCP/IP,制定CALM-Networking Protocol。 ◦ 另外,还需要制定连接路旁信息网络和交通信息中心的...

    ABB-IRB-120工业机器人.pdf

    采用白色涂层的洁净室 ISO 5 级机型适用于高标准洁净生产环境,开辟了全新应用领域。 这款 6 轴机器人最高荷重 3kg(手腕(五轴)垂直向下时为 4kg),工作范围达 580mm,能通过柔性(非刚性) 自动化解决方案执行一...

    非最小标量多重峰,超对称破坏和对偶

    我们通过使用超空间更高的导数项研究具有非最小多重峰(例如复数线性或CNM多重峰)的理论中的超对称破坏,这将在标准超对称真空之上产生新的超对称破坏真空解决方案。 我们说明了复杂线性和CNM多重峰内其他大量扇区...

    java笔试题算法-TagRec:迈向标准化标签推荐基准测试框架

    是由社会计算研究领域和 TagRec 获得最佳海报奖@Hypertext 2014 (HT'14) 会议: TagRec 也是 Layers 项目以及 AFEL 项目中推荐系统的主要部分 TagRec 是多个推荐系统框架或课程列表的一部分,例如 、 和 描述 (请)...

    软引导和超对称

    软引导程序是一种通过低能S矩阵的一致性来约束无质量粒子的有效场论(EFT)领域的壳上方法。 给定壳上数据的假设(粒子光谱,线性对称和低能定理),软引导程序是一种有效的算法,可用于确定EFT与这些属性的可能一致...

    数字图书馆中基于概念的智能信息检索-研究论文

    数字图书馆是一种信息检索(IR)系统。 现有的信息检索方法通常在关键词搜索方面存在问题。 我们提出了一种使用基于概念的方法(本体论)和元数据案例库来解决该问题的模型。 该模型包括在用户查询中标识领域概念并...

    大学文献检索资料 DOC

    2:按文献的出版形式划分:科技图书、 科技期刊、 科技报告、会议文献、 专利文献、 学位论文、标准文献、 政府出版物、 产品样本、技术档案。 3:按文献被加工处理的深度划分:零次文献、一次文献、二次文献、三次...

    基于PIC单片机的逆变电路设计初探

    摘要:针对现代电源变频调幅的要求,提出了利用PIC16F873产生SPWM波控制IR2136触发IGBT产生PWM波作用于逆变器产生标准的正弦波形,从而实现变频调幅。同时利用AD模块对逆变桥输出进行采样并进行滤波处理,实现对系统...

    单片机与DSP中的基于PIC单片机的逆变电路设计初探

    摘要:针对现代电源变频调幅的要求,提出了利用PIC16F873产生SPWM波控制IR2136触发IGBT产生PWM波作用于逆变器产生标准的正弦波形,从而实现变频调幅。同时利用AD模块对逆变桥输出进行采样并进行滤波处理,实现对系统...

    磁轴承三态脉宽调制开关功放设计研究

    摘要:根据三态开关功放理论,利用SG3524,IR2110等集成芯片设计了磁轴承三态PWM开关功率放大器。理论分析和试验表明,该功率放大器具有电流纹波小、电磁干扰小、效率高等优点。  1 引言  磁轴承是利用电磁铁产生可...

    通信与网络中的IEEE802.11b无线局域网接入点的设计

    随着计算机技术和网络技术的蓬勃发展和电信市场的开放,目前各种高速率的宽带接入方式不断涌现,特别是无线网络的应用领域正在不断地增长。而基于IEEE 802.11无线以太网标准的宽带无线接入系统则凭借其高达11M~...

    机器人对话常用语模板-聊天机器人的技术原理和未来的发展.pdf

    问答系统本质上是⼀个信息检索(IR)系统,只是它从⽂本中获取更多信息,返回更加精准的答案。 传统的问答系统将按照以下的流程⼯作:(1)问题解析(2)信息检索(3)答案抽取。 典型的就是聊天机器⼈,⼀种⾃动的问答系统...

    bat-framework:比较实体链接系统的框架

    作为对从事实体注释领域的科学界的贡献,我们开发了一个框架来比较文本注释器:给定文本文档的系统旨在查找文本所涉及的实体,这些系统被标识为Wikipedia页面。 BAT框架带有一个正式的框架,该框架定义了一系列问题...

    英飞凌无人机XMC4500多机演示板 - 全系统解决方案-电路方案

    针对无人机这一新兴领域,英飞凌可提供以下优势: 减少开发工作,降低成本。提供对与系统连接的组件的认证,并且保证安全并保护产品可信度;并且可以植入智能安全芯片,防止被黑客侵入;通过雷达传感器可以实现避撞...

    【开源】ARM Cortex-M3网络收音机设计(原理图、PCB源文件、源码)-电路方案

    [摘要] TI Sitara系列AM5718/5728是采用ARM+DSP多核异构架构,可以实现图像采集、算法处理、显示、控制等功能,具有实时控制、低功耗、多标准工业控制网络互联、工业人机界面的优化、2D/3D图形处理、1080 HD的高清...

Global site tag (gtag.js) - Google Analytics