表情盲测实践

原创
2020/03/31 10:51
阅读数 116

小编前段时间做了表情类的评测,在这里和大家分享一下。

 

背景介绍

搜狗输入法在聊天过程中,可以发送表情来活跃气氛。这种表情可以通过搜索框进行搜索,也可以自动触发。针对表情,如何评测相关性以及和竞品的差距呢?

 ‍


 

评测目的

1、    了解和竞品的差距。

2、    发现问题。

3、    验证实验策略优劣。‍


评测方式选择

由于表情是和搜索词息息相关的,且这种相关性通过机器很难判断出来,所以针对表情图的评测,业界一般采用的方法是人工评测。

由于评测涉及到搜狗输入法产品和3家竞品,且不能让评测人员知道具体评测的是哪家产品,所以最终采用的是盲测。‍


 

盲测开展的步骤如下:

 

 

评测资源支持:

主要涉及到两个方面:

1、    评测词来源

   a) 采用7个维度(高频词、中频词、低频词、长尾词、超长尾词、新词、热词)随机选词。

   b) 每天每个维度选取一个词,累积选取20天。

2、    评测图来源

   a) 通过工具模拟人工操作,将竞品图和词关联并下载到本地。‍


评测方式:

采用web页,将四款产品随机展示。‍


评测标准:

将评测结果分类三大标准:

1、    强相关——三颗星。

2、    不相关——两颗星。

3、    无效图——一颗星。

不同的标准通过选星来操作。且为了定位具体原因,每颗星对应有详细可选菜单。

制定完标准后,需要给评测人员讲解标准,确保理解上没有问题,4个产品统一评测标准。‍


结果指标

对于评测完的结果指标,主要有以下几个维度:

1、    关键词和图相关性。

2、    词类型和图相关性。

3、    前N张图相关性。

4、    不相关原因占比。

5、    问题图及具体原因比例。

6、   整体平均分(NDCG位置权重分,词平均分,图平均分)。‍


结果分析:

针对结果指标的图表重点从以下角度进行分析:

1、    图重复率。

2、    无结果、少结果率。

3、    不相关内部原因占比(原词召回,分词召回,近义词召回等)。

4、    低相关性词分析。‍



Qa_xiaoming


本文分享自微信公众号 - 搜狗测试(SogouQA)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部