小编前段时间做了表情类的评测,在这里和大家分享一下。
搜狗输入法在聊天过程中,可以发送表情来活跃气氛。这种表情可以通过搜索框进行搜索,也可以自动触发。针对表情,如何评测相关性以及和竞品的差距呢?
1、 了解和竞品的差距。
2、 发现问题。
3、 验证实验策略优劣。
由于表情是和搜索词息息相关的,且这种相关性通过机器很难判断出来,所以针对表情图的评测,业界一般采用的方法是人工评测。
由于评测涉及到搜狗输入法产品和3家竞品,且不能让评测人员知道具体评测的是哪家产品,所以最终采用的是盲测。
盲测开展的步骤如下:
主要涉及到两个方面:
1、 评测词来源
a) 采用7个维度(高频词、中频词、低频词、长尾词、超长尾词、新词、热词)随机选词。
b) 每天每个维度选取一个词,累积选取20天。
2、 评测图来源
a) 通过工具模拟人工操作,将竞品图和词关联并下载到本地。
将评测结果分类三大标准:
1、 强相关——三颗星。
2、 不相关——两颗星。
3、 无效图——一颗星。
不同的标准通过选星来操作。且为了定位具体原因,每颗星对应有详细可选菜单。
制定完标准后,需要给评测人员讲解标准,确保理解上没有问题,4个产品统一评测标准。
对于评测完的结果指标,主要有以下几个维度:
1、 关键词和图相关性。
2、 词类型和图相关性。
3、 前N张图相关性。
4、 不相关原因占比。
5、 问题图及具体原因比例。
6、 整体平均分(NDCG位置权重分,词平均分,图平均分)。
针对结果指标的图表重点从以下角度进行分析:
1、 图重复率。
2、 无结果、少结果率。
3、 不相关内部原因占比(原词召回,分词召回,近义词召回等)。
4、 低相关性词分析。
搜狗测试微信号:Qa_xiaoming
本文分享自微信公众号 - 搜狗测试(SogouQA)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。