https://github.com/math-eval/TAL-SCQ5K
https://huggingface.co/datasets/math-eval/TAL-SCQ5K
数据集介绍
TAL-SCQ5K-EN是由好未来创建的高质量英语数学竞赛数据集,包含5K道英语数学竞赛题目(3K道用于训练,2K道用于测试)。这些题目采用多项选择题形式,涵盖了小学数学领域的各个主题。
此外,为了方便CoT训练,提供了详细的解题步骤,并且所有题目中的数学表达式均以标准文本模式的Latex格式呈现。
数据实例
数据字段
"dataset_name": 该数据集名称的标识,用于确定TAL-SCQ5K-EN/TAL-SCQ5K-CN的来源数据集名称,仅供TAL教育集团内部使用,请忽略。
"dataset_version": 该数据集版本的标识,用于确定TAL-SCQ5K-EN/TAL-SCQ5K-CN的来源数据集版本,仅供TAL教育集团内部使用,请忽略。
"qid": 该问题在来源数据集中的本地ID的标识,用于确定TAL-SCQ5K-EN/TAL-SCQ5K-CN的来源问题,仅供TAL教育集团内部使用,请忽略。
"queId": 该问题的全局ID的标识,仅供TAL教育集团内部使用,请忽略。
"competition_source_list": 该问题所出现的数学竞赛的标识,如果已记录。
"difficulty": 问题的难度级别,取值范围为0到4。
"qtype": 问题类型,取值为“single_choice”,表示该数据集中的所有问题都是多项选择题,且有唯一的正确答案。
"problem": 描述数学竞赛问题的字符串。
"answer_option_list": 可供选择的答案选项。
"knowledge_point_routes": 从粗粒度到细粒度的知识点链条。
"answer_analysis": 问题的逐步答案分析,有助于CoT训练。
"answer_value": 正确答案选项的值。
如何使用
以上每个数据集都位于一个单独的子目录中。要加载单个子集,请使用load_dataset()函数的data_dir参数,如下所示:
本文转载自社区供稿内容,不代表官方立场。了解更多,请关注微信公众号"智慧教育AI开放创新平台":
https://hf.link/tougao
本文分享自微信公众号 - Hugging Face(gh_504339124f0f)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。