

-
技术背景
不同于普通基于LLM的chatbot一般注重对话流畅等要素,大模型在电商业务中还对回答的专业性提出了更高的要求。模型需要能在电商领域下提供专业、准确、实时性好的答案,而这个能力是主要由通用语料训练的大模型的短板。
-
技术挑战
-
如何获取和构建针对专业领域的训练数据,使模型能够学习到通用数据难以覆盖的专业性知识。 -
专业性数据通常数量有限,如何高效利用专业性数据避免模型遗忘。 -
如何平衡专业性能力和通用能力,不同于面向特定领域的纯专业模型(如codeLLama),我们的目标是一个有很强专业领域能力的通用模型。
-
技术诉求
-
建设专业领域下数据收集,处理的pipline。 -
探索针对专业领域下能力建设的数据策略,训练策略。在不降低其他能力的同时,强化模型在特定领域下的专业性。
技术背景
-
技术挑战
-
模型需要学习大量的生活消费类常识。这些常识很难用类似三元组/描述语句的方式显式表达,当正常训练的模型能力不足以满足业务需求时,如何提高其能力。 -
模型如果具备基础的常识,能否利用常识进行正确推理。实际问题中,涉及的推理步骤可能不止一步。 -
模型需要自行判断是否需要进行推理,以及推理到何种程度结束,这是和有明确目标的数理推理不同的地方。
-
技术诉求
-
一套在预训练、sft等模型训练过程中提高模型常识掌握程度的方法。 -
在对齐过程中,使模型能够利用已掌握的知识,进行分析、理解、推理用户需求的方法。
▐ 大模型的长文本技术
-
技术背景
-
技术挑战
-
通过后期处理的长序列模型在效果上相比于原生长序列模型有所下降,如何缩小这个差距。 -
通过稀疏化等方式,可以在预训练阶段就使模型具备长序列处理能力,但可能影响模型效果。如何平衡序列长度,训练开销以及模型效果。
-
技术诉求
-
一套在已有预训练模型的基础上,扩展其序列长度的方法。 -
研究预训练中支持长序列的方法,平衡序列长度,训练开销以及模型效果。
-
技术背景
-
让模型对见过的知识记得更准 。 -
让模型知道自己“不知道”。
-
技术挑战
-
如何让模型记忆知识更加准确,比如,训练语料中存在3C数码产品的参数库,如何让减少模型在被询问相关问题时胡编乱造的概率。 -
如何让模型了解自己的知识边界,对于超出知识边界的问题,应给出明确的拒答类回复。
-
技术诉求
-
在预训练中,探索设计训练策略、数据策略使模型能更准确地记忆语料中存在的知识。 -
通过sft,RLHF等手段,使模型能对知识边界以外的问题给出明确的拒答类回复。
技术背景
大模型通过在预训练的过程中,积累丰富的世界知识,从而能够在复杂的通用交互环境中,拥有强大的推理和决策能力。然而,对于特定领域的任务,例如淘宝电商,需要依赖特定领域知识和决策逻辑,大模型仍然具有一定的局限性。
这些问题需要利用更加专业的工具或者领域知识才可以解决,所以,大模型需要具备调用各种专业化工具的能力,才能为现实的任务提供更加全面准确的支持。例如:通过调用“文生图”工具,大模型通过生成文生图的描述性语言,来扩展其能力边界。通过调用“淘宝商品搜索”工具,为大模型引入更加专业准确、且有时效性的商品知识。
工具学习Agent发展:
工具的类型:
-
技术挑战
-
技术诉求
-
优化大模型理解工具、选择工具和调用工具的能力,规划工具调用路径,用最高的调用效率解决问题。 -
研究如何使大模型能够接受并理解不同形式的工具输出,例如文档、表格、人类反馈、甚至图片等,并以此增强大模型的最终结果。

技术背景
-
由于数据库组织形式上的不同,在一些情况下,我们可能拿到解决问题所需要的电商信息的同时,也引入了大量无关的信息,导致模型需要从大量的信息中抽取和摘要出解决问题所需要的正确的信息。例如对于实时性问题“李佳琦今晚直播有口红吗”,我们可以通过检索,拿到李佳琦今晚直播的选品清单,但需要模型从清单中判断其中有没有口红。 -
业务的检索知识,也无法保证完全正确。模型需要能够依据检索文本信息和用户输入问题,分辨正确的和错误的知识,从而回答正确的答案。
技术挑战
-
如何从大量的检索信息中,推理摘要出与问题相关的信息,并利用这些信息,生成合理的回复。 -
如何使模型能够拒绝使用检索到的错误的信息。
-
技术诉求
-
检索增强的SFT训练方法,能够使模型同时拥有“检索信息摘要推理”和“检索信息拒绝”能力。
▐ 模糊意图下的工具调用
技术背景
-
技术挑战
-
有些时候往往用户也不清楚自己在购物时候的真实意图,如何让模型依据海量用户行为数据,学习电商领域下模糊意图的统计意义决策。
-
技术诉求
-
通过RLHF、CT等技术,建立模糊意图下的工具学习方法,让大模型理解真实用户模糊意图。
▐ 面向多目标专业电商RLHF
技术背景
-
训练奖励模型(reward model); -
使用奖励模型判断当前状态下模型输出结果的质量并依此更新模型参数。
-
“索尼的 70200 gm 二代怎么样”,非“3C数码”领域的同学对于这个产品可能都没有听说过,因此无法对两个不同的结果进行排序; -
“口红色号怎么选”,非“美妆”领域的同学也无法对不同的答案做出正确的判断。
-
技术挑战
-
电商垂类不同专业领域的百万级的奖励模型训练数据自动构建; -
电商域的RLHF结果需要面向更多的目标进行优化,例如:专业性、准确度、全面性、深入度。
-
技术诉求
-
数据层面:构建电商垂类专业领域奖励模型训练数据的方法论; -
模型层面:多目标优化的RLHF方法。
技术背景
-
技术挑战
-
通常的大模型应用中,系统给用户返回大模型中蕴含的知识作为对提问的回复,而在电商query理解中不仅需要借助这些知识生成与query相关的改写query,还需要改写query能够在搜索系统中带来增量商品; -
用户在电商搜索系统中输入的query是复杂多变的,如何通过用户输入的多个query,建立对用户需求的完整理解,也存在着挑战。
-
技术诉求
-
在电商场景中,建立在搜索系统中深入理解query、能够带来增量商品的query改写技术; -
通过对用户行为的建模,加深对用户需求的完整理解,建立基于query上下文的个性化query改写技术。
技术背景
在电商推荐场景下,我们希望借助阿里自研大模型,研发下一代基于大模型的用户兴趣推荐新范式,以满足用户多元的购物需求。
-
技术挑战
-
以合理的方式表达用户的电商购物需求,对齐自然语言和电商结构的语义空间; -
对主流的大模型有SFT和RLHF的能力,兼顾效果和性能; -
在传统推荐的结果之上做出增量,结果需要具备发现性和惊喜性,对于用户要有实际体感。
-
技术诉求
-
探索超大规模语言模型,负责大语言模型应用相关的数据建设、微调、对齐等模型优化工作; -
大语言模型应用在大淘宝推荐场景的落地,包括逻辑推理、智能内容理解、商品创意生成等; -
建立新一代认知推荐算法体系,结合交互式推荐的产品创新,提升用户体验和首页推荐的长期价值。
本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。