加载中
Gradio学习

HelloWorld # 导入 Gradio 库,它是一个用于创建 Web 界面的 Python 库 import gradio as gr # 定义一个问候函数,接受两个参数: # name: 用户输入的名字 # intensity: 感叹号的数量(从滑块...

大模型的训练流程

LLM的开发流程 大规模语言模型的开发流程大致可以分为四个阶段:预训练(基座模型)、有监督微调(SFT),奖励建模(对微调模型的评估模型RM模型),强化学习(RL模型)。每个阶段都针对特定的目标,...

强化学习整理

价值函数估计(Value Function Approximation) 状态和行动 我们用Q(S,A)来表示value action function,在有限个状态(state)和行动(action)的情况下,我们其实等价于在不断维护一个Q-table,不...

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部