大模型初探

最近更新：2025-02-24 | 字数总计：167 | 阅读估时：1分钟 | 阅读量：次

大模型
1. 训练
  1. 预训练
2. 大模型的工作流程
agent
1. agent决策流程

大模型

训练

有监督学习，无监督学习，强化学习

预训练

监督微调来使其遵循人类的指示进行回答，而不是强行补全
基于人类反馈的强化学习优化回答

NLP的LLM+多模态

大模型的工作流程

分词化(西文一般分词，中文一般分字符)，生成token

agent

在LLM基础上加入记忆化，自主决策，自主强化学习，使用api等功能

agent决策流程

感知->规划->行动->观察

推理:基于已有知识进行推理
行动：使用工具(如搜索工具)收集海量资料
记忆:

2025-02-19 该篇文章被 HopoZ 打上标签: 大模型归为分类: daily