有监督学习,无监督学习,强化学习
监督微调来使其遵循人类的指示进行回答,而不是强行补全基于人类反馈的强化学习优化回答
NLP的LLM+多模态
分词化(西文一般分词,中文一般分字符),生成token
在LLM基础上加入记忆化,自主决策,自主强化学习,使用api等功能
感知->规划->行动->观察