data centric techs for large language model
现在LLM某种程度上作为一种数据容器,data-centric AI 变成围绕这个数据容器的工作:
- 1)增强数据容器LLM自身的理解、生成、推理能力,以生产下游任务的高质量的数据以产生更好的模型
- 2)通过探索in-context的shot数据优化/RAG方案,以让LLM给出更好的结果。
- 3)探索RLHF的数据采样方案,使得让LLM给出更好的结果。
- 4)探索AIF,使得让LLM给出更好的结果。
- 5)探索基于数据的prompt优化方案,使得让LLM给出更好的结果。
- 6)基于LLM的数据质量自动评估。
- 7)交互式的基于LLM的数据探索