Chat - 悟空项目介绍
一、项目背景
当前大模型市场竞争激烈,通用大模型众多,但针对特定领域、具有特色风格的垂直领域微调模型仍有较大发展空间。以《西游记》这一高人气影视IP为依托进行微调,能在文化娱乐相关细分市场吸引用户关注,开辟独特市场份额。
二、应用价值
- 增强互动性
- 用户可像与悟空对话一样提问,模型以悟空口吻回答,涵盖剧情探讨、情感倾诉、古代文化疑问等,如关于悟空日常活动、喜好等问题的回答,增强趣味性和互动性。
- 文化传承与交流
- 传承和弘扬《西游记》代表的优秀影视文化,通过互动让更多人了解古代文化元素(如礼仪、诗词等在剧中体现),激发大众对传统文化兴趣,丰富文化娱乐方式,增进文化传播与交流。
- 助力社会竞争力提升
- 提升教学质量:帮助学生训练提问能力,促进深度学习和思维训练,为教师提供教学辅助工具,推动教学方法创新改革。
- 提升工作效率:帮助用户提出高效、针对性问题,提升问题解决效率和质量。
- 助力社会公平良性发展:提高人们学习/工作效率,缩小资源差距,为经济注入新发展活力。
三、技术方案
(一)数据方案
收集《西游记》全剧中悟空的所有台词对白,按场景(拜师学艺、大闹天宫、西天取经等)、情感(喜悦、悲伤、愤怒等)、话题(诗词、闲聊等)等维度分类标注,构建结构化数据集,便于模型学习不同情境下语言特点。
下面是AIpaca格式的部分数据展示:
数据可以自行到网上搜索txt文件数据,然后到讯飞mass平台,使用问答对抽取功能即可抽取问答对,然后可以拿抽取后的数据进行初步的训练。
训练和发布应用在上一篇有讲到,可以移步上一篇
(二)微调方案
使用Qwen_v2.5_7b_Instruct作为通用大模型,用悟空数据集进行训练。
-
参数设置
- 学习率:0.0001
- 训练次数:3次
- lora随机丢弃:0.1
- LORA缩放系数:16
微调方案有很多,可以自行探索。
四、作品链接
作品链接:星火大模型精调平台
https://training.xfyun.cn/experience?modelType=text2text&type=mine&modelServiceId=2435558010578945
示例: