一、引言
最近发现AI生成思维导图的解决方案普遍存在两个断层:用户需手动复制模型输出的JSON数据到脑图软件,且缺乏实时可视化反馈。基于日常使用的BaiduNaotu框架(其轻量级架构与简洁的UI设计已满足基础需求),我决定构建端到端自动化系统,实现从自然语言输入到可视化导图的零切换体验。
整个开发借助Trae的帮助花了4个小时左右开发完成,本地测试了qwen2.5、llama3.1和deepseek-r1,发现前两个很难控制输出内容,deepseek-r1很轻易的控制输出内容,不想花太多时间去搞这个问题。
以下是本项目的一些成果展示:
-
Github地址:https://github.com/xiajingg/AI-naotu
-
项目图片:
-
操作视频:
ai思维导图
二、项目实施
1. 找到开源脑图项目提取以web服务部署
首先,我们从众多开源脑图项目中筛选出适合二次开发的项目。经过对比,我选择了具有丰富功能和良好扩展性的BaiduNaotu作为基础。找到BaiduNaotu的核心代码,我将其部署为Web服务,为后续开发提供基础。
2. 增加导出原文件和导出png的功能
考虑到用户在绘制完脑图后,主要需求是导出图片,我们在原有基础上增加了导出原文件和导出png的功能。用户只需一键操作,即可将脑图保存为所需的格式。
3. 页面增加思维导图显示和数据映射
思维导图的底层是一种JSON数据结构。为了实现页面与数据的交互,我在前端页面增加了思维导图显示和数据映射功能。先实现修改数据的方式,直观地看到思维导图的变化。
4. 页面增加模型对话,对接AI(ollama模型列表和模型对话接口)
为了实现自动化输出思维导图,我们在页面中增加了模型对话功能,对接了Ollama模型的列表和对话接口。用户可以通过与AI的对话,快速生成思维导图。
测试了ollama的qwen2.5,lamma3.1和deepseek。前两个很难
5. 调试prompt生产正确的数据
通过不断调试prompt,我们确保了AI能够根据用户的输入生产正确的数据结构,从而生成准确的思维导图数据。然后通过代码校验出json数据,提取到上面的文本框里。
三、开发过程中的心得体会
1. Deepseek的优势
在尝试了其他非推理模型后,我们发现Deepseek在按照指定格式输出方面表现优异。这为我们的项目提供了有力支持。
2. Trae与Cursor的比较
在使用Trae和Cursor等AI开发工具时,我们发现Trae可以自动全局阅读文件,调用终端执行命令,命令出错了能自动获取报错数据判断错误原因继续修改。 而Cursor只能阅读手动添加的文件。这一发现为我们在后续开发中提供了更多可能性。
四、总结
后续继续深入学习大模型的原理和能力,去开发更多,更深入的大模型应用。