1.需求分析
- 数据爬取 -> 数据清洗 -> 数据存储为文本文件
- 文本切片 -> 文本嵌入模型 -> 向量数据库
- 用户提问 -> 数据召回 -> 注入Prompt -> 生成回答
- 生成文案 -> 生成配图 -> 发布到平台
2.RAG流程
3.目录结构(预设)
.
├── xiaohongshu_drafts/ # 存放每日文案
│ └── 小红书_推广文案_2025-02-11.txt
├── xiaohongshu_pics/ # 存放小红书配图
│ └── 小红书_配图_2025-02-11-1.png
│ └── ...
├── vector_store/ # 向量数据库索引
│ └── index.pkl # 索引文件
│ └── index.faiss # faiss向量数据库
├── data/ # 存放爬取数据
└── file_handler.py # 文件监控与处理
└── crawler/
│ └── ip_crawler.py # 代理池建立
│ └── data_crawler.py # 数据爬取
├── analysis/
│ └── data_analysis.py # 数据分析
│ └── pic_analysis.py # 配图生成
├── post/
│ └── xiaohongshu_post.py # 小红书发布
│ └── ... # 后续更新其他平台发布
├── docs/
│ └── preset.txt # 系统提示词
│ └── prompt.txt # 用户提示词
├── main.py # 主程序
4.功能模块
4.1.数据爬取
- 爬取领域有关数据
- 爬取代理建立代理池
4.2.数据分析
- 数据清洗
- 数据分析
4.3.数据监控与存储
- 监控每日新生成的文案
- 文案存储到知识库
4.4.文案生成
- 通过调用deepseek api生成文案
- 通过Janus进行配图生成
4.5.数据发布
- 发布到小红书
- 发布到其他平台
5.技术选型
所有功能模块均采用python实现,python的库比较完善。暂时没有开发Web界面的打算,如果后续需要抽取配置文件以及提供工作流统一模板,可能使用Flask或者Django框架。