使用DeepSeek+本地知识库，尝试从0到1搭建高度定制化工作流（需求分析篇）

news/2025/2/13 9:35:41/

1.需求分析

数据爬取 -> 数据清洗 -> 数据存储为文本文件
文本切片 -> 文本嵌入模型 -> 向量数据库
用户提问 -> 数据召回 -> 注入Prompt -> 生成回答
生成文案 -> 生成配图 -> 发布到平台

2.RAG流程

RAG

3.目录结构(预设)

.
├── xiaohongshu_drafts/    # 存放每日文案
│   └── 小红书_推广文案_2025-02-11.txt
├── xiaohongshu_pics/      # 存放小红书配图
│   └── 小红书_配图_2025-02-11-1.png
│   └── ...
├── vector_store/          # 向量数据库索引
│   └── index.pkl          # 索引文件
│   └── index.faiss        # faiss向量数据库
├── data/                  # 存放爬取数据
└── file_handler.py        # 文件监控与处理
└── crawler/
│   └── ip_crawler.py      # 代理池建立
│   └── data_crawler.py    # 数据爬取
├── analysis/
│   └── data_analysis.py   # 数据分析
│   └── pic_analysis.py    # 配图生成
├── post/
│   └── xiaohongshu_post.py    # 小红书发布
│   └── ...                    # 后续更新其他平台发布
├── docs/
│   └── preset.txt         # 系统提示词
│   └── prompt.txt         # 用户提示词
├── main.py                # 主程序

4.功能模块

4.1.数据爬取

爬取领域有关数据
爬取代理建立代理池

4.2.数据分析

数据清洗
数据分析

4.3.数据监控与存储

监控每日新生成的文案
文案存储到知识库

4.4.文案生成

通过调用deepseek api生成文案
通过Janus进行配图生成

4.5.数据发布

发布到小红书
发布到其他平台

5.技术选型

所有功能模块均采用python实现，python的库比较完善。暂时没有开发Web界面的打算，如果后续需要抽取配置文件以及提供工作流统一模板，可能使用Flask或者Django框架。

使用DeepSeek+本地知识库，尝试从0到1搭建高度定制化工作流（需求分析篇）

1.需求分析

2.RAG流程

3.目录结构(预设)

4.功能模块

4.1.数据爬取

4.2.数据分析

4.3.数据监控与存储

4.4.文案生成

4.5.数据发布

5.技术选型

相关文章

Netty的线程模型详解

又要pde。。

如何解决ChatGPT API响应慢的问题

Python 数据挖掘与机器学习

Python分享20个Excel自动化脚本

使用DeepSeek和Kimi快速自动生成PPT

【2025-ICLR-未中】教授多模态大语言模型理解心电图图像

Mysql8.0使用PXC