使用DeepSeek+本地知识库,尝试从0到1搭建高度定制化工作流(需求分析篇)

news/2025/2/13 9:35:41/

1.需求分析

  • 数据爬取 -> 数据清洗 -> 数据存储为文本文件
  • 文本切片 -> 文本嵌入模型 -> 向量数据库
  • 用户提问 -> 数据召回 -> 注入Prompt -> 生成回答
  • 生成文案 -> 生成配图 -> 发布到平台

2.RAG流程

RAG

3.目录结构(预设)

.
├── xiaohongshu_drafts/    # 存放每日文案
│   └── 小红书_推广文案_2025-02-11.txt
├── xiaohongshu_pics/      # 存放小红书配图
│   └── 小红书_配图_2025-02-11-1.png
│   └── ...
├── vector_store/          # 向量数据库索引
│   └── index.pkl          # 索引文件
│   └── index.faiss        # faiss向量数据库
├── data/                  # 存放爬取数据
└── file_handler.py        # 文件监控与处理
└── crawler/
│   └── ip_crawler.py      # 代理池建立
│   └── data_crawler.py    # 数据爬取
├── analysis/
│   └── data_analysis.py   # 数据分析
│   └── pic_analysis.py    # 配图生成
├── post/
│   └── xiaohongshu_post.py    # 小红书发布
│   └── ...                    # 后续更新其他平台发布
├── docs/
│   └── preset.txt         # 系统提示词
│   └── prompt.txt         # 用户提示词
├── main.py                # 主程序

4.功能模块

4.1.数据爬取

  • 爬取领域有关数据
  • 爬取代理建立代理池

4.2.数据分析

  • 数据清洗
  • 数据分析

4.3.数据监控与存储

  • 监控每日新生成的文案
  • 文案存储到知识库

4.4.文案生成

  • 通过调用deepseek api生成文案
  • 通过Janus进行配图生成

4.5.数据发布

  • 发布到小红书
  • 发布到其他平台

5.技术选型

所有功能模块均采用python实现,python的库比较完善。暂时没有开发Web界面的打算,如果后续需要抽取配置文件以及提供工作流统一模板,可能使用Flask或者Django框架。


http://www.ppmy.cn/news/1571673.html

相关文章

Netty的线程模型详解

引言 Netty 是一个高性能、异步事件驱动的网络应用框架,广泛应用于各种网络服务器和客户端的开发。它基于Java NIO(Non-blocking I/O)技术,能够高效处理大量并发连接和高吞吐量的网络通信。Netty 的核心之一就是它的线程模型&…

又要pde。。

五分文件 文件 1:The energy technique for the six-step BDF method.pdf 这篇论文研究了六阶 BDF 方法的稳定性分析,并将其应用于抛物线方程的数值解。主要内容包括: 引言:介绍了 BDF 方法的基本原理和六阶 BDF 方法的特性&…

如何解决ChatGPT API响应慢的问题

随着人工智能技术的快速发展,OpenAI的ChatGPT API已广泛应用于多种场景中,从客户服务到内容创作,甚至在教育、娱乐等领域也有着重要的应用。然而,很多开发者和使用者会遇到一个共同的问题——ChatGPT API响应速度较慢,…

Python 数据挖掘与机器学习

模块一:Python编程 Python编程入门 1、Python环境搭建 2、如何选择Python编辑器? 3、Python基础 4、常见的错误与程序调试 5、第三方模块的安装与使用 6、文件读写(I/O) Python进阶与提高 1、Numpy模块库 2、Pandas模块…

Python分享20个Excel自动化脚本

在数据处理和分析的过程中,Excel文件是我们日常工作中常见的格式。通过Python,我们可以实现对Excel文件的各种自动化操作,提高工作效率。 本文将分享20个实用的Excel自动化脚本,以帮助新手小白更轻松地掌握这些技能。 1. Excel单…

使用DeepSeek和Kimi快速自动生成PPT

目录 步骤1:在DeepSeek中生成要制作的PPT主要大纲内容。 (1)在DeepSeek网页端生成 (2)在本地部署DeepSeek后,使用chatBox生成PPT内容 步骤2:将DeepSeek成的PPT内容复制到Kimi中 步骤3&…

【2025-ICLR-未中】教授多模态大语言模型理解心电图图像

1.背景 这篇文章讨论了如何通过多模态大语言模型(MLLMs)来理解心电图(ECG)图像,特别是如何应对当前传统心电图分析方法中的挑战。文章提出了一个新的数据集和模型来提高心电图图像的解读能力,并展示了其在…

Mysql8.0使用PXC

1、什么是PXC PXC 是一套 MySQL 高可用集群解决方案,与传统的基于主从复制模式的集群架构相比 PXC 最突出特点就是解决了诟病已久的数据复制延迟问题,基本上可以达到实时同步。而且节点与节点之间,他们相互的关系是对等的。PXC 最关注的是数…