【GPT入门】第21课 langchain核心组件

embedded/2025/3/21 3:30:42/

【GPT入门】第21课 langchain核心组件

  • 1. langchain 核心组件
  • 2.文档加载器 Document loader
  • 3.文档处理器
  • 3.1 langchain_text_splitters
  • 3.3 FAISS向量数据库和向量检索
      • 主要作用
      • 应用场景
  • 4. 对话历史管理

langchain__3">1. langchain 核心组件

模型 I/O 封装
LLMs:大语言模型
Chat Models:一般基于 LLMs,但按对话结构重新封装
PromptTemple:提示词模板
OutputParser:解析输出
数据连接封装
Document Loaders:各种格式文件的加载器
Document Transformers:对文档的常用操作,如:split, filter, translate, extract metadata, etc
Text Embedding Models:文本向量化表示,用于检索等操作(啥意思?别急,后面详细讲)
Verctorstores: (面向检索的)向量的存储
Retrievers: 向量的检索
对话历史管理
对话历史的存储、加载与剪裁

在这里插入图片描述

2.文档加载器 Document loader

from langchain_community.document_loaders import PyMuPDFLoaderloader = PyMuPDFLoader("llama2.pdf")
pages = loader.load_and_split()
print(pages[0].page_content)
print(len(pages))

3.文档处理器

langchain_text_splitters_32">3.1 langchain_text_splitters

from langchain_text_splitters import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=200,chunk_overlap=100,length_function=len,add_start_index=True
)
paragraphs = text_splitter.create_documents([pages[0].page_content])
for para in paragraphs:print(para)print('-'*20)

输出结果:

page_content='models outperform open-source chat models on most benchmarks we tested, and based on
our human evaluations for helpfulness and safety

http://www.ppmy.cn/embedded/174015.html

相关文章

华为IPD六个阶段细分:研发效率提升的6个关键步骤

如何在结构化流程中实现研发效能的飞跃? 华为凭借IPD(集成产品开发)体系,在全球化竞争中持续打造爆款产品,其核心在于将市场需求、技术开发与资源管理高度融合。本文深入解析IPD的六个阶段,并结合跨行业实…

【虚幻C++笔记】引擎源码下载及编译步骤

目录 1.在GitHub上访问虚幻引擎源代码2.安装Visual Studio 20223.解压完成以后,打开源码的根目录,选择Setup.bat运行4.选择GenerateProjectFiles.bat运行,生成uE5.sln文件,点击这个文件打开项目5.设置编译的选项,选择DevelopmentE…

【JVM】性能监控与调优概述篇

😀大家好,我是白晨,一个不是很能熬夜😫,但是也想日更的人✈。如果喜欢这篇文章,点个赞👍,关注一下👀白晨吧!你的支持就是我最大的动力!&#x1f4…

Markdig:强大的 .NET Markdown 解析器详解

在现代开发中,Markdown 已经成为了一种广泛使用的轻量级标记语言,特别是在文档、博客和内容管理系统中,Markdown 为开发者提供了快速、简洁的格式化文本方式。而在 .NET 生态中,Markdig 是一款非常强大的 Markdown 解析器&#xf…

Hunyuan3D,腾讯推出的3D资产系统

Hunyuan3D 2.0是腾讯推出的大规模3D 资产生成系统,专注于从文本和图像生成高分辦率的3D模型。系统采用两阶段生成流程:首先生成无纹理的几何模型,再合成高分辨率纹理贴图。包含两个核心组件:Hunyuan3D-DiT(几何生成模型…

【NLP】 3. Distributional Similarity in NLP(分布式相似性)

Distributional Similarity in NLP(分布式相似性) 分布式相似性(Distributional Similarity) 是自然语言处理(NLP)中的核心概念,基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单…

新安装的cursor安装不了插件

我安装的cursor版本0.47.5 直接说解决办法 找到安装路径cursor\resources\app下的product.json 修改https://marketplace.cursorapi.com为https://marketplace.visualstudio.com

CSS语言的编程范式

CSS语言的编程范式探讨 引言 CSS(层叠样式表,Cascading Style Sheets)是一种用于描述HTML(超文本标记语言)文档外观和格式的样式表语言。它主要用于网页设计,以实现布局、颜色、字体以及其他视觉效果。随…