LlamaIndex 中 Document 会被转成 Node,Node 中的文字会进行 Embedding,最终保留向量数据做后续的搜索处理。这里的关键步骤是 Document 转为 Node 的策略,LlamaIndex 内置了多个 Document Reader 和 Node Parser,每个 NodeParser 都有自己的策略,需在初始化时进行设置。
Document Reader
LlamaIndex 支持多种文件类型的 Reader,Reader 的目的是将非结构化数据转为文档(Document),本质来说就是转为文字,通过 Parser 进一步处理。
default_file_reader_cls: Dict[str, Type[BaseReader]] = {".hwp": HWPReader,".pdf": PDFReader,".docx": DocxReader,".pptx": PptxReader,".ppt": PptxReader,".pptm": Ppt