文章目录
- 1 基础函数
- 1.1 模型bert-base-chinese
- 1.2 嵌入SemanticEmbedding
- 1.3 向量库FaissIdx
- 1.4 分词器工具
- 1.4.1 TokenTextSplitter
- 1.4.2 RecursiveCharacterTextSplitter
- 2 FaissRetriever实现
- 2.1 FaissRetriever
- 2.2 应用检索
- 3 附录
- 3.1 异常restart automatically
- 3.2 异常FutureWarning
- 3.3 参考附录
1 基础函数
1.1 模型bert-base-chinese
在BERT-base-chinese这个模型中,词汇数量为21128,嵌入维度为768,每条数据长度L为512。
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("./bert-base-chinese")
model = AutoModel.from_pretrained("./bert-base-chinese")sentences