python - 使用 Langchain 加载和矢量化多个 PDF 的问题

标签 python vectorization embedding langchain large-language-model

我正在尝试使用 langchain 包中的 VectorstoreIndexCreator().from_loaders(loaders),其中 loaders 的列表>UnstructedPDFLoader 实例,每个实例都旨在加载不同的 PDF 文件。但是,我遇到了与局部变量 isalnum 相关的 UnboundLocalError

这是错误回溯的相关部分:

File …/site-packages/unstructured/documents/elements.py:1007, in process_metadata….
UnboundLocalError: local variable 'isalnum' referenced before assignment

这是我的代码的简化版本:

from langchain.document_loaders import UnstructuredPDFLoader
from langchain.indexes import VectorstoreIndexCreator

loaders = [UnstructuredPDFLoader(filepath) for filepath in filepaths]
index = VectorstoreIndexCreator().from_loaders(loaders)

有趣的是,当我使用 WebBaseLoader 加载 Web 文档而不是 PDF 时,代码运行良好:

from langchain.document_loaders import WebBaseLoader
from langchain.indexes import VectorstoreIndexCreator

loader = WebBaseLoader("https://example.com")
index = VectorstoreIndexCreator().from_loaders([loader])

问题:

  1. 是否有人遇到过来自 langchainUnstructedPDFLoader 的类似问题?如果有,您是如何解决的?

最佳答案

unstructured io github repo 上存在一个问题昨天提到了同样的问题,所以我怀疑这不是你做错的事情,而是非结构化库中的临时错误( issue is here )

关于python - 使用 Langchain 加载和矢量化多个 PDF 的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/77206242/

相关文章:

python - 如何用 python 创建 $2y$14 的河豚哈希?

python - 将 CSV 文件的几行与防火墙规则合并,以便更轻松地解析它们?

r - 满足条件时计算范围内的向量元素

reflection - 通过接口(interface)访问嵌入式类型字段

c++ - 如何在 QT 应用程序中的嵌入式 Python 中休眠

python - 使用 python argparse 模块首先报告无效选项(或使用正则表达式)

python - 如果我运行 .py 脚本,我可以打开一个新终端,修改文件并运行它吗?

python - find_peaks 未识别阵列开头的峰值

c - 性能 AVX-512 与 MIC 上的自动矢量化(英特尔至强融核协处理器)

iphone - 嵌入YouTube视频而不共享选项