我正在尝试使用 langchain
包中的 VectorstoreIndexCreator().from_loaders(loaders)
,其中 loaders
是 的列表>UnstructedPDFLoader
实例,每个实例都旨在加载不同的 PDF 文件。但是,我遇到了与局部变量 isalnum
相关的 UnboundLocalError
。
这是错误回溯的相关部分:
File …/site-packages/unstructured/documents/elements.py:1007, in process_metadata….
UnboundLocalError: local variable 'isalnum' referenced before assignment
这是我的代码的简化版本:
from langchain.document_loaders import UnstructuredPDFLoader
from langchain.indexes import VectorstoreIndexCreator
loaders = [UnstructuredPDFLoader(filepath) for filepath in filepaths]
index = VectorstoreIndexCreator().from_loaders(loaders)
有趣的是,当我使用 WebBaseLoader
加载 Web 文档而不是 PDF 时,代码运行良好:
from langchain.document_loaders import WebBaseLoader
from langchain.indexes import VectorstoreIndexCreator
loader = WebBaseLoader("https://example.com")
index = VectorstoreIndexCreator().from_loaders([loader])
问题:
- 是否有人遇到过来自
langchain
的UnstructedPDFLoader
的类似问题?如果有,您是如何解决的?
最佳答案
unstructured io github repo 上存在一个问题昨天提到了同样的问题,所以我怀疑这不是你做错的事情,而是非结构化库中的临时错误( issue is here )
关于python - 使用 Langchain 加载和矢量化多个 PDF 的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/77206242/