python - 如何从文件夹加载变压器管道?

标签 python huggingface-transformers

根据 here pipeline 提供了一个接口(interface),可以使用 save_pretrained 方法在本地保存预训练的管道。当我使用它时,我看到一个文件夹是用一堆 json 和 bin 文件创建的,这些文件大概是用于分词器和模型的。

但是文档没有指定加载方法。如何使用本地保存的管道初始化管道?

最佳答案

如果您阅读了save_pretrained 的规范,它只是说明了它

Save[s] the pipeline’s model and tokenizer.

我也给出了一个稍微相关的答案 here关于如何加载自定义模型和分词器。本质上,您可以简单地在 pipeline 中指定特定的模型/路径:

from transformers import pipeline, AutoModel, AutoTokenizer

# Replace with your custom model of choice
model = AutoTokenizer.from_pretrained('/path/to/your/model')
tokenizer = AutoTokenizer.from_pretrained('/path/to/your/tokenizer')

pipe = pipeline(task='summarization',  # replace with whatever task you have
                model=model,
                tokenizer=tokenizer)

关于python - 如何从文件夹加载变压器管道?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71058732/

相关文章:

python - Mavericks 上的 Django 和 mysql 问题

python - 如何解决安装构建工具的问题

python - 使用 Python 从基于 Topic 的文本中提取关键短语

python - 对象不可订阅 networkx

python - sqlalchemy.exc.ArgumentError : columns argument to select() must be a Python list or other iterable

pytorch - 如何禁用 TOKENIZERS_PARALLELISM=(true | false) 警告?

python - 一次使用拥抱脸面膜填充超过 1 个蒙面 token 的最佳方式

tokenize - Huggingface 的 BERT 标记器未添加填充标记

python - 使用 LayoutLMV2 模型提取键值对时出现错误

python - 无法导入 BertTokenizer