python - 如何从文件夹加载变压器管道？

标签 python huggingface-transformers

根据 here pipeline 提供了一个接口(interface)，可以使用 save_pretrained 方法在本地保存预训练的管道。当我使用它时，我看到一个文件夹是用一堆 json 和 bin 文件创建的，这些文件大概是用于分词器和模型的。

但是文档没有指定加载方法。如何使用本地保存的管道初始化管道？

最佳答案

如果您阅读了save_pretrained 的规范，它只是说明了它

Save[s] the pipeline’s model and tokenizer.

我也给出了一个稍微相关的答案 here关于如何加载自定义模型和分词器。本质上，您可以简单地在 pipeline 中指定特定的模型/路径:

from transformers import pipeline, AutoModel, AutoTokenizer

# Replace with your custom model of choice
model = AutoTokenizer.from_pretrained('/path/to/your/model')
tokenizer = AutoTokenizer.from_pretrained('/path/to/your/tokenizer')

pipe = pipeline(task='summarization',  # replace with whatever task you have
                model=model,
                tokenizer=tokenizer)

关于python - 如何从文件夹加载变压器管道？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/71058732/

上一篇：monorepo - lerna bootstrap 中的 --ci 和 --no-ci 选项是什么

下一篇：jquery - 如何获得每3个div的最高高度

相关文章：

python - Mavericks 上的 Django 和 mysql 问题

python - 如何解决安装构建工具的问题

python - 使用 Python 从基于 Topic 的文本中提取关键短语

python - 对象不可订阅 networkx

python - sqlalchemy.exc.ArgumentError : columns argument to select() must be a Python list or other iterable

pytorch - 如何禁用 TOKENIZERS_PARALLELISM=(true | false) 警告？

python - 一次使用拥抱脸面膜填充超过 1 个蒙面 token 的最佳方式

tokenize - Huggingface 的 BERT 标记器未添加填充标记

python - 使用 LayoutLMV2 模型提取键值对时出现错误

python - 无法导入 BertTokenizer