nlp - 如何使用 HuggingFace 将中文翻译成英文?

标签 nlp translation huggingface-transformers machine-translation huggingface-tokenizers

我想使用 HuggingFace 的转换器使用预训练的 "xlm-mlm-xnli15-1024" 将中文翻译成英文模型。 This tutorial显示如何从英语到德语。
我尝试按照教程进行操作,但它没有详细说明如何手动更改语言或解码结果。我不知道从哪里开始。抱歉,这个问题不能更具体。
这是我尝试过的:

from transformers import AutoModelWithLMHead, AutoTokenizer
base_model = "xlm-mlm-xnli15-1024"
model = AutoModelWithLMHead.from_pretrained(base_model)
tokenizer = AutoTokenizer.from_pretrained(base_model)

inputs = tokenizer.encode("translate English to Chinese: Hugging Face is a technology company based in New York and Paris", return_tensors="pt")
outputs = model.generate(inputs, max_length=40, num_beams=4, early_stopping=True)

print(tokenizer.decode(outputs.tolist()[0]))
'<s>translate english to chinese : hugging face is a technology company based in new york and paris </s>china hug ™ ™ ™ ™ ™ ™ ™ ™ ™ ™ ™ ™ ™ ™ ™ ™ ™'

最佳答案

您提到的型号是xlm-mlm-xnli15-1024可用于翻译,但不能以您提供的链接中显示的方式使用。
该链接特定于 T5 型号。使用 XLM 模型,您只提供源语句,但需要添加语言嵌入。在 tutorial for multilingual models 中有解释.另请注意,此 XLM 模型主要用于为下游任务提供跨语言表示,因此您不能期望非常好的翻译质量。

关于nlp - 如何使用 HuggingFace 将中文翻译成英文?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62728985/

相关文章:

Java斯坦福NLP : Spell checking

python - 使用 save_word2vec_format 以二进制格式 .bin 保存 gensim Word2vec 模型

xml - 翻译xml文件中的字符串

php - 如何加载 yml 文件而不是 xliff 来翻译 Symfony 应用程序

nlp - 在另一台机器上加载经过训练的模型——fastai、torch、huggingface

python - 如何取消 BERT 代币的代币化?

nlp - BERT 中长文本的滑动窗口用于问答

java - 解析句子的数据结构

delphi - 为 Delphi 翻译 Vista WinAPI C++ 头文件 - 有什么建议吗?

python - 如何在 python 中使用 gensim 和 word2vec 查找语义相似性