python - Fastai - 在句子处理器,cache_dir 参数中启动语言模型失败

标签 python caching directory fast-ai

我已经浏览网页几个小时来为我找到解决方案,我相信这可能是一个非常小的问题。

我在语言模型启动的最初步骤中使用了 fastai 的句子处理器 (SPProcesor)。

我的这些步骤的代码如下所示:

bs = 48

processor = SPProcessor(lang='pl')

data_lm = (TextList.from_csv('', target_corpus, processor=processor)
            .split_by_rand_pct(0.1)
            .label_for_lm()           
            .databunch(bs=bs)
          )
data_lm.save(data_lm_file)

执行后我得到一个错误,如下所示:
~/x/miniconda3/envs/fastai/lib/python3.6/site-packages/fastai/text/data.py in process(self, ds)
    466             self.sp_model,self.sp_vocab = cache_dir/'spm.model',cache_dir/'spm.vocab'
    467         if not getattr(self, 'vocab', False):
--> 468             with open(self.sp_vocab, 'r', encoding=self.enc) as f: self.vocab = Vocab([line.split('\t')[0] for line in f.readlines()])
    469         if self.n_cpus <= 1: ds.items = self._encode_batch(ds.items)
    470         else:

FileNotFoundError: [Errno 2] No such file or directory: 'tmp/spm/spm.vocab'

上面执行的代码的正确结果应该如下:
创建名为“tmp”的文件夹,包含文件夹“spm”,其中应放置两个文件,分别命名为:spm.vocab 和 spm.model。

相反,会在我当前目录中创建“tmp”文件夹以及名为“cache_dir”.vocab 和“cache_dir”.model 的文件。
找不到文件夹“spm”。

我找到了一种解决方法。
它包括在 'tmp' 中手动创建一个 'spm' 文件夹并将上面提到的其他 2 个文件移动到其中,并将它们的名称更改为 spm.vocab 和 spm.model。

这使我可以继续我的处理,但我想找到一种方法来跳过手动移动创建的文件等的必要性。

也许我需要在处理之前传递一些具有特定值的参数(可能是 cache_dir)?

如果您对如何解决该问题有任何想法,请指出我。
我将不胜感激。

最佳答案

如果我将 fastai/text/data.py 中的代码切换到 this commit 的早期版本,我会看到类似的错误.然后,如果我从同一个提交中应用更改,一切都会很好。现在,同一文件的最新版本(应该帮助处理带空格的路径)似乎在那里引入了另一个错误。
看来问题在于 fastai 试图给出论点 --model_prefix引用 sentencepiece .SentencePieceTrainer.Train这使它“行为不端”。
您的一种可能是 (1) 更新到更高版本的 fastai(由于新版本中的另一个错误可能无济于事),或者 (2) 手动应用来自 here 的更改到您安装的 fastai/text/data.py .这是一个非常小的变化 - 只需删除该行:

cache_dir = cache_dir/'spm'
并更换
f'--model_prefix="cache_dir" --vocab_size={vocab_sz} --model_type={model_type}']))
f"--model_prefix={cache_dir/'spm'} --vocab_size={vocab_sz} --model_type={model_type}"]))
如果您对更新安装代码不满意,您可以通过替换现有的 train_sentencepiece 来对模块进行猴子补丁。通过在代码中编写固定版本然后执行类似 fastai.text.data.train_sentencepiece = my_fixed_train_sentencepiece 的操作来发挥作用在其他电话之前。
因此,如果您使用的是较新版本的库,代码可能如下所示:
import fastai
from fastai.core import PathOrStr
from fastai.text.data import ListRules, get_default_size, quotemark, full_char_coverage_langs
from typing import Collection

def train_sentencepiece(texts:Collection[str], path:PathOrStr, pre_rules: ListRules=None, post_rules:ListRules=None,
    vocab_sz:int=None, max_vocab_sz:int=30000, model_type:str='unigram', max_sentence_len:int=20480, lang='en',
    char_coverage=None, tmp_dir='tmp', enc='utf8'):
    "Train a sentencepiece tokenizer on `texts` and save it in `path/tmp_dir`"
    from sentencepiece import SentencePieceTrainer
    cache_dir = Path(path)/tmp_dir
    os.makedirs(cache_dir, exist_ok=True)
    if vocab_sz is None: vocab_sz=get_default_size(texts, max_vocab_sz)
    raw_text_path = cache_dir / 'all_text.out'
    with open(raw_text_path, 'w', encoding=enc) as f: f.write("\n".join(texts))
    spec_tokens = ['\u2581'+s for s in defaults.text_spec_tok]
    SentencePieceTrainer.Train(" ".join([
        f"--input={quotemark}{raw_text_path}{quotemark} --max_sentence_length={max_sentence_len}",
        f"--character_coverage={ifnone(char_coverage, 0.99999 if lang in full_char_coverage_langs else 0.9998)}",
        f"--unk_id={len(defaults.text_spec_tok)} --pad_id=-1 --bos_id=-1 --eos_id=-1",
        f"--user_defined_symbols={','.join(spec_tokens)}",
        f"--model_prefix={cache_dir/'spm'} --vocab_size={vocab_sz} --model_type={model_type}"]))
    raw_text_path.unlink()
    return cache_dir
        
fastai.text.data.train_sentencepiece = train_sentencepiece
如果您使用的是旧版本,则如下所示:
import fastai
from fastai.core import PathOrStr
from fastai.text.data import ListRules, get_default_size, full_char_coverage_langs
from typing import Collection

def train_sentencepiece(texts:Collection[str], path:PathOrStr, pre_rules: ListRules=None, post_rules:ListRules=None, 
    vocab_sz:int=None, max_vocab_sz:int=30000, model_type:str='unigram', max_sentence_len:int=20480, lang='en',
    char_coverage=None, tmp_dir='tmp', enc='utf8'):
    "Train a sentencepiece tokenizer on `texts` and save it in `path/tmp_dir`"
    from sentencepiece import SentencePieceTrainer
    cache_dir = Path(path)/tmp_dir
    os.makedirs(cache_dir, exist_ok=True)
    if vocab_sz is None: vocab_sz=get_default_size(texts, max_vocab_sz)
    raw_text_path = cache_dir / 'all_text.out'
    with open(raw_text_path, 'w', encoding=enc) as f: f.write("\n".join(texts))
    spec_tokens = ['\u2581'+s for s in defaults.text_spec_tok]
    SentencePieceTrainer.Train(" ".join([
        f"--input={raw_text_path} --max_sentence_length={max_sentence_len}",
        f"--character_coverage={ifnone(char_coverage, 0.99999 if lang in full_char_coverage_langs else 0.9998)}",
        f"--unk_id={len(defaults.text_spec_tok)} --pad_id=-1 --bos_id=-1 --eos_id=-1",
        f"--user_defined_symbols={','.join(spec_tokens)}",
        f"--model_prefix={cache_dir/'spm'} --vocab_size={vocab_sz} --model_type={model_type}"]))
    raw_text_path.unlink()
    return cache_dir
        
fastai.text.data.train_sentencepiece = train_sentencepiece

关于python - Fastai - 在句子处理器,cache_dir 参数中启动语言模型失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59788395/

相关文章:

python - 绘制系列饼图

python - pandas 将函数列表应用于数据框

java - Guava CacheLoader 未命中

c - 包含png信息的假目录

Powershell get-childitem 需要大量内存

python - 如何打破多个 while 循环

python - numpy.getbuffer 和 numpy.frombuffer

c# - 什么时候使用缓存太多了?

java - 是否有特定于 URL 的 hashCode 方法?

object - Makefile 将不同目录中的源文件中的目标文件放入单个单独的目录中?