我已经下载了 BLLIP语料库并想将其导入 NLTK。问题的答案中描述了我发现的一种方法 How to read corpus of parsed sentences using NLTK in python? .在那个答案中,他们正在为一个数据文件做这件事。我想收集它们。
BLLIP 语料库是几百万个文件的集合,每个文件都包含几个经过解析的句子。包含数据的主文件夹名为 bllip_87_89_wsj
,它包含 3 个子文件夹,1987
、1988
、1989
(每年一个)。在子文件夹 1987
中,您有子文件夹,每个子文件夹包含许多与解析的句子相对应的文件。子文件夹的名称类似于 w7_001
(对于文件夹 1987
),文件名为 w7_001.000
、w7_001.001
等等等等。
有了这一切,我的任务如下:使用 NLTK 解析器顺序读取所有文件。然后,将语料库转换为列表列表,其中每个子列表是一个句子。
第二部分很简单,使用命令 corpus_name.sents()
完成。这是我不知道如何处理的任务的第一部分。
欢迎所有建议。我还特别欢迎提出替代的、更有效的方法来替代我想到的方法。
更新:
BLLIP语料库的解析句子有如下形式:
(S (NP (DT the) (JJ little) (NN dog)) (VP (VBD barked)))
在许多句子中有一个语法类别,形式为 (-NONE- *-0)
所以当我阅读语料库时 *-0
被认为是单词。有没有办法忽略语法类别-NONE-
。例如,如果我有这句话
(S (NP-SBJ (-NONE- *-0))
(VP (TO to)
(VP (VB sell)
(NP (NP (PRP$#0 its) (NN TV) (NN station))
(NN advertising)
(NN representation)
(NN operation)
(CC and)
(NN program)
(NN production)
(NN unit))
我希望它变成:
出售其电视台广告代理业务和节目制作单位
而不是
*-0出售其电视台广告代理业务和节目制作单位
当前是什么。
最佳答案
question你链接到只是有点误导。事实上,该代码示例只读取一个文件,但 nltk
的语料库阅读器界面专为阅读大量文件而设计。读者必读的论据constructor是语料库的基本文件夹的路径和匹配所有应该读入的文件名的正则表达式(一个普通的,而不是“glob”)。所以只需适应the answer通过添加适当的正则表达式来解决问题。 (如果您的语料库与 BracketParseCorpusReader
默认值不匹配,还要添加格式选项。)例如:
from nltk.corpus.reader import BracketParseCorpusReader
reader = BracketParseCorpusReader('path/to/bllip_87_89_wsj', r'.*/w\d_.*')
这将匹配任何名称以 w<digit>_
开头的文件, 在任何子文件夹中。如果您碰巧有匹配此模式但必须排除的文件(例如:w7_001.001-old
),您可以锐化上述正则表达式。
您可以像使用随 nltk 分发的已解析语料库一样使用此语料库阅读器。请注意,由于您有数百万个文件,因此应避免构建句子列表(甚至文件名列表)。阅读器的方法返回“ View ”,这是一种特殊的对象,允许您迭代和索引结果,而无需将整个结果列表加载到内存中。
关于python - 使用 NLTK 导入外部树库式 BLLIP 语料库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42634503/