python - 列表的列表..列表的列表?应用正则表达式和 nltk

标签 python regex python-3.x list nltk

好的,我简化我的问题:

我有一个(文档)列表,其中包含一些(句子)列表,如str。就像a = [['从第一个文档发送1!','从第一个文档发送2。'],['从第二个文档发送1。','从第二个文档发送2。']]

现在我尝试将每个句子分成一个单词列表..所以我可能会有第一个(文档)列表,其中包含一个(句子)列表,其中每个列表都包含一个(该句子中的单词列表)作为 str)。

不幸的是,我的代码生成了一个包含每个单词的(句子)列表。因此,我无法跟踪每个句子来自哪个文档。

我的代码如下所示:

sentcs = []
for i in range(len(a)): 
    for p in range(len(a[i])):        
        spr = re.findall(r'[A-Z]?[^A-Z\s]+|[A-Z]+', a[i][p])
        sentcs.append(spr) 

但这不是我想要的..我想要一个列表的列表..或者这样编程是一个坏习惯吗?

最佳答案

    li = [('Help! Be nice.'),('Thx. Help appreciated.')]

    for el in li:
        l = el.split(' ',1)
        print(tuple((l[0], l[1:])))  

    ('Help!', ['Be nice.'])
    ('Thx.', ['Help appreciated.'])


from nltk.tokenize import sent_tokenize   

st = ['Help! Be nice.','Thx. Help appreciated.']

for el in st:
    t = sent_tokenize(el)
    print(tuple((t[0], t[1:])))

('Help!', ['Be nice.'])
('Thx.', ['Help appreciated.'])

关于python - 列表的列表..列表的列表?应用正则表达式和 nltk,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52262119/

相关文章:

java - 正则表达式保留引号、单引号、连字符并在空格处分割

regex - 从文本文件中提取信息 block 并创建 Pandas 数据框并存储

python - 从字典中删除双引号?

python - 乘以一元素矩阵

python - 我们应该如何对全序列进行分类?

python - 使用 NI-488.2 将 GPIB 转换为 USB

php - 1 个用于多个 php 页面的 mod-rewrite block

javascript - 如何找到一个字母出现 x 次(以及一次或多次)的所有单词?

python - 在 Python 中计算整数列表中唯一乘法和加法对数量的有效方法是什么?

python-3.x - Python3生菜抛出语法错误