python - 它在 awk 中可能更简单,但我怎么能在 Python 中这样说呢?

标签 python nlp nltk

我有:

Rutsch 适合 rutterman 斜坡

这是《芬尼根守灵夜》中的一句话。这本史诗般的谜语书充满了这样的主旋律,例如“脱掉那顶白帽子”和“小费”,所有这些都会根据您在书中的位置而变异为发音相似的词。我想要的只是一种方法来找到这个特定主题的明显出现,IE

[word1] 用于 [word2] [word-part1]ing his [word3]

最佳答案

您可以在 Python 中使用正则表达式来做到这一点:

import re
pattern = re.compile(r'(?P<word>.*) is for (?P=word) (?P=word)ing his (?P=word)')
words = pattern.findall(text)

这不会匹配您的示例,但会匹配[word] is for [word] [word-part]ing his [word]。加入调味料调味。您可以在 re 模块中找到更多详细信息 docs .

关于python - 它在 awk 中可能更简单,但我怎么能在 Python 中这样说呢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3677116/

相关文章:

python - Porter Stemmer 可以返回词缀而不是词干吗?

pandas - 值太多,无法在 Python 中使用 NLTK 和 Pandas 解压

python - ArgumentParser 结语和描述格式与 ArgumentDefaultsHelpFormatter 结合使用

java - SMS 文本规范化

nlp - 用于词性标注器的 Baum-Welch 算法

python - 使用 NLTK 和 Python 从自由文本中提取关键字/短语进行结构化查询

python - 如何使用 NLTK nltk.tokenize.texttiling 将文本拆分为段落?

python - 为什么 write() 方法会写入未知字符?

python - 将作业提交到异步事件循环

Python 3+ 在函数调用中导入包?