python - (初学者)NLP :I am trying to understand how I can categorise words in text to identify all the words related to a topic

标签 python list text nlp

我已经使用 BeautifulSoup 抓取了一个网站,现在我想分析我抓取的所有文本,并创建该文本中出现的一长串食物项目。

示例文本

如果您是素食主义者,并且永远为吃不到馄饨而感到遗憾,那么这些家伙就是为您准备的!馅料是用硬 bean 腐碎简单混合而成,用盐、姜、白胡椒和葱调味。这非常简单,但非常令人满意。 确保充分沥干 bean 腐并尽可能干燥,以免馅料太湿。你甚至可以更进一步,压一下 bean 腐:在一个盘子上铺上纸巾,然后在上面放一些纸巾,然后用另一个盘子压住 bean 腐的重量。 这些馄饨的最大优点是馅料已完全煮熟,因此您只需品尝即可调整调味料。只要确保馅料比你自己吃的馅料稍微咸一点即可。馄饨皮没有太多的调料。 这些家伙很快就做好了,因为你所做的只是煮馄饨皮。一旦你把它们放入沸水中并且它们浮到顶部,你就可以开始了。把它们拌上辣酱油,你就在天堂了!

我想从中创建一个长列表,其中标识: 馄饨、 bean 腐、醋、白胡椒、洋葱、盐

如果没有预先存在的食品 list ,我不知道如何才能做到这一点。因此,任何建议都很好。寻找可以自动完成此操作而无需太多手动干预的东西! (我对 NLP 和深度学习很陌生,因此您推荐的任何文章/方法都会非常有用!)

谢谢!

最佳答案

如果您是该领域的新手,您可以使用 GENSIM,这是一个用于主题建模的免费 Python 库。您可以使用潜在语义分析或相似性查询来提取食物项。

https://radimrehurek.com/gensim/index.html

关于python - (初学者)NLP :I am trying to understand how I can categorise words in text to identify all the words related to a topic,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54519213/

相关文章:

c - SDL 编写文本

python SIP日志文件处理

python - 如何标记 pandas 中不符合单独列的特定标准的组?

python - 在一个简单的python代码块中获取 "ValueError: concat() expects at least one object!"

python - 如何在 Python 中进行环境变量更改?

python - 重新启动程序后附加列表时,pickle 数据将被删除

list - 方案匹配元素

python - Pandas 数据框可以有列表的数据类型吗?

JavaScript 缩放文本以适应固定的 Div

python - PyQT5 QComboBox - 获取组合框的值