nlp - 使用自然语言处理来解析网站

标签 nlp web-crawler data-mining nltk

我通常对通过抓取网站进行数据挖掘很感兴趣,但是我一直找不到很多关于我真正想实现的过程的文档。我非常热衷于编写一组基本规则来定义如何解析页面,然后在工具出错时对其进行训练。

假设我想解析餐厅网站的菜单。我想创建一个工具,让我可以编写一组规则来大致显示菜单项和价格的位置。然后,我可以运行该工具并告诉它哪些菜单项被正确解析,哪些是错误的。然后,该工具将从这些更正中“学习”,下次运行它时,我会得到更好的结果。

我稍微看了看 NLTK 工具包,这让我想知道解决这个问题的最好方法是使用 NLP 工具,比如 NLTK。任何人都可以指出正确的方向来寻找可以帮助我入门的书籍和(理想情况下)图书馆吗? NLP 是要走的路吗?谢谢!

最佳答案

I'm very keen on the idea of writing a base set of rules that define how to parse a page

“解析页面”到底是什么意思?解析页面中的句子?做结构化information extraction

The tool would then "learn" from these corrections, and the next time I run it, I'd get better results.

这是active learning的问题,这是非常高级的东西。你需要一个机器学习工具包;哪一个取决于你到底想做什么:制作解析树或提取显着信息。我相信 NLTK 有一些随机解析器支持。

关于nlp - 使用自然语言处理来解析网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7934635/

相关文章:

python - 机器学习/NLP 与关键字搜索以将非结构化数据转换为结构化数据

python - 元音计数序列

java - 使用 StormCrawler 抓取某些 url 时出现 X509 证书异常

python - python 中的开源数据挖掘/文本分析工具

java - 尝试在自己的数据中运行 SLINK - ELKI

python-3.x - 将注意力层添加到 Seq2Seq 模型

python - 使用 NLTK 提取关系

php - 简单 PHP 网络爬虫中的 HTTP 500 错误

java - 抓取 URL 以提取该页面中的所有其他 URL

python - 如何在 Python 中快速加载大型数据集?