python - 网页字数统计

我正在寻找一种方法来提取任意网站上单词的基本统计信息(总数、密度、链接计数、href)，最好是基于 Python 的解决方案。

虽然使用 BautifulSoup 等工具很容易解析特定网站并确定大部分内容在哪里，但它需要您在处理之前定义内容在 DOM 树中的位置。这对于 href 或任何任意标记来说很容易，但在确定其余数据(未包含在明确定义的标记中)的位置时会变得更加复杂。

如果我理解正确的话，Google(GoogleBot？)等使用的机器人能够从任何网站提取数据来确定关键字密度。我的情况类似，获取与定义网站内容的单词相关的信息(即删除 js、链接和填充符后)。

我的问题是，是否有任何库或 Web API 可以让我从任何给定页面获取有意义的单词的统计信息？

最佳答案

没有 API，但可能有一些库可供您将其用作工具。

你应该数出有意义的单词并按时间记录下来。

你也可以从这样的事情开始:

 string Link= "http://www.website.com/news/Default.asp";
        string itemToSearch= "Word";


        int count = new Regex(itemToSearch).Matches(Link).Count;
        MessageBox.Show(count.ToString());

关于python - 网页字数统计，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15719086/

上一篇：variables - 使用 AppleScript 中的变量播放音乐(歌曲专辑或艺术家)

下一篇：pdf - 使用 Ghostscript 从 Postscript 文件中创建仅包含图像而不包含文本的 TIFF

相关文章：

python - 用于股市预测的情绪词典

python - 在 scrapy 网络爬虫中获取错误

python - 按顺序运行多个蜘蛛

python - python3上的scrapy如何获取在javascript上工作的文本数据

python - Geopandas PostGIS 连接

python - matplotlib设置字体计算机现代和粗体

java - Word Net - Word Synonyms & related word constructs - Java 或 Python

python - 获取与<li>标签相关的<h2>标签

python - 如何使用 python 从帧创建视频？

machine-learning - 注意力机制中的 "source hidden state"指的是什么？