java - 是否可以从 html src 中提取人类可读的内容?

标签 java html

HTML是一种标记语言,混合了很多东西。但我只想从网站中提取人类可读的数据来进行一些内容分析。但我只能看到 html 代码。我可以一一提取所有的HTML标签来提取文本和图像。 (至少,我可以 grep 大部分数据,但不能 grep javascript 插入的数据)除了这样做,我可以有更有效的方法吗?谢谢。

***使用java作为编程语言

最佳答案

我最喜欢用于一般网站抓取的东西是 BeutifulSoup 扩展。这是其文档的链接。 2.1节是解析HTML代码!

http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html

关于java - 是否可以从 html src 中提取人类可读的内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9492387/

相关文章:

html - 使用 CSS 设置背景图像而不放大

java - 在 talend 中创建文件/输出源

java - 在监听器中有效地使用监听器?

java - Android Studio 外部 jar 错误

java - Android 应用程序在建立 HTTP url 连接时出现滞后

jquery - 点击按钮不触发jquery函数

javascript - 如何在 jQuery 中移动 HTML 元素?

html - Internet Explorer CSS 渐变处理

javascript - JQuery - 嵌套的 ul/li 列表,在重新加载页面后保持扩展

java - CloseableHttpClient 连接池关闭