java - 是否可以从 html src 中提取人类可读的内容？

标签 java html

HTML是一种标记语言，混合了很多东西。但我只想从网站中提取人类可读的数据来进行一些内容分析。但我只能看到 html 代码。我可以一一提取所有的HTML标签来提取文本和图像。 (至少，我可以 grep 大部分数据，但不能 grep javascript 插入的数据)除了这样做，我可以有更有效的方法吗？谢谢。

***使用java作为编程语言

最佳答案

我最喜欢用于一般网站抓取的东西是 BeutifulSoup 扩展。这是其文档的链接。 2.1节是解析HTML代码!

http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html

关于java - 是否可以从 html src 中提取人类可读的内容？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9492387/

上一篇：java - 如何用JAVA解析flash cookies(.SOL文件)

下一篇：java - Nancy Java Web 框架

相关文章：

html - 使用 CSS 设置背景图像而不放大

java - 在 talend 中创建文件/输出源

java - 在监听器中有效地使用监听器？

java - Android Studio 外部 jar 错误

java - Android 应用程序在建立 HTTP url 连接时出现滞后

jquery - 点击按钮不触发jquery函数

javascript - 如何在 jQuery 中移动 HTML 元素？

html - Internet Explorer CSS 渐变处理

javascript - JQuery - 嵌套的 ul/li 列表，在重新加载页面后保持扩展

java - CloseableHttpClient 连接池关闭