HTML是一种标记语言,混合了很多东西。但我只想从网站中提取人类可读的数据来进行一些内容分析。但我只能看到 html 代码。我可以一一提取所有的HTML标签来提取文本和图像。 (至少,我可以 grep 大部分数据,但不能 grep javascript 插入的数据)除了这样做,我可以有更有效的方法吗?谢谢。
***使用java作为编程语言
最佳答案
我最喜欢用于一般网站抓取的东西是 BeutifulSoup 扩展。这是其文档的链接。 2.1节是解析HTML代码!
http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html
关于java - 是否可以从 html src 中提取人类可读的内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9492387/