java - 如何使用Jsoup从html文件中获取特定数据？

我有一个本地语言报纸的 html 文件，我想收集报纸中仅使用本地语言的所有单词

我在 html 文件中观察到，本地语言中的所有单词都位于类 field-content 的 div 元素下，因此我选择了它的元素来获取数据，但 div 元素还包含诸如本地语言之类的元素语言单词存在

<div class = "field-content"></div>

那么如何从html文件中只获取本地语言的单词

网站网址:http://www.andhrabhoomi.net/

我的代码:

public static void main(String a[])
        {
            Document doc;
            try {
                 doc = Jsoup.connect("http://www.andhrabhoomi.net/").userAgent("Mozilla").get();
                 String title = doc.title();

                 System.out.println("title : " + title);

                    // get all links
                    //Elements links = doc.select("a[href]");

                    Elements body = doc.select("div.field-content");

                    for (Element link : body) {

                        System.out.println(link);


    // get the value from href attribute
                        //System.out.println("\nlink : " + link.attr("href"));
                        //System.out.println("text : " + link.text());
                    }

            }catch(IOException e){
                System.out.println("error\n");

            }
        }

最佳答案

不确定您在这里想要什么，但如果我的猜测是正确的，这应该会有所帮助。如果没有，请直接说出来，我们就从那里开始。

您需要通过获取任何具有 field-content 的类来更改您的选择，然后要删除所有其他 HTML 内容，您需要添加 text () 到 System.out.println( link.text() ); 的末尾，请参阅下文。

Elements body = doc.getElementsByClass( "field-content" );

for( Element link : body )
{
    System.out.println( link.text() );
}

关于java - 如何使用Jsoup从html文件中获取特定数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36017445/

java - 如何使用Jsoup从html文件中获取特定数据？

上一篇：java - 用于检查 json 文件的 mule 表达式

下一篇：java - 查询多态 Hibernate 属性