java - 网络收获 - 抓取网址

标签 java eclipse web web-scraping webharvest

我正在使用网络收获。但是,我想从 URL 中抓取数据:

http://derstandard.at/anzeiger/immoweb/Suchergebnis.aspx?Regionen=9&Bezirke=&Arten=&AngebotTyp=&timestamp=1363305908912

我的代码是:

<?xml version="1.0" encoding="UTF-8"?>

<config>
    <var-def name="google">
    <html-to-xml>
    <http url="http://derstandard.at/anzeiger/immoweb/Suchergebnis.aspx?Regionen=9&Bezirke=&Arten=&AngebotTyp=&timestamp=1363305908912"></http>
    </html-to-xml>
    </var-def>
</config>

但是我得到:

Reference to the entity Bezirke has to end with an ';'

我不明白网络收获是什么意思,带有“;”?

最佳答案

我对网络收集不太了解,但他们的例子是这样的:

<xpath expression="//a[@shape='rect']/@href">
    <html-to-xml>
        <http url="http://www.somesite.com/"/>
    </html-to-xml>
</xpath>

<http url =".." />

而你的代码有

<http url = ".."></http> 

也许这是你的问题?不需要结束标签

关于java - 网络收获 - 抓取网址,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15422524/

相关文章:

java - 当我单击按钮并选择微调器上的项目时,应用程序崩溃

HTML/CSS : exception in Google Chrome

java - 想要过滤扫描的 jar 以进行 Spring 组件扫描

java - 如何在oracle XE中创建数据库?

java - 查询中缺少单引号

java - 实数矩阵与复数矩阵相乘

当我双击我的 jar 文件时,java 应用程序被打开两次

java - 为什么@NotNull 注释不删除警告?

html - 添加链接帮助 - 将当前页面的地址添加到我创建的每个链接的开头?

css - Bootstrap CDN 中的错误和未知类