java - 网络收获 - 抓取网址

标签 java eclipse web web-scraping webharvest

我正在使用网络收获。但是，我想从 URL 中抓取数据:

http://derstandard.at/anzeiger/immoweb/Suchergebnis.aspx?Regionen=9&Bezirke=&Arten=&AngebotTyp=&timestamp=1363305908912

我的代码是:

<?xml version="1.0" encoding="UTF-8"?>

<config>
    <var-def name="google">
    <html-to-xml>
    <http url="http://derstandard.at/anzeiger/immoweb/Suchergebnis.aspx?Regionen=9&Bezirke=&Arten=&AngebotTyp=&timestamp=1363305908912"></http>
    </html-to-xml>
    </var-def>
</config>

但是我得到:

Reference to the entity Bezirke has to end with an ';'

我不明白网络收获是什么意思，带有“;”？

最佳答案

我对网络收集不太了解，但他们的例子是这样的:

<xpath expression="//a[@shape='rect']/@href">
    <html-to-xml>
        <http url="http://www.somesite.com/"/>
    </html-to-xml>
</xpath>

<http url =".." />

而你的代码有

<http url = ".."></http>

也许这是你的问题？不需要结束标签

关于java - 网络收获 - 抓取网址，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15422524/

上一篇：java - android 和 sqlite 性能

下一篇：java - 多个 Mark() BufferReader

相关文章：

java - 当我单击按钮并选择微调器上的项目时，应用程序崩溃

HTML/CSS : exception in Google Chrome

java - 想要过滤扫描的 jar 以进行 Spring 组件扫描

java - 如何在oracle XE中创建数据库？

java - 查询中缺少单引号

java - 实数矩阵与复数矩阵相乘

当我双击我的 jar 文件时，java 应用程序被打开两次

java - 为什么@NotNull 注释不删除警告？

html - 添加链接帮助 - 将当前页面的地址添加到我创建的每个链接的开头？

css - Bootstrap CDN 中的错误和未知类