java - 尝试使用 Web Harvest 从网站中提取 URL

标签 java webharvest

我正在尝试提取没有站点地图的网站的 URL。我正在使用Web Harvest tool

我对 Java 或编码一无所知。有人可以帮我使用这个工具吗?

我希望它在特定网站(例如 example.com)上运行并从该网站提取每个 URL。

最佳答案

Example.com 不是一个很好的示例,因为它只有一个链接! :)

这是我的代码,带有一些注释:

<?xml version="1.0" encoding="UTF-8"?>

<config>
        <!-- 1: provide inputs           -->  
        <script><![CDATA[
                url="http://stackoverflow.com/questions/17635763/trying-to-extract-urls-from-a-website-using-web-harvest";

                output_path = "C:/webharvest/"; 
                file_name = "urllist.txt";              
                output_file = output_path + file_name;                  

            ]]></script>

        <!-- 5 : save the resulting list in a variable       -->    
        <var-def name="urls">
            <!-- 4 : select only links (outputs a list variable)         -->    
            <xpath expression='//a/@href'>
                <!-- 3 : convert it to XML, for querying         --> 
                <html-to-xml>
                    <!-- 2 : load the page       -->  
                    <http url="${url}"/>
                </html-to-xml>
            </xpath>
        </var-def>

        <!-- 7: write to output file         -->  
        <file action="write" path="${output_file}">
            <!-- 6 : convert the list variable into a string with each link on a new line        -->  
            <text delimiter="${sys.cr}${sys.lf}">
            <var name="urls" />
            </text>
        </file>              

</config>

关于java - 尝试使用 Web Harvest 从网站中提取 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17635763/

相关文章:

java - 如何剥离从网络收获中获得的文本的一部分

java - Gson.toJson() 方法返回嵌入 "data"的字符串

java - 使用Java获取响应头,编码问题

java - 测试 jar 中的 Hibernate FileZippedJarVisitor 错误

java - 我的 ThreadPoolExecutor 是否泄漏内存?

java - 如何使用给定的自定义注释运行测试用例

java - 如何在网络收获中从字符串中减去子字符串

java - 在 Mobile Flex 编程中为多个按钮创建一个事件处理程序

java - 无法在 tc-server 中为 db2 配置数据源

java - 在 Web 收获 xml 中使用正则表达式