java - JSP/Struts/Session 控制的 Web 应用程序中的爬虫

我有一个 struts web 应用程序(在 tomcat 6 上运行)，其中包含除第一个文件之外的所有文件，该文件调用位于 WEB-INF 中的启动操作，并且您始终需要一个 session 来使用它，否则您将被重定向到启动操作并再次开始页面。

该应用程序的主要功能是从数据库中提供产品的搜索。爬网程序如何在我的应用程序中导航？它是否会触发可能导致错误页面的搜索？或者它是否只能跟踪未嵌入表单中的链接(struts 几乎将所有内容都制作成表单，因此只有一些链接，大部分是 onclick 重定向和表单操作)

我如何提供可以索引到这样的爬虫的有用信息？

谢谢你的建议:)

最佳答案

回答您的问题:

爬网程序通常会从网络上的外部链接导航到您的应用程序，或者在您将网站提交到搜索引擎后导航到您的应用程序。

抓取工具不会填写输入内容并提交表单，而是会跟踪页面之间的超链接。

如果您希望抓取工具将您的搜索结果编入索引(无法真正理解您为什么需要这样做)，您可以将常见搜索的链接放在已编入索引的页面之一上。

您应该确保您的产品页面适合 SEO，并且被索引而不是搜索结果。

关于java - JSP/Struts/Session 控制的 Web 应用程序中的爬虫，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7650877/