java - JSP/Struts/Session 控制的 Web 应用程序中的爬虫

标签 java jsp tomcat6 web-crawler struts-1

我有一个 struts web 应用程序(在 tomcat 6 上运行),其中包含除第一个文件之外的所有文件,该文件调用位于 WEB-INF 中的启动操作,并且您始终需要一个 session 来使用它,否则您将被重定向到启动操作并再次开始页面。

该应用程序的主要功能是从数据库中提供产品的搜索。爬网程序如何在我的应用程序中导航?它是否会触发可能导致错误页面的搜索?或者它是否只能跟踪未嵌入表单中的链接(struts 几乎将所有内容都制作成表单,因此只有一些链接,大部分是 onclick 重定向和表单操作)

我如何提供可以索引到这样的爬虫的有用信息?

谢谢你的建议:)

最佳答案

听起来您最好阅读一些 SEO 指南:http://www.google.com.au/search?q=seo+guidelines&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:en-GB:official&client=firefox-a&safe=high ,

回答您的问题:

爬网程序通常会从网络上的外部链接导航到您的应用程序,或者在您将网站提交到搜索引擎后导航到您的应用程序。

抓取工具不会填写输入内容并提交表单,而是会跟踪页面之间的超链接。

如果您希望抓取工具将您的搜索结果编入索引(无法真正理解您为什么需要这样做),您可以将常见搜索的链接放在已编入索引的页面之一上。

您应该确保您的产品页面适合 SEO,并且被索引而不是搜索结果。

关于java - JSP/Struts/Session 控制的 Web 应用程序中的爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7650877/

相关文章:

java - 如何为同一个 Spring Framework @Scheduled 方法创建多个触发器?

java - 如何测试两个电子邮件地址是否相等

java - Spring MVC + Thymeleaf - 保存关系@ManyToOne

c# - 在 try/finally 外部或内部初始化一次性资源

java - 如何从 JSP 页面加载 COM 对象?

java - 为什么只有部分文件和文件夹没有被删除?

java - Spring MVC 和 JSP : How to pass a parameter from the controller to JSP?

javascript - 如何使用 html 或 jsp 将数据以 xml 形式发布到服务器

java - Eclipse 错误上的 Tomcat Apache 6 服务器

war - Tomcat - 想要清除正在取消部署的应用程序的缓存