我有一个 struts web 应用程序(在 tomcat 6 上运行),其中包含除第一个文件之外的所有文件,该文件调用位于 WEB-INF 中的启动操作,并且您始终需要一个 session 来使用它,否则您将被重定向到启动操作并再次开始页面。
该应用程序的主要功能是从数据库中提供产品的搜索。爬网程序如何在我的应用程序中导航?它是否会触发可能导致错误页面的搜索?或者它是否只能跟踪未嵌入表单中的链接(struts 几乎将所有内容都制作成表单,因此只有一些链接,大部分是 onclick 重定向和表单操作)
我如何提供可以索引到这样的爬虫的有用信息?
谢谢你的建议:)
最佳答案
听起来您最好阅读一些 SEO 指南:http://www.google.com.au/search?q=seo+guidelines&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:en-GB:official&client=firefox-a&safe=high ,
回答您的问题:
爬网程序通常会从网络上的外部链接导航到您的应用程序,或者在您将网站提交到搜索引擎后导航到您的应用程序。
抓取工具不会填写输入内容并提交表单,而是会跟踪页面之间的超链接。
如果您希望抓取工具将您的搜索结果编入索引(无法真正理解您为什么需要这样做),您可以将常见搜索的链接放在已编入索引的页面之一上。
您应该确保您的产品页面适合 SEO,并且被索引而不是搜索结果。
关于java - JSP/Struts/Session 控制的 Web 应用程序中的爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7650877/