我有一个棘手的问题,我想生成几段给定 url 的“描述”,通常是文章的开头。元描述字段是一种方法,但它并不总是好的或设置正确。
公平地说,从屏幕抓取的 HTML 中完成此操作有点问题。我有一个大致的想法,也许有人可以扫描 HTML 以找到第一个“适当”的片段,但很难说那是什么,也许类似于包含一定数量文本的第一段......
大家有什么好主意吗? :) 它不一定是万无一失的
最佳答案
那么,您想成为新的 Google 吗? :-)
如今,许多网站都“对 SEO 友好”。这使您能够查找标题,然后查找下面的段落。
另外,寻找列表。在某种类似选项卡(选项卡、 Accordion ...)的界面中有很多内容是使用有序或无序列表完成的。
如果失败,可能会寻找一个类为“content”或“main”或组合的 div,然后从那里开始。
如果您使用不同的方法,请确保您保留了有效方法和无效方法的统计信息(甚至可以保存整页),以便您可以审查和调整您的解析和搜索方法。
作为旁注,我使用了 htmlagilitypack成功解析和搜索 html。好吧,至少它胜过使用正则表达式进行解析:-)
关于c# - 获取网页的 "summary",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2941477/