c# - 获取网页的 "summary"

标签 c# html regex

我有一个棘手的问题,我想生成几段给定 url 的“描述”,通常是文章的开头。元描述字段是一种方法,但它并不总是好的或设置正确。

公平地说,从屏幕抓取的 HTML 中完成此操作有点问题。我有一个大致的想法,也许有人可以扫描 HTML 以找到第一个“适当”的片段,但很难说那是什么,也许类似于包含一定数量文本的第一段......

大家有什么好主意吗? :) 它不一定是万无一失的

最佳答案

那么,您想成为新的 Google 吗? :-)

如今,许多网站都“对 SEO 友好”。这使您能够查找标题,然后查找下面的段落。

另外,寻找列表。在某种类似选项卡(选项卡、 Accordion ...)的界面中有很多内容是使用有序或无序列表完成的。

如果失败,可能会寻找一个类为“content”或“main”或组合的 div,然后从那里开始。

如果您使用不同的方法,请确保您保留了有效方法和无效方法的统计信息(甚至可以保存整页),以便您可以审查和调整您的解析和搜索方法。

作为旁注,我使用了 htmlagilitypack成功解析和搜索 html。好吧,至少它胜过使用正则表达式进行解析:-)

关于c# - 获取网页的 "summary",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2941477/

相关文章:

c# - 如何在代码隐藏 C# 中将参数从 Repeater 传递给 UserControl

java - 使用 Java 解密代码截断 C# 加密数据

html - CSS - 设置表格列高百分比更改行高

python - 将正则表达式文档的结果写回 python 中的文档

javascript - 在 JavaScript 中,除非单词在排除单词列表中,否则如何使用正则表达式进行匹配?

c# - C++ 混合( native 托管)+sdl + opengl & c# winforms

c# - Web API get 上的 405 错误(方法不允许)

javascript - Cordova 键盘更改布局

html - 如何找出IE中的页面下载时间/大小?

regex - 有没有办法嵌套 sed 替换?