我的大学有一个发布公告的网站。我不能错过这些公告,同时,每天检查该网站也很麻烦。该网站没有RSS feed。
公告发布在网页上,其格式如下:
http://example.com/news/detail/1/n
其中
n
是公告ID,是数字。当有公告时,上述网页(例如http://example.com/news/detail/1/180)包含以下格式的公告:
<div class="middleconten">
<h3>
Title </h3>
11 October, 2019
<p>
<a href='/some/link' target='_blank'>Click here for more details</a>
</p>
</div>
当没有公告时(例如,当用户访问的
n
值与实际的公告ID http://example.com/news/detail/1/1234567890不对应的网页时),该网页如下: <div class="middleconten">
<h3>
</h3>
1 January, 1970
<p>
</p>
</div>
如何为网站制作RSS提要,以捕获
<h3>
值,href
属性和日期?
最佳答案
您将需要定期抓取网站以获取新新闻。您可以使用goquery提取数据。
这个想法很简单。您需要从1开始生成新闻部分的网址(填写n
的值),然后访问每个网址。如果找到新闻(该结构存在),请存储数据。将1加到n
值以获得下一个ID。如果该网址不包含新闻,请停止并存储上次成功新闻的编号/ID的值。下次您可以从该ID代替开头。
例如,我从1开始,找到ID为32的最新成功消息。将其保存在某个位置。下次我可以从33开始,而不是1。
如果拥有从网站提取的数据的数据库,则可以从这些网站发布自己的RSS feed。您可以使用chi和 gorilla feeds之类的路由器来创建rss供稿。
关于go - 为我的大学网站制作自定义RSS feed,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58353505/