web-crawler - 从文章中提取作者

标签 web-crawler mechanize pyquery

正如标题所说，我一直在努力爬取文章，剩下的就是作者。

下面是我的代码，使用pyquery编译段落和作者，只有作者返回空白

目标站点:http://business.transworld.net/153984/news/surfrider-foundation-names-chad-nelsen-new-ceo/

def extract_text_pyquery(html):
    p = pq(html)
    article_whole = p.find(".entry")
    p_tag = article_whole('p')
    print len(p_tag)
    print p_tag
    for i in range (0, len(p_tag)):
        text = p_tag.eq(i).text()
        print text
    entire = p.find("#main")
    author = entire.find('a').filter('.author')
    print 'By:', author

最佳答案

该类(class)不是作者，rel是;期间选择一个类(class)。你应该过滤 '[rel="author"]' , 括号让您可以在非标准标签上归档。

关于web-crawler - 从文章中提取作者，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26132190/

上一篇：html - Mechanize gem : get html from other site => response html encoding issue

下一篇：perl - 使用 www::mechanize 的爬虫

相关文章：

java - 爬取时如何从大量数据中消除重复

python - 从链接下载 pdf 但服务器重定向到主页

Ruby Mechanize 连接超时

python - 为什么这个未绑定(bind)的变量可以在 Python (pyquery) 中工作？

jquery - 直接 LXML 或 PyQuery

html - 如何告诉谷歌这篇文章是另一篇文章的一部分

javascript - PhantomJS 不起作用

linux - 可以使用 Wget 指定要下载的文件内容类型吗？

ruby - Mechanize 连接到 HTTP 代理的问题...Ruby

python - 停止 pyquery 在源 HTML 中没有空格的地方插入空格？