python - 如何使用 python-twitter 下载 pandas dataframe 中的 url 内容?

标签 python pandas lxml python-requests python-twitter

我有一个像这样的xml:

<author ="twitter" lang="english" type="xx" age_misc="xx" url="https://twitter.com/Carmen_RRHH">
    <documents count="436">
        <document id="106259332342342348513" url="https://twitter.com/Carmen_RRHH/status/106259338234048513">       </document>
        <document id="232342342342323423" url="https://twitter.com/Carmen_RRHH/status/106260629999992832">      </document>
        <document id="107084815504908291" url="https://twitter.com/Carmen_RRHH/status/107084815504908291">      </document>
        <document id="108611036164276224" url="https://twitter.com/Carmen_RRHH/status/108611036164276224">      </document>
        <document id="23423423423423" url="https://twitter.com/Carmen_RRHH/status/108611275851956224">      </document>
        <document id="109283650823423480806912" url="https://twitter.com/Carmen_RRHH/status/109283650880806912">        </document>
        <document id="10951489623423290488320" url="https://twitter.com/Carmen_RRHH/status/109514896290488320">     </document>
        <document id="1095159513234234355080704" url="https://twitter.com/Carmen_RRHH/status/109515951355080704">       </document>
        <document id="96252622234239511966720" url="https://twitter.com/Carmen_RRHH/status/96252629511966720">      </document>
    </documents>
</author>

是否可以获取此链接的内容并将其放入 pandas 数据框中?,知道如何完成此任务吗?提前致谢。

最佳答案

您可以访问Python,requests是一个不错的选择:

import requests
r = requests.get("https://twitter.com/Carmen_RRHH/status/106259338234048513")

r.contents # the html
<小时/>

但是,要将它们放入 pandas DataFrame 中,需要对这些内容进行结构化(如表格),这通常不会......

我建议查看 twitter api,或现有的 twitter 客户端(用于 python),例如https://github.com/bear/python-twitter ,这样你就可以干净地提取你想要的功能(到列中),而不是从 html 中修改它们。

关于python - 如何使用 python-twitter 下载 pandas dataframe 中的 url 内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28313923/

相关文章:

python - 表格上方 HTML 标题的 XPath?

python - 'charmap' 编解码器无法解码位置 33222 : character maps to <undefined> 中的字节 0x8d

python - 狮身人面像 :ivar tag goes looking for cross-references

c++ - Python C++ 扩展中的继承

Python 使用理解合并字典键和值

python-2.7 - Pandas 将每日数据转换为每周数据的新方法?

python - 在 python 中,我们可以在(其他)用户代码执行之前跟踪模块级分配吗?

python - 在没有 elasticsearch-py 的情况下将 pandas 数据框索引到 Elasticsearch

python - 将 DataFrame 分成 N 个(几乎)相等的段

python - 使用 lxml 解析奇怪结构的 XML