我有兴趣为我正在进行的系统文献综述自动化以下过程。
我有大量致病因子列表,我想对医学文献进行批量搜索,并返回我从每种错误类型中获得的结果数量,然后将这些结果放入一个漂亮的 CSV 文件中,以便我可以阅读它们进入 R 并处理一些统计数据/频率分布等。
我可以使用 Excel 工作表和 CTRL C + CTRL V 来完成这一切,但这需要一些时间。
基本上我需要某种方式来与OvidSP交谈它托管我要搜索的数据库,然后输入格式正确的字符串以进行我想要进行的精确搜索。然后让 OvidSP 为我运行搜索,并返回它获得的命中数。我想如果他们有可用的 API,这会很容易 - 我已经直接给他们发了电子邮件。
我想知道是否有人认为这是可能的,或者什么是为此任务编写脚本的最佳方式。我有一些 Java、C++ 经验并开始学习 R - 我还想知道 Python 是否有用?
这是我希望实现的快速说明
我想搜索的错误(可以通过 CSV 文件输入程序)
* 沙门氏菌
*大肠杆菌
* 流感
在此处插入花式程序,该程序使用我的凭据连接到 Ovid 并运行以下搜索
1 - 沙门氏菌 AND 发烧 AND 医院 - 返回 9342 个结果
2 - E. coli AND fever AND hospital - 返回 93821 个结果
3 - Influenza AND fever AND hospital - 返回 323 个结果
程序将这些数据写入格式良好的 CSV 文件中,我可以将其用于某些统计数据
我希望这是有道理的!提前致谢。
最佳答案
这在原则上是可行的,主要问题将是解析返回数据(可能很难,也可能很容易)和身份验证(可能不难,但取决于其站点的结构)。
您要查看的 python 模块是 urllib2 (对于请求),csv (对于 csv)和 beautifulSoup .
用 Python 编写此代码的好处在于,您可以交互式地探索返回的 html(在 python shell 中),因此可以更轻松地弄清楚如何从 html 中提取少量有趣的数据回来。
关于python - 在网站上运行搜索并返回结果的脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11125855/