python - 列出 import.io 中的提取器

标签 python web-crawler import.io

我想知道如何从我的 import.io 提取器中获取爬行数据(通过 GUI 手动输入的 URL 列表)。 API 文档非常稀缺,并且没有指定我发出的 GET 请求是否实际启动爬虫(并消耗我的爬虫可用运行之一)或只是查询手动启动爬虫的结果。

另外,我想知道如何获取连接器 ID,据我了解,提取器只不过是一个专门的连接器,但是当我使用 extractor_id 作为连接器 id 来查询 API 时,我得到连接器不存在。

我认为我可以在一次提取器中列出我所拥有的 URL 的一种方式是:

https://api.import.io/store/connector/_search?

_sortDirection=DESC&_default_operator=OR&_mine=true&_apikey=123...

但我得到的唯一结果是:

{ "took": 2, "timed_out": false, "hits": { "total": 0, "hits": [], "max_score": 0 } }

尽管如此,即使我能得到更完整的响应,我在文档中看到的示例结果也没有提及任何类型的列表或元素,其中包含我试图从 import.io 帐户获取的 URL。

我正在使用 python 创建此 API

最佳答案

旧版 API 不适用于任何非旧版连接器,因此您必须使用新的 Web Extractor API。不幸的是,没有这方面的文档。

幸运的是,通过一些窥探,您可以找到以下调用来列出连接到您的 apikey 的连接器:

https://store.import.io/store/extractor/_search?_apikey=YOUR_API_KEY

从这里,您检查每个命中并验证 _type 属性是否设置为 EXTRACTOR。这将使您能够访问与提取器关联的 GUID 以及您在创建提取器时为其选择的名称等。

然后,您可以执行以下操作,以 CSV 格式从提取器下载最新运行:

https://data.import.io/extractor/{{GUID}}/csv/latest?_apikey=YOUR_API_KEY

这可以在每个 Web Extractor 的集成选项卡中找到。还有其他查询。

希望这有帮助。

关于python - 列出 import.io 中的提取器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38432877/

相关文章:

xpath - 导入IO-使用XPath显示 "more"内容

python - 查找变量(读或写)

f# - 异步网络爬行 F#,出了什么问题吗?

javascript - 将 import.io 与鼠标悬停文本一起使用

java - 如何使用jsoup获取html类型的url

python-3.x - 使用 Selenium 获取 Websocket 消息或使用 python 捕获 Web 套接字消息的任何方法?

import.io - API 忽略我在 POST 上的输入

python - 从 "Today"或 "Yesterday"开始计时和在 Python 中计时的最佳方法是什么?

python - 无法 pip 安装 mysqlclient & 执行 'gcc' : Permission denied

python - 模块的源更改不生效