# 将数据推送到爬虫

在开始将 url 推送到 Crawler 之前,您首先需要 在这里创建一个新的爬虫 (打开新窗口) (opens new window).

要推送 url 以被 Crawler 抓取,您必须使用 抓取 API 带有两个附加参数:

In 响应您的爬虫推送,API 将返回一个带有唯一请求标识符 RID 的 JSON 表示。 此 RID 是唯一的,将帮助您在将来的任何时候识别请求。

推送响应示例:

{ "rid": "1e92e8bff32c31c2728714d4" }

默认情况下,您每秒最多可以将 30 个 url 推送到 Crawler。

# 爬虫等待队列限制

所有 Crawler 等待队列的总和上限为 1 万页。 如果任何队列或所有队列加起来超过 1 万页,您的爬虫推送将暂时暂停,我们将通过电子邮件通知您。 一旦等待队列中的页面低于 1M 页面,爬虫推送将自动恢复。

# 发送附加数据

或者,如果您使用 callback_headers 范围。 这非常适合在您身边传递额外的数据以进行识别。

格式如下: HEADER_NAME:VALUE|HEADER_NAME_2:VALUE_2|etc. 并且必须正确编码。

标题和值的示例 MY_ID 1234, some_other 4321

&callback_headers=MY_ID%3A1234%7Csome_other%3A4321

这些标头将在 webhook 发布请求中返回。