在数据采集与处理的过程中,网页数据抓取是一项非常实用的功能。Supametas.AI 平台为用户提供了一整套网页数据抓取的解决方案,使得从新闻资讯、产品列表到各类信息采集变得简单高效。本文将详细介绍如何在 Supametas.AI 上创建并执行网页抓取任务。
1. 创建新任务
在数据集详情页中的“导入数据来源”选择从网页导入,然后点击“新建任务”按钮,开始创建一个新的网页抓取任务。
- 任务命名: 为任务输入一个不超过 20 个字符的名称,便于在任务列表中快速识别和管理。
2. 输入网页地址
在任务创建页面中,找到“URL地址”输入框,输入你需要抓取的网页链接。
- 注意事项:
- 链接必须以
http
或https
开头。 - 如果需要抓取多个网页,可选择输入包含分页的列表页地址。
- 链接必须以
3. 配置抓取内容
根据数据需求选择抓取类型:
- 列表页抓取: 系统将抓取页面中列出的所有链接及内容,适用于采集新闻目录、产品列表等。
- 详情页抓取: 系统专注于抓取特定页面的详细内容,如单篇文章或产品详情。
4. 高级设置(可选)
如果目标网页具有分页或多层级结构,建议配置高级抓取设置:
- 分页设置: 配置分页规则,系统将自动抓取所有分页数据。
- 抓取深度: 默认只抓取输入页面;如需抓取更深层级页面,可调整抓取深度(默认深度为 1)。
- 抓取频率与时间: 对于内容更新频繁的页面(如新闻列表),可设置定时抓取任务,系统将按预定频率自动执行任务。
5. 获取参数
任务创建过程中,必须配置“获取参数”以帮助系统识别网页中需要抓取的数据内容:
- 选择网页类型:
- 列表页:抓取页面中的所有列表项。
- 详情页:抓取单个页面的详细信息。
- 自定义字段: 如需抓取特定字段数据(例如昵称、标题等),可以启用自定义字段功能,输入字段名称(全英文)及详细描述,以提高数据抓取的准确度。
6. 输出设置
配置输出设置决定了抓取到的数据如何保存和后续使用:
- 输出格式: 可选择保存为 JSON 或 Markdown 格式,JSON 格式适合 API 程序调用,而 Markdown 格式便于构建知识库。
- 输出内容:
- 对于列表页抓取,可选择仅输出列表数据;
- 对于详情页抓取,或在启用抓取深度时,可选择只导出详情页数据。
7. 保存或立即执行任务
配置完成后,您有两个选择:
- 保存并稍后执行: 任务配置保存后存入任务列表,您可以在方便的时候手动启动。
- 立即执行任务: 点击“立即执行任务”按钮,系统会根据配置开始抓取网页数据,并将数据导入指定数据集。
8. 查看任务进度
任务启动后,您可以在导入页面实时查看任务进度:
- 进度监控: 显示任务状态、进度条以及详细信息;
- 错误报告: 如任务执行失败,系统会生成错误报告,帮助您快速定位问题并调整设置。
我们为用户提供了一种灵活且高效的网页数据抓取方案。不论是抓取列表页内容还是详情页数据,从任务创建到参数配置,再到输出设置和进度监控,每一步均设计得直观易用。希望本文能帮助您全面掌握网页数据抓取流程,为数据清洗和信息整合提供有力支持。