在数据清洗与处理的过程中,文本数据是最常见的数据类型之一。Supametas.AI 平台提供了便捷的本地文本导入功能,让用户可以快速上传和处理本地文本文件。本文将为您详细解析导入本地文本数据的各个步骤,助力您高效管理和利用文本数据。
1. 创建新任务
在数据集详情页中选择“导入数据来源”中的本地文本导入选项,点击“新建任务”按钮后,您需要为任务输入一个名称(最多20个字符)。这个名称有助于在任务列表中快速识别和管理任务。
2. 上传本地文本文件
完成任务命名后,进入文件上传阶段:
- 上传方式:
- 您可以通过拖拽文件到上传区域,或点击上传按钮选择本地文件。
- 支持文件格式:
.docx
、.pdf
、.txt
、.md
、.json
等常见文本文件格式均被支持。
- 上传数量及文件大小限制:
- 每个任务最多允许上传 50 个文件;
- 单个文件大小不得超过 200MB(部分情况下,CDN 限制可能为 100MB 左右)。
- 温馨提示:
- 请确保同一任务内上传的多个文件内容相似,这将有助于后续获取参数和输出处理的准确性。
3. 任务设置
任务设置与从网页导入任务类似,主要目的是确保系统能够正确解析并提取文本文件中的数据:
- 根据文件类型选择合适的解析方式。
- 配置相关字段,确保系统能从文件中提取标题和主要内容。
4. 获取参数
获取参数步骤是帮助系统识别并抓取文本文件中所需数据的关键环节:
- 默认字段:
- 标题: 系统会尝试自动提取文件中的标题信息;
- 内容详情: 系统将抓取并保存文件的主要文本内容。
- 自定义字段:
- 如果需要对文本中的特定数据进行分类,可启用自定义字段功能。
- 例如,若需要抓取昵称信息,可添加自定义字段(字段名称为英文,建议描述详细以提高抓取准确度)。
5. 输出设置
在获取参数后,您需要配置输出设置,决定抓取到的数据将以何种格式进行保存:
- 输出格式选择:
- 可以选择保存为 JSON 格式,方便后续通过 API 调用处理;
- 或选择 Markdown 格式,便于构建知识库和文档展示。
6. 保存或立即执行任务
最后,您有两个选项:
- 保存并稍后执行:
- 将任务配置保存到任务列表中,方便日后手动执行。
- 立即执行任务:
- 若配置无误且准备就绪,点击“立即执行任务”按钮,系统会开始处理上传的文本文件,并将提取的数据导入到指定的数据集中。
通过直观的任务创建、文件上传、参数获取和输出设置流程,使得文本数据的处理变得简单而高效。无论是批量文档管理还是单个文本文件的处理,这一功能都能助您迅速构建和优化数据集,为后续的数据清洗和多模态模型处理打下坚实基础。