Skip to main content

整理 (Curate)

整理 (Curate) 页面是执行大部分预处理工作的地方。在这里,所有源文件将被解析为大小一致的离散样本。然后,所有样本将被添加到样本列表中。本节包含两个子选项卡:源文件 (Source Files)数据样本列表 (Data Sample Lists)

  • 源文件:这是您管理项目期间收集的原始数据的地方。
  • 数据样本列表:在这里,您从可用的源文件创建更小的、精选的数据集。

当长时间收集数据时,生成的文件对于内存和处理能力有限的微控制器单元来说通常太大。这些设备旨在处理较小的、集中的数据集,使其能够仅处理发生有意义事件的关键实例。

整理 (Curate) 页面通过将大数据文件分解为更小的、可管理的部分来帮助实现这一目标。此过程确保模型可以被有效地训练以模拟现实世界的场景,优化其在受限环境中的部署性能。分解数据文件很重要,因为这些块将成为您的 ML 模型的输入。例如,如果您的数据文件长 10 秒,您可以将其分解为 10 个分段,每个分段长 1 秒。我们可以根据用例的先验知识选择这些分段的长度,或者从 1 秒的窗口长度开始并从那里进行实验。

整理页面

源文件 (Source Files)

在这里,您可以查看所有上传的数据文件及其文件名、大小、类型、上传日期、数据形状和采样率。

查看项目成员

选择 仅显示项目成员 (Show Only Project Members) 复选框以过滤显示的源文件,将视图限制为仅与项目成员关联的文件。

操作 (Actions)

操作 (Action) 下拉菜单中,您将找到以下选项:

  • 全选 (Select All): 选择列出的所有文件。
  • 取消全选 (Deselect All): 清除所有选定的文件。
  • 从所选新建列表 (New List From Selected): 使用选定的文件创建一个新列表。
  • 从所选分段列表 (Segment List From Selected): 从选定的文件创建一个分段列表。
  • 编辑元数据类型 (Edit Metadata Type): 修改选定文件的元数据类型。
  • 格式化所选 (Format Selected): 定义或更新选定文件的文件格式。
  • 移除所选 (Remove Selected): 从项目中移除选定的文件。
  • 导入元数据 (Import Metadata): 上传元数据文件以添加或更新源文件的元数据。
  • 关闭 (Close): 退出操作菜单而不进行更改。

创建分段列表

标记文件后,您可以创建一个分段列表,将数据划分为更小的、可管理的样本以进行分析和训练。请按照以下步骤有效地配置分段方法和选项。

为什么要分段?

分段在生成针对资源受限环境(例如使用微控制器 (MCU) 的环境)部署进行优化的模型方面起着至关重要的作用。这些模型旨在快速高效地处理实时数据,通常在很小的时间窗口内(例如 1 秒、500 毫秒甚至更短的持续时间)。

在实际应用中,模型需要基于短而连续的数据流而不是长且不间断的记录来进行预测。为了在训练阶段复制这种情况,原始数据被分为更小的分段。然后使用这些分段来训练模型,使其能够学习并适应在实时生产环境中将遇到的数据类型。

这种方法确保模型在实时场景中有效执行,同时在有限的处理能力和内存限制下运行。

创建分段列表的步骤

  1. 转到 操作 (Actions) > 从所选分段列表 (Segment List from Selected)
  2. 分段文件 (Segment Files) 窗口打开,显示选定用于分段的文件。
  3. 分段方法 (Segmentation Method) 下拉菜单中,选择以下方法之一:
    • 滑动 CSV 窗口 (Sliding CSV Window)
    • 能量触发 (Energy Triggered)

滑动 CSV 窗口配置

滑动 CSV 窗口 方法使用逐步滑动窗口方法在整个文件中将 CSV 数据 [数值、基于文本或时间序列数据] 划分为更小的、可管理的样本,在每一步捕获数据,直到处理完整个文件。下表总结了此方法可用的配置选项:

选项

描述

采样率 (Sample Rate)

显示将 CSV 文件解析为样本列表的固定采样率。此值在文件格式化期间是固定的。

目标 (Target)

从文件元数据中选择目标列(类型:类别)。

窗口长度 (Window Length)

窗口长度 决定了用于分段的决策窗口的大小。以行或毫秒 (ms) 为单位指定每个样本的长度。此值控制 AI 分析多少数据来对每个分段进行分类。

提示: 尝试不同的窗口长度以确定数据集的最佳配置。

偏移量 (Offset)

偏移量 指定源文件中连续样本起始点之间的间隔。以行或毫秒 (ms) 为单位输入值,以定义解析器在创建新样本窗口之前移动的距离。

50% 重叠 (50% Overlap)

  • 在连续窗口之间创建 50% 重叠的样本。
  • 确保一半的数据在相邻样本之间共享。
  • 平衡起始点变化的需求与减少冗余。

无重叠 (Non-Overlapping)

  • 创建在连续窗口之间没有共享数据的不同样本。
  • 适用于具有大量数据或较长偏移量的数据集。
  • 通常用于初始探索和训练。

所有移位 (All Shifts)

  • 一次将窗口移动一行,以创建最大数量的样本。
  • 非常适合测试最终分类器,以模拟在任意采样数据流上的性能。

高级选项

点击 高级选项 (Advanced Options) 进一步自定义分段。

选项描述
重启流式窗口 (Restart Streamed Window)在每个类别或元数据块的开头重新启动窗口。
尊重过渡 (Respect Transitions):确保处理类别或元数据块内的过渡。
类别 (Class):专门处理类别块内的过渡。
保留短窗口样本 (Keep Short Window Samples)确定如何处理文件或类别块末尾的短样本。
保留短样本 (Retain Short Samples):在输出中包含短样本。
每块 1 个 (1 per Block):每块保留一个短样本。
输出类型 (Output Type)选择如何保存分段样本:
输出到新列表 (Output to New List):为分段样本创建一个新列表。
追加到现有列表 (Append to Existing List):将解析的样本添加到现有列表。

滑动 CSV 窗口

注意

Explorer 层级有一个限制,即创建的分段列表包含的样本不得超过 7,000 个。

输出样本列表

配置分段后,在 输出样本列表 (Output Sample List) 页面上为分段样本列表提供一个名称。此字段为必填项。

操作描述
提交 (Submit)确认配置并完成该过程。

点击提交后,等待约 30 秒并刷新页面。刷新页面后,点击数据样本列表选项卡。点击该选项卡后,您应该能够看到已完成处理的列表。

注意

分段/分解此数据集需要 < 1 分钟。但是,分段的持续时间取决于数据集的大小。例如:1 GB 的文件可能需要 5-10 分钟来分段。

能量触发 (Energy triggered)

当您选择能量触发选项时,您可以根据需要配置以下设置。此分段方法特别适用于回归数据集(如基于音频的信号)。

能量触发 1

字段描述
显示/隐藏预览 (Show/Hide Preview)显示数据文件的概览,包括文件名、所选类别、触发点、捕获窗口和数据的图形表示。此功能允许您刷新预览、设置数据的起点和终点、在图形表示内平移和缩放,以及查看完整文件以进行全面分析。
采样率 (Sample Rate)设置数据采样的频率。对于能量触发事件,这会自动设置为 100 Hz 以确保准确的数据捕获。无需手动输入。此项在文件格式化期间固定。
触发通道 (Trigger Channel)确定触发检测的源。选项包括:
- 单通道 (Single):从下拉菜单中选择特定通道以监控能量触发事件
- 求和 (Sum):允许您通过数学方式组合通道(例如,和或差)以定义跨多个通道的触发条件。
- 幅度 (Magnitude):通过计算组合幅度,实现同时监控多个通道。
预处理 (Pre-Processing)配置数据归一化。选中 归一化 (Normalize) 复选框以启用此选项。这将缩放数据以确保统一性并改进样本之间的比较。
归零 (Zeroing)调整数据处理的归零方法。选项包括:
- 无 (None): 保留原始数据而不应用任何归零调整。
- 去最小值 (DeMin): 通过减去最小值来调整数据基线。
- 去均值 (DeMean): 通过减去均值将数据居中,确保分析时数据以零为中心。
零窗口 (Zero Window)指定应用归零调整的持续时间。帮助管理所选窗口内的基线漂移。输入所需的值或使用向上和向下箭头进行调整。
滤波器 (Filter)设置数据处理的滤波器类型。选项包括:
- 无 (None): 不对数据应用滤波器。
- 低通 (Low): 应用低通滤波器以去除高频噪声,保留低频进行分析。
- 带通 (Band): 应用带通滤波器以隔离指定范围内的频率,去除该频带之外的频率。
- 高通 (High): 应用高通滤波器以去除低频噪声,保留高频进行分析。
触发模式 (Trigger Mode)确定触发的模式。选项包括:
- 幅度 (Amplitude): 基于数据的幅度(信号强度)检测触发。
- 正交叉 (+ Crossing): 当信号穿过正阈值时触发。
- 负交叉 (- Crossing): 当信号穿过负阈值时触发。
- RMS: 使用均方根 (RMS) 值进行触发检测,关注信号中的总能量。
- RMS 阶跃 (RMS Step): 基于 RMS 值的阶跃变化触发。
- RMS 阶跃比 (RMS Step Ratio): 基于连续 RMS 阶跃变化的比率检测触发。
- 峰值 RMS 比 (Peak to RMS Ratio): 基于峰值信号值与其 RMS 值的比率触发,用于识别瞬态信号。
- 差分 (Diff): 基于连续数据点之间的差异检测触发。
- 符号 (Sign): 监控信号的符号(正或负)以进行触发检测。
阈值 (Threshold)指定触发事件所需的最小信号电平。输入所需的值或使用向上和向下箭头。
跨度 (Span)定义触发检测的持续时间或范围。如果在触发模式中选择了 幅度 (Amplitude)差分 (Diff)符号 (Sign),则此字段不活动。
窗口长度 (Window Length)设置用于分析的一行中的样本数。帮助控制捕获数据的分辨率。直接输入值或使用向上和向下箭头进行调整。
数据点 (Datapoints)指定所选窗口内要分析的数据点数量。输入所需的值或使用向上和向下箭头进行调整。
毫秒 (ms)以毫秒为单位定义时间分析的窗口长度。输入所需的值或使用向上和向下箭头进行调整。
捕获选项 (Capture Options)配置用于捕获数据的预触发或最小间隔值:
- 预触发 (Pre-Trigger):确定触发事件发生前捕获的数据量,有助于了解事件前的情况。
- 最小间隔 (Min Separation):确保连续触发事件之间的最小间隔,以避免捕获冗余数据。
限制每个文件的捕获数 (Limit Captures Per File)限制单个文件中存储的捕获数量,以管理文件大小并改进数据组织。选中复选框以激活此选项。

点击 继续 (Continue) 以填写更多详细信息,如下所示:

能量触发 2

字段描述
在每个类别块或元数据块的开头重新启动流式窗口位置当您选中 尊重过渡 (Respect Transitions) 复选框时,类别 (Class)元数据 (Metadata) 复选框变为可编辑状态。如果您选择 元数据,将出现一个下拉菜单,允许您指定所需的元数据。
在文件或类别块的末尾保留短窗口样本选中 保留短样本 (Retain Short Samples) 复选框以保留文件或类别块末尾的短样本。您还可以启用 每块 1 个 (1 per block) 复选框以保留每块一个短样本。
输出类型使用单选按钮在 输出到新列表 (Output to new List)追加到现有列表 (Append to existing List) 之间进行选择,以确定是创建新列表还是将结果添加到现有列表。
输出样本列表如果选择 输出到新列表,则此字段可用。输入将保存已处理样本的输出列表的名称。
目标列表如果选择 追加到现有列表,则此字段可用。从下拉菜单中选择所需的列表。

点击 提交 (Submit) 确认。

过滤源文件

  1. 点击 过滤器 (Filter) 图标打开 过滤源文件 (Filter Source Files) 页面。
  2. 使用可用的过滤器缩小搜索范围:
    • 名称 (Name): 按名称搜索文件。
    • 数据类型 (Data Type): 基于数据类型进行过滤。
    • 日期 (Date): 按文件创建或修改日期过滤。
    • 数据形状 (Data Shape): 根据数据形状缩小文件范围。
    • 采样率 (Sample Rate): 按采样率过滤。
    • 未格式化 (Unformatted): 查找尚未格式化的文件。
    • 已分配目标 (Assigned Targets): 过滤已分配目标的文件。
    • 未分配目标 (Unassigned Targets): 定位未分配目标的文件。
  3. 填写必填字段后,点击 应用 (Apply) 以过滤源文件。

定义目标类别

要为您的数据定义目标类别,您有两个选项:

  1. 在源文件中使用附加列: 上传源文件时,包含一个额外的列来指定每个数据点的标签。
  2. 使用元数据文件: 准备一个名为 metadata 的 CSV 文件,其中包含以下两列:
      • 文件名 (File Name): 您已上传的所有文件名的列表。
        • 标签类型 (Label Type): 每个文件对应的标签。

例如,如果您有 10 个“苹果”文件和 5 个“橙子”文件,请在元数据文件中相应地分配标签。

导入元数据

  1. 整理 (Curate) 页面上的 源文件 (Source Files) 选项卡中,使用 操作 (Action) > 导入元数据 (Import Metadata) 选项上传元数据文件。
  2. 将出现一个对话框,允许您拖放准备好的 CSV 文件。
  3. 从第二行下拉菜单中选择目标值 (Target Value)。保持第一行下拉菜单为文件名 (File Names)。这将根据分配的元数据标记文件。
  4. 上传后,描述性元数据将添加到源文件中。

查看目标类别

导入元数据后,展开 采样率 (Sample Rate) 行旁边的箭头。Amps 列将显示所有文件的目标类别选择。

这种方法在处理大批量文件时特别有用,因为手动向每个源文件添加附加列可能会很繁琐。

数据样本列表 (Data Sample Lists)

本节说明如何使用 输出样本列表 (Output Sample Lists),这些列表是在执行 从所选分段列表 操作后生成的。这些列表以表格格式显示,包含以下详细信息:

字段描述
列表名称 (List Name)样本列表的名称。
列表类型 (List Type)指定列表的类型,例如分类或回归。
数据形状 (Data Shape)列表中数据的形状或维度。
采样率 (Sample Rate)采集样本的速率。
N 样本 (N Samples)列表中的样本数。
目标范围 (Target Range)列表中的目标值范围。
已创建 (Created)列表创建的日期和时间。
已修改 (Modified)列表最后更新的日期和时间。
评论 (Comments)允许您添加有关数据样本列表的评论或注释。
移除 (Remove)允许您从表中删除特定的样本列表。

多视图选项

在工具栏中,选中 多视图 (Multi-view) 复选框以更有效地比较和分析列表,您可以在多个视图中显示它们。

操作 (Actions)

使用 操作 (Actions) 下拉菜单来管理样本列表。以下操作可用:

操作描述
取消全选 (Deselect All)清除所有选定的项目。
随机子集到新列表 (Random Subset to New)从所选项目的随机子集创建一个新列表。
编辑传感器组 (Edit Sensor Groups)调整选定列表的传感器分组。
转换为回归列表/分类列表 (Convert to Regression List/Convert to Classification List)将选定的分类列表转换为回归列表,反之亦然。
重新映射类别 (Remap Classes)重新分配选定列表中的类别标签。
导出到 CSV (Export to CSV)将选定的列表保存为 CSV 文件。
从 CSV 导入 (Import From CSV)上传 CSV 文件以添加或更新数据样本列表。
关闭 (Close)退出操作菜单而不进行更改。
移除所选 (Remove Selected)删除选定的数据样本列表。

过滤列表

您可以过滤样本列表以查找特定项目。

  1. 点击 过滤器 (Filter) 图标打开 过滤列表 (Filter Lists) 页面。
  2. 使用提供的选项根据以下条件过滤列表:
    • 名称 (Name): 按名称搜索列表。
    • 列表类型 (List Type): 按类型过滤列表。
    • 创建日期 (Date Created): 根据创建日期缩小列表范围。
    • 数据形状 (Data Shape): 按数据形状过滤列表。
    • 采样率 (Sample Rate): 根据采样率搜索列表。
  3. 在过滤字段中输入所需信息,然后点击 应用 (Apply) 以细化显示的列表。

分布 (Distribution)

从源文件分段创建的样本列表可用于 AI 探索、训练或测试。每一行包含取自源文件流的特定长度的特定标记样本或观测值。

点击新创建的分段列表以查看其内容。此列表显示分段数据的块或窗口。数据的直方图也应出现以进行可视化。

注意

如果分段后直方图没有立即出现,请尝试刷新页面。

您可以在 列表视图 (List View)表格视图 (Table View) 中分析选定列表的分布。

视图选项

视图描述
列表视图 (List View)类别 (Classes)计数 (Count)列表百分比 (% of List) 显示分布详情。
表格视图 (Table View)提供每个样本的详细信息,包括 样本文件 (Sample File)、数据形状 (Data Shape)、视图 (View)、目标类别 (Target Class) 下拉菜单(用于查找或创建类别)以及 排除 (Exclude)移除 (Remove) 选项

在表格视图中执行操作

  1. 选择工具栏中的 操作 (Action) 按钮。
  2. 从以下选项中选择:
操作描述
转移 (Transfer)将选定的项目转移到不同的列表。
转移到新列表 (Transfer to New List)从选定的项目创建一个新列表。
全选 (Select All)选择所有项目。
选择当前页所有 (Select All on Page)选择当前页面上显示的所有项目。
选择随机子集 (Select Random Subset)选择项目的随机子集。
取消全选 (Deselect All)清除所有选择。
为所选设置目标 (Set Target for Selected)为选定的项目分配目标类别。
排除所选 (Exclude Selected)从列表中排除选定的项目。
包含所选 (Include Selected)包含以前排除的项目。
导出到 CSV (Export to CSV)将选定的项目保存为 CSV 文件。
导入 CSV (Import CSV)从 CSV 文件导入项目。
关闭 (Close)退出操作菜单而不进行更改。
移除所选 (Remove Selected)删除选定的项目。

分布选项卡