常见问题解答 (Frequently Asked Questions)
1. 如何阅读 混淆矩阵 (confusion matrix)?
混淆矩阵 是一种评估已训练分类器性能的工具。以下是如何解释它:
- 矩阵布局
- 行 代表 预测类别 (predicted class)——已训练分类器对样本的预测结果。
- 列 代表 实际类别 (actual class)——源数据中分配给样本的标签。
- 关键要素
- 对角线(蓝色阴影):代表 真阳性 (true positives) 和 真阴性 (true negatives),即模型正确预测了类别。
- 真阳性:模型正确预测正类。
- 真阴性:模型正确预测负类。
- 白色单元格(非对角线):代表 假阳性 (false positives) 和 假阴性 (false negatives),表示错误分类。在多类模型中,这些单元格突出显示特定的类别混淆。
- 对角线(蓝色阴影):代表 真阳性 (true positives) 和 真阴性 (true negatives),即模型正确预测了类别。
- 边际信息
- 底行(类别边际):显示每个类别的准确率(绿色)和错误率(红色)。
- 右下角:显示模型的总体准确率(绿色)和总体错误率(红色)。
- 轴标签的相关性
- X 轴上的数字对应于 Y 轴上的类别标签。例如,如果 Y 轴上是“fan-balance (1)”,则 X 轴上的“1”代表同一类别。
- 数据表示
- 矩阵中的每个数字对应于第 3.4 和 3.6 节中所示直方图的数据段或数据块。
2. 什么样的 混淆矩阵 才是好的?
理想情况下,好的 混淆矩阵 在白色单元格中的数字尽可能小(表示最少的错误分类或错误预测)。
注意
混淆矩阵 提供了关于模型优势和可能存在问题的领域的宝贵见解,帮助您进一步完善分类器。
3. 我应该如何解释复杂性数字?
复杂性数字可以帮助您衡量模型在 MCU/MPU 上的资源消耗。这些数字不是最终的,因为模型仍然可以优化。例如:在前面的第 3.9 节中,我们看到大多数重要的频带位于决策重要性图上的 < 50 Hz 范围内。知道了这一点,我们可以使用滤波器在特征计算中仅使用 < 50 Hz 的频率并节省资源(乘法运算)。
注意
如果您在项目创建阶段预选了目标处理器,那么排名靠前的模型将是适合该处理器的模型——这意味着模型的资源消耗将落在该目标处理器的可用资源范围内。
4. 什么是一对一分类策略?
一对一 (One-vs-One) 分类策略用于机器学习模型,特别是多类分类任务。在这种方法中:
- 为数据集中的每对类别训练一个单独的二元分类器。
- 例如,如果有三个类别(A、B、C),模型训练三个分类器:一个用于 A 对 B,一个用于 A 对 C,一个用于 B 对 C。
- 在预测期间,模型评估所有成对分类器,并根据投票机制或其他聚合策略确定最终类别。
此策略有助于将复杂的多类问题分解为更简单的二元分类任务,使决策结构更容易解释。