Product Design, Manufacturing & Innovation Resources

家 » 偏见缓解处理阶段

偏见缓解处理阶段

2010

（图片仅供参考）

根据模型训练过程，算法偏差缓解技术可分为三个主要阶段。预处理方法直接修改训练数据本身（例如，重加权、重采样）。训练中方法将公平性约束直接融入模型的学习算法中。后处理方法在模型做出预测后对其进行调整，以提高预测的公平性。

这种三部分分类提供了一个结构化的框架来解决偏差问题。预处理以数据为中心，旨在模型处理数据之前创建一个“公平”的数据集。诸如重加权之类的技术会为数据点赋予不同的权重以抵消不平衡，而过采样/欠采样则会调整来自不同组的实例数量。这种方法与模型无关，但可能会改变数据的潜在分布。

处理中优化是以模型为中心的。它修改学习算法的目标函数，加入一个惩罚项来应对不公平性。例如，模型可以优化为最大化准确率，同时最小化不同组之间的错误率差异。这可以带来更集成的解决方案，但需要修改核心算法，从而降低了其灵活性。

后处理以预测为中心。它获取已训练但可能存在偏差的模型的输出，并对其进行调整以满足公平性标准。这可能涉及更改不同群体的分类阈值。由于它将模型视为黑箱，因此它是侵入性最小的方法，但可能会降低整体效用，并且显得不够严谨。阶段的选择取决于多种因素，例如能否访问训练数据、能否修改模型以及具体的公平性目标。

Algorithms, 人工智能（AI）, 机器学习, 预测性维护算法, 质量管理, 软件工程, 以使用者為中心的設計

UNESCO Nomenclature: 1203

- 计算机科学

类型

抽象系统

中断

重大的

用法

广泛使用

前体

机器学习中处理不平衡数据集的技术
数学中的约束优化方法
制定公平性指标以作为目标或约束条件
机器学习领域整体发展

应用程序

IBM 的 AIF360 工具包实现了所有这三类算法。
谷歌的“假设分析工具”，允许探索模型行为和公平性
fairlearn，一个用于评估和改进公平性的开源Python软件包
提供内置偏见检测和缓解功能的商业人工智能平台

专利：

潜在创新理念

由于机器人流量被拦截（目前每天超过 4 万），此内容仅限社区成员查看。
> 登录 > 或者 > 注册 < （100% 免费）即可访问此内容，以及所有其他受限内容和工具。

相关术语：偏差缓解、预处理、处理中、后处理、公平机器学习、重新加权、重采样、公平性约束、算法公平性、人工智能伦理。

历史背景

R 编程语言

R 是一个用于统计计算和图形处理的免费软件环境，也是 S 编程语言的一种变体。它由新西兰奥克兰大学的 Ross Ihaka 和 Robert Gentleman 创建。R 被认为是 S 的另一种实现，其语义源自 Scheme，并引入了早期 S 语言中不存在的强大功能，例如词法作用域。

综合 R 档案网络 (CRAN)

CRAN 是 R 软件、其文档以及数千个用户贡献的扩展包的主要存储库。它是一个由遍布全球的 FTP 和 Web 服务器组成的网络，用于存储相同且最新版本的 R 代码和文档。这个集中式但分布式的系统是 R 生态系统的基础，确保全球用户能够轻松访问和复制。

Agile Project Management

敏捷项目管理是一种在整个项目生命周期内交付项目的迭代方法。它将大型项目分解成更小、更易于管理的任务，并在短迭代或“冲刺”中完成。这允许频繁地重新评估、调整计划并灵活地应对变化。它优先考虑客户协作、可运行的软件以及对变化的响应，而不是详尽的文档和僵化的计划。

偏见缓解处理阶段

算法混淆

当算法使用的代理变量既与受保护属性（例如种族或性别）相关，又与目标结果相关时，就会发生算法混淆。即使受保护属性本身已明确从模型的输入数据中排除，算法仍可能无意中通过使用代理变量学习基于该受保护属性进行区分。

1993

1997-04-23

2001

2010

2020

1990

1993

1998

2010

2016

即时 (JIT) 编译

即时 (JIT) 编译是一种混合方法，兼具编译和解释的功能。JIT 编译器不是提前编译 (AOT) 代码，而是在运行时（即将执行之前）将字节码转换为本机机器码。这允许根据实际运行时行为进行动态优化，通常比纯解释执行更能提升性能。

尼尔森的可用性五要素

Jakob Nielsen 是一位著名的可用性顾问，主要从事 UI 和网页设计，他通过五个质量组件来定义可用性：易学性（用户第一次完成基本任务的难易程度如何？）、效率（用户学会后能多快完成任务？）、可记忆性（用户在一段时间不使用后能否重新获得熟练程度？）、错误（用户犯了多少错误？）和满意度（使用起来有多愉快？）。