Product Design, Manufacturing & Innovation Resources

家 » アルゴリズムの交絡

アルゴリズムの交絡

2020

Sharad Goel
Ravi Shroff
Jennifer Skeem
Christopher Slobogin

（画像はイメージです）

アルゴリズムの混同は、プロキシアルゴリズムで使用される変数は、保護対象属性（人種や性別など）および関心のある結果と相関関係にある。保護対象属性自体がモデルの入力データから明示的に除外されている場合でも、アルゴリズムはプロキシを使用することで、意図せず保護対象属性に基づいて差別することを学習してしまう可能性がある。

アルゴリズムによる交絡は、微妙ながらも強力なバイアスの原因となる。これは、機械学習モデルが、たとえ見せかけの相関関係であっても、統計的な相関関係を見つけるのに非常に優れているために生じる。 While a developer might remove a sensitive feature like ‘race’ to prevent discrimination, the model can latch onto other features that act as proxies. A classic example is the use of ZIP codes in loan applications. Due to historical residential segregation, ZIP codes can be highly correlated with race. An algorithm might learn that applicants from certain ZIP codes are higher risk, not because of their location, but because the location is a proxy for a racial group that has historically been denied loans, creating a feedback loop of discrimination.

これは従来の統計的交絡とは異なり、アルゴリズムが単に誤った方向に導かれているのではなく、データから差別的な方針を積極的に学習しているという点で特徴的です。これを特定して軽減するには、単に特徴量を削除するだけでは不十分です。多くの場合、変数間の真の関係を理解するための因果推論手法、または既知の代理変数の影響を無視するように制約できる公平性を考慮したアルゴリズムの使用が必要となります。課題は、ほぼすべての変数が何らかの形で代理変数になり得るため、完全な排除が難しいという点にあります。

アルゴリズム, 人工知能（AI）, 機械学習, リスク管理

UNESCO Nomenclature: 1203

コンピュータサイエンス

タイプ

抽象システム

混乱

増分

使用法

広く普及している

前駆物質

統計学および疫学における交絡変数の概念
差別的影響の法的原則
レッドライニングと住宅差別に関する研究
機械学習分類アルゴリズムの開発

アプリケーション

COMPASなどの公判前リスク評価ツールの監査
代理変数を考慮したバイアス検出方法の開発
レッドライニングの代理指標を回避する公正な信用スコアリングモデルの設計
交絡変数を特定し軽減することにより、自動採用システムの公平性を向上させる

特許:

潜在的なイノベーションのアイデア

ボットによるトラフィック（現在1日あたり4万件以上）を排除するため、このコンテンツはコミュニティメンバー限定となっています。
> ログイン < または > 登録 < （100%無料）でこれにアクセスできます。他のすべての制限付きコンテンツとツールも同様です。

関連キーワード：アルゴリズムの交絡、代理変数、不均衡な影響、アルゴリズムの偏り、機械学習、公平性、レッドライニング、保護対象属性、間接差別、因果推論。

歴史的背景

ソフトウェア工学におけるRプログラミング・インターフェースと統計グラフを備えたコンピュータ・ワークステーション。.

包括的Rアーカイブネットワーク（CRAN）

CRANは、Rソフトウェア、そのドキュメント、そしてユーザーが提供した数千もの拡張パッケージを収蔵する主要なリポジトリです。世界中にFTPサーバーとWebサーバーからなるネットワークで、Rコードとドキュメントの同一かつ最新バージョンを保管しています。この集中管理されつつも分散化されたシステムは、Rのエコシステムにとって不可欠であり、世界中のユーザーが容易にアクセスし、再現性を確保できる基盤となっています。

アジャイルプロジェクト管理

アジャイルプロジェクト管理とは、プロジェクトのライフサイクル全体を通してプロジェクトを遂行するための反復的なアプローチです。大規模なプロジェクトを、短い反復作業（スプリント）で完了する、より小さく管理しやすいタスクに分割します。これにより、頻繁な再評価、計画の調整、変化への柔軟な対応が可能になります。包括的なドキュメントや厳格な計画よりも、顧客との協働、動作するソフトウェア、そして変化への対応を優先します。

バイアス軽減処理段階

アルゴリズムバイアス軽減手法は、モデルの学習プロセスに関連して、主に3つの段階に分類されます。前処理手法は、学習データ自体を修正します（例：重み付けの変更、リサンプリング）。処理中手法は、公平性の制約をモデルの学習アルゴリズムに直接組み込みます。後処理手法は、モデルの予測が行われた後に、公平性を向上させるために予測を調整します。

アルゴリズムの交絡

1997-04-23

2001

2010

2020

1993

1998

2010

2016

人間とコンピュータの相互作用におけるデジタル・インターフェースを評価する参加者によるユーザビリティ・テスト・ラボ。.

ニールセンのユーザビリティの5つの構成要素

主にUIとWebデザインにおける著名なユーザビリティコンサルタントであるヤコブ・ニールセンは、ユーザビリティを5つの品質要素で定義しました。学習しやすさ（ユーザーが基本的なタスクを初めて実行するのにどれだけ簡単か？）、効率性（一度学習したタスクをどれだけ迅速に実行できるか？）、記憶しやすさ（ユーザーは使用していない期間の後でも熟練度を回復できるか？）、エラー（ユーザーはどれだけエラーを犯すか？）、満足度（使用していてどれだけ快適か？）。

ヒューマン・コンピュータ・インタラクションのソフトウェア・アプリケーションを評価するユーザーによるユーザビリティ・テスト・ラボ。.

ISO 9241-11 ユーザビリティの定義

国際規格ISO 9241-11では、ユーザビリティを「特定の使用状況において、特定のユーザーが特定の目標を効果的、効率的、かつ満足のいく形で達成するために、製品を使用できる程度」と定義しています。この定義は、ユーザビリティを3つの明確で定量化可能な要素に分解することで、純粋に主観的な評価を超え、ユーザビリティを測定するための枠組みを提供します。

R programming workspace with Tidyverse data analysis tools and ggplot2 visualizations.

R Tidyverseエコシステム

Tidyverseは、データサイエンス向けに設計されたRパッケージの集合体であり、共通の設計思想、文法、データ構造を共有しています。Hadley Wickham氏らが開発したこのパッケージ群は、データのインポート、整理、変換、可視化、モデリングのための、一貫性のある強力なツールキットを提供します。主要なパッケージには、`ggplot2`、`dplyr`、`tidyr`、`readr`などがあり、これらはパイプを使って連携して動作します。

公平性不可能性定理（機械学習）

公平な機械学習においては、不可能性定理によって、ごく些細な例外を除き、アルゴリズムが複数の一見直感的な公平性基準を同時に満たすことは数学的に不可能であることが示されています。例えば、グループ間で基本率が異なる場合、アルゴリズムは一般的に、人口統計学的均等性（グループ間で陽性率が等しいこと）と均等化されたオッズ（グループ間で真陽性率と偽陽性率が等しいこと）の両方を満たすことはできません。

（日付が不明または関連性がない場合、例えば「流体力学」などでは、その注目すべき出現時期の概算値が提示されます。）