Product Design, Manufacturing & Innovation Resources

집 » 알고리즘적 혼란

알고리즘적 혼란

2020

Sharad Goel
Ravi Shroff
Jennifer Skeem
Christopher Slobogin

(설명을 위한 생성된 이미지입니다)

알고리즘적 혼란은 다음과 같은 경우에 발생합니다. 대리 알고리즘에서 사용되는 변수는 인종이나 성별과 같은 보호 대상 속성뿐만 아니라 관심 결과와도 상관관계가 있습니다. 보호 대상 속성 자체가 모델의 입력 데이터에서 명시적으로 제외되었더라도, 알고리즘은 대리 변수를 사용함으로써 의도치 않게 해당 보호 대상 속성을 기반으로 차별하는 법을 학습할 수 있습니다.

알고리즘적 교란은 미묘하지만 강력한 편향의 원인입니다. 이는 머신러닝 모델이 통계적 상관관계, 심지어 허위 상관관계까지도 찾아내는 데 매우 뛰어나기 때문에 발생합니다. While a developer might remove a sensitive feature like ‘race’ to prevent discrimination, the model can latch onto other features that act as proxies. A classic example is the use of ZIP codes in loan applications. Due to historical residential segregation, ZIP codes can be highly correlated with race. An algorithm might learn that applicants from certain ZIP codes are higher risk, not because of their location, but because the location is a proxy for a racial group that has historically been denied loans, creating a feedback loop of discrimination.

이는 알고리즘이 단순히 잘못된 정보에 현혹되는 것이 아니라, 데이터로부터 차별적인 정책을 적극적으로 학습한다는 점에서 기존의 통계적 교란 요인과는 구별됩니다. 이러한 문제를 식별하고 완화하려면 단순히 특징을 제거하는 것 이상의 노력이 필요합니다. 변수 간의 진정한 관계를 파악하기 위한 인과 추론 기법이나, 알려진 대리 변수의 영향을 무시하도록 제약할 수 있는 공정성 인식 알고리즘을 사용하는 경우가 많습니다. 문제는 거의 모든 변수가 어느 정도 대리 변수의 역할을 할 수 있다는 점이며, 이 때문에 완전한 제거가 어렵다는 것입니다.

알고리즘, 인공지능(AI), 머신러닝, 위험 관리

UNESCO Nomenclature: 1203

컴퓨터 과학

유형

추상 시스템

분열

점진적

용법

널리 사용됨

전구체

통계학 및 역학에서 교란변수의 개념
차별적 영향에 관한 법률 이론
레드라이닝과 주택 차별에 관한 연구
머신러닝 분류 알고리즘 개발

응용 프로그램

COMPAS와 같은 재판 전 위험 평가 도구에 대한 감사
프록시 인식 편향 탐지 방법 개발
차별적 대리 지표를 피하는 공정한 신용 평가 모델 설계
자동화된 채용 시스템의 공정성을 향상시키기 위해 교란 변수를 식별하고 완화하는 방법

특허:

잠재적 혁신 아이디어

현재 하루 4만 건이 넘는 봇 트래픽을 차단하기 위해 이 콘텐츠는 커뮤니티 회원만 이용할 수 있습니다.
> 로그인 < 또는 >등록 < 이 콘텐츠를 비롯한 모든 제한된 콘텐츠와 도구는 (100% 무료로) 이용할 수 있습니다.

관련 개념: 알고리즘적 혼란, 대리 변수, 불균형적 영향, 알고리즘적 편향, 기계 학습, 공정성, 레드라이닝, 보호 대상 속성, 간접 차별, 인과 추론.

역사적 맥락

Computer workstation with R programming interface and statistical graphs in software engineering.

종합 R 아카이브 네트워크(CRAN)

Agile project management meeting with diverse team in modern office.

애자일 프로젝트 관리

애자일 프로젝트 관리는 프로젝트 수명 주기 전반에 걸쳐 반복적인 방식으로 프로젝트를 수행하는 접근법입니다. 대규모 프로젝트를 더 작고 관리하기 쉬운 작업으로 나누어 짧은 기간(스프린트) 동안 완료합니다. 이를 통해 빈번한 재평가, 계획 조정, 그리고 변화에 대한 유연한 대응이 가능합니다. 애자일 프로젝트 관리는 포괄적인 문서화와 경직된 계획보다는 고객 협업, 작동하는 소프트웨어, 그리고 변화에 대한 대응을 우선시합니다.

편향 완화 처리 단계

알고리즘 편향 완화 기법은 모델 학습 과정의 단계에 따라 크게 세 가지로 분류됩니다. 전처리 단계에서는 학습 데이터 자체를 수정합니다(예: 가중치 재조정, 재샘플링). 처리 단계에서는 공정성 제약 조건을 모델의 학습 알고리즘에 직접 통합합니다. 후처리 단계에서는 모델의 예측 결과를 조정하여 공정성을 향상시킵니다.

알고리즘적 혼란

1997-04-23

2001

2010

2020

1993

1998

2010

2016

Usability testing lab with participants evaluating digital interfaces in human-computer interaction.

닐슨의 사용성 5가지 구성 요소

UI 및 웹 디자인 분야에서 저명한 사용성 컨설턴트인 야콥 닐슨은 사용성을 다섯 가지 품질 구성 요소로 정의했습니다. 학습 용이성(사용자가 기본 작업을 처음 수행할 때 얼마나 쉬운가?), 효율성(학습 후 작업을 얼마나 빠르게 수행할 수 있는가?), 기억 용이성(사용자가 일정 기간 사용하지 않은 후에도 숙련도를 회복할 수 있는가?), 오류(사용자가 얼마나 많은 오류를 범하는가?), 만족도(사용하는 것이 얼마나 즐거운가?)가 그것입니다.

Usability testing lab with users evaluating software applications in human-computer interaction.

ISO 9241-11 사용성 정의

국제 표준 ISO 9241-11은 사용성을 "특정한 사용자가 특정 사용 환경에서 특정 목표를 효과적이고 효율적이며 만족스럽게 달성하기 위해 제품을 사용할 수 있는 정도"로 정의합니다. 이 정의는 사용성을 세 가지 명확하고 정량화 가능한 구성 요소로 나누어 측정하는 프레임워크를 제공함으로써, 순전히 주관적인 평가를 넘어섭니다.

R programming workspace with Tidyverse data analysis tools and ggplot2 visualizations.

R Tidyverse 생태계

Tidyverse는 데이터 과학을 위해 설계된 R 패키지 모음으로, 공통된 설계 철학, 문법 및 데이터 구조를 공유합니다. Hadley Wickham을 비롯한 개발자들이 만든 Tidyverse는 데이터 가져오기, 정리, 변환, 시각화 및 모델링을 위한 일관되고 강력한 도구를 제공합니다. 주요 패키지로는 `ggplot2`, `dplyr`, `tidyr`, `readr` 등이 있으며, 이들은 파이프 연산자를 사용하여 함께 사용할 수 있습니다.

공정성 불가능성 정리 (기계 학습)

공정한 머신러닝에서 불가능성 정리는 아주 사소한 경우를 제외하고는 알고리즘이 여러 가지 직관적으로 보이는 공정성 기준을 동시에 만족시키는 것이 수학적으로 불가능하다는 것을 보여줍니다. 예를 들어, 집단 간 기본 비율이 다른 경우 알고리즘은 일반적으로 인구통계학적 균형(집단 간 양성률 동일)과 균등화된 확률(집단 간 참양성률 및 거짓양성률 동일)을 동시에 만족시킬 수 없습니다.

(날짜를 알 수 없거나 관련이 없는 경우, 예를 들어 "유체역학"의 경우, 주목할 만한 등장 시기를 대략적으로 추정하여 제공합니다.)