Product Design, Manufacturing & Innovation Resources

Hogar » Confusión algorítmica

Confusión algorítmica

2020

Sharad Goel
Ravi Shroff
Jennifer Skeem
Christopher Slobogin

(Imagen generada únicamente con fines ilustrativos)

La confusión algorítmica se produce cuando un apoderado Una variable utilizada por un algoritmo está correlacionada con un atributo protegido (como la raza o el sexo) y también con el resultado de interés. El algoritmo puede aprender inadvertidamente a discriminar en función del atributo protegido utilizando el proxy, incluso si el propio atributo protegido se excluye explícitamente de los datos de entrada del modelo.

Algorithmic confounding is a subtle but powerful source of bias. It arises because machine learning models are exceptionally good at finding statistical correlations, even spurious ones. Si bien un desarrollador podría eliminar una característica sensible como la raza para prevenir la discriminación, el modelo puede basarse en otras características que actúan como indicadores indirectos. Un ejemplo clásico es el uso de códigos postales en las solicitudes de préstamos. Debido a la segregación residencial histórica, los códigos postales pueden estar altamente correlacionados con la raza. Un algoritmo podría aprender que los solicitantes de ciertos códigos postales representan un mayor riesgo, no por su ubicación, sino porque la ubicación es un indicador indirecto de un grupo racial al que históricamente se le han negado préstamos, creando así un círculo vicioso de discriminación.

Esto es distinto de la confusión estadística tradicional, porque el algoritmo no sólo está siendo engañado, sino que está aprendiendo activamente una política discriminatoria a partir de los datos. Identificar y mitigar esta situación requiere algo más que la simple eliminación de características. A menudo implica técnicas de inferencia causal para comprender las verdaderas relaciones entre variables, o el uso de algoritmos que tengan en cuenta la imparcialidad y que puedan ser limitados para ignorar la influencia de variables sustitutivas conocidas. El reto reside en el hecho de que casi cualquier variable puede ser en cierta medida un proxy, lo que dificulta su eliminación completa.

Algorithms, Artificial Intelligence (AI), Aprendizaje automático, Gestión de riesgos

UNESCO Nomenclature: 1203

Ciencias de la computación

Tipo

Sistema abstracto

Ruptura

Incremental

Uso

Uso generalizado

Precursores

concept of confounding variables in statistics and epidemiology
legal doctrine of disparate impact
research on redlining and housing discrimination
development of machine learning classification algorithms

Aplicaciones

auditing of pre-trial risk assessment tools like COMPAS
development of proxy-aware bias detection methods
design of fair credit scoring models that avoid redlining proxies
improving fairness in automated hiring systems by identifying and mitigating confounding variables

Patentes:

Ideas para posibles innovaciones

Debido al bloqueo del tráfico generado por bots, que actualmente supera los 40.000 al día, este contenido está reservado para los miembros de la comunidad.
> Iniciar sesión < o > Registrarse < (100% gratis) para acceder a esto, al igual que a todo el demás contenido y herramientas restringidos.

Relacionado con: confusión algorítmica, variable indirecta, impacto dispar, sesgo algorítmico, aprendizaje automático, equidad, exclusión social, atributos protegidos, discriminación indirecta, inferencia causal.

Contexto histórico

Estación de trabajo informática con interfaz de programación R y gráficos estadísticos en ingeniería de software.

La Red Integral de Archivos R (CRAN)

CRAN es el repositorio principal del software R, su documentación y miles de paquetes de extensión aportados por los usuarios. Se trata de una red de servidores FTP y web en todo el mundo que almacena versiones idénticas y actualizadas del código y la documentación de R. Este sistema centralizado, pero distribuido, es fundamental para el ecosistema de R, ya que garantiza un fácil acceso y reproducibilidad para usuarios de todo el mundo.

Gestión ágil de proyectos

La gestión ágil de proyectos es un enfoque iterativo para la ejecución de proyectos a lo largo de su ciclo de vida. Divide los proyectos grandes en tareas más pequeñas y manejables que se completan en iteraciones cortas o sprints. Esto permite la reevaluación frecuente, la adaptación de planes y la flexibilidad ante los cambios. Prioriza la colaboración con el cliente, el software funcional y la respuesta al cambio por encima de la documentación exhaustiva y los planes rígidos.

Científicos de datos colaboran en técnicas de mitigación de sesgos en inteligencia artificial.

Etapas del procesamiento de mitigación de sesgos

Algorithmic bias mitigation techniques are categorized into three main stages relative to the model training process. Pre-processing methods modify the training data itself (e.g., reweighing, resampling). In-processing methods incorporate fairness constraints directly into the model's learning algorithm. Post-processing methods adjust the model's predictions after they have been made to improve fairness.

Confusión algorítmica

1997-04-23

2001

2010

2020

1993

1998

2010

2016

Laboratorio de pruebas de usabilidad con participantes que evalúan interfaces digitales en la interacción persona-ordenador.

Los cinco componentes de usabilidad de Nielsen

Jakob Nielsen, un destacado consultor de usabilidad en UI y diseño web principalmente, definió la usabilidad a través de cinco componentes de calidad: Capacidad de aprendizaje (¿qué tan fácil es para los usuarios realizar tareas básicas la primera vez?), Eficiencia (¿qué tan rápido pueden realizar las tareas una vez aprendidas?), Memorabilidad (¿pueden los usuarios restablecer la competencia después de un período de no usarlo?), Errores (¿cuántos errores cometen los usuarios?) y Satisfacción (¿qué tan agradable es de usar?).

Laboratorio de pruebas de usabilidad donde los usuarios evalúan aplicaciones de software en la interacción persona-ordenador.

Definición de usabilidad según ISO 9241-11

La norma internacional ISO 9241-11 define la usabilidad como el grado en que un producto puede ser utilizado por usuarios específicos para alcanzar objetivos específicos con eficacia, eficiencia y satisfacción en un contexto de uso específico. Esta definición proporciona un marco para medir la usabilidad, desglosándola en tres componentes distintos y cuantificables, yendo más allá de las evaluaciones puramente subjetivas.

Espacio de trabajo de programación R con herramientas de análisis de datos Tidyverse y visualizaciones ggplot2.

El ecosistema R Tidyverse

Tidyverse es una colección de paquetes de R diseñados para la ciencia de datos que comparten una filosofía de diseño, una gramática y estructuras de datos subyacentes. Desarrollado por Hadley Wickham y otros, proporciona un conjunto de herramientas consistente y potente para la importación, ordenación, transformación, visualización y modelado de datos. Entre los paquetes clave se incluyen `ggplot2`, `dplyr`, `tidyr` y `readr`, que se integran mediante tuberías.

Equipo de científicos de datos analizando métricas de equidad en aprendizaje automático.

Teorema de imposibilidad de equidad (aprendizaje automático)

In fair machine learning, impossibility theorems demonstrate that it is mathematically impossible for an algorithm to satisfy multiple, seemingly intuitive fairness criteria simultaneously, except in trivial cases. For example, an algorithm cannot generally satisfy both demographic parity (equal positive rates across groups) and equalized odds (equal true positive and false positive rates across groups) if the base rates differ between groups.

(Si la fecha es desconocida o no es relevante, por ejemplo "mecánica de fluidos", se proporciona una estimación redondeada de su aparición notable)