Une université américaine crée une IA pour détecter les discours de haine sur internet, et se rend compte qu’ils viennent principalement des “minorités”
Une nouvelle étude de l’Université Cornell révèle que certains systèmes d’intelligence artificielle créés par les universités pour identifier les “préjugés” et les “discours de haine” en ligne pourraient eux-mêmes avoir des préjugés raciaux et que leur mise en œuvre pourrait se retourner contre eux, conduisant à une surveillance excessive des voix des minorités en ligne.
Une nouvelle étude de l’université de Cornell révèle que les pratiques d’apprentissage automatique derrière l’IA, qui sont conçues pour signaler le contenu en ligne offensant, peuvent en fait “discriminer les groupes qui sont souvent la cible des abus que nous essayons de détecter”, selon l’étude.
L’étude impliquait des chercheurs qui formaient un système pour signaler les tweets contenant du “discours de haine”, de la même manière que d’autres universités développent des systèmes pour une éventuelle utilisation en ligne, en utilisant plusieurs bases de données de tweets, dont certaines avaient été signalées par des évaluateurs humains comme offensantes.
“Les résultats montrent des preuves de biais raciaux systématiques dans tous les ensembles de données, car les classificateurs ont tendance à prédire que les tweets écrits en anglais afro-américain sont abusifs à des taux sensiblement plus élevés. Si ces systèmes de détection de langage abusifs sont utilisés dans le domaine, ils auront un impact négatif disproportionné sur les utilisateurs des médias sociaux afro-américains”, poursuit le résumé.
Mais l’IA de Cornell a ajouté une autre variable non utilisée par d’autres universités. À l’aide d’une combinaison de données de recensement, de données de localisation de tweets et d’un langage spécifique à la démographie, ils ont également formé le système à quantifier les tweets qui provenaient des “blancs” ou des “noirs”. Les chercheurs ont utilisé cinq bases de données différentes de tweets potentiels de “discours de haine”. Tous les cinq ont donné les mêmes résultats: les tweets susceptibles d’être écrits par des “afro-américains” étaient beaucoup plus susceptibles d’être signalés comme offensants que ceux qui étaient susceptibles d’être émis par des “personnes blanches”.
Parallèlement au possible sur-échantillonnage des tweets des personnes “Afro-Américaines”, les chercheurs pensent que ce type de discrimination de l’IA réside dans l’erreur humaine de ceux qui font l’annotation et la classification d’origine à partir desquelles la machine apprend.
“Lorsque nous, en tant que chercheurs, ou les personnes que nous payons en ligne pour faire des annotations externalisées, regardons ces tweets et devons décider: “Est-ce haineux ou pas haineux? nous sommes susceptibles de penser que c’est quelque chose qui est offensant en raison de nos propres biais internes”, a déclaré l’auteur de l’étude Thomas Davidson. “Nous voulons que les gens qui annotent des données soient conscients des nuances du discours en ligne et soient très prudents dans ce qu’ils considèrent comme un discours de haine.”
Ces nouvelles informations peuvent être cruciales pour comprendre la capacité de ces types de systèmes à nuire et à étouffer la libre expression en ligne.
Les professeurs de l’Université de Buffalo et de l’Arizona State University ont déjà créé un système conçu pour “détecter automatiquement les préjugés dans les publications sur les réseaux sociaux”. Leur système signale les messages comme “susceptibles de propager de la désinformation et de la mauvaise volonté”.
Un projet similaire à l’Université de Californie à Berkeley utilise le même type d’IA pour créer un “indice de haine en ligne” qui pourrait aider diverses plateformes de médias sociaux à identifier et à éliminer le “discours de haine” en ligne.
Les chercheurs utilisent également l’IA pour éliminer les “fausses nouvelles”. Un système en cours de développement à l’Université de Californie, Santa Barbara cherche à aider à déterminer si les informations partagées par les individus sont “authentiques” ou “trompeuses”. Ils espèrent que leur système sera bientôt “intégré dans les navigateurs côté client”, pour rationaliser le signalement des “contenus qui provoquent la haine, l’aversion et les préjugés”.