A l’occasion de la conférence Strata Data qui se déroulait fin septembre à New York, la chercheuse danah boyd (@zephoria), l’auteure de C’est compliqué (dont paraît ces jours la traduction d’un autre livre coécrit avec Mimi Ito et Henry Jenkins, Culture participative) a, comme toujours, livré une présentation remarquable (extrait en vidéo) sur la fragilité des données à l’heure de leur analyse massive.
La manipulation des médias a toujours existé et le numérique l’a certainement favorisé en rendant poreuse la frontière entre la propagande et le marketing, rappelle-t-elle en pointant vers le rapport publié par Data&Society en mai 2017, l’Institut de recherche dont elle est la fondatrice et la présidente (blog, @datasociety). Mais l’enjeu n’est pas de nous expliquer ce qui s’est déjà passé ou ce qui se passe actuellement, que de regarder ce qui s’annonce. A l’heure du Big data et de l’intelligence artificielle, si nous pensons que la donnée peut et doit être utilisée pour informer les gens et alimenter la technologie, alors nous devons commencer à construire l’infrastructure nécessaire pour limiter la corruption, les biais et l’abus de données. Nous devons reconsidérer la sécurité dans un monde de données.
Les moteurs de recherche et les médias sociaux sont devenus les cibles préférées de la manipulation. Un petit jeu auquel tout le monde s’amuse désormais. Depuis les premiers Google Bombing, les gens ont appris par la pratique à rendre les contenus viraux et à détourner les systèmes. Ils ont développé des pratiques stratégiques de manipulation de l’attention qui ont pu avoir des conséquences graves à l’image du pizzagate, qui a été produit par un large réseau de gens cherchant à jouer de l’écosystème d’information et à créer des « effets boomerang » où la contestation et la vérification servent avant tout de canaux d’amplification de la manipulation. Les manipulateurs cherchent à ouvrir la fenêtre d’Overton, c’est-à-dire la gamme des idées acceptables par l’opinion publique.
Reste, constate la chercheuse, que jusqu’à présent, les attaques des systèmes algorithmiques, si elles ont parfois été massives, sont restées assez « manuelles ». Or, c’est cela qui risque de changer.
Entraîner un système d’apprentissage nécessite beaucoup de données. Le problème, outre ce besoin insatiable et massif, c’est que toutes les données sont biaisées, explique la chercheuse en pointant par exemple vers une étude qui a observé les biais d’ImageNet, une base de données d’images, montrant par exemple que les systèmes d’apprentissage automatisés répliquent les biais des humains, classant plus facilement les objets selon leurs formes que selon leurs couleurs. Latanya Sweeney (@latanyasweeney), elle, a montré que la publicité proposée par Google changeait selon la connotation ethnique des noms des utilisateurs soulignant par là que le moteur a tendance à amplifier le racisme à l’oeuvre aux Etats-Unis. Pour danah boyd, adresser les problèmes de biais culturels implicites et explicites des données va constituer un énorme défi pour ceux qui cherchent à construire des systèmes.
Lire la suite : Technologie : comment les données peuvent être manipulées