Name: How Data Happened
Rating: 4.16 (123 reviews)
ISBN: 9781324006732

Summary Reviews Author

Essayez l'accès complet pendant 3 jours

Débloquez l'écoute et bien plus !

Continuer

Points clés

1. Les premières statistiques servaient le pouvoir étatique et l’ordre social

À l’origine, la statistique était la connaissance de l’État et de ses ressources, sans aucune orientation quantitative particulière ni ambition d’analyse prédictive.

Les besoins de l’État ont motivé le comptage. Les origines de la statistique au XVIIIe siècle sont intimement liées à l’art de gouverner, répondant aux exigences des souverains qui cherchaient des informations sur la population, les terres et les ressources afin de gérer les impôts et mener des guerres. Cette « statistique » initiale était davantage descriptive que analytique, offrant un récit qualitatif de l’État.

Les chiffres deviennent politiques. Une « avalanche de chiffres » débute à la fin du XVIIIe siècle, alors que les États se tournent de plus en plus vers la quantification pour comprendre et gouverner leurs populations. La Constitution américaine, par exemple, institue le recensement, illustrant dès le départ la nature politique des nombres.

La physique sociale cherche l’ordre. Des figures comme Adolphe Quetelet ambitionnent de créer une « physique sociale » en utilisant des données et des outils mathématiques empruntés à l’astronomie pour déceler des régularités dans les comportements humains tels que la criminalité ou la mortalité. Son concept de « l’homme moyen » vise à comprendre la société dans son ensemble, non seulement les individus, et à promouvoir une réforme sociale graduelle, non révolutionnaire.

2. La quantification devint un outil de classement et d’eugénisme

Une race serait caractérisée par ses mesures de qualités physiques et morales, résumées dans l’homme moyen de cette race.

De la moyenne à la déviation. S’appuyant sur Quetelet, Francis Galton utilise la courbe normale non seulement pour décrire la moyenne, mais pour comprendre la variation au sein d’un groupe, cherchant à classer individus et « races » selon des traits quantifiables. Ce tournant jette les bases de la mesure et de la classification des différences humaines.

L’eugénisme vise à « améliorer » l’humanité. Galton forge le terme « eugénisme » pour désigner l’effort conscient d’améliorer les qualités héréditaires humaines, notamment au sein des « races » nationales. Il croit que le talent et le caractère sont hérités et peuvent être sélectionnés, appliquant des concepts statistiques comme la « régression » et la « corrélation » aux populations humaines.

La statistique justifie la hiérarchie sociale. Des figures telles que Karl Pearson institutionnalisent ces idées, utilisant la statistique pour défendre la nature héréditaire de l’intelligence et des traits moraux. Leur travail offre un vernis « scientifique » aux préjugés de classe et raciaux existants, influençant des politiques comme les restrictions à l’immigration et contribuant à l’idée que les problèmes sociaux proviennent d’un « mauvais stock génétique ».

3. L’application des méthodes statistiques aux politiques soulève des questions de causalité

Ce n’est pas dans les conditions de vie, mais dans la race et l’hérédité que nous trouvons l’explication du fait observé partout dans le monde, en tout temps et chez tous les peuples, à savoir la supériorité d’une race sur une autre, et de la race aryenne en particulier.

Les données utilisées pour justifier la discrimination. Les travaux de Frederick Hoffman pour Prudential Insurance utilisent la statistique pour soutenir l’infériorité inhérente des Afro-Américains, justifiant des pratiques discriminatoires telles que des tarifs d’assurance plus élevés. Bien que ses affirmations soient statistiquement erronées, elles ont eu une influence notable en fournissant une base « scientifique » aux lois et pratiques ségrégationnistes.

Corrélation versus causalité en politique. Des statisticiens comme Udny Yule appliquent de nouveaux outils tels que la régression multiple aux problèmes sociaux, cherchant à identifier les « causes » de la pauvreté. Le travail de Yule, bien que techniquement avancé, souligne la difficulté d’inférer la causalité à partir de données observationnelles, un défi toujours central en analyse de données.

Les proxys peuvent masquer la réalité. Le débat autour des statistiques sur la pauvreté révèle comment des catégories administratives (comme le « paupérisme »), utilisées comme proxys pour des phénomènes sociaux complexes (comme la « pauvreté »), peuvent aplatir la réalité et conduire à des conclusions trompeuses. Cette « réification » des abstractions demeure un danger dans l’usage des données pour les politiques et la compréhension sociale.

4. La Seconde Guerre mondiale a stimulé le calcul intensif et les méthodes secrètes

Bletchley Park en 1944 n’était pas l’organisation informelle, collégiale et huttée du mythe populaire, mais un lieu destiné à industrialiser les techniques développées par les maîtres déchiffreurs, et à créer des systèmes permettant d’appliquer leurs méthodes à des milliers de données, rapidement, par un personnel sans formation Oxbridge.

Le décryptage exigeait échelle et rapidité. La cryptanalyse durant la Seconde Guerre mondiale, notamment à Bletchley Park et dans les prédécesseurs de la NSA, nécessitait de traiter d’énormes volumes de données en temps réel pour casser les codes ennemis. Ce besoin pratique et militaire a conduit au développement de matériels informatiques spécialisés et de méthodes statistiques, souvent en marge de la statistique académique traditionnelle.

Les méthodes bayésiennes se sont révélées pratiques. Bien que dédaignées par de nombreux statisticiens académiques, les méthodes bayésiennes, qui mettent à jour les probabilités en fonction de nouvelles preuves et de croyances antérieures, se sont avérées très efficaces pour évaluer les décryptages potentiels à Bletchley Park. Cette approche pragmatique et fondée sur les données contrastait avec l’orientation plus théorique de la statistique académique.

Les agences de renseignement ont innové en infrastructures de données. Fondée en 1952, la NSA a dû faire face à des besoins sans précédent en traitement de données, finançant des travaux intensifs sur des mécanismes de stockage plus vastes et un traitement plus rapide. Ce travail secret sur la gestion de flux massifs de données a jeté les bases des technologies commerciales futures, bien que son influence soit restée cachée pendant des décennies.

5. L’intelligence artificielle initiale privilégiait la logique, non les données

On pourrait s’attendre à ce que l’analyse des données soit au cœur de ce projet. Ce ne fut pas le cas.

Les origines symboliques de l’IA. La vision initiale de l’intelligence artificielle, notamment lors de l’atelier de Dartmouth en 1956, se concentrait sur l’émulation de l’intelligence humaine par la logique, les symboles et les règles programmées dans les ordinateurs. Cette approche minimisait l’apprentissage à partir des données, le considérant comme moins central pour des tâches cognitives complexes telles que le raisonnement et la résolution de problèmes.

Contre les données et la mesure. Certaines figures influentes des sciences sociales d’après-guerre et des débuts de l’IA prônaient des approches abstraites et axiomatiques plutôt que l’accumulation et la quantification des données. Ils estimaient que la véritable compréhension et intelligence résidaient dans les théories formelles et la manipulation symbolique, non dans le traitement de données empiriques désordonnées.

Les systèmes experts butaient sur des goulots d’étranglement. Les efforts ultérieurs en IA se sont tournés vers la reproduction de l’expertise humaine spécialisée dans des « systèmes experts » en codant les connaissances expertes sous forme de règles. Cependant, la conversion des savoirs tacites en règles explicites s’est avérée difficile (« goulot d’acquisition des connaissances »), révélant les limites des approches purement symboliques sans apprentissage robuste à partir des données.

6. La collecte de données d’après-guerre s’est considérablement amplifiée, posant des défis à la vie privée

Le changement dans la variété et la concentration des relations institutionnelles avec les individus est que la tenue de registres sur les individus couvre désormais presque tout le monde et influence la vie de chacun.

Le traitement électronique des données s’est développé. Après la Seconde Guerre mondiale, les ordinateurs numériques ont permis la collecte, le traitement et le stockage à grande échelle de données sur les citoyens et consommateurs, dépassant les anciens systèmes comme les cartes perforées. Cette transition, souvent motivée par des besoins militaires et commerciaux, a nécessité d’importants investissements en infrastructures et des changements dans les pratiques organisationnelles.

Les bases de données suscitent des inquiétudes sur la vie privée. Dans les années 1970, la prolifération des bases de données gouvernementales et privées a engendré des préoccupations croissantes quant à la vie privée et au risque d’abus des informations personnelles. Des législateurs comme Goldwater et Ervin ont proposé des lois ambitieuses pour donner aux citoyens le contrôle de leurs données, conscient des dangers liés à la combinaison d’informations issues de systèmes différents.

Les protections de la vie privée sont restées limitées. Malgré ces alertes précoces, les tentatives d’adopter des lois fédérales larges protégeant la vie privée dans le secteur privé ont largement échoué aux États-Unis. Cela a laissé place à un patchwork de régulations sectorielles, permettant la collecte et l’échange libre des données personnelles, établissant ainsi la norme pour les modèles économiques intensifs en données de l’ère internet.

7. L’apprentissage automatique a privilégié la prédiction au détriment de l’interprétabilité

L’apprentissage automatique semblait bien plus ambitieux lorsqu’il décrivait le même domaine plus d’un quart de siècle plus tôt, en 1984, distinguant les objectifs étroits de la « reconnaissance de formes » de l’approche « symbolique » de l’IA.

De l’IA à la prédiction. Face aux difficultés de l’IA symbolique, un domaine connexe, l’apprentissage automatique, émerge, puisant dans la reconnaissance de formes, la statistique et les réseaux neuronaux. Ce champ se concentre de plus en plus sur la tâche pratique de faire des prédictions et classifications à partir des données, abandonnant souvent les objectifs plus larges d’émulation de la cognition humaine ou de fourniture de règles interprétables.

Les réseaux neuronaux reviennent grâce aux données et à la puissance de calcul. Malgré des revers initiaux et le scepticisme, les réseaux neuronaux connaissent un renouveau, notamment avec le développement d’algorithmes d’entraînement comme la rétropropagation et l’augmentation de la puissance de calcul. Ces modèles de « deep learning » s’avèrent de puissants prédicteurs, mais restent souvent des « boîtes noires », sans explications compréhensibles par l’humain.

L’optimisation devient la valeur clé. Le succès de l’apprentissage automatique, notamment dans des compétitions comme le Netflix Prize, consacre la précision prédictive comme principal critère de réussite. Cette focalisation sur l’optimisation des performances quantitatives, souvent au détriment de l’interprétabilité ou de la compréhension théorique, devient une caractéristique déterminante du domaine.

8. La « science des données » est née du besoin industriel d’analyse à grande échelle

Chez Facebook, nous avions le sentiment que des titres de poste comme chercheur ou analyste commercial ne suffisaient pas à décrire la diversité des tâches dans mon équipe.

L’industrie confrontée à la surcharge de données. Des entreprises comme Facebook et Google accumulent des données à un rythme sans précédent, dépassant les outils analytiques et infrastructures existants. Ce défi nécessite de nouvelles technologies comme Hadoop et MapReduce pour stocker et traiter d’énormes ensembles de données désordonnées sur des systèmes distribués.

Un nouveau rôle pour la gestion des données. Le terme « data scientist » émerge dans l’industrie pour désigner des professionnels combinant compétences en statistiques, apprentissage automatique, ingénierie logicielle et capacité pratique à nettoyer, organiser et analyser de grandes données réelles. Ce rôle privilégie la création de valeur à partir des données à grande échelle pour répondre aux besoins commerciaux.

La statistique académique accuse un retard. Alors que certains statisticiens comme John Tukey et William Cleveland plaident pour une approche plus centrée sur l’analyse des données ou la science des données, la statistique académique reste largement focalisée sur la théorie mathématique et des ensembles de données plus petits et plus propres. L’essor de la science des données dans l’industrie met en lumière un décalage entre la formation académique et les exigences du monde riche en données.

9. La quête de l’éthique des données est un terrain contesté, souvent récupéré

Ce que je vois toujours dans la littérature sur l’IA aujourd’hui, c’est « l’éthique ». J’ai envie d’étrangler l’éthique.

Les échecs éthiques ont suscité des principes. Des événements historiques comme l’étude de la syphilis de Tuskegee ont conduit au rapport Belmont, établissant des principes (respect des personnes, bienfaisance, justice) et des comités d’éthique (IRB) pour la recherche sur les sujets humains. Ce cadre a offert un modèle pour penser l’éthique appliquée en recherche.

Les entreprises technologiques adoptent l’éthique, de manière sélective. En réponse à la controverse suscitée par des études comme l’expérience de contagion émotionnelle de Facebook, les entreprises technologiques ont commencé à adopter un langage éthique et à créer des processus internes de revue, parfois présentés comme une « évolution des IRB ». Ce mouvement est souvent perçu comme une forme d’autorégulation visant à prévenir une intervention gouvernementale.

L’éthique bute sur des difficultés pratiques. Intégrer les principes éthiques dans la prise de décision des entreprises est complexe, surtout lorsqu’ils entrent en conflit avec les objectifs de profit. Les critiques dénoncent le « lavage éthique » ou le « théâtre éthique », où les entreprises privilégient l’apparence d’éthique au détriment de contraintes réelles. Les solutions techniques aux problèmes éthiques comme l’équité ou la vie privée, bien que précieuses, traitent souvent les symptômes plutôt que les structures de pouvoir sous-jacentes.

10. L’économie de l’attention et le capital-risque alimentent la persuasion basée sur les données

Dans un monde riche en informations, l’abondance d’informations signifie… une rareté de ce que l’information consomme. Ce que l’information consomme est assez évident : elle consomme l’attention de ses destinataires.

L’attention devient une ressource précieuse. À mesure que l’information devient abondante et bon marché à distribuer, l’attention humaine devient la ressource rare, créant une « économie de l’attention ». Cela rencontre l’industrie publicitaire existante, qui cherche de nouvelles façons de capter et monétiser cette attention, passant des médias de masse à Internet.

Les plateformes web optimisent l’engagement. L’essor du Web 2.0 et du contenu généré par les utilisateurs produit une masse considérable de matériel, que des plateformes comme Google et Facebook organisent et présentent via des algorithmes. Ces derniers sont de plus en plus optimisés pour des indicateurs comme le « temps de visionnage » ou « l’engagement », corrélés aux revenus publicitaires.

Le capital-risque accélère la disruption. Le financement par capital-risque permet aux entreprises internet de croître rapidement et d’acquérir d’immenses bases d’utilisateurs avant d’établir des modèles de revenus rentables. Ce « blitzscaling » permet aux entreprises riches en données de dominer rapidement les marchés, s’appuyant souvent sur des effets de réseau où plus d’utilisateurs génèrent plus de données, conduisant à de meilleurs produits et à une croissance accrue.

11. L’avenir des données est un affrontement instable des pouvoirs

La société civile peut aussi jouer un rôle important [en plus] des deux autres piliers de la société — gouvernement et entreprises.

Le pouvoir des entreprises domine les données. Les grandes entreprises technologiques détiennent un pouvoir immense sur les données, contrôlant d’énormes ensembles de données et l’infrastructure d’analyse. Leurs modèles économiques, souvent basés sur la publicité de surveillance et l’optimisation de l’engagement, orientent l’usage des données et le développement technologique.

Le pouvoir étatique cherche à réguler. Les gouvernements tentent de plus en plus de freiner le pouvoir des entreprises par la régulation, bien qu’ils soient souvent confrontés à des lois obsolètes et au lobbying. Les efforts incluent des actions antitrust, des réglementations sur la vie privée (comme le RGPD et le CCPA) et la réévaluation de protections juridiques telles que la Section 230.

Le pouvoir citoyen crée des frictions. Les individus et l’action collective, au sein des entreprises (activisme des employés, syndicalisation) et à l’extérieur (boycotts de données, groupes de défense), constituent un contrepoids essentiel au pouvoir des entreprises et de l’État. Ces efforts, souvent progressifs, introduisent des frictions et poussent à des changements de normes, lois et pratiques pour aligner l’usage des données avec la justice et les valeurs démocratiques.

Dernière mise à jour: May 12, 2025

Report Issue

Résumé des avis

3.54 sur 5

Moyenne de 467 évaluations de Goodreads et Amazon.

How Data Happened suscite des avis partagés, avec une note moyenne de 3,57 sur 5. Les lecteurs saluent l’ampleur ambitieuse de l’ouvrage ainsi que ses éclairages historiques, mais reprochent son organisation et son style d’écriture. Beaucoup le jugent répétitif et dense, ce qui complique sa lecture. La version audio, en particulier, est considérée comme difficile à suivre en raison des contenus mathématiques. Parmi les points positifs, on relève des passages historiques fascinants, des réflexions éthiques pertinentes et un travail de recherche approfondi. Certains recommandent de privilégier la version imprimée plutôt que l’audio, et conseillent de consulter les notes de bas de page pour accéder à des ressources complémentaires.

Want to read the full book?

Amazon Kindle Audible

À propos de l'auteur

Chris Wiggins est professeur à l’université de Columbia et co-auteur de l’ouvrage « How Data Happened ». Spécialiste en science des données, il possède une expertise approfondie tant sur l’histoire que sur les applications de ce domaine. Wiggins apporte à ce livre une rigueur académique et un savoir approfondi, nourris par son expérience d’enseignant d’un cours très apprécié à Columbia. Son parcours, à la fois universitaire et pratique, lui permet d’éclairer les aspects techniques de l’analyse des données tout en en soulignant les répercussions plus larges sur la société. Son travail vise à rendre accessibles des concepts complexes liés aux données, sans jamais sacrifier la rigueur scientifique.

People love SoBrief

Join our global community of 600,000+ readers

★★★★★

This site is a total game-changer. I've been flying through book summaries like never before. Highly, highly recommend.

— Dave G

Worth my money and time, and really well made. I've never seen this quality of summaries on other websites. Very helpful!

— Em

Highly recommended!! Fantastic service. Perfect for those that want a little more than a teaser but not all the intricate details of a full audio book.

— Greg M

Compare Features	Free	Pro
📖 Read Summaries Read unlimited summaries. Free users get 3 per month
🎧 Listen to Summaries Listen to unlimited summaries in 40 languages	—
❤️ Unlimited Bookmarks Free users are limited to 4	—
📜 Unlimited History Free users are limited to 4	—
📥 Unlimited Downloads Free users are limited to 1	—