Quelques enjeux épistémologiques de l’analyse du Web et des Big Data

Synthèse et investigation sur la réalité sur les données nativement numériques directement ou indirectement produites par les actions d’utilisateurs sur des systèmes d’information.

4041
[ultimate_heading main_heading= »Quelques enjeux épistémologiques de l’analyse du Web et des Big Data » heading_tag= »h3″ spacer= »line_only » spacer_position= »bottom » line_height= »1″]

par Eglantine Schmitt

[/ultimate_heading]

Je romps enfin le silence de ce carnet dont je n’ai guère eu le temps de m’occuper ces derniers temps.  J’ai beaucoup écrit pour la thèse mais rien de tout cela n’est visible pour le moment. Voici donc une “petite” synthèse de l’un des sujets qui m’a occupée…

La cinquième édition de la conférence “Document numérique et société” avait cette année pour thème “Open data, Big data : quelles valeurs, quels enjeux ?” Comme les enjeux épistémologiques des big data faisaient explicitement partie des axes de la conférence, j’ai décidé d’y présenter où j’en était de ma réflexion sur ce point.

L’enjeu n’était donc pas de proposer un éclairage sur les enjeux politiques, éthiques et sociaux des big data, qui sont déjà largement discutés par ailleurs, mais de s’interroger sur ce qu’on entend par “donnée” et en quoi les big data ont des caractéristiques inédites par rapport au statut pour ainsi dire classique de la donnée dans les sciences. Il fallait pour cela cerner plus précisément l’expression “big data” dont la définition la plus courante (données marquées par leur volume, leur variété et leur vélocité) ne me satisfait pas. En effet, la question du volume des données est récurrente en histoire des sciences ; par exemple, en 1995, Hummon et Fararo s’émerveillent du volume de données d’enquêtes analysables, et même du fait que toutes les données disponibles puissent être analysées. Ils écrivent ainsi :

“Third, sociologists have adopted computer based data management technology.This has impacted empirical sociology in two ways. We can usefully employ far greater quantities of data, and thereby tackle data analyses beyond the scope of practicality even a few years ago. For example, desktop machines can analyze all annual surveys in the General Social Survey, from 1972 to the present; the GSS database is about 60 megabytes of data.”

Plus tôt dans le siècle, l’objet de l’histoire naturelle et de la taxonomie est de collecter et d’organiser des données sur les espèces. Ainsi, Bruno Strasser (2012) n’hésite pas à décrire ces domaines comme des sciences orientées données (data-driven sciences) à l’instar de celles qui émergeraient aujourd’hui. Il est donc difficile de considérer l’accroissement du volume de données disponibles comme un phénomène inédit dans l’histoire des sciences.

Concernant les deux autres aspects de la définition du Gartner [1] (variété et vélocité), l’étude empirique des jeux de données ou projet qualifiés de “big data” révèle que ces deux critères sont loin d’être systématiquement présents : il arrive fréquemment que les données soient seulement volumineuses, et tout à fait homogènes et pas collectées en temps réel, ni même au fil de l’eau.

J’ai donc proposé de ne pas utiliser cette définition pour mon analyse et d’investiguer en réalité sur les données nativement numériques directement ou indirectement produites par les actions d’utilisateurs sur des systèmes d’information. En ce sens, il m’est apparu que l’objet le plus caractéristique de ces aspects était le web, qui a donc été le cas précis sur lequel j’ai orienté ma contribution.

Si je ne parlais donc pas directement de big data, il est bien question en revanche de données, et j’ai voulu expliciter ce qu’on entend par là également. Plusieurs définitions sont en usage, et il est important de noter qu’elles appartiennent à des contextes disciplinaires différents :

  • en sciences, la donnée peut être :
    1. le résultat de la mesure d’un phénomène observé ou provoqué (donnée observationnelle ou donnée expérimentale). Elle est généralement enregistrée par un instrument conçu et calibré pour cela, mais d’un sophistication variable. Il y a donc en théorie un rapport causal, mécanique, entre le fait que le phénomène s’est produit et l’inscription de la donnée. L’oeil humain couplé au papier-crayon peut être considéré comme un instrument de mesure, et un accélérateur de particules l’est aussi ;
    2. le résultat d’une simulation, généralement computationnelle, c’est-à-dire effectuée par un ordinateur, bien qu’il soit parfois possible d’obtenir les résultats avec un papier et un crayon, et que certaines simulations soient analogiques ;
  • en informatique, une donnée est une information manipulable munie d’un type (selon qu’elle est un nombre ou une chaîne de caractères par exemple) et d’un format qui permet de la stocker, la reproduire et la transmettre. Comme tout objet informatique, elle n’a dans cette perspective pas de signification (elle ne “veut rien dire”) mais se caractérise par ses opérations possibles (ce qu’on “peut en fait”).

Pour qu’une donnée informatique soit aussi une donnée au sens scientifique, il faut donc qu’une valeur épistémique soit conférée à cette donnée, qu’elle soit considérée comme dotée d’un contenu sémantique préexistant ou trouvable par la manipulation ou le calcul ; elle doit d’une façon ou d’une autre être la mesure de quelque chose.

A l’inverse, lorsqu’il est question de web ou de big data, on songe bien évidemment à des données numériques, mais il est toujours bon de rappeler que toutes les données produites en sciences, et particulièrement en sciences humaines et sociales, ne sont pas forcément des données numériques, et n’auront donc pas toujours le sens qui leur est conféré en informatique.

Si la donnée numérique est bien un objet informatique, il n’est donc pas évident en revanche qu’elle puisse servir un usage scientifique. La croyance populaire qui annonce “la fin de la science” et des théories scientifiques promeut un nouvel empirisme dans lequel les big data seraient des mesures effectives du réel ; ainsi le MIT a mis à disposition un jeu de données qu’il a appelé “Reality Mining Dataset” et qui permettrait de “fouiller le réel” comme on fouillait les données en data mining.  La démarche empirique s’oppose effectivement à une démarche expérimentale, dans laquelle s’appuie nécessairement sur un dispositif d’observation qui détermine la façon dont les données sont modélisées et enregistrées ; ce dispositif repose sur le même cadre épistémologique que les hypothèses formulées, les théories mobilisées et les analyses réalisées. Dans le cas du web et des big data, l’enregistrement préexiste à la démarche épistémique, qui s’approprie les données une fois que celles-ci sont constituées.

En sciences sociales, l’enregistrement d’observations préalable à l’investigation scientifique a un nom : c’est le travail de l’archiviste. La démarche d’analyse de données issues du web pourrait ainsi s’inscrire dans le paradigme indiciaire de Ginzburg (1980) plutôt que dans l’épistémologie galiléenne des sciences de la nature. Dans ce cadre, le chercheur observe les traces, les indices, laissés par les internautes pour les étudier et les interpréter. Cependant Louise Merzeau (2013) émet plusieurs réserves par rapport à l’idée de traces numériques :

  • en principe, la trace n’est pas intentionnelle, elle est laissée à l’insu de l’individu, alors que sur le web, les messages publiés sur les réseaux sociaux par exemple sont tout à fait intentionnels ;
  • la trace est également accidentelle, alors que sur le web la donnée est toujours déjà enregistrée (même si ce n’est pas pour un usage universitaire) et l’archivage (ou du moins, une forme d’archivage) est la situation par défaut.

L’exploitation du web ne s’inscrit donc ni dans une épistémologie de la trace ni de la mesure au sens des sciences expérimentales. L’analyse de travaux scientifiques  fondés sur des données web et effectivement publiés (par opposition aux effets d’annonce diffusés par les médias sur ce que les big data feraient aux sciences) me porte à penser qu’il y a en réalité plusieurs épistémologies à l’oeuvre dans ce genre d’analyses. Certaines sont héritées de disciplines plus anciennes, et d’autres me semblent propres à un certain genre d’analyse du web.

Nommément, il me semble que le web peut occuper essentiellement trois statuts épistémiques :

  • dans les sciences pour l’ingénieur (informatique, fouille de données, intelligence artificielle…), la donnée web peut être utilisé comme matériau indifférent pour la mise au point d’outils et de techniques. Dans ce contexte, elle n’a pas de signification particulière, est utilisée par commodité parce qu’elle est facile à trouver en grande quantité, et le chercheur ne formule pas de conclusion sur ce qu’elle est supposée représenter ;
  • dans certaines sciences humaines et sociales et particulièrement celles qui s’intéressent à la médiation et au support (sciences de l’information et de la communication, mais aussi sociologie, psychologie), la donnée web sert de donnée d’observation au web lui-même ; on étudie ainsi les spécificités des comportements des internautes à travers les traces qu’ils laissent sur le web, sans les considérer comme représentatives des individus en général ;
  • enfin, dans un certain type d’investigation qui ne me semble pas rattaché à une discipline universitaire figée,  ni même propre au monde académique, la donnée web est une représentation du réel en général et sert donc de proxy à l’analyse de phénomènes qui lui sont extérieurs. C’est le cas par exemple des usages de Twitter comme moyen de prédire les cours de la bourse, les succès d’un film ou les résultats des élections. C’est cette approche spécifiquement qui me semble relativement inédite et caractéristique des big data.

Le monde serait simple si ces trois statuts possibles étaient explicités et distincts ; néanmoins ces sujets sont neufs et le regard réflexif du chercheur encore inégalement développé. Si certains travaux explicitent finement leur objet et le rapport entre celui-ci et les outils qu’ils utilisent, d’autres n’interrogent pas leur ancrage épistémologique. L’exemple typique de cette deuxième famille de travaux est celui du chercheur en informatique qui pose dogmatiquement une certaine catégorie de donnée web comme un proxy d’un phénomène hors web et n’interroge pas ce postulat dans ces résultats. Cet exemple me paraît de plus en plus fréquent, et par conséquent préoccupant, mais il mérite sans doute d’être affiné et d’autres configurations devront assurément être documentées.

Les sciences pour l’ingénieur se sont déjà, par le passé, réapproprié les objets privilégiés d’autres disciplines, donnant naissance aux sciences de la parole à partir de la phonétique (Grossetti et Boë 2008), ou au traitement automatique du langage à partir de la linguistique. Les disciplines historiques n’ont pas disparu, mais celles qui en ont émergé me semblent bien plus vivaces et mettent les premières en difficulté (en termes de prestige, de financement, de succès). Un sort semblable attend peut-être les sciences du social, à moins qu’elles ne prennent part de façon conséquente à la construction théorique et instrumentale des approches big data dans l’analyse du web.

Références

  • Ginzburg C. (1980), « Signes, traces, pistes » Racines d’un paradigme de l’indice, Le Débat, 1980/6 n° 6, p. 3-44.
  • Grossetti, M., & Boë, L.-J. (2008). Sciences humaines et recherche instrumentale : qui instrumente qui ? Revue d’anthropologie des connaissances, 2, 1(1), 97.
  • Hummon, N. P., & Fararo, T. J. (1995). The emergence of computational sociology. The Journal of Mathematical Sociology, 20(2-3), 79–87.
  • Merzeau L. (2013), “L’intelligence des traces,” Intellectica, 2013, vol. 59, no. 1, p. 1–22.
  • Strasser, B. J. (2012). Data-driven sciences: From wonder cabinets to electronic databases. Studies in History and Philosophy of Biological and Biomedical Sciences, 43(1), 85–7.

[1] Techniquement, la définition est de Doug Laney, qui travaillait chez META Group lorsqu’il l’énoncé en 2001. META Group est l’ancien nom du cabinet Gartner.

À PROPOS

Mener une thèse consacrée au web, sans le web, n’aurait pas eu de sens.

Eglantine-SchmittJe m’appelle Eglantine Schmitt et je suis doctorante en épistémologie à l’Université Technologique de Compiègne sous la direction de Bruno Bachimont, depuis 2013. Ma thèse porte sur l’utilisation des données issues du web dans la recherche en sciences sociales. Je cherche à élaborer quel est le statut propre à la donnée issue du web (par rapport à des données pré-existantes ou aux pratiques habituelles des sciences expérimentales) et comment l’instrumentation technique et algorithmique transforme cette donnée pour former des connaissances nouvelles. Je m’inscris ainsi dans le phénomène des big data, et les problématiques liées aux humanités numériques en tant qu’elles prennent le web comme objet de recherche et puisent dans celui-ci.

Source Eglantine Schmitt

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici