Análisis cuantitativos

Publié par Hamelin de Guettelet le mardi 9 juin 2009

José Felipe Ortega Soto nous donne une analyse quantitative de Wikipédia dans sa thèse de doctorat Wikipedia : A quantitative analysis faite à l'Universidad Rey Juan Carlos, Escuela Técnica Superior de Ingenieriá de Telecomunicación sous la direction de Jesús M. González Barahona. Dans cette étude Ortega Soto apporte une réponse à sept questions :
  • Comment la communauté des auteurs évoluent avec le temps dans les dix plus importantes Wikipédias ?
  • Quelle est la répartition du contenu et des pages dans les dix plus importantes Wikipédias ?
  • Comment la coordination entre les auteurs évolue au fil du temps dans les dix plus importantes Wikipédias ?
  • Quels sont les paramètres clés qui définissent la structure sociale et la stratification des auteurs de Wikipédia ?
  • Quelle est la durée de vie moyenne des auteurs bénévoles dans le projet Wikipédia ?
  • Peut-on identifier des mesures quantitatives de base pour décrire la réputation des auteurs et la qualité des articles de Wikipédia ?
  • Est-il possible d'inférer, à partir des données historiques précédentes, toutes les conditions de durabilité affectant les dix plus importantes Wikipédias en temps voulu ?

Pour venir à bout des masses importantes de données à recueillir et à analyser, Ortega Soto a créé un logiciel spécifique WikiXRay qu'il met à disposition des autres chercheurs intéressés par Wikipédia. Dans ses premiers objectifs, il voulait aussi assigner à ce logiciel la construction d'un référentiel public pré-compilé d'informations quantitatives pour chacune des versions linguistiques de Wikipédia, base de données qui serait ainsi prête à être utilisé par tous les chercheurs ; mais cet objectif là n'a pas encore été rempli.

Quoi qu'il en soit, en reprenant l'ordre des questions posées, cette thèse met en évidence un certain nombre de fait qui portent à réflexion :
  • le nombre mensuel de contributeurs actifs a atteint un état stable aux environs de l'été 2006, et clairement, sans évolution positive en 2007, dernière année disponible dans les échantillons de données. Cela entraine comme conséquence, la même stabilité du nombre mensuel des contributions effectuée au cours de la même période. La même stabilité a été trouvé dans le nombre mensuel de contributions réalisée par les IPs.
    Enfin, en regardant la part mensuelle des contributions des bots dans chaque Wikipédia, l'auteur a trouvé des indications intéressantes sur la stratégie suivie par chaque version linguistique pour augmenter la couverture encyclopédique. Par exemple, les Wikipédias en polonais et en néerlandais enregistrent un taux très élevé de contributions des bots à de nombreuses périodes de leurs histoires respectives, influant ainsi, par la suite, sur la composition de l'ensemble des pages-articles de ces Wikipédias et sur les contributions y afférentes.
  • Le nombre mensuel d'articles actifs dans toutes les versions linguistiques étudiées présente un même état d'équilibre déjà mis en évidence dans le nombre mensuel des contributeurs actifs. En ce qui concerne les pages de redirection c'est aussi la même stabilisation.
    L'évolution de la répartition de la longueur des articles a montré que les courbes ont tendance à devenir plus lisse au fil du temps. Les exceptions les plus notables sont les Wikipédias en allemand et en suédois, qui ont toujours présenté une courbe plate pour toutes leurs années d'activité (même dès les premières années).
    Enfin, il est possible de montrer que la longueur des articles présente une corrélation positive avec le nombre des contributeurs différents dans chaque article, bien que la relation ne soit pas très serré, puisque le plus long article dans chacune des Wikipédias présentent généralement proportionnellement un faible nombre de contributeurs distincts.
  • Le nombre mensuel de contributions sur les pages de discussion par les contributeurs enregistrés atteint également une tendance à la stabilité à partir de 2007 avec quelques tendances à la baisse dans certaines Wikipédias comme celle en anglais. Cependant, il est intéressant de noter que le nombre de pages de discussion actives a continué de croître dans toutes les Wikipédias étudiées. Dans le cas de la Wikipedia francophone, ce nombre de pages actives a augmenté pour atteindre le même niveau d'activité constaté dans la Wikipedia en allemand, malgré un nombre total d'articles moindre que pour la version allemande.
    L'analyse du rapport de pages de discussion par article est encore plus intéressante. Par exemple, les Wikipédias en japonais et en néerlandais présentent un très faible pourcentage de pages de discussion actives par article, révélant une absence remarquable d'intérêt dans ces communautés pour la discussion sur le contenu des articles. La Wikipedia en polonais est un cas alarmant extrême, avec un très faible nombre de pages de discussion actives explicable par la méthode « artificielle » de production de contenu basée sur le travail des bots absent des pages de discussion, sauf pour un très petit nombre d'articles. D'un autre côté, les Wikipédias en français et en anglais révèlent un extraordinaire intérêt à discussion sur les contenus.
    Enfin, l'effet de lissage trouvé pour l'évolution de la longueur des articles est également identifié dans l'évolution au fil du temps de la longueur des pages de discussion pour toutes les versions linguistiques.
  • D'abord et avant tout, Ortega Soto identifie un certain nombre de paramètres clés de la productivité des contributeurs (comme le nombre de contributions par contributeur et le nombre d'articles différents par contributeur) qui suggère un petit réseau de contributeurs qui réparti ses efforts de contributions, éventuellement par le biais d'un processus d'attachement préférentiel (défini dans de précédents travaux de recherche). Il confirme également que le niveau des inégalités de contributions est fortement biaisé en faveur d'un petit groupe de contributeurs hyper actifs dans chaque version, déjà désignée comme le noyau de chaque communauté.
    De même, l'auteur de la thèse démontre également que l'inégalité dans la répartition des contributions entre articles dans toutes les versions est également sollicité (bien que dans une moindre mesure) vers un groupe d'articles très populaires. En outre, il constate aussi que le groupe d'articles de qualité (BA - bon article - ou ADQ - article de qualité) suivant les versions appartient à ce groupe de articles très populaires.
  • La principale conclusion, à partir de l'analyse de la durée d'activité dans la communauté des contributeurs pour les dix plus importantes Wikipédias, est qu'il y a un taux d'abandon extrêmement élevé dans toutes les langues. En fait, le nombre mensuel de perte de contributeurs dans les dix plus importantes Wikipédias dépasse le nombre mensuel de nouveaux contributeurs. Par conséquent, le taux de pertes plus élevé, depuis le début de l'année 2007, offre une explication possible de l'état d'équilibre atteint par le nombre mensuel des contributions et nombre mensuel de pages actives au cours de la même période et cela dans toutes les versions linguistiques.
    Une proportion importante de contributeurs (plus de 50 % dans toutes les versions) abandonne le projet après plus de 200 jours. En outre, le noyau dur des contributeurs très actifs est aussi atteint, ne garantissant pas que ces auteurs présentent une meilleure capacité de survie puisque, en fait, plus de 50% d'entre eux abandonnent ce noyau de contributeurs très actifs après moins de 100 jours (moins de 30 dans le cas des Portugais et des Anglais).
    En complément de ces conclusions, la participation de contributeurs impliqués dans les articles labellisés ou les pages de discussion a un impact significatif et positif pour améliorer la survie des contributeurs.
  • Ortega Soto démontre que les articles labellisés sont significativement plus âgés que la moyenne des articles, montrant ainsi que le processus de maturation pour améliorer le contenu des articles prend effectivement un temps long (plus de 1000 jours en moyenne).
    Puisqu'il est constaté ci-avant que la population des contributeurs n'est plus en augmentation depuis 2007, ce changement dans les tendances démographiques de la communauté des contributeurs peut avoir un impact direct sur la capacité des projets à produire du contenu de haute qualité.
  • En tant que principale conclusion, en regardant l'évolution des principaux paramètres déjà identifiés comme pertinents pour expliquer les progrès dans le temps des dix plus importantes Wikipédias et de leurs communautés, l'auteur de la thèse, en faisant l'analyse de l'évolution dans le temps des contributions à partir du noyau des contributeurs très actifs identifiés à chaque moment de l'histoire d'une version linguistique, révèle que les principaux contributeurs anciens ne fournissent pas une quantité comparable d'effort par rapport au niveau offert par de nouveaux contributeurs encore plus actifs.
    Néanmoins, encore une fois, les paramètres d'évolution signalent une situation délicate, puisque le niveau mensuel des contributions maintient toujours les mêmes valeurs que les années précédentes. Ainsi, cela signifie que, soit les différents niveaux de contributions se maintiennent au niveau actuel, auquel cas les contributeurs ne seraient pas en mesure de produire autant d'articles que les années précédentes, ou encore, que les différentiels de niveau de ces contributions va continuer de croître, jusqu'à ce que le noyau principal de contributeurs très actifs commencent à trouver ses limites naturelles dans le nombre maximum de contributions effectuées et le nombre d'articles différents travaillés.
Quantitativement, je retiens de la lecture attentive de cette thèse qu'il est possible de déduire de l'ensemble des résultats de l'analyse quantitative, qu'il existe un risque grave dans les versions linguistiques des dix plus importantes Wikipédias, sur le maintien, à l'avenir, de leur niveau d'activité actuel. Selon les graphiques et les chiffres, les inégalités de contributions des contributeurs enregistrés sont de plus en plus biaisés vers le noyau des contributeurs très actifs. Cette situation ne poserait pas de problème en soi, sauf pour le fait que la partie la plus importante des effort de création de contenu dans Wikipedia n'est pas le fait des contributeurs occasionnels, mais celui des membres du petit noyau de contributeurs très actifs qui, à un moment ou un autre, rencontrera ses propres limites.

Qualitativement, je retiens que le manque de contributeurs de base menace sérieusement cette qualité des contenus. Selon les analyses présentées, les contributeurs très actifs sont responsables de la majorité des articles labellisés. Depuis que le nombre de contributeurs de base a atteint un état stationnaire, le groupe des contributeurs très actifs, fournissant l'effort principal, disperse sont activité, limitant ainsi leur participation à la révision d'articles de qualité. Sans de nouveaux contributeurs de base, le nombre des différents articles qui pourrait potentiellement être labellisés, ne peut pas se développer, puisqu'il n'y aura pas assez de révision pour ce type de contenu. Cela ne contribuera pas à dynamiser la création de contenus de qualité.

La sonnette d'alarme est clairement tirée. Ainsi va Wikipédia.