![]() |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
FUNREDESETUDELANGUES, CULTURESET INTERNET
Présentation à la conférence Visionarios, Caracas, 22-24/4/98 Auteur: Daniel Pimienta Remerciements à Marcelo Sztrumm, Catherine Dhaussy et Daniel Prado pour leurs apports. Pour cette troisième mise à jour, notre étude doit faire face à un certain nombre de nouveaux paramètres liés à l'utilisation de l'outil de mesure AltaVista et annonce ainsi la transition vers une nouvelle étude beaucoup plus solide sur le plan méthodologique. Ce troisième résultat, sur le fond, montre que le français continue de progresser plus vite que l'anglais, avec cependant un maintien de la tendance relativement lente de 1997. Quant à l'espagnol, il continue sa progression rapide et se rapproche encore plus du français. L'avantage du français sur l'espagnol était passé de 140% en 1996 à 92% en 97 et il se réduit maintenant à 39%. Le jeu de l'extrapolation montre un rapport de 1 à 9 entre français et anglais pour l'an 2000 et un rapport d'égalité entre l'espagnol sur le français à la même époque... Quoi de neuf sur le front de la mesure de la présence des langues dans l'Internet ? ALIS TECHNOLOGY Tout d'abord une étude d'Alis Technology avec le soutien de l'Internet Society: "Palmarès des langues de la toile". L'étude s'auto-proclame "la première étude d'envergure" et annonce "une méthode rigoureuse d'exploration du web". Elle est fondée sur une méthodologie très différente de la nôtre où une grande place est faite au traitement informatique. La méthodologie d'Alis Technology repose en effet sur un programme de reconnaissance automatique de plusieurs langues (17) dans l'espace web. Le protocole de mesure consiste à tirer au hasard 60.000 sites Internet à partir de leur numéro de IP (voir note *), de valider un sous-ensemble valide apte pour la mesure de 8.000 sites web et d'y appliquer le programme de reconnaissance. Ensuite, Alis applique sur le résultat obtenu des corrections dont elle ne précise pas la nature. C'est une procédure très intéressante puisqu'elle est automatisable et reproductible à volonté, et qu'elle peut s'appliquer simultanément à plusieurs langues. Note * : Les numéro IP (IP pour Internet Protocol) identifient de manière unique chacun des systèmes connectés à l'Internet et possèdent une structure standardisée en quatre champs, d'une valeur de 0 à 999, séparés par des points.Les noms des systèmes (ou domaines) sont traduits en numéro IP par une méthode dite de "service de domaine". Ainsi le numéro de IP de <funredes.org> est 205.160.164.9. Les résultats montrent, par rapport à notre travail, une présence beaucoup plus forte de l'anglais (82% contre 70%). Le rapport français/espagnol reste très proche de nos résultats. La différence principale entre les deux approches réside dans l'ambition affichée : s'il n'y a pas d'autre ambition dans l'étude de Funredes que de fournir une estimation très approximative, en revanche Alis affiche de fortes prétentions quant à la validité de ses résultats. Cela nous incite bien sûr à regarder de plus près la méthodologie d'Alis. 1) Il ne nous est pas possible d'apporter de jugement sur la valeur du programme de reconnaissance des langues. Seuls des recoupements sur les résultats obtenus par différentes méthodes pourront permettre de valider les résultats de ce programme. 2) En revanche, sur le plan statistique, la méthode nous paraît sujette à caution. Pour quelle raison un échantillon de 8.000 pages web prises au hasard parmi un univers supérieur à 100 millions de pages fournirait-il une base sérieuse pour l'extrapolation ? Certes les instituts de sondage ont montré leur incroyable capacité pour extrapoler les intentions de vote avec une précision remarquable à partir d'échantillons de 2.000 votants pour un vote de 50 millions. Mais pour ce faire, leur échantillon n'est pas constitué par le pur hasard, bien au contraire! Il est normé, c'est à dire qu'il est constitué d'éléments dont les proportions de certains paramètres (sociaux, économiques, géographiques...) sont très précisément calibrées. 3) L'inconvénient mentionné au point 2 aurait pu être éliminé si l'étude avait répété plusieurs dizaines de fois l'opération et publié la moyenne des résultats (surtout si la variance était très faible). Cela aurait pu crédibiliser le résultat. Il semble que pour le moment les nombreuses vérifications "à la main" du processus automatique rendent rédhibitoire cette approche. Pourtant, la mesure de seulement 3 échantillons distincts aurait pu nous rassurer (ou nous inquiéter) sur l'argument du point 2. 4) L'ajustement correctif des résultats reste très mystérieux (quoiqu'il semble que cela reste une prérogative des sondeurs :-)...) 5) Enfin, il n'est pas dans l'ambition d'Alis de mesurer, pour le moment, autre chose que la présence des langues dans l'espace web. Pas question de mesurer d'autres espaces ni, encore moins, de s'approcher de la mesure culturelle qui constitue en fait l'essence de notre démarche. En conclusion, les limites actuelles de l'étude d'Alis nous encouragent à poursuivre notre approche, voire même à la rendre plus systématique sur le plan de la linguistique de façon à apporter une approche plus crédible à la mesure des langues dans l'Internet. ALTAVISTA Le puissant moteur de recherche de Digital Corp. apporte des nouveautés : il intègre maintenant les diacritiques (accents et autres caractères dits "spéciaux", par rapport à l'anglais), et, comme Alis, il introduit un facteur de reconnaissance des langues (Alis reconnaît 17 langues et AltaVista se permet d'identifier des pages web parmi 25 langues différentes). À première vue, les algorithmes sont différents. En revanche, la taille de l'univers considéré par AltaVista n'a pas vraiment évolué et reste de l'ordre de 100 millions de sites web pour un univers en très forte croissance exponentielle. En proportion relative, il est probable que AltaVista ait dû passer d'une couverture de l'ordre de 70% à une couverture beaucoup plus réduite, peut-être de l'ordre de 20%. Cela reste un chiffre suffisant pour extrapoler nos résultats ; en revanche, il est légitime de se poser la question de savoir si cette approche ne favorise pas les sites plus anciens et donc plutôt en anglais. L'étude des évolutions du moteur AltaVista nous réserve de grandes surprises, et, nous allons le voir, va nous obliger à devoir considérer d'autres moteurs pour poursuivre notre effort. Place des diacritiques Quelques recoupements montrent que la recherche sans diacritiques inclut toutes les combinaisons du mot indiqué avec les diacritiques. Ainsi la recherche de "peche" inclut "peche", "pêche", "pèche", "péché", et toutes fautes d'orthographe possibles comme "péche" ou "pëche". Cela va nous encourager à utiliser la recherche sans diacritiques pour les comparaisons avec l'anglais, mais cela exige également beaucoup de vigilance dans le choix des mots. Recherche par langue Dans l'état actuel d'AltaVista, il existe un phénomène incohérent qui va nous interdire d'utiliser cette méthode pour le comptage. Derrière cette apparente incohérence, il est possible que se trouve une logique, mais cette logique n'est pas compatible avec l'objectif de comptage. De quoi s'agit-il ? Le résultat "toutes langues" (ANY) semble, dans certains cas, correspondre à la somme de tous les résultats pour chaque langue ou bien il est supérieur, ce qui est normal, puisque toutes les langues ne sont pas comptabilisées et aussi parce qu'il existe un bon nombre de pages multilingues. Mais, dans d'autres cas (la majorité des mots de notre échantillon), ce résultat est inférieur à celui de la mesure en anglais (et il est alors difficile de l'interpréter)! Quelques exemples suivent, pour les mots ou expressions: FUNREDES, FUNDACION REDES Y DESARROLLO, iberian, INTERNET, WEB (EN=anglais, FR=français, ES=espagnol, DE=allemand):
AltaVista présente deux résultats de comptage. Le premier, en haut de la page, est le nombre total de pages de son échantillon mentionnant le mot recherché ("documents"). Le second, en bas de la page, indique le nombre de fois que le mot recherché apparaît dans les pages de l'échantillon ("occurences"). Là aussi, il y a une incohérence: parfois le second est le même dans chaque langue. Parfois, le résultat est différent selon la langue (apparemment pour les expressions composées de plusieurs mots- comme "fundacion redes y desarrollo"). Si cette anomalie représente un obstacle pour nos mesures, il est en revanche possible, avec un peu d'astuce, d'établir une comparaison entre l'agorithme de Alis et celui d'AltaVista. En effet, si, avec AltaVista, on recherche l'ensemble des documents comportant tous les mots sauf un mot probablement inexistant (en écrivant par exemple l'expression suivante pour la recherche: " - qwxk49fnr8e4"), le résultat semble être le nombre total de pages que l'algorithme d'AltaVista considère appartenir à une langue donnée. Bien sûr, avec l'option "toutes langues", nous obtenons la mesure de l'univers total des pages de AltaVista : un peu plus de 100 millions à la date de la mesure. Des recoupements avec des mots ou combinaisons très fréquentes (par exemple "de+il" en français) confirment la validité du résultat. À ce propos, nos expériences montrent que si la mesure de mots courts très fréquents a pu donner des résultats apparemment probants dans le passé, la méthode aujourd'hui conduit à des valeurs peu fiables. Tableau comparatif AltaVista/Alis
Nous voyons que la comparaison montre une valeur plus importante pour l'anglais avec la méthode d'Alis qu'avec la méthode que nous qualifions de "complément de l'ensemble vide" dans AltaVista. Or, précisément, nous le verrons plus loin, notre méthode de comptage par mots nous fait soupçonner que le comptage d'AltaVista, lui aussi, avantage l'anglais. Cela fait poser question sur le résultat d'Alis Technology et justifie une étude avec des critères linguistiques plus élaborés. La comparaison entre les trois méthodes donne le résultat suivant :
Nous pensions, pour effectuer la comparaison avec nos résultats des années précédentes, que l'indicateur M5 était, malgré la réserve mentionnée, le plus apte. Mais les résultats de corrélation nous conduisent à changer d'avis et à prendre l'indicateur M3 qui est indépendant de l'algorithme de langue. SYNTHESE DES RÉSULTATS
Il existe une certaine cohérence entre les résultats des trois moteurs de recherche mais il y a des écarts. Il semble qu'AltaVista favorise moins l'anglais que les deux autres. L'introduction de la reconnaissance des langues peut-elle expliquer les différences? Probablement. Quelle valeur peut-on apporter maintenant à l'étude de tendance? Il nous reste quelques doutes et cela aussi justifie la reprise de cette étude avec une méthodologie plus solide sur les plans linguistique et technique. TENDANCES
MESURES DES DIACRITIQUES Un résultat intéressant pour les partisans de l'utilisation correcte des langues dans le réseau est une mesure du rapport entre écriture des mots avec et sans diacritiques. Les résultats sont stables selon les moteurs.
|
![]() ![]() |