Ponencia

Daniel Pimienta ASSOCIATION RÉSEAUX & DEVELOPPEMENT

FUNREDES

ETUDE

LANGUES, CULTURES

ET INTERNET

3ième EDITION- MARS 1998

Présentation à la conférence Visionarios, Caracas, 22-24/4/98

Auteur: Daniel Pimienta

Remerciements à Marcelo Sztrumm, Catherine Dhaussy et Daniel Prado pour leurs apports.

Pour prendre connaissance des première et seconde éditions de l'étude

Pour cette troisième mise à jour, notre étude doit faire face à un certain nombre de nouveaux paramètres liés à l'utilisation de l'outil de mesure AltaVista et annonce ainsi la transition vers une nouvelle étude beaucoup plus solide sur le plan méthodologique.

Ce troisième résultat, sur le fond, montre que le français continue de progresser plus vite que l'anglais, avec cependant un maintien de la tendance relativement lente de 1997. Quant à l'espagnol, il continue sa progression rapide et se rapproche encore plus du français. L'avantage du français sur l'espagnol était passé de 140% en 1996 à 92% en 97 et il se réduit maintenant à 39%. Le jeu de l'extrapolation montre un rapport de 1 à 9 entre français et anglais pour l'an 2000 et un rapport d'égalité entre l'espagnol sur le français à la même époque...

Quoi de neuf sur le front de la mesure de la présence des langues dans l'Internet ?

ALIS TECHNOLOGY

Tout d'abord une étude d'Alis Technology avec le soutien de l'Internet Society: "Palmarès des langues de la toile". L'étude s'auto-proclame "la première étude d'envergure" et annonce "une méthode rigoureuse d'exploration du web".

Elle est fondée sur une méthodologie très différente de la nôtre où une grande place est faite au traitement informatique. La méthodologie d'Alis Technology repose en effet sur un programme de reconnaissance automatique de plusieurs langues (17) dans l'espace web. Le protocole de mesure consiste à tirer au hasard 60.000 sites Internet à partir de leur numéro de IP (voir note *), de valider un sous-ensemble valide apte pour la mesure de 8.000 sites web et d'y appliquer le programme de reconnaissance. Ensuite, Alis applique sur le résultat obtenu des corrections dont elle ne précise pas la nature. C'est une procédure très intéressante puisqu'elle est automatisable et reproductible à volonté, et qu'elle peut s'appliquer simultanément à plusieurs langues.

Note * : Les numéro IP (IP pour Internet Protocol) identifient de manière unique chacun des systèmes connectés à l'Internet et possèdent une structure standardisée en quatre champs, d'une valeur de 0 à 999, séparés par des points.Les noms des systèmes (ou domaines) sont traduits en numéro IP par une méthode dite de "service de domaine". Ainsi le numéro de IP de <funredes.org> est 205.160.164.9.

Les résultats montrent, par rapport à notre travail, une présence beaucoup plus forte de l'anglais (82% contre 70%). Le rapport français/espagnol reste très proche de nos résultats.

La différence principale entre les deux approches réside dans l'ambition affichée : s'il n'y a pas d'autre ambition dans l'étude de Funredes que de fournir une estimation très approximative, en revanche Alis affiche de fortes prétentions quant à la validité de ses résultats.

Cela nous incite bien sûr à regarder de plus près la méthodologie d'Alis.

1) Il ne nous est pas possible d'apporter de jugement sur la valeur du programme de reconnaissance des langues. Seuls des recoupements sur les résultats obtenus par différentes méthodes pourront permettre de valider les résultats de ce programme.

2) En revanche, sur le plan statistique, la méthode nous paraît sujette à caution. Pour quelle raison un échantillon de 8.000 pages web prises au hasard parmi un univers supérieur à 100 millions de pages fournirait-il une base sérieuse pour l'extrapolation ? Certes les instituts de sondage ont montré leur incroyable capacité pour extrapoler les intentions de vote avec une précision remarquable à partir d'échantillons de 2.000 votants pour un vote de 50 millions. Mais pour ce faire, leur échantillon n'est pas constitué par le pur hasard, bien au contraire! Il est normé, c'est à dire qu'il est constitué d'éléments dont les proportions de certains paramètres (sociaux, économiques, géographiques...) sont très précisément calibrées.

3) L'inconvénient mentionné au point 2 aurait pu être éliminé si l'étude avait répété plusieurs dizaines de fois l'opération et publié la moyenne des résultats (surtout si la variance était très faible). Cela aurait pu crédibiliser le résultat. Il semble que pour le moment les nombreuses vérifications "à la main" du processus automatique rendent rédhibitoire cette approche. Pourtant, la mesure de seulement 3 échantillons distincts aurait pu nous rassurer (ou nous inquiéter) sur l'argument du point 2.

4) L'ajustement correctif des résultats reste très mystérieux (quoiqu'il semble que cela reste une prérogative des sondeurs :-)...)

5) Enfin, il n'est pas dans l'ambition d'Alis de mesurer, pour le moment, autre chose que la présence des langues dans l'espace web. Pas question de mesurer d'autres espaces ni, encore moins, de s'approcher de la mesure culturelle qui constitue en fait l'essence de notre démarche.

En conclusion, les limites actuelles de l'étude d'Alis nous encouragent à poursuivre notre approche, voire même à la rendre plus systématique sur le plan de la linguistique de façon à apporter une approche plus crédible à la mesure des langues dans l'Internet.

ALTAVISTA

Le puissant moteur de recherche de Digital Corp. apporte des nouveautés : il intègre maintenant les diacritiques (accents et autres caractères dits "spéciaux", par rapport à l'anglais), et, comme Alis, il introduit un facteur de reconnaissance des langues (Alis reconnaît 17 langues et AltaVista se permet d'identifier des pages web parmi 25 langues différentes). À première vue, les algorithmes sont différents.

En revanche, la taille de l'univers considéré par AltaVista n'a pas vraiment évolué et reste de l'ordre de 100 millions de sites web pour un univers en très forte croissance exponentielle. En proportion relative, il est probable que AltaVista ait dû passer d'une couverture de l'ordre de 70% à une couverture beaucoup plus réduite, peut-être de l'ordre de 20%. Cela reste un chiffre suffisant pour extrapoler nos résultats ; en revanche, il est légitime de se poser la question de savoir si cette approche ne favorise pas les sites plus anciens et donc plutôt en anglais.

L'étude des évolutions du moteur AltaVista nous réserve de grandes surprises, et, nous allons le voir, va nous obliger à devoir considérer d'autres moteurs pour poursuivre notre effort.

Place des diacritiques

Quelques recoupements montrent que la recherche sans diacritiques inclut toutes les combinaisons du mot indiqué avec les diacritiques. Ainsi la recherche de "peche" inclut "peche", "pêche", "pèche", "péché", et toutes fautes d'orthographe possibles comme "péche" ou "pëche". Cela va nous encourager à utiliser la recherche sans diacritiques pour les comparaisons avec l'anglais, mais cela exige également beaucoup de vigilance dans le choix des mots.

Recherche par langue

Dans l'état actuel d'AltaVista, il existe un phénomène incohérent qui va nous interdire d'utiliser cette méthode pour le comptage. Derrière cette apparente incohérence, il est possible que se trouve une logique, mais cette logique n'est pas compatible avec l'objectif de comptage. De quoi s'agit-il ?

Le résultat "toutes langues" (ANY) semble, dans certains cas, correspondre à la somme de tous les résultats pour chaque langue ou bien il est supérieur, ce qui est normal, puisque toutes les langues ne sont pas comptabilisées et aussi parce qu'il existe un bon nombre de pages multilingues. Mais, dans d'autres cas (la majorité des mots de notre échantillon), ce résultat est inférieur à celui de la mesure en anglais (et il est alors difficile de l'interpréter)!

Quelques exemples suivent, pour les mots ou expressions: FUNREDES, FUNDACION REDES Y DESARROLLO, iberian, INTERNET, WEB (EN=anglais, FR=français, ES=espagnol, DE=allemand):

FUNREDES ANY EN FR ES DE

# DOCUMENTS 572 294 85 164 4

# OCCURRENCES 4043 4043 4043 4043 4043

"fundacion redes y desarrollo"

# DOCUMENTS 156 26 24 91 0

# OCCURRENCES 200 31 24 100 0

IBERIAN ANY EN FR ES DE

# DOCUMENTS 11094 10266 25 214 33

# OCCURRENCES 18946 18946 18946 18946 18946

INTERNET

# DOCUMENTS 4846307 7794545 314441 264538

# OCCURRENCES 30098345 30098345 30098345 30098345

WEB

# DOCUMENTS 5093017 10397446 244279 191402

# OCCURRENCES 35497288 35497288 35497288 35497288

Il semble que pour les mots courants en anglais (dans le dictionnaire d'AltaVista?) le résultat soit systématiquement avec une valeur "toute langue" inférieure à la valeur anglaise (mais que signifie donc cette valeur?) et que pour les mots composés ou non anglais la valeur "toute langue"soit proche de la somme des valeurs par langue. Nous avons demandé des éclaircissements à AltaVista et attendons une réponse.

AltaVista présente deux résultats de comptage. Le premier, en haut de la page, est le nombre total de pages de son échantillon mentionnant le mot recherché ("documents"). Le second, en bas de la page, indique le nombre de fois que le mot recherché apparaît dans les pages de l'échantillon ("occurences"). Là aussi, il y a une incohérence: parfois le second est le même dans chaque langue. Parfois, le résultat est différent selon la langue (apparemment pour les expressions composées de plusieurs mots- comme "fundacion redes y desarrollo").

Si cette anomalie représente un obstacle pour nos mesures, il est en revanche possible, avec un peu d'astuce, d'établir une comparaison entre l'agorithme de Alis et celui d'AltaVista. En effet, si, avec AltaVista, on recherche l'ensemble des documents comportant tous les mots sauf un mot probablement inexistant (en écrivant par exemple l'expression suivante pour la recherche: " - qwxk49fnr8e4"), le résultat semble être le nombre total de pages que l'algorithme d'AltaVista considère appartenir à une langue donnée. Bien sûr, avec l'option "toutes langues", nous obtenons la mesure de l'univers total des pages de AltaVista : un peu plus de 100 millions à la date de la mesure. Des recoupements avec des mots ou combinaisons très fréquentes (par exemple "de+il" en français) confirment la validité du résultat. À ce propos, nos expériences montrent que si la mesure de mots courts très fréquents a pu donner des résultats apparemment probants dans le passé, la méthode aujourd'hui conduit à des valeurs peu fiables.

Tableau comparatif AltaVista/Alis

ALTAVISTA ALIS

COMPTAGE GLOBAL RÉSULTATS

ANY 107958869 % SANS %AVEC(*) SANS AVEC

CORRECTION CORRECTION

ANGLAIS 70065677 64.90% 76.35% 84.00 82.30

JAPONAIS 4369675 4.05% 4.76% 3.10 1.6

ALLEMAND 4009554 3.71% 4.37% 4.50 4.00

FRANÇAIS 1951446 1.81% 2.13% 1.8 1.5

ESPAGNOL 1495195 1.38% 1.63% 1.20 1.10

ITALIEN 1490109 1.38% 1.62% 1.00 0.80

PORTUGAIS 905676 0.84% 0.99% 0.70 0.70

HOLLANDAIS 849045 0.79% 0.93% 0.6 0.4

SUÉDOIS 804266 0.74% 0.88% 1.10 0.60

CHINOIS 742741 0.69% 0.81%

RUSSE 499447 0.46% 0.54% 0.30 0.10

TCHEQUE 469659 0.44% 0.51% 0.30 0.30

FINLANDAIS 411951 0.38% 0.45% 0.40 0.30

NORVÉGIEN 336751 0.31% 0.37% 0.60 0.30

DANOIS 300481 0.28% 0.33% 0.30 0.30

POLONAIS 280975 0.26% 0.31%

CORÉEN 215064 0.20% 0.23%

HONGROIS 197043 0.18% 0.21%

GREC 83780 0.08% 0.09%

ESTONIEN 78955 0.07% 0.09%

HÉBREU 48843 0.05% 0.05%

ISLANDAIS 34749 0.03% 0.04%

ROUMAIN 28052 0.03% 0.03%

LATVIEN 22616 0.02% 0.02%

LITHUANEN 20539 0.02% 0.02%

LE RESTE 18246580 16.90% Sites multilingues

LE RESTE CORRIGÉ (*) 2052750 2.24% 15%

(*) Une correction est nécessaire pour prendre en compte la différence entre le total et la somme des langues mesurées. Que représente cette valeur de près de 17%? En théorie, elle pourrait représenter la somme des valeurs des langues non mesurées. Mis ce pourcentage est beaucoup trop grand pour cela. Peut-être, en plus des valeurs des langues non mesurées se trouvent comptabilisés les sites web multilingues que l'algorithme n'a pas su classifier. Le fait que le nombre soit si imposant nous incite à penser que les sites multilingues ne sont pas comptabilisés dans plusieurs langues (sinon le total pourrait être inférieur à la somme des comptages par langue). Nous prendrons donc l'hypothèse que "le reste" représente le comptage des sites multilingues et des sites dans les langues non reconnues par l'algorithme... ainsi que les sites non reconnus par l'algorithme quoique rédigés dans une des langues "reconnues" (les erreurs de l'algorithme), sans oublier les pages qui présentent des symboles non rattachables à une langue (images, formules...). Nous prenons aussi l'hypothèse (probablement fausse!) que les erreurs sont également réparties selon les langues et nous allons donc les ignorer. Il nous reste à fixer un paramètre pour répartir les sites multi-lingues et les autres langues. Après plusieurs essais, nous choissisons le couple 15% de sites multilingues (ou neutres sur le plan de la langue) et 2.24% de sites dans les autres langues (par exemple 100 langues à 0.02%), parce qu'il nous paraît le plus vraisemblable.

Nous voyons que la comparaison montre une valeur plus importante pour l'anglais avec la méthode d'Alis qu'avec la méthode que nous qualifions de "complément de l'ensemble vide" dans AltaVista. Or, précisément, nous le verrons plus loin, notre méthode de comptage par mots nous fait soupçonner que le comptage d'AltaVista, lui aussi, avantage l'anglais. Cela fait poser question sur le résultat d'Alis Technology et justifie une étude avec des critères linguistiques plus élaborés.

La comparaison entre les trois méthodes donne le résultat suivant :

EN/FR FR/ES

MÉTHODE COMPLÉMENT DE L'ENSEMBLE VIDE 35.90 1.31

MÉTHODE ALIS 46.67 1.36

MÉTHODE FUNREDES 17.60 1.33

MESURES DE FÉVRIER 1998

Les nouveautés d'AltaVista et les anomalies constatées nous ont amenés à procéder à des recoupements avec d'autres moteurs de recherche. C'est ainsi que nous avons procédé à un jeu de 5 mesures:

M1 : Avec Hotbot (additionnant avec et sans diacritiques)

M2 : Avec Excite (additionnant avec et sans diacritiques)

M3 : Avec AltaVista toutes langues sans diacritiques

M4 : Avec AltaVista par langue sans diacritiques

M5 : La somme des deux résultats précédents

Nous pensions, pour effectuer la comparaison avec nos résultats des années précédentes, que l'indicateur M5 était, malgré la réserve mentionnée, le plus apte. Mais les résultats de corrélation nous conduisent à changer d'avis et à prendre l'indicateur M3 qui est indépendant de l'algorithme de langue.

SYNTHESE DES RÉSULTATS

ANGLAIS FRANÇAIS ESPAGNOL EN/FR FR/ES EN/ES

M1: HOTBOT FÉVRIER 98 100221545 6090080 3230690 16.46 1.89 31.02

M2: EXCITE FÉVRIER 98 23689345 1430583 910317 16.56 1.57 26.02

M3: ALTAVISTA TOUTES LANGUES 2/98 26017027 1478396 1115708 17.60 1.33 23.32

M4: ALTAVISTA PAR LANGUE 2/98 70718558 2946712 2058398 24.00 1.43 34.36

M5: M3+M4 96735585 4425108 3174106 21.86 1.39 30.48

COMMENTAIRES

Il existe une certaine cohérence entre les résultats des trois moteurs de recherche mais il y a des écarts. Il semble qu'AltaVista favorise moins l'anglais que les deux autres. L'introduction de la reconnaissance des langues peut-elle expliquer les différences? Probablement. Quelle valeur peut-on apporter maintenant à l'étude de tendance? Il nous reste quelques doutes et cela aussi justifie la reprise de cette étude avec une méthodologie plus solide sur les plans linguistique et technique.

TENDANCES

EN/FR FR/ES

MOYENNE MARS 1996 21.91 2.40

MOYENNE MARS 1997 19.99 1.92

MOYENNE FÉVRIER 1998 17.60 1.33

Les progressions sont quasiment linéaires et l'extrapolation montre un rapport anglais/français égal à 1 en 2006 et un rapport français/espagnol égal à 1 en 2000.

MESURES DES DIACRITIQUES

Un résultat intéressant pour les partisans de l'utilisation correcte des langues dans le réseau est une mesure du rapport entre écriture des mots avec et sans diacritiques. Les résultats sont stables selon les moteurs.

Français Espagnol

Pourcentage de sites sans diacritiques (moyenne) 20% 50%

CONCLUSION

Le moment est venu de consolider la méthode avec l'appui de linguistes. En collaboration avec l'Union Latine et son équipe de professionels de la langue, Funredes a entrepris de généraliser l'étude à trois autres langues latines en lui apportant une réelle rigueur sur le plan de la méthodologie linguistique. Un échantillon de mots à mesurer qui répondent aux meilleurs critères linguistiques est en train d'être élaboré (les obstacles sont nombreux!) et servira de base à une mesure de la présence des six langues suivantes: anglais, espagnol, français, italien, portugais et roumain. Les résultats seront publiés dans quelques semaines.