Google Ngram viewer : un extraordinaire corpus mais…

On a pu se rendre compte ces dernières années que deux parcours pouvaient amener à créer des bibliothèques numériques. D’une part, les bibliothèques, qui conservaient, acquéraient et diffusaient des données sur divers supports et ne voyaient pas pourquoi ils ne le feraient pas en ligne. D’autre part, Google, qui cherchait et mettait en ordre l’information sur internet et ne voyait pas pourquoi ils ne le feraient pas dans les livres anciens également.

Ce n’est pas le lieu ici d’évaluer qui le fait le mieux. Mais une chose est sûre : plus les masses de données deviennent gigantesques, plus le moteur de recherche devient important. Et, en cela, Google possède un gros avantage sur Gallica.

En faisant tourner ses robots sur une (grosse) sélection de livres, Google peut donc obtenir des données statistiques de tout premier ordre. Car le corpus est énorme : 5 200 000 ouvrages, soit plus de 500 milliards de mots, nous annonce Google. Passionnant pour l’étude de l’usage des langues, donc. Un matériau dont on peut sortir des centaines de thèses et d’articles et dont on parlait déjà… en 2006.
Google annonce dans l’article de Science que ses chercheurs ont publié avec d’autres de Harvard, du MIT, de l’Encyclopaedia Britannica et de l’Houghton Mifflin Harcourt que cela représente 4% de l’ensemble des livres publiés dans le monde depuis l’invention de l’imprimerie. Je ne m’étends pas sur l’analyse de cette annonce puisqu’on trouve bien des éléments chez Veronis, Affordance, LanguageLog, Hubert Guillaud, etc, etc.

Le fait est d’autant plus intéressant que, non seulement Google ne vend pas ces données mais les place même sous une licence Creative Commons BY, la plus permissive qui soit. C’est à dire que, contrairement à Gallica, elle les ouvre entièrement et en permet la réutilisation la plus large, y compris commerciale. L’idéal si l’on veut que ses données soient réellement réutilisées et permettent des usages imprévus et innovants.

Mais… il y a un « mais ».

Et le lièvre gît bien sûr dans la typographie ancienne. Voici une lettre prise au hasard dans l’édition montbéliardaise (1676) de celles d’Arnauld d’Andilly :

III. Iìa un Prinee, Jy| ONSEIGNEVR,
Ie laí/îc à Mr. à vous mander particulierement les íêntiments de vos Amis , & de vos seruiteurs sur ce qui vous touche , dont ie l’ay entretenu à loiiir. Si le Comte de Mansseld n’entreprend rien contre la France, ce diicours est du tout inutile: Mais s’il afsiege quelque place, & que vous puiíîìez vous jetter de. dans auec moyen de la desendre ; il n’y aura que ceux qui enuieront vostre valeur, qui manqueront à loiier vostre action. Ie sçav bien que quand vous ne le seriez pas , vous n’en sçaun’ez «stre blàsmé, puis que vous n’auez point d’employ qui vous y oblige. Mais si vostre gencroíìte demeuroit dans les bornes des deuoirs ordinaires , eile ne meriteroit ny des louanges extraordinaires, ny la gloire que vous auez d’estre en plus grande estime dans ì’eíprit des gens dç »nerite , par la consideration de vostre vertu, que par celle de vostre naifsance , qui n’auroic pas seule le pouuoir de me rendre aufïî venta »* hlemenc que ie le suis

On comprend vite que faire des statistiques lexicales sur un tel texte est une entreprise audacieuse. Voire absurde.
Il ne sert donc de rien d’améliorer le traitement des données tant que l’on n’aura pas amélioré les données elles-mêmes : il est de toute première instance que les OCR fassent des progrès sur les typographies anciennes.

Pour illustrer le propos, un unique exemple – cher à tous les wikisourciers – l’ſ. L’ « s long », donc, qui trouve place à l’intérieur des mots tandis que notre « s rond » se place à la fin. Cette ſ, de forme inhabituelle pour l’œil actuel, est pris pour une f par les OCR. Google nous permet donc d’obtenir de très belles statistiques sur les mots « eft » ou « prefque »…

Usage comparé de « est » (bleu) et de « eft » (rouge) de 1750 à 1830 dans le corpus francophone

Usage comparé de « est » (bleu) et de « eft » (rouge) de 1750 à 1830 dans le corpus francophone

Usage comparé de « prefque » (bleu) et de « presque » (rouge) dans le corpus francophone de 1750 à 1830.

Usage comparé de « prefque » (bleu) et de « presque » (rouge) dans le corpus francophone de 1750 à 1830.

Outil à prendre pour l’instant avec des pincettes sur les textes anciens, donc… Remarquons tout de même que pour étudier l’usage de l’s long, c’est pas mal du tout (disparition plus tardive que ce que je pensais).

Cette entrée a été publiée le 20 décembre 2010 à 22:41. Elle est classée dans Digital humanities, Histoire du livre et des bibliothèques et taguée , , , . Bookmarquez ce permalien. Suivre les commentaires de cet article par RSS.

9 réflexions sur “Google Ngram viewer : un extraordinaire corpus mais…

  1. Le , fxboffy a dit:

    On voit d’ailleurs là les limites de la posture de Google se déclarant non comme une bibliothèque de livres numérisés mais comme un moteur de recherche au champ d’investigation étendu aux livre numérisés…

    L’outil est en délicatesse avec les caractères peu utilisés par les anglo-saxons; et les dates ne sont pas, on l’a déjà montré par ailleurs, ce qui se fait du plus fiable… Mais pour une première approche statistique c’est vraiment à retenir.

    Le travail sur les variations typographiques ou orthographiques, comme tu le montre, est intéressant.

  2. Par défaut, le formulaire de Ngram Viewer se met sur 1800. C’est effectivement plus prudent de considérer que l’outil devient exploitable à partir de ce moment-là.

  3. J’adore tout particulièrement le « puiíîìez&nbsp» (« Mais s’il afsiege quelque place, & que vous puiíîìez vous jetter de. dans auec moyen de la desendre&nbsp» — « Mais s’il assiège quelque place, & que vous puissiez vous jeter dedans avec moyen de la défendre&nbsp»).

    Remarque, le «&nbps;Iìa un Prinee, Jy| ONSEIGNEVR » (« À un Prince. Monseigneur » — à ne surtout pas confondre avec « à une pince-monseigneur », qui n’a rien à voir, je vois pas pourquoi Arnauld d’Andilly écrirait à une tige métallique ! ) n’est pas mal non plus…

  4. Pingback: Petite histoire de la géologie en quelques mots » Article » OWNI, Digital Journalism

  5. Pingback: L’interprétation des graphiques produits par Ngram Viewer » Article » OWNI, Digital Journalism

  6. Pingback: L’histoire de la géologie en quelques mots » Article » OwniSciences, Société, découvertes et culture scientifique

  7. Pingback: L’interprétation des graphiques produits par Ngram Viewer | Déjà vu

  8. Pingback: Culturomics. Google met la culture à portée de tous… ou corporifie la culture humaine ? - 2RO, blog-notes de Corinne Dangas

  9. Pingback: L’interprétation des graphiques produits par Ngram Viewer | Déjà Vu

Laisser un commentaire