Archives de décembre 2010

Google Ngram viewer : un extraordinaire corpus mais…

On a pu se rendre compte ces dernières années que deux parcours pouvaient amener à créer des bibliothèques numériques. D’une part, les bibliothèques, qui conservaient, acquéraient et diffusaient des données sur divers supports et ne voyaient pas pourquoi ils ne le feraient pas en ligne. D’autre part, Google, qui cherchait et mettait en ordre l’information sur internet et ne voyait pas pourquoi ils ne le feraient pas dans les livres anciens également.

Ce n’est pas le lieu ici d’évaluer qui le fait le mieux. Mais une chose est sûre : plus les masses de données deviennent gigantesques, plus le moteur de recherche devient important. Et, en cela, Google possède un gros avantage sur Gallica.

En faisant tourner ses robots sur une (grosse) sélection de livres, Google peut donc obtenir des données statistiques de tout premier ordre. Car le corpus est énorme : 5 200 000 ouvrages, soit plus de 500 milliards de mots, nous annonce Google. Passionnant pour l’étude de l’usage des langues, donc. Un matériau dont on peut sortir des centaines de thèses et d’articles et dont on parlait déjà… en 2006.
Google annonce dans l’article de Science que ses chercheurs ont publié avec d’autres de Harvard, du MIT, de l’Encyclopaedia Britannica et de l’Houghton Mifflin Harcourt que cela représente 4% de l’ensemble des livres publiés dans le monde depuis l’invention de l’imprimerie. Je ne m’étends pas sur l’analyse de cette annonce puisqu’on trouve bien des éléments chez Veronis, Affordance, LanguageLog, Hubert Guillaud, etc, etc.

Le fait est d’autant plus intéressant que, non seulement Google ne vend pas ces données mais les place même sous une licence Creative Commons BY, la plus permissive qui soit. C’est à dire que, contrairement à Gallica, elle les ouvre entièrement et en permet la réutilisation la plus large, y compris commerciale. L’idéal si l’on veut que ses données soient réellement réutilisées et permettent des usages imprévus et innovants.

Mais… il y a un « mais ».

Et le lièvre gît bien sûr dans la typographie ancienne. Voici une lettre prise au hasard dans l’édition montbéliardaise (1676) de celles d’Arnauld d’Andilly :

III. Iìa un Prinee, Jy| ONSEIGNEVR,
Ie laí/îc à Mr. à vous mander particulierement les íêntiments de vos Amis , & de vos seruiteurs sur ce qui vous touche , dont ie l’ay entretenu à loiiir. Si le Comte de Mansseld n’entreprend rien contre la France, ce diicours est du tout inutile: Mais s’il afsiege quelque place, & que vous puiíîìez vous jetter de. dans auec moyen de la desendre ; il n’y aura que ceux qui enuieront vostre valeur, qui manqueront à loiier vostre action. Ie sçav bien que quand vous ne le seriez pas , vous n’en sçaun’ez «stre blàsmé, puis que vous n’auez point d’employ qui vous y oblige. Mais si vostre gencroíìte demeuroit dans les bornes des deuoirs ordinaires , eile ne meriteroit ny des louanges extraordinaires, ny la gloire que vous auez d’estre en plus grande estime dans ì’eíprit des gens dç »nerite , par la consideration de vostre vertu, que par celle de vostre naifsance , qui n’auroic pas seule le pouuoir de me rendre aufïî venta »* hlemenc que ie le suis

On comprend vite que faire des statistiques lexicales sur un tel texte est une entreprise audacieuse. Voire absurde.
Il ne sert donc de rien d’améliorer le traitement des données tant que l’on n’aura pas amélioré les données elles-mêmes : il est de toute première instance que les OCR fassent des progrès sur les typographies anciennes.

Pour illustrer le propos, un unique exemple – cher à tous les wikisourciers – l’ſ. L’ « s long », donc, qui trouve place à l’intérieur des mots tandis que notre « s rond » se place à la fin. Cette ſ, de forme inhabituelle pour l’œil actuel, est pris pour une f par les OCR. Google nous permet donc d’obtenir de très belles statistiques sur les mots « eft » ou « prefque »…

Usage comparé de « est » (bleu) et de « eft » (rouge) de 1750 à 1830 dans le corpus francophone

Usage comparé de « est » (bleu) et de « eft » (rouge) de 1750 à 1830 dans le corpus francophone

Usage comparé de « prefque » (bleu) et de « presque » (rouge) dans le corpus francophone de 1750 à 1830.

Usage comparé de « prefque » (bleu) et de « presque » (rouge) dans le corpus francophone de 1750 à 1830.

Outil à prendre pour l’instant avec des pincettes sur les textes anciens, donc… Remarquons tout de même que pour étudier l’usage de l’s long, c’est pas mal du tout (disparition plus tardive que ce que je pensais).

Pourquoi les éditeurs français courent à leur perte

Une chose est très précieuse quand vous étudiez l’histoire du livre et de l’imprimé. C’est le recul.

Prenons un exemple : à la fin du XIXe siècle, les graveurs sur bois de bout voient leur travail menacé par les nouveaux procédés photomécaniques de reproduction tels que la photogravure. C’est tout un système économique qui risque de s’effondrer, ainsi qu’un important savoir faire technico-artistique.
Ils se débattent, ce qui prend entre autres la forme de la parution d’une revue, L’image, qui obtient le soutien d’un grand nombre d’artistes de l’époque – symbolistes et réalistes mélangés.

Cela n’a bien évidemment jamais empêché la photogravure (puis d’autres procédés) de prendre le pas sur la gravure sur bois. Les questions de diffusion à large échelle telle que demandée par les journaux et celles de sauvegarde d’un savoir-faire artisanal soutenu par l’intelligentsia de l’époque ne se situent pas sur le même plan. Et cela n’a pas empêché la gravure sur bois de survivre, mais dans des utilisations très spécifiques – essentiellement artistiques.

Peut-être en est-il aujourd’hui de même pour le livre sur papier. Pas pour toutes ses utilisations mais pour un certain nombre. Or, le livre amène avec lui tout un écosystème, parmi lesquels les éditeurs. Ces derniers peuvent posséder une véritable utilité dans le processus de mise en forme, d’éditorialisation et de diffusion des textes : il serait dommage qu’ils disparaissent. Et pourtant, on a l’impression que certains agissent dans cet unique but, en refusant de modifier certains modes de fonctionnement qui ne reposent pourtant sur aucune autre justification que l’habitude.

C’est ce que j’ai voulu montrer en coordonnant un dossier à ce sujet pour le site Nonfiction.fr : « Pourquoi les éditeurs français courent à leur perte ».

*Je propose un article montrant combien le comportement des éditeurs vis-à-vis des lecteurs est à l’exact opposé de ce qu’il convient de faire sur Internet, lieu où le succès passe par les réseaux et les relations humaines – pas par les anciennes méthodes de communication ou la médiation mondaine.

*Lionel Maurel, auteur du blog S.I.Lex, démontre que le contrat d’édition est enfermé dans une conception fixiste, qui n’est plus adaptée aux besoins actuels mais que l’on refuse pourtant de modifier.

*Mathieu Pérona, docteur en économie et co-auteur d’un récent livre sur le prix unique, souligne que, en ce qui concerne le prix de vente, l’on tente actuellement encore une fois de plaquer des méthodes anciennes à des problèmes nouveaux – ce qui est contre-productif. Ne serait-il pas plus efficace de réfléchir à un modèle adapté ?

*Constance Krebs, enfin, rappelle que le même problème se pose sur le fond : il est impossible d’éditer un livre électronique comme un livre sur papier. Proposer un pdf (ou même un ePub) comme il est fait actuellement est un très grand appauvrissement de la richesse du texte. Là encore une réflexion devrait être menée par les éditeurs afin de proposer de la véritable édition numérique, non simplement homothétique.

Je vous en souhaite bonne lecture !

Archives – concours – rencontre

On en soulignera jamais assez combien Twitter constitue un lieu de réflexion et de veille professionnelle de tout premier plan. Des communautés s’y forment, du travail collectif s’y élabore, des amitiés y naissent… avec des personnes que l’on est tout de même bien heureux de rencontrer IRL dans la vraie vie.

Lors des rencontres Wikimédia, j’ai ainsi pu faire connaissance du petit groupe des archivistes, parmi lesquelles Archives Masala (joli transfert réussi par la BnF au mercato d’hiver) et les deux tenancières d’Archives online.

Or, l’une d’elles, Lourdes Fuentes, organise sur son blog un petit concours, demandant de poster une photographie « qui illustre le métier d’archiviste et/ou ses évolutions ».
Mon rapport aux archives a toujours plus été celui d’un lecteur/chercheur que d’un archiviste. Mais comme j’ai trouvé le mot « archiviste » dans un diplôme qu’on a bien voulu me donner, je me permets de poster ici une photo qui illustre la manière dont je considère mon métier – ou en tout cas certaines tendances actuelles en lien avec mon métier.

Lourdes validera-t-elle la proposition d’un bibliothécaire qui passe son temps dans les vieux livres et les estampes du XVIIe, sans rien connaître au knowledge management ?

Du papier au numérique... et vice versa. Rémi Mathis - CC-BY-SA

Du papier au numérique... et vice versa. Rémi Mathis - CC-BY-SA

À gauche, un Amazon Kindle 3, affichant la préface de Mademoiselle de Maupin, de Théophile Gautier (téléchargé sur le projet Gutenberg). À droite, Les Confessions de S. Augustin traduites en françois par M. Arnauld d’Andilly, Paris, veuve Jean Camusat et Pierre Le Petit, 1649 dans une reliure en maroquin rouge à la Du Seuil.

[Nota : Je n’ai pas encore déterminé s’il s’agissait de la première ou seconde (ou autre ?) édition de cet ouvrage. Il existe en tout cas au moins deux éditions – copies ligne à ligne – qu’il est impossible de discriminer sans usage de l’empreinte STCN]

Rencontres Wikimedia

Ces deux derniers jours avaient lieu les Rencontres Wikimédia, dans des locaux cordialement mis à disposition par l’Assemblée nationale.

Ces dernières avaient pour thème « Patrimoine culturel et web collaboratif » : wikipédiens de tous les pays et professionnels des bibliothèques, archives et musées se sont retrouvés pour présenter les projets réalisés ou en cours et nouer des liens entre eux.

Sans doute aurai-je l’occasion de revenir sur certaines communications : il s’est dégagé de ces projets une envie, une énergie, une compétence, une capacité d’entreprendre et de mener à bien des projets proprement enthousiasmants.

Je me borne pour l’instant à mettre en ligne la présentation du principal projet que j’ai mené : la collaboration avec la BnF. Ce dernier était présenté à la tribune par Nicolas Vigneron (aspects techniques) et moi-même pour Wikimédia France et Arnaud Beaufort pour la BnF.


décembre 2010
L M M J V S D
« Nov   Fév »
 12345
6789101112
13141516171819
20212223242526
2728293031