Archive pour la catégorie 'Bibliothèques numériques'

[brève] Accord Google/BM de Lyon : l’essentiel

Ceci est un petit résumé du CCTP, à destination des personnes étranges qui ne prendraient aucun plaisir à la lecture des cahiers des charges…

*Généralités
Le contrat porte sur 450 000 à 500 000 ouvrages (= titres ou =volumes ?) sur 10 ans (art.2)
La numérisation doit commencer dans les 18 mois suivant la notification du marché et les 200 000 premiers ouvrages doivent être numérisés dans les 4 ans (art.3)
Elle a lieu dans un lieu secret situé à moins de 50km de Lyon (art.4)

*Traitement de l’opération

*Google ne numérisera pas une partie des pages, elle peut notamment laisser de côté les pages déchirées et les cartes et documents dépliants (art. 14). Sauf si la BML compte effectuer des scans supplémentaires, cela voudrait dire que la consultation de l’exemplaire numérisé ne suffira pas à une personne intéressée et qu’il faudra tout de même parfois recourir à l’original… qu’on nous refusera puisque l’ouvrage aura été numérisé.

*Les documents seront numérisés à la fois en mode image et texte. Problème : il est seulement indiqué que le logiciel d’OCR doit être “performant”. Le flou dans le vocabulaire, alors qu’il est aisé de parler en pourcentage de caractères reconnus, laisse craindre que ce ne soit guère le cas. En tout cas, pour l’instant, les résultats sont très mauvais sur les typographies du XVIIe s. (art.14)

*Les ouvrages ne seront pas absents plus d’un mois de la BML, ce qui limitera leur indisponibilité pour les lecteurs (art.8)

*Les conditions habituelles de conservation devront être respectées et des précautions sont prises lors du transport et de la numérisation elle-même (art.5-7 et 12)

*La BML accepte étrangement que les fichiers ne leurs soient pas forcément donnés en format TIFF. Le JPEG est accepté !

*Les fichiers remis à la BML ne devront pas comporter de filigrane ou de marque de Google

*Google paye 0,64 euros pour création de méta-données bibliographiques dans la limite de 25 000 titres (art. 16). Manière de pallier les éventuelles insuffisances du catalogue de la BML ?

*Un contrôle qualité a lieu mais il n’est pas contraignant : Google ne renumérise que si les deux parties en sont d’accord (art. 18), de même pour la qualité de la mise en ligne.

*Absolument tous les coûts sont à la charge de Google (art. 19)

*Consultation de la bibliothèque numérique

*Google remet à la Ville de Lyon un exemplaire des fichiers créés, accompagnés des métadonnées afférentes.

*La consultation est prévue selon deux modalités (art. 20). D’une part les fichiers seront intégrés à Google Recherche de livres. D’autre part Google propose à la BML une solution clef en main pour la consultation sur internet des ouvrages numérisés. L’entreprise états-unienne décide alors de tout : “Les fonctionnalités, le design et le contenu de ce service hébergé restent entièrement sous le contrôle du titulaire [Google]“
Seule assurance, une recherche avancée est prévue et l’on pourra rechercher à la fois en plein texte et par les métadonnées bibliographiques. Ce portail doit fonctionner 6 mois après le début des opérations de numérisation, donc en 2010.

*Un lien sera établi vers le catalogue de la BML (art. 21)

*Clauses juridiques

*Google a l’exclusivité de la numérisation sur les livres qui lui sont confiés (sauf exception, au cas par cas, dans le cadre des services habituels au lecteur) (art. 24). Il a également l’exclusivité de leur exploitation commerciale pour un temps donné.

*La Ville de Lyon dispose librement des fichiers et des métadonnées attachées, et peut en faire ce qu’elle veut, notamment créer sa propre bibliothèque numérique. Elle peut permettre des téléchargements de pages à l’unité mais doit mettre en oeuvre des solutions pour s’opposer au téléchargement de “parties substantielles” de la base.
Cela pose le problème du statut juridiques des scans. Si des droits existent sur les métadonnées et sur l’ensemble de la bibliothèque en tant que base de données, je ne vois pas de quels droits Google pourrait disposer sur les scans eux-mêmes.

*La Ville de Lyon peut conclure des partenariats à des fins éducatives ou de recherche. Si elle veut coopérer à plus grande échelle, elle doit demander l’accord de Google

[brève] Mais quelle bibliothèque universitaire négocie avec Google ?

Auditionné le 7 octobre par la commission de la Culture du Sénat, Bruno Racine indique : “la Bibliothèque de Lyon est la seule bibliothèque municipale [française] à avoir conclu un accord avec Google mais des négociations sont en cours avec une bibliothèque universitaire”.

Peut-être suis-je passé à côté d’une information mais je ne crois pas qu’on en ait beaucoup parlé.
De quelle bibliothèque peut-il s’agir ? Les BU possédant un fonds ancien conséquent ne sont pas légion. La BIUM (et l’Académie de médecine), l’INHA et Cujas numérisent elles-mêmes ; la Mazarine, la BSG et la Sorbonne semblent parties sur un projet commun…

Alors qui reste-t-il ? la BNUS ? le Collège de France ? La BIU-LSH et Lyon 1 ? le SICD de Toulouse ? Montpellier ?

[brève] Les dessous de l’accord entre la BM de Lyon et Google seront [peut-être] connus

On a beau savoir qu’il est toujours mieux d’être riche et en bonne santé que pauvre et malade, cela fait toujours plaisir quand l’Etat républicain rappelle à la loi ceux qui prétendent s’en affranchir. Or, une des règles de base de l’administration française est la publicité de son action. Les fonctionnaires agissent dans la transparence et tout citoyen peut veiller à la bonne utilisation de ses impôts.

Comme les choses ne vont pas forcément de soi, il existe une autorité administrative indépendante, la Commission d’accès aux documents administratifs (CADA) – bien connue des archivistes – qui a pour mission de contrôler cette accessibilité. Et éventuellement de conseiller à une administration de permettre la consultation de certains actes.

Ainsi, quand une grande bibliothèque de province signe un accord avec un prestataire étranger pour numérisation de son fonds, elle passe un marché public « soumis au droit d’accès institué par la loi du 17 juillet 1978 ». Les clauses de confidentialité contractuelles n’ont donc pas de valeur légale.

Un journaliste de Livres Hebdo vient ainsi d’obtenir un avis favorable de la CADA pour consultation de l’acte d’engagement et du cahier des clauses techniques particulières de l’accord signé entre la BM de Lyon et Google, car ces deux documents n’entrent pas dans le cadre des renseignements qui peuvent légalement rester confidentiels (moyens techniques et humains, certification, coordonnées bancaires…).

Mais la CADA ne rend que des avis : le journaliste en question possède certes des arguments supplémentaires pour appuyer sa demande mais rien n’indique quelle pourra être la réaction de la mairie de Lyon. Les documents obtenus ne permettront pas non plus de connaître l’ensemble des caractéristiques de l’accord.

On peut donc seulement compter sur la bonne volonté de la Ville et de la BM de Lyon, qui ne peuvent cependant que difficilement faire fi des clauses de confidentialités du contrat signé (même si ces dernières ne sont pas légales). Et même si l’obscurité caligineuse de ce contrat est, en terme d’image, assez désastreuse pour la bibliothèque.

Sources : Livres Hebdo ; Actualitté

Veut-on vraiment numériser ?

J’ai lu cette semaine un amusant et intéressant article. Il proposait de ne plus donner l’équivalent des grands chiffres en années de smic mais en équivalent de pages numérisées par la BnF.

On trouve généralement un coût de 25 à 74 centimes par page pour la numérisation de Gallica. L’auteur de cet article faisait donc remarquer que la fameuse douche que le président Sarkozy a fait installer au Grand Palais lors de la présidence française de l’UE (245 000 euros) aurait permis de numériser près d’un million de pages, soit à 500 pages par exemplaire (je compte large) 2000 ouvrages.

Ceci est bien affligeant mais demeure anecdotique au regard du budget de l’Etat.

Sans préjuger en rien de leur intérêt pour le bien de la société et du pays – je laisse à plus savant que moi sur ces matières le soin d’en juger – le bouclier fiscal coûte plus de 13 milliards d’euros par an, l’allègement de la fiscalité des plus-values plus de 20 milliards sur deux ans.

Reprenons donc nos équivalents-page-Gallica. Et tant qu’à parler en milliards d’euros, jouons le grand seigneur, partons du principe que Gallica veut se démarquer de Google par l’excellence de sa numérisation, à 1 euro la page.
*bouclier fiscal : 13 milliards de pages soit (500 pages par ouvrage [comptons large, vous dis-je]) 26 millions d’ouvrages ;
*fiscalité des plus-values : 20 milliards de pages soit 40 millions d’ouvrages

On arrive à des chiffres qui ne sont plus tellement parlant tant ils sont grands. Que représentent donc ces 26 millions de livres que l’on peut numériser chaque année en supprimant le bouclier fiscal ? Ni plus ni moins que deux fois l’ensemble des collections de la BnF.
Un plan quadriennal utilisant ces deux seules ressouces permet de numériser 130 millions de livres de 500 pages c’est à dire sans doute plus que d’éditions existant au monde. Il y a du rab’ pour trouver des accords avec les éditeurs d’oeuvres encore sous droits.

La question n’est donc pas de savoir s’il y a de l’argent. De l’argent, l’Etat en a, même en période de vache maigre : la numérisation ne coûte rien par rapport à d’autres dépenses. Il s’agit bien plutôt de placer les questions de numérisation dans l’ordre des priorités de l’Etat.

Et cela, ce n’est pas tant le travail des bibliothécaires que des politiques. Mais c’est aussi le devoir des citoyens de choisir ses représentants en fonction des choix qu’ils auront faits.

“Donnez-moi le bouclier fiscal et je numérise le monde” comme ne l’a pas dit Archimède.

MàJ : Mise au régime de ma “vache aigre” pour en faire une “vache maigre”. Merci à Les Martiens pour le signalement de la coquille.
MàJ (bis) : Lien vers l’article (au début) que je ne retrouvais pas. Merci à Lully de me l’avoir redonné.

Installation de la mission Tessier

Le rapport est un outil de gouvernance bien pratique. Il plaît à la fois au commanditaire (qui agit), aux membres de la mission (prestigieuse), aux journalistes (qui ont des choses à dire), aux citoyens (qui voient que ça bouge). Voire aux historiens, qui peuvent y consacrer un numéro entier de revue. Bref, le rapport apporte joie et félicité.

Le fait qu’ils soient parfois moqués pour leur manque d’influence à moyen ou long terme (par simple curiosité, nous aimerions beaucoup voir le fameux “tiroir” où “finissent”, à ce que l’on raconte, tous les rapports) n’a jamais empêché de continuer à en commander et, parfois, un de ces rapports, sans qu’on sache trop bien pourquoi, fait date, amène une vraie prise de conscience, un changement de politique – bref, possède une influence véritable.

Surtout si on l’a commandé pour cela, c’est à dire si les conclusions du rapport sont le prétexte à un changement de politique décidé par avance mais qu’il convient de justifier.

Mais encore faut-il que les commanditaires du rapport précisent la nature de leur commande. On se souvient que Claude Durand, ancien président de Fayard, a démissionné de la présidence de la commission sur la numérisation des fonds patrimoniaux des bibliothèques le 15 octobre, en l’absence d’une quelconque lettre de mission du ministre, affirmant : “Des déclarations préliminaires de François Fillon laissant entendre qu’il fallait continuer les pourparlers avec Google, et de Frédéric Mitterrand disant que l’opposition à Google ne devait pas passer pour de l’antiaméricanisme, m’ont incité à attendre ce cadrage. Allait-on réfléchir aux modalités de négociation avec Google, ou bien se poser la question : faut-il, oui ou non, négocier avec Google ?” (Livres Hebdo, 15 octobre 2009).

Il a depuis été remplacé par Marc Tessier, ancien directeur général du Centre national de la cinématographie, ancien président de France Télévisions et auteur en 2007 d’un rapport sur La presse au défi du numérique. Et c’est aujourd’hui qu’a été procédé à l’installation de cette commission.

Les autres membres en sont :
*Olivier Bosc, nouveau conservateur de la bibliothèque du Musée Condé de Chantilly et surtout ancien conseiller livre de Renaud Donnedieu de Vabres rue de Valois (40 ans)
*Alban Cerisier, archiviste paléographe, responsable des archives et du développement numérique de Gallimard (37 ans)
*Emmanuel Hoog, président de l’Institut national de l’audiovisuel (47 ans)
*François-Xavier Labarraque, nouveau directeur du développement et de la stratégie de Radio France (39 ans)

On remarquera que ce sont des hommes (on s’en f…), jeunes (sans vouloir verser dans le racisme anti-vieux, ce n’est pas forcément une mauvaise chose ; Claude Durand avait lui-même avoué que le numérique ne l’intéressait pas particulièrement). Et surtout que l’on trouve deux professionnels : un conservateur des bibliothèques et un archiviste chartiste.

Sauf erreur de ma part, la lettre de cadrage n’est toujours pas disponible. Tout ce que l’on sait de cette mission provient du communiqué de nomination de Marc Tessier (15 octobre), repris lors de l’installation de ladite commission, ce jourd’hui.

À Claude Durand qui se demandait si la question était “faut-il négocier avec Google” ou “comment négocier avec Google”, il est répondu “les deux, mon général” puisque “La commission sera chargée d’étudier l’opportunité et des modalités d’un éventuel accord avec un opérateur privé, pour numériser ou mettre en ligne les fonds des bibliothèques“, c’est à dire à la fois pour la numérisation et la diffusion.

Dans les quelques lignes précisant le rôle de la commission, on parle de :

* “la libre disposition du patrimoine numérisé national” : nous pouvons espérer qu’il s’agisse d’une véritable libre disposition (comprenant la réutilisation et la modification libre des fichiers par tous)
* “la parfaite conservation, sur le long terme, des fichiers numérisés” : ces questions techniques sont très bien traitées par la BnF
* “la visibilité de la culture et l’accès aux contenus français sur Internet” : je me permets de renvoyer le lecteur à un de mes anciens billets. Il faut que les données (du domaine public) soient librement réutilisables et disséminées. C’est la meilleure réponse que l’on puisse apporter aux risques de monopole d’une entreprise commerciale.
* “l’intérêt économique et financier pour l’Etat et le contribuable” : là encore, tout à fait d’accord à condition que l’on prenne en compte l’ensemble des postes de dépense/recette. De l’argent qui rentre, ce n’est pas forcément un bénéfice, si cela a coût en terme d’image, de visibilité ou d’utilité de l’entreprise
* “le message politique à adresser à la communauté internationale” : il va falloir jouer serré après que la France s’est fait le héraut de l’indépendance intellectuelle et le promoteur du fer de lance de l’Europe qu’est Europeana. À vrai dire, je suis curieux de voir ça…

Je note également qu’il s’agit uniquement des fonds patrimoniaux des bibliothèques placées sous la tutelle du ministère de la Culture, c’est à dire de la BnF et des bibliothèques territoriales. J’ignore s’il est prévu de réfléchir à la liaison avec les fonds très importants des bibliothèques dépendant du ministère de l’Enseignement supérieur (BSG, Sorbonne, Cujas, BIUM/BIUP, Mazarine, etc.) mais il serait intéressant de se pencher sur la question.

Enfin, au milieu de la réflexion de cette commission tombera le verdict de la Cour de justice de New York concernant l’accord entre Google et la Guilde des auteurs : cette décision ne pourra pas ne pas posséder d’influence sur les conclusions de la commission. Un rapport d’étape doit avoir lieu le 24 novembre avant rendu définitif le 15 décembre.

Aux rencontres Henri-Jean Martin (2)

C’est une malédiction, il est absolument impossible que j’aille quelque part sans parler de Wikipédia.

Non, que je ne sache parler que de cela – je préfèrerais parler de bibliographies ou d’histoire du livre – mais la fascination/répulsion du sujet dans certains milieux, couplée à mon refus de laisser passer des mensonges ou des inexactitudes, fait qu’il faut périodiquement y revenir.

Pour cette seconde journée des rencontres Henri-Jean Martin, le sujet a donc été abordé deux fois.

*D’une part, une personne a trouvé WP bien rigide dans sa gestion du droit d’auteur : ce Monsieur avait écrit un article pour une revue professionnelle et s’étonnait de ne pouvoir le copier-coller dans WP alors qu’il en était l’auteur.

*D’autre part, une dame trouvait que les wikipédiens étaient de gentils rêveurs pleins de bons sentiments mais à mille lieux des réalités juridiques, et qui “pillaient” (le mot est d’elle) le travail des bibliothèques.

Deux mises en cause en contradiction l’une avec l’autre, donc… qui trouvent leur résolution pour peu que l’on applique le droit d’auteur avec rigueur.

*Dans le premier cas, l’auteur doit donner son autorisation écrite pour une nouvelle publication d’un texte. Il doit également donner l’autorisation de son premier éditeur. Etant donné que la revue en question avait refusé que nous placions sous licence libre l’article que nous avions écrit avec un ami, il y a de fortes chances qu’elle s’y oppose de nouveau cette fois-ci. Donc, pas de re-publication – qui serait une contre-façon – en attendant cette autorisation.

*D’autre part, le “pillage”.

Veuillez m’excuser si je m’emporte mais la question du droit d’auteur dans la société de l’information est centrale depuis des années et je me permets d’être sidéré que des professionnels de l’information soient passés à côté des règles les plus évidentes à ce sujet. Lionel Maurel a déjà souligné dans une excellente intervention la fragilité des mentions juridiques variées que l’on peut recenser sur les bibliothèques numériques.

Donc, puisque les wikipédiens sont des rêveurs qui ne comprennent rien aux réalités du monde, laissons parler des personnes plus dignes de confiance :

    *Légalité de la chose :

    Les opérations de numérisation de documents ne confèrent à la bibliothèque aucun droit de propriété littéraire et artistique sur les oeuvres ainsi reproduites

    Source : Ministère de la Culture/Fiches juridiques/Questions juridiques liées à l’exploitation des documents numériques

    *Productivité d’un tel embargo

    Nombre de vues des images de la Library of Congress chargées dans FlickR : 1500 à 4000 fois chacune.

    Près de 20 000 pour certaines photos du président Lincoln.

    Nombre de vues des images de la BM de Toulouse environ 400 à 500 fois chacune sur FlickR, sans compter les vues sur Wikimedia Commons, alors que le sujet (les villages des Pyrénées à la fin du XIXe siècle) est ardu.

    Nombre de vues sur le site de la bibliothèque de X ?

    *Soutien de l’Institution (que l’on croit protéger du pillage ?) à de telles pratiques

    À côté des sites internet propres aux services ou aux institutions, la réutilisation de données numérisées par des tiers constitue une forme de diffusion en plein essor [...]. Les orientations générales du rapport ci-joint reçoivent mon approbation et tout particulièrement l’objectif de développer autant qu’il est possible les réutilisations de notre patrimoine numérisé, afin d’en accentuer la présence et la visibilité sur les réseaux.

    Source : Frédéric Mitterrand, ministre de la Culture. Lettre d’accompagnement du rapport du groupe de travail sur la diffusion et la réutilisation des données publiques culturelles numériques. 17 août 2009

N’ayant pas voulu rester trop longtemps sur le sujet, j’ignore totalement les éventuels arguments de cette dame. Je ne peux croire qu’un professionnel pense que la mise en ligne est une fin en soi et non un moyen, un service offert à des usagers. Et qu’il faut donc réfléchir selon les pratiques de l’usager.

Je persiste donc à penser que ce type de perversité bibliothécaire (c’est MON travail, il doit rester sur MON site) n’existerait pas si les bibliothécaires utilisaient réellement les outils qu’ils offrent. S’ils étaient usagers de leur propre bibliothèque et, par là, conscients des besoins des lecteurs. S’ils étaient chercheurs, par exemple [Ceci est un troll... ou pas.].

Terminons en laissant la parole à Robert Darnton, en regrettant que des bibliothèques de service public aient parfois des comportements de renfermement sur elles-mêmes pires que les “grandes sociétés” aux “intérêts commerciaux”.

Aujourd’hui, nous pouvons créer une République des lettres ouverte à tout le monde. Le risque, c’est une domination du paysage par des grandes sociétés qui ont avant tout des intérêts commerciaux. Numérisation veut dire démocratisation : c’est notre responsabilité en tant que chefs de bibliothèques.

PS : Ca n’a rien à voir (encore que…) mais je me réjouis qu’Elinor Ostrom ait reçu le “prix Nobel” d’économie 2009 – elle qui dans son livre Understanding knowledge as a commons, louait l’initiative des Creative Commons.

Aux rencontres Henri-Jean Martin (1)

Pour surprenant que cela puisse paraître, il n’existait pas jusqu’à il y a trois ans de rencontres régulières des personnes intéressées par les problématiques particulières des fonds anciens.

Depuis, l’association BiblioPat a été créée et elle organise pour la troisième année en collaboration avec l’enssib les journées Henri-Jean Martin, rendant hommage au grand historien du livre.

Ces journées d’études possèdent un double avantage. D’une part faire le point, à travers un certain nombre d’interventions, sur quelques thématiques ayant trait au patrimoine écrit. D’autre part réunir l’espace de deux jours des professionnels de ces matières afin de créer une sociabilité à la fois utile et agréable.

La première demi-journée était dans un premier temps intitulée “à quoi bon numériser ?” (et finalement “Quelles stratégies pour la numérisation du patrimoine ?”), tant le paysage peut paraître flou et la situation embrumée aux professionnels.

De nombreuses bibliothèques ont numérisé une partie de leurs fonds, sous des formats différents (mode image/texte) avec des différences plus importantes encore en ce qui concerne leur visibilité et leur inclusion dans l’Internet (protocole OAI, moissonabilité, etc.)

Parmi les quelques interventions auxquelles j’ai assisté, je voudrais revenir sur celle de Noëlle Balley (désormais NB), parce qu’elle m’a paru emblématique de ce qui se passe actuellement. Je résume très rapidement – c’était plus drôle en vrai, il y avait de la vie et de l’humour.

L’histoire se passe à la bibliothèque Cujas – mais pourrait se passer à n’importe quel autre endroit. Avant l’arrivée de NB et du directeur actuel, il est décidé un plan de numérisation : les très belles collections de cette bibliothèque héritière de l’ancienne faculté de droit de l’université de Paris en valent la peine.

Il est décidé de tout faire en interne, grâce à un fort coûteux scanner acheté pour l’occasion. Ceci devrait bien se passer car, en parallèle, la bibliothèque devrait être pôle répliqué du programme Persée. Et enfin, la bibliothèque veut agir sans mettre au courant les autres bibliothèques de ses menées – pas même la BnF, gros numérisateur.

Or, en quelques mois
*ils apprennent qu’ils n’ont pas été retenus pour le programme Persée (normal, ça se fait dans ma bibliothèque, gniark, gniark)
*le scanner est un peu décevant sur certains types de papier
*ils apprennent que la BnF compte numériser/a numérisé la majeur partie de leur corpus

C’est alors qu’un nouveau directeur arrive et que NB se trouve chef de projet avec comme priorité de définir une nouvelle stratégie de numérisation, reposant sur
*une ouverture à des partenariats (surtout avec la BnF)
*un élargissement thématique des documents (notamment des documents pédagogiques)
*un recours à des prestataires extérieurs pour les documents antérieurs à 1830 (mode image et saisie de la table des matières)

Le centenaire de Jean Carbonnier et le colloque afférant sont l’occasion d’un grand chantier : la mise en ligne des polycopiés de ses cours. Cela nécessite l’accord des ayant droit du juriste. Mais surtout, une correction intégrale par des humains de l’OCR afin d’obtenir une transcription parfaite. Le résultat est en effet très bon mais le coût élevé.

L’étape suivante est la numérisation de classiques de l’histoire du droit (du XVe au XIXe siècles) à partir d’une liste de 428 titres établie par deux professeurs et surtout la participation au projet de la BnF en tant que bibliothèque spécialisée.

Je passe sur les détails d’organisation en terme technique ou d’équipe. L’expérience est finalement une assez belle réussite mais un choix initial malheureux a obligé à un bricolage permanent alors même que les conditions de la bibliothèque Cujas sont optimales (spécificité et légitimité reconnues, soutien de la direction, moyens financiers, bonne culture informatique…).

Un retour d’expérience fort intéressant, donc, en ce qu’il illustre à la fois ce qu’il ne faut pas faire et la manière de sauver un projet bien mal engagé. Mais si ce type d’exposé pratique est utile aux professionnels, pourquoi ne pas les offrir systématiquement et en temps réel ?

Cela ne pourrait-il pas tout simplement prendre place sur un blog ? Il faudrait juste pour cela décider qu’il n’y a pas de honte à avouer ses erreurs mais au contraire les faire connaître aux autres pour qu’ils n’en commettent pas de semblables (ce dont a eu le courage NB aujourd’hui).
Manquerait peut-être alors le côté relationnel. Mais là encore des outils existent : oserai-je dire que j’ai l’impression de mieux connaître certains conservateurs que je n’ai jamais croisés que sur Facebook ou Twitter – où l’ambiance est à la fois sympathique, créative et laborieuse – que certains des collègues de ma propre université ?

On aimerait en savoir plus sur ce qui se trame partout, afin que les partenariats soient plus aisés, que chacun bénéficie du travail des autres, que les idées circulent et les bonnes pratiques soient connues. Les rencontres Henri-Jean Martin montrent toute l’importance de ces pratiques : continuons toute l’année, parlons, collaborons !

Bibliothèques numériques : et l’usager ?

On va encore dire que je suis méchant ou sarcastique mais je viens d’écouter – avec un peu de retard, c’est l’avantage de l’écoute à la carte – l’émission Question d’éthique, retransmise le lundi sur France Culture.

L’émission portant sur le thème “Une bibliothèque universelle numérique, à quel prix ?”, la présentatrice, Monique Canto-Sperber, y recevait Michel Bernard, professeur à Paris III, et – ô surprise et originalité de nos médias – Jean-Noël Jeanneney.

La présence de M. Jeanneney, dont personne ne connaît les thèses, a été rafraîchissante et sa pensée a dû étonner plus d’un auditeur.

Les personnes intéressées auront sans aucun doute peu appris mais l’émission a au moins eu l’intérêt de mettre les choses au clair en orientant la discussion autour des quelques grandes problématiques. Surtout, elle a permis de mettre en valeur une figure centrale mais un peu oubliée dans les débats politiques actuels : l’usager.

Car dans cette émission, les rôles étaient (involontairement, pour partie) bien distribués : Michel Bernard (MB) jouait le rôle de la personne raisonnable connaissant les dangers de Google mais reconnaissant ses avantages en tant que lecteur. C’est lui qui m’a intéressé.
Face à lui, des personnes dont la partition était déjà écrite et qui permettaient donc de mettre le premier en valeur : Jean-Noël Jeanneney (JNJ), nuancé et intelligent, mais revenant toujours à ses vieilles lunes et justifiant son action en tant que président de la BnF ; et Monique Canto-Sperber (MCS), enfin, jouant le rôle de la caricature de Jeanneney (c’est à dire du Jeanneney vu par une certaine presse qui n’a pas lu son livre). Il faut avouer que c’est reposant : pas de surprise dans ce que vont dire les intervenants, tout se déroule comme au théâtre.
Finalement, le plus drôle était au début, quand on s’est rendu compte que, pour une émission sur l’éthique, la présentatrice invitait un autre producteur de France Culture, qui lui-même ne semblait pas choqué par ces petits arrangements entre amis. Peut-être suis-je le seul choqué de ces pratiques. Je suis resté naïf et crois à la vertu. La preuve, je suis fonctionnaire.

*Egalité d’accès contre fracture numérique

MB, spécialiste de l’usage de l’informatique dans la recherche littéraire, souligne l’importance des bibliothèques numériques pour l’accès au savoir. Sans aller jusqu’aux pays du Sud, comme il l’a fait, rappelons qu’il est impossible à un provincial de rédiger une thèse sans venir à plusieurs reprises à Paris, ce qui coûte fort cher.

La thèse opposée a été développée avec une radicalité rare, ce qui l’a rendue plus plaisante que convaincante. Avec la meilleure foi du monde, MCS, voulant parler de la facticité de cette mise à disposition pour un public qui n’en a pas l’usage et du risque de “fracture numérique”, a réutilisé les arguments du XIXe siècle sur les risques de la lecture de romans pour le peuple et les femmes. Parlant d’abord des dangers de l’”accès sans formation préalable”, elle a craint que “tout le monde [puisse] être en contact avec le contenu de savoirs hérités qui parvenaient [auparavant] à des personnes qui s’étaient préparées à cela”. Avant de conclure par une question essentielle “Ne voyez-vous pas une forme de danger pour la culture universelle ?”

JNJ s’est heureusement employé à recoller les morceaux avec son concept central (et qui doit nous faire peur !) : le vrac. Il a alors souligné qu’il fallait par dessus tout former les gens (dès l’école) à utiliser ces nouveaux outils pour n’être pas enseveli sous ces masses d’information, ce qui est de bon sens.

*Ranger en piles ou chercher dans le tas

Pour éviter le vrac, JNJ veut une information sous la forme d’une arborescence (et non tout sur le même plan) et une validation des contenus.

On est alors tenté d’aller voir dans Europeana ce qu’il en est. Je tape quelque chose qui me donnera beaucoup de résultats – au hasard “Louis XIV” – et je restreins aux textes. Sur les 12 résultats de la première page, qu’obtiens-je ? 8 études variées publiées au XIXe siècles (et donc largement obsolètes), une “declaration du roy contre les corsaires” de 1691 (document d’époque, mais anecdotique), et trois autres documents du même intérêt.
C’est peut-être une vieille technique de beaucoup parler pour éviter que l’on aille voir les réalisations mais il ne me semble pas que le classement d’Europeana soit plus significatif ou utile au béotien que celui de Google. Et j’ai beau pouvoir raffiner ma recherche par un système de facettes, cela ne me sera pas d’une grande aide pour sélectionner les ressources les plus pertinentes (surtout quand les années de parution ne sont pas rangées par ordre chronologie (sic)).

MCS prend alors l’exemple (canonique, j’ignore pourquoi) du tremblement de terre de Lisbonne et explique que si l’on cherche des renseignements sur ce dernier dans Google Livres, on obtiendra “tout un tas de publications où il sera peut-être beaucoup plus question du tremblement de terre de Lisbonne mais qui n’en diront rien de véritablement intéressant. Comment celui qui est peu informé, qui n’a pas conduit une sorte de préparation intellectuelle est-il en mesure de traiter tout ce savoir ?” MB souligne à juste titre que le problème est le même dans une bibliothèque où mettre l’usager devant le rayon qui l’intéresse ne suffit pas : dans les deux cas, il faut savoir chercher puis traiter l’information. Ajoutons qu’il existe une méthodologie de la recherche et qu’on va généralement chercher des ressources généralistes avant de chercher des choses plus spécialisées. Je citerais bien l’article de Wikipédia, qui est très correct et donne des références bibliographiques pour aller plus loin, mais je sais que JNJ n’aime guère Wikipédia.

Mais allons plus loin et comparons les résultats de Gallica, Europeana et Google Livres avec “tremblement terre Lisbonne”
*Google : les deux premiers résultats (en affichage limité) sont Les tremblements de terre aux XVIIe et XVIIIe siècles: la naissance d’un risque‎, très bon essai universitaire publié chez Champ Vallon ; et Le tremblement de terre de Lisbonne chez Odile Jacob, monographie de référence sur cet épisode, longuement analysé.
*Europeana (restreint aux textes) : un article du Guardian sur le refus du Danemark de ratifier le traité de Maastricht (sic) puis des ouvrages des XVIIIe et XIXe siècles sur des séismes à Messine et en Amérique méridionale et à Lesbos (re-sic, le dernier ouvrage n’est pas vraiment documentaire…).
*Gallica : Le guide de voyage “Petit fûté” sur Lisbonne suivi de Les catastrophes célèbres, Mame, 1861.

Là encore, on voit apparaître une contradiction. Cela signifierait qu’on pourrait être intellectuellement d’accord avec JNJ et, pour cette raison même, plutôt utiliser Google Livre que Gallica ? Hmm, voilà qui ne cadre guère avec ce qu’on lit dans les journaux où on répète les arguments de chaque camp sans jamais, apparemment, utiliser les outils dont on parle…

*Une sélection rigoureuse ou tout numériser ?

JNJ et MCS mettent en avant le choix raisonné supposé être celui de la BnF, contrairement à Google qui numérise n’importe quoi.

Là encore, des nuances doivent être apportées. Du côté de la BnF puisque le rapport de l’Inspection des finances dont j’ai récemment parlé contestait les [non-]choix effectués. Du côté de Google également puisqu’il numérisent par bibliothèques entières. Affirmer que leur choix n’est pas pertinent, c’est affirmer que le fonds de la Bodleian n’est pas cohérent, ce qui n’a pas vraiment de sens.

Le choix effectué, il faut hiérarchiser l’information. JNJ conteste les choix de Google, selon lui fondés sur la recherche de l’audimat. Il donne alors l’exemple de Stendhal, convaincu de n’être lu et compris qu’en 1936 et affirme que Google l’aurait mal classé [sous-entendu : "quelle bande d'idiots, il est pourtant évident que Stendhal est un grand écrivain"].

À ce moment comme à d’autre, on a la désagréable impression que JNJ parle de classement des ouvrages dans le vide, comme si ce classement ne dépendait pas d’une recherche effectuée par un lecteur. Après, ce qu’il dit de Stendhal est probablement vrai, mais j’incline à penser que la BnF de 1880 aurait également proposé Georges Ohnet ou Emile Augier avant le Grenoblois. D’ailleurs, le simple fait d’avoir été assez clairvoyant pour récupérer ses archives suffit à sauver la mémoire de l’illustre Hyacinthe Gariel. Mais le fait même qu’il pose la question en ces termes amène à s’interroger sur les idées de JNJ en matière de hiérarchie de l’information : le rang doit-il dépendre de la qualité de l’oeuvre ? Selons quels critères ? Déterminés par qui ?

*L’impérialisme culturel américain

La discussion roule alors sur la diversité culturelle et notamment des langues utilisées. JNJ revient sur les exemples donnés dans son livre sur les poésies de Victor Hugo disponibles uniquement en traduction anglaise et sur la vision tronquée car anglaise de la Révolution française. Outre qu’il précise que ces défauts qui existaient au début du projet ont été largement corrigés depuis, MB souligne le paradoxe qu’il y a à se plaindre que la culture française ne soit pas assez présente dans Google livres tout en faisant pression pour éviter que les fonds des bibliothèques françaises y soient intégrés.

*Oeuvres sous droit, oeuvres orphelines

Même si nous sortons des questions patrimoniales, cette partie de la discussion est révélatrice de la vision de chacun des interlocuteurs.
MCS parle de “l’orgueil” de Google et de la désinvolture avec laquelle il s’est placé en dehors du droit d’auteur : elle parle du point de vue de l’éditeur avec comme valeur première le respect du droit d’auteur. MB acquiesce mais fait remarquer que la désinvolture existe également chez les “éditeurs vis-à-vis de cette masse de textes sur lesquels il ont posé un veto, qui n’est plus accessible parce qu’ils ne veulent plus la publier, parce qu’ils sont supposés n’être plus suffisamment rentables, dont les auteurs eux-mêmes ne peuvent rien faire car ils ont passé des accords avec les éditeurs”. C’est à dire qu’il parle du point de vue du lecteur, avec comme valeur première la diffusion et l’accès au savoir. Et il souligne que si Google est en effet une entreprise commerciale qui cherche le profit, c’est également le cas des éditeurs français, qui acceptent de rendre inaccessibles des ouvrages dont ils détiennent les droits en ne prenant en compte que leurs intérêts propres et non ceux du public.

La position de MB est intéressante car elle est très rarement prise en compte alors qu’elle est centrale. Il convient de la plupart des critiques faites à Google, des risques de monopole, etc. Mais il est chercheur et il a juste besoin de livres.
Intellectuellement, il est d’accord avec JNJ mais, en tant qu’usager, il doit être pragmatique. “Comme consommateur, je préfèrerais utiliser Quaero mais Google est meilleur”, dit-il.
Or, dans la plupart des médias, la question n’est abordée que d’un point de vue éthique, politique, stratégique… en oubliant que ces sites sont avant tout des outils pour des gens qui cherchent des livres. Et qu’il arrive un moment où, même si on craint la menace que représente Google, on ira sur Google Livres parce que le livre dont on a besoin est sur Google Livre.

Seule solution pour sortir de cette aporie : que l’Europe y mette les moyens. Tout le monde a souligné le faible budget consacré à la numérisation en France, alors que les enjeux sont gigantesques pour des dizaines d’années. Le budget annuel est inférieur au prix d’un unique avion Rafale… Eh oui.

Petite phrase

Certaines choses paraissent évidentes, mais il est toujours bon de les dire – l’évidence étant la chose du monde la moins bien partagée :

Je n’oppose pas ici, dans une vision frontale et caricaturale qui serait ridicule, la technologie au patrimoine [...].

Frédéric Mitterrand, « Posons les termes du débat, sans caricature », Point de vue dans Le Monde, 11 septembre 2009.

Où va la BnF ?

Second (rapide) billet sur le rapport de l’Inspection générale des finances, ou plutôt sur les réponses de la BnF, par la voix de son président Bruno Racine, à ce rapport.

*La réduction du nombre de sites

Contrairement aux propositions de l’IGF, la BnF refuse de se séparer de la bibliothèque-musée de l’Opéra, qu’elle considère comme faisant partie à part entière du département de la Musique. Ce dernier devrait rester au 2, rue de Louvois alors que l’IGF suggère la revente de l’immeuble.

La BnF réaffirme également la plein appartenance de la bibliothèque de l’Arsenal à l’établissement, bien qu’elle ait besoin d’un “projet scientifique et culturel rénové”.

En revanche, les choses pourraient changer au château de Sablé-sur-Sarthe (centre technique coûtant très cher et inadapté) et surtout à la maison Jean-Vilar d’Avignon : la BnF pourrait ne pas se maintenir sur le site si le fonds Jean-Vilar ne lui était pas dévolu.

*Gallica, Google et ces sortes de choses…

L’IGF regrette que la BnF aille de plus en plus vers une numérisation quantitative avec des critères essentiellement négatifs (non-numérisation pour des questions de conservation…) et recommande une meilleure mise en valeur des spécificités de l’établissement, une numérisation rapide des supports fragiles très demandés (presse, audiovisuel) et des collaborations avec d’autres bibliothèques.

La BnF va donc
*augmenter singulièrement la part des documents issus des départements spécialisés (2009-2011)
*donner accès de manière payante à des documents encore sous droit au sein même de Gallica en relation avec les éditeurs (et participer à la création de la base de données européenne des oeuvres orphelines avec des suggestions pour les inclure dans Europeana)
*transformer Gallica en une “Bibliothèque numérique de France” (le mot est d’eux), outil collaboratif enrichi par les pôles associés

Surtout, la BnF rappelle qu’elle a toujours été en contact avec Google et annonce la possibilité d’une “éventuelle collaboration” avec trois conditions
*elle porterait sur les oeuvres du domaine public (au moins jusqu’au verdict du procès Google)
*elle ne serait qu’un complément pour éviter la dépendance à Google (mais tout de même en se réservant la possibilité de définir le corps principal en fonction de la nature de ce complément…)
*limiter les restrictions d’accès aux acteurs commerciaux

La BnF suggère de confier à Google la numérisation de ses doubles et elle obtiendrait en échange les fichiers de numérisation pour insertion dans Gallica ainsi que l’ensemble des fichiers des livres francophones numérisés par Google en Europe et aux Etats-Unis. Du gagnant-gagnant, surtout pour le lecteur.

Je passe sur les questions d’organisation interne – remarquons seulement que la BnF refuse la gratuité du haut-de-jardin préconisée par l’IGF. On voit également ici et là apparaître des projets de mise en valeur des personnels de la BnF, notamment en liaison avec la recherche (création d’un centre de recherche à proximité du Quadrilatère Richelieu rénové ?), ce qui est une excellente chose tant l’expertise scientifique est peu considérée actuellement et tant cela est utile au rayonnement national et international de l’institution.

Page suivante »