Archives de novembre 2009

[brève] Accord Google/BM de Lyon : l’essentiel

Ceci est un petit résumé du CCTP, à destination des personnes étranges qui ne prendraient aucun plaisir à la lecture des cahiers des charges…

*Généralités
Le contrat porte sur 450 000 à 500 000 ouvrages (= titres ou =volumes ?) sur 10 ans (art.2)
La numérisation doit commencer dans les 18 mois suivant la notification du marché et les 200 000 premiers ouvrages doivent être numérisés dans les 4 ans (art.3)
Elle a lieu dans un lieu secret situé à moins de 50km de Lyon (art.4)

*Traitement de l’opération

*Google ne numérisera pas une partie des pages, elle peut notamment laisser de côté les pages déchirées et les cartes et documents dépliants (art. 14). Sauf si la BML compte effectuer des scans supplémentaires, cela voudrait dire que la consultation de l’exemplaire numérisé ne suffira pas à une personne intéressée et qu’il faudra tout de même parfois recourir à l’original… qu’on nous refusera puisque l’ouvrage aura été numérisé.

*Les documents seront numérisés à la fois en mode image et texte. Problème : il est seulement indiqué que le logiciel d’OCR doit être « performant ». Le flou dans le vocabulaire, alors qu’il est aisé de parler en pourcentage de caractères reconnus, laisse craindre que ce ne soit guère le cas. En tout cas, pour l’instant, les résultats sont très mauvais sur les typographies du XVIIe s. (art.14)

*Les ouvrages ne seront pas absents plus d’un mois de la BML, ce qui limitera leur indisponibilité pour les lecteurs (art.8)

*Les conditions habituelles de conservation devront être respectées et des précautions sont prises lors du transport et de la numérisation elle-même (art.5-7 et 12)

*La BML accepte étrangement que les fichiers ne leurs soient pas forcément donnés en format TIFF. Le JPEG est accepté !

*Les fichiers remis à la BML ne devront pas comporter de filigrane ou de marque de Google

*Google paye 0,64 euros pour création de méta-données bibliographiques dans la limite de 25 000 titres (art. 16). Manière de pallier les éventuelles insuffisances du catalogue de la BML ?

*Un contrôle qualité a lieu mais il n’est pas contraignant : Google ne renumérise que si les deux parties en sont d’accord (art. 18), de même pour la qualité de la mise en ligne.

*Absolument tous les coûts sont à la charge de Google (art. 19)

*Consultation de la bibliothèque numérique

*Google remet à la Ville de Lyon un exemplaire des fichiers créés, accompagnés des métadonnées afférentes.

*La consultation est prévue selon deux modalités (art. 20). D’une part les fichiers seront intégrés à Google Recherche de livres. D’autre part Google propose à la BML une solution clef en main pour la consultation sur internet des ouvrages numérisés. L’entreprise états-unienne décide alors de tout : « Les fonctionnalités, le design et le contenu de ce service hébergé restent entièrement sous le contrôle du titulaire [Google] »
Seule assurance, une recherche avancée est prévue et l’on pourra rechercher à la fois en plein texte et par les métadonnées bibliographiques. Ce portail doit fonctionner 6 mois après le début des opérations de numérisation, donc en 2010.

*Un lien sera établi vers le catalogue de la BML (art. 21)

*Clauses juridiques

*Google a l’exclusivité de la numérisation sur les livres qui lui sont confiés (sauf exception, au cas par cas, dans le cadre des services habituels au lecteur) (art. 24). Il a également l’exclusivité de leur exploitation commerciale pour un temps donné.

*La Ville de Lyon dispose librement des fichiers et des métadonnées attachées, et peut en faire ce qu’elle veut, notamment créer sa propre bibliothèque numérique. Elle peut permettre des téléchargements de pages à l’unité mais doit mettre en oeuvre des solutions pour s’opposer au téléchargement de « parties substantielles » de la base.
Cela pose le problème du statut juridiques des scans. Si des droits existent sur les métadonnées et sur l’ensemble de la bibliothèque en tant que base de données, je ne vois pas de quels droits Google pourrait disposer sur les scans eux-mêmes.

*La Ville de Lyon peut conclure des partenariats à des fins éducatives ou de recherche. Si elle veut coopérer à plus grande échelle, elle doit demander l’accord de Google

Pour un identifiant des éditions anciennes

Les lecteurs de ce blog auront certainement compris qu’une de mes ambitions est de faire entrer le traitement du livre ancien dans le champ des digital humanities.

Autant l’on pouvait se permettre de cataloguer chacun de son côté au grâcieux temps de Léopold Delisle, autant il me semble que la mise en ligne des catalogues est cruel pour les bibliothèques patrimoniales. Précisément parce que le catalogage est éclaté et qu’en dehors de quelques projets qui me tiennent à coeur (le STCN néerlandais par exemple), il n’existe pas de coordination nationale et encore moins internationale.

Assurément, des règles de catalogage existent (ISBD(A) ; Afnor Z 44-074) mais elles ne sont pas suffisantes et, partant, sont adaptées ici et là en fonction des besoins et des possibilités en main d’oeuvre et en temps. On obtient donc une grande diversité des descriptions actuelles ; plus grande encore si l’on veut bien considérer qu’un très grand nombre de notices provient de la rétroconversion rapide de fichiers du XIXe siècle.

Or, en informatique, il faut que chaque objet soit clairement identifié. Il est très difficile sans cela de créer des liens entre ces objets. C’est pourquoi par exemple les articles de revues scientifiques possèdent un « doi« . Il est plus facile d’identifier automatiquement un article par une courte suite de caractères que par nom de l’auteur + titre de l’article + titre de la revue + numéro + pages, le tout non normalisé. Et c’est donc pourquoi, quand Persée numérise des revues, elle attribue de manière rétrospective des « doi » aux articles.

Pour les livres paraissant actuellement, cet identifiant est l’ISBN. Ce dernier ne correspond pas précisément à une édition (les versions brochée et reliée d’une même édition possèdent des ISBN différents, par exemple) mais permet l’automatisation voulue : cliquez sur l’ISBN indiqué après le titre sur la liste des publications d’un auteur dans Wikipédia et vous obtiendrez une page vous permettant de chercher cet ouvrage dans la plupart des bibliothèques et librairies du monde. Imaginons une grande bibliothèque numérique comprenant des centaines de milliers d’ouvrages récents identifiés par leur ISBN, il est possible d’établir des liens entre les ouvrages à chaque fois qu’un livre en cite un autre, puis de déterminer combien de fois et par qui un titre est cité. Ce système est, dans le domaine scientifique, à la fondation de la bibliométrie, ensemble de techniques consistant à déterminer la visibilité (l’importance ?) d’un article en fonction des citations qui en sont faits puis, à plus petite échelle, le « facteur d’impact » d’une revue. Ce qui peut être contestable quand il s’agit d’évaluer des chercheurs à la seule lumière de ces chiffres mais ce qui nous dessine une extraordinaire carte des influences dans le monde scientifique.

Revenons au livre ancien. Les problématiques sont exactement les mêmes. À ceci près que les bibliothèques numériques existent déjà ou sont en voie de constitution rapide.
*Donner des identifiants (uniques, au niveau mondial) aux livres permettrait de reconstituer ces réseaux visibles par l’étude des citations : que de découvertes pourrions-nous alors faire ! combien plus rigoureux seraient alors les travaux d’histoire culturelle !
*Ils permettraient la création d’un méta-catalogue permettant de retrouver en un clic tous les exemplaires d’une édition/émission dans les bibliothèques du monde entier.
*Cela permettrait à une petite bibliothèque de se rattacher à cet identifiant et donc de bénéficier du travail de catalogage fin des grandes bibliothèques spécialisées (partons du principe que les descriptions seraient placées sous une licence libre) qui y gagneraient, elles, en visibilité et en influence. Donc, de semi-automatiser le catalogage du livre ancien.
*etc. ?

La bibliographie descriptive serait une matière morte.

On pourrait enfin travailler de manière rigoureuse et sérieuse sur les fonds anciens.

Attribuer un identifiant à un exemplaire nécessite néanmoins que l’on puisse se rattacher, en toute connaissance de cause et sans erreur possible, à une émission. Cela signifie utiliser l’empreinte typographique, à mon humble avis trop peu utilisée alors qu’elle constitue l’élément le plus important de la description pour le bibliographe. Nous en parlerons bientôt.

La bibliothèque idéale (pour un lecteur)

L’accès aux livres et autres documents

*Je suis assez sceptique sur les lettres de recommandation et autres laissez-passer.

Je me trompe peut-être mais il ne me semble pas que les non-universitaires non-étudiants se pressent pour consulter les fonds anciens. En tout cas pas suffisamment pour mettre en danger la conservation des ouvrages. L’indifférence d’une part, la crainte de n’être pas à sa place dans ce lieu intimidant évitent que les foules des supermarchés se déversent dans les salles d’étude des BM. Si quelqu’un a déjà vu une bande de potes bourrés venir consulter le samedi après-midi, pour se marrer, une édition du XVIe, les doigts pleins de kebab, qu’il me le signale.

En retour, accueillir le lecteur sans questions inquisitrices, dans une relation débarrassée des tensions et de la crainte du jugement me semble particulièrement important. Sans compter la nécessité de justifier le coût de ces fonds qui paraissent souvent élitistes, ce qui ne plaît guère aux élus (la « démocratisation » est toujours un bon argument).

Bref, si l’on prend en compte l’ensemble des données, j’ai l’impression que la bibliothèque a intérêt à jouer sur l’ouverture, même (surtout ?) si cela demeure illusoire (avec éventuellement des conditions d’accès différentes pour la réserve du fonds ancien).

*Un lecteur ne vient pas forcément voir un texte mais parfois un exemplaire. Il est donc inutile (pour ne pas dire plus) de lui interdire des photos sous prétexte qu’on trouve le « même livre » sur Gallica. 1/ On ne saura si c’est la même édition/émission qu’après avoir comparé les deux exemplaires. 2/ Si je viens chez vous, c’est précisément pour voir votre exemplaire.

*Quand un lecteur a traversé toute la France, voire l’Europe – avec ce que cela implique de dérangement et de coût – comprendre qu’il veuille « rentabiliser » sa venue.
Donc, en dehors des questions de sûreté et de conservation, ne pas lui refuser de livres. Interdire plus de 1-3 livres en consultations en même temps, cela se justifie pour les raisons sus-citées. En revanche, limiter le nombre de livres consultables par jour est incompréhensible.

La vie sur place

*Le lecteur est une tête de linotte. Il oublie ses affaires personnelles, de la plus importante à la plus superflue. Plutôt que de le fouetter en lui disant que c’est bien fait pour lui, pourquoi ne pas lui prêter ?
**Des piles (rechargeables) pour son appareil photo
**Un casque, pour écouter de la musique sur son ordinateur et faire abstraction de son environnement
**Une règle en fer plate (étalon pour les photos des livres), si possible avec le logo de la bibliothèque en question (le lecteur saura où il a pris cette photo et vous mettez votre établissement en valeur)
**Et bien sûr des crayons à papier (les archives royales des Pays-Bas les offrent en libre service : là encore, ça coûte très peu, donne une bonne image et diffuse l’image de l’établissement)

*Une bibliothèque est un lieu où on passe (souvent) beaucoup de temps. Des journées entières penchées sur des vieux bouquins. On a donc besoin d’un minimum de confort.
**Des chaises à la bonne hauteur pour tourner les pages du livre posé sur la table
**Si les photos se prennent à une place précise, l’installer près d’une fenêtre et mettre à disposition un bras télescopique où visser l’appareil. Si elles se prennent à la place de consultation et s’il n’y a pas de lampe en permanence, en prêter une que l’on branchera le temps de la prise de vue.

*Une prise de photographie n’abîme pas plus le livre qu’une consultation normale. Des conditions de consultation différenciées dans les deux cas ne me semblent pas nécessaires.

*Un lecteur utilise un ordinateur : il doit pouvoir le brancher facilement. Plusieurs prises ne sont pas un luxe (rechargement de piles, disque dur externe…)

*Je n’ai pas forcément de solution mais il est assez désagréable de recopier 15 fois de suite son nom (voire son adresse) sur des fiches de demande de documents. L’informatisation est bien sûr l’idéal (BSG, BnF…) mais on devrait sans doute pouvoir trouver des solutions plus pratiques pour les fiches sur papier.

D’une manière générale, partir du principe que les procédures ne sont pas descendues du Ciel gravées sur des tablettes divines mais qu’elles se fondent sur des choix et des décisions. Faire donc preuve de bon sens en n’appliquant pas les procédures si elles sont inutiles, dans un cas bien précis. Sauf dans quelques très grandes bibliothèques, la masse des lecteurs n’est pas telle qu’on ne puisse leur rendre un service personnalisé.

Et vous, y a-t-il d’autres choses que vous souhaiteriez ?

PS : Plus que sur mon expérience de conservateur, ces quelques humbles réflexions de bon sens se fondent sur mon expérience de lecteur dans diverses bibliothèques et services d’archives de Paris et de province. Je précise qu’en dehors de quelques cas précis [un magasinier prenant apparemment un malin plaisir à refuser une communication à 12h01 parce qu’elles s’arrêtent à 12h00, etc.], j’ai toujours été très bien reçu. Les quelques avanies que j’ai pu subir venaient généralement d’employés appliquant le règlement avec trop de zèle pour se couvrir, ce qui se règle aisément en discutant directement avec le responsable.

L’écartèlement du patrimoine écrit

Le décret qui règle la nouvelle organisation du ministère de la Culture est paru au Journal officiel du 15 novembre. Comme prévu, il est créé un secrétariat général et trois directions générales, qui regroupent les nombreuses anciennes directions et délégations.

L’ancienne direction des archives de France (DAF) disparaît et les compétences de l’Etat en matière d’archives font désormais partie de la direction du patrimoine.
Ce n’est peut-être pas le rôle d’un blog sur le patrimoine de rappeler cela mais penser que les archives ne relève que du patrimoine est extrêmement réducteur : les archives sont avant tout des documents dont l’utilité est juridique. Ce n’est presque que par hasard que les plus anciens de ces documents deviennent « patrimoniaux ». Certains pensent donc qu’un rattachement de la DAF au Premier Ministre (comme la Documentation française et le Journal officiel) serait plus pertinent.

D’autre part, la direction du livre a causé bien des soucis. Car le livre, c’est à la fois du patrimoine, de la création et un média. Il aurait pu appartenir aux trois directions générales. Mais démembrer l’ancienne Direction du livre et de la lecture aurait été peu pertinent.
Les compétences de l’Etat en matière de livre ont donc été confiées à la direction des médias. L’incohérence n’est d’ailleurs pas cachée puisque cette direction générale a clairement le patrimoine des bibliothèques dans ses missions : « Elle veille à la conservation, à l’enrichissement et à la valorisation du patrimoine des bibliothèques et des médiathèques. Elle exerce le contrôle technique de l’Etat sur les bibliothèques et les médiathèques des collectivités territoriales. » (titre I) et « Elle exerce le droit de préemption prévu par le code du patrimoine » (titre II).

On dira que cela n’est pas pire qu’au temps où DLL et DAF coexistaient. Certes mais à présent, ces anciennes directions sont en plus noyées dans de grandes structures où leur survie est loin d’être assurée. Les bibliothèques seront gérées avec le cinéma, les journaux et le disque. Les archives avec les musées et l’architecture…

Avec de plus le risque de creuser un peu plus la distinction stupide qui existe encore dans bien des esprits entre patrimoine et création en créant des directions distinctes (et forcément concurrente lors de la répartition des budgets). Comme si le patrimoine n’était pas de la création ancienne, comme si la création actuelle n’était pas appelée à devenir patrimoine un jour, comme si la création ne se nourrissait pas du patrimoine, comme si le patrimoine était abandonné et déconnecté de la société actuelle. Bref, comme si on vivait dans un présentisme perpétuel sans recul.

[brève] Mais quelle bibliothèque universitaire négocie avec Google ?

Auditionné le 7 octobre par la commission de la Culture du Sénat, Bruno Racine indique : « la Bibliothèque de Lyon est la seule bibliothèque municipale [française] à avoir conclu un accord avec Google mais des négociations sont en cours avec une bibliothèque universitaire ».

Peut-être suis-je passé à côté d’une information mais je ne crois pas qu’on en ait beaucoup parlé.
De quelle bibliothèque peut-il s’agir ? Les BU possédant un fonds ancien conséquent ne sont pas légion. La BIUM (et l’Académie de médecine), l’INHA et Cujas numérisent elles-mêmes ; la Mazarine, la BSG et la Sorbonne semblent parties sur un projet commun…

Alors qui reste-t-il ? la BNUS ? le Collège de France ? La BIU-LSH et Lyon 1 ? le SICD de Toulouse ? Montpellier ?

[brève] Les dessous de l’accord entre la BM de Lyon et Google seront [peut-être] connus

On a beau savoir qu’il est toujours mieux d’être riche et en bonne santé que pauvre et malade, cela fait toujours plaisir quand l’Etat républicain rappelle à la loi ceux qui prétendent s’en affranchir. Or, une des règles de base de l’administration française est la publicité de son action. Les fonctionnaires agissent dans la transparence et tout citoyen peut veiller à la bonne utilisation de ses impôts.

Comme les choses ne vont pas forcément de soi, il existe une autorité administrative indépendante, la Commission d’accès aux documents administratifs (CADA) – bien connue des archivistes – qui a pour mission de contrôler cette accessibilité. Et éventuellement de conseiller à une administration de permettre la consultation de certains actes.

Ainsi, quand une grande bibliothèque de province signe un accord avec un prestataire étranger pour numérisation de son fonds, elle passe un marché public « soumis au droit d’accès institué par la loi du 17 juillet 1978 ». Les clauses de confidentialité contractuelles n’ont donc pas de valeur légale.

Un journaliste de Livres Hebdo vient ainsi d’obtenir un avis favorable de la CADA pour consultation de l’acte d’engagement et du cahier des clauses techniques particulières de l’accord signé entre la BM de Lyon et Google, car ces deux documents n’entrent pas dans le cadre des renseignements qui peuvent légalement rester confidentiels (moyens techniques et humains, certification, coordonnées bancaires…).

Mais la CADA ne rend que des avis : le journaliste en question possède certes des arguments supplémentaires pour appuyer sa demande mais rien n’indique quelle pourra être la réaction de la mairie de Lyon. Les documents obtenus ne permettront pas non plus de connaître l’ensemble des caractéristiques de l’accord.

On peut donc seulement compter sur la bonne volonté de la Ville et de la BM de Lyon, qui ne peuvent cependant que difficilement faire fi des clauses de confidentialités du contrat signé (même si ces dernières ne sont pas légales). Et même si l’obscurité caligineuse de ce contrat est, en terme d’image, assez désastreuse pour la bibliothèque.

Sources : Livres Hebdo ; Actualitté

Veut-on vraiment numériser ?

J’ai lu cette semaine un amusant et intéressant article. Il proposait de ne plus donner l’équivalent des grands chiffres en années de smic mais en équivalent de pages numérisées par la BnF.

On trouve généralement un coût de 25 à 74 centimes par page pour la numérisation de Gallica. L’auteur de cet article faisait donc remarquer que la fameuse douche que le président Sarkozy a fait installer au Grand Palais lors de la présidence française de l’UE (245 000 euros) aurait permis de numériser près d’un million de pages, soit à 500 pages par exemplaire (je compte large) 2000 ouvrages.

Ceci est bien affligeant mais demeure anecdotique au regard du budget de l’Etat.

Sans préjuger en rien de leur intérêt pour le bien de la société et du pays – je laisse à plus savant que moi sur ces matières le soin d’en juger – le bouclier fiscal coûte plus de 13 milliards d’euros par an, l’allègement de la fiscalité des plus-values plus de 20 milliards sur deux ans.

Reprenons donc nos équivalents-page-Gallica. Et tant qu’à parler en milliards d’euros, jouons le grand seigneur, partons du principe que Gallica veut se démarquer de Google par l’excellence de sa numérisation, à 1 euro la page.
*bouclier fiscal : 13 milliards de pages soit (500 pages par ouvrage [comptons large, vous dis-je]) 26 millions d’ouvrages ;
*fiscalité des plus-values : 20 milliards de pages soit 40 millions d’ouvrages

On arrive à des chiffres qui ne sont plus tellement parlant tant ils sont grands. Que représentent donc ces 26 millions de livres que l’on peut numériser chaque année en supprimant le bouclier fiscal ? Ni plus ni moins que deux fois l’ensemble des collections de la BnF.
Un plan quadriennal utilisant ces deux seules ressouces permet de numériser 130 millions de livres de 500 pages c’est à dire sans doute plus que d’éditions existant au monde. Il y a du rab’ pour trouver des accords avec les éditeurs d’oeuvres encore sous droits.

La question n’est donc pas de savoir s’il y a de l’argent. De l’argent, l’Etat en a, même en période de vache maigre : la numérisation ne coûte rien par rapport à d’autres dépenses. Il s’agit bien plutôt de placer les questions de numérisation dans l’ordre des priorités de l’Etat.

Et cela, ce n’est pas tant le travail des bibliothécaires que des politiques. Mais c’est aussi le devoir des citoyens de choisir ses représentants en fonction des choix qu’ils auront faits.

« Donnez-moi le bouclier fiscal et je numérise le monde » comme ne l’a pas dit Archimède.

MàJ : Mise au régime de ma « vache aigre » pour en faire une « vache maigre ». Merci à Les Martiens pour le signalement de la coquille.
MàJ (bis) : Lien vers l’article (au début) que je ne retrouvais pas. Merci à Lully de me l’avoir redonné.


novembre 2009
L M M J V S D
« Oct   Déc »
 1
2345678
9101112131415
16171819202122
23242526272829
30