Bibliothèques numériques : et l’usager ?

On va encore dire que je suis méchant ou sarcastique mais je viens d’écouter – avec un peu de retard, c’est l’avantage de l’écoute à la carte – l’émission Question d’éthique, retransmise le lundi sur France Culture.

L’émission portant sur le thème « Une bibliothèque universelle numérique, à quel prix ? », la présentatrice, Monique Canto-Sperber, y recevait Michel Bernard, professeur à Paris III, et – ô surprise et originalité de nos médias – Jean-Noël Jeanneney.

La présence de M. Jeanneney, dont personne ne connaît les thèses, a été rafraîchissante et sa pensée a dû étonner plus d’un auditeur.

Les personnes intéressées auront sans aucun doute peu appris mais l’émission a au moins eu l’intérêt de mettre les choses au clair en orientant la discussion autour des quelques grandes problématiques. Surtout, elle a permis de mettre en valeur une figure centrale mais un peu oubliée dans les débats politiques actuels : l’usager.

Car dans cette émission, les rôles étaient (involontairement, pour partie) bien distribués : Michel Bernard (MB) jouait le rôle de la personne raisonnable connaissant les dangers de Google mais reconnaissant ses avantages en tant que lecteur. C’est lui qui m’a intéressé.
Face à lui, des personnes dont la partition était déjà écrite et qui permettaient donc de mettre le premier en valeur : Jean-Noël Jeanneney (JNJ), nuancé et intelligent, mais revenant toujours à ses vieilles lunes et justifiant son action en tant que président de la BnF ; et Monique Canto-Sperber (MCS), enfin, jouant le rôle de la caricature de Jeanneney (c’est à dire du Jeanneney vu par une certaine presse qui n’a pas lu son livre). Il faut avouer que c’est reposant : pas de surprise dans ce que vont dire les intervenants, tout se déroule comme au théâtre.
Finalement, le plus drôle était au début, quand on s’est rendu compte que, pour une émission sur l’éthique, la présentatrice invitait un autre producteur de France Culture, qui lui-même ne semblait pas choqué par ces petits arrangements entre amis. Peut-être suis-je le seul choqué de ces pratiques. Je suis resté naïf et crois à la vertu. La preuve, je suis fonctionnaire.

*Egalité d’accès contre fracture numérique

MB, spécialiste de l’usage de l’informatique dans la recherche littéraire, souligne l’importance des bibliothèques numériques pour l’accès au savoir. Sans aller jusqu’aux pays du Sud, comme il l’a fait, rappelons qu’il est impossible à un provincial de rédiger une thèse sans venir à plusieurs reprises à Paris, ce qui coûte fort cher.

La thèse opposée a été développée avec une radicalité rare, ce qui l’a rendue plus plaisante que convaincante. Avec la meilleure foi du monde, MCS, voulant parler de la facticité de cette mise à disposition pour un public qui n’en a pas l’usage et du risque de « fracture numérique », a réutilisé les arguments du XIXe siècle sur les risques de la lecture de romans pour le peuple et les femmes. Parlant d’abord des dangers de l' »accès sans formation préalable », elle a craint que « tout le monde [puisse] être en contact avec le contenu de savoirs hérités qui parvenaient [auparavant] à des personnes qui s’étaient préparées à cela ». Avant de conclure par une question essentielle « Ne voyez-vous pas une forme de danger pour la culture universelle ? »

JNJ s’est heureusement employé à recoller les morceaux avec son concept central (et qui doit nous faire peur !) : le vrac. Il a alors souligné qu’il fallait par dessus tout former les gens (dès l’école) à utiliser ces nouveaux outils pour n’être pas enseveli sous ces masses d’information, ce qui est de bon sens.

*Ranger en piles ou chercher dans le tas

Pour éviter le vrac, JNJ veut une information sous la forme d’une arborescence (et non tout sur le même plan) et une validation des contenus.

On est alors tenté d’aller voir dans Europeana ce qu’il en est. Je tape quelque chose qui me donnera beaucoup de résultats – au hasard « Louis XIV » – et je restreins aux textes. Sur les 12 résultats de la première page, qu’obtiens-je ? 8 études variées publiées au XIXe siècles (et donc largement obsolètes), une « declaration du roy contre les corsaires » de 1691 (document d’époque, mais anecdotique), et trois autres documents du même intérêt.
C’est peut-être une vieille technique de beaucoup parler pour éviter que l’on aille voir les réalisations mais il ne me semble pas que le classement d’Europeana soit plus significatif ou utile au béotien que celui de Google. Et j’ai beau pouvoir raffiner ma recherche par un système de facettes, cela ne me sera pas d’une grande aide pour sélectionner les ressources les plus pertinentes (surtout quand les années de parution ne sont pas rangées par ordre chronologie (sic)).

MCS prend alors l’exemple (canonique, j’ignore pourquoi) du tremblement de terre de Lisbonne et explique que si l’on cherche des renseignements sur ce dernier dans Google Livres, on obtiendra « tout un tas de publications où il sera peut-être beaucoup plus question du tremblement de terre de Lisbonne mais qui n’en diront rien de véritablement intéressant. Comment celui qui est peu informé, qui n’a pas conduit une sorte de préparation intellectuelle est-il en mesure de traiter tout ce savoir ? » MB souligne à juste titre que le problème est le même dans une bibliothèque où mettre l’usager devant le rayon qui l’intéresse ne suffit pas : dans les deux cas, il faut savoir chercher puis traiter l’information. Ajoutons qu’il existe une méthodologie de la recherche et qu’on va généralement chercher des ressources généralistes avant de chercher des choses plus spécialisées. Je citerais bien l’article de Wikipédia, qui est très correct et donne des références bibliographiques pour aller plus loin, mais je sais que JNJ n’aime guère Wikipédia.

Mais allons plus loin et comparons les résultats de Gallica, Europeana et Google Livres avec « tremblement terre Lisbonne »
*Google : les deux premiers résultats (en affichage limité) sont Les tremblements de terre aux XVIIe et XVIIIe siècles: la naissance d’un risque‎, très bon essai universitaire publié chez Champ Vallon ; et Le tremblement de terre de Lisbonne chez Odile Jacob, monographie de référence sur cet épisode, longuement analysé.
*Europeana (restreint aux textes) : un article du Guardian sur le refus du Danemark de ratifier le traité de Maastricht (sic) puis des ouvrages des XVIIIe et XIXe siècles sur des séismes à Messine et en Amérique méridionale et à Lesbos (re-sic, le dernier ouvrage n’est pas vraiment documentaire…).
*Gallica : Le guide de voyage « Petit fûté » sur Lisbonne suivi de Les catastrophes célèbres, Mame, 1861.

Là encore, on voit apparaître une contradiction. Cela signifierait qu’on pourrait être intellectuellement d’accord avec JNJ et, pour cette raison même, plutôt utiliser Google Livre que Gallica ? Hmm, voilà qui ne cadre guère avec ce qu’on lit dans les journaux où on répète les arguments de chaque camp sans jamais, apparemment, utiliser les outils dont on parle…

*Une sélection rigoureuse ou tout numériser ?

JNJ et MCS mettent en avant le choix raisonné supposé être celui de la BnF, contrairement à Google qui numérise n’importe quoi.

Là encore, des nuances doivent être apportées. Du côté de la BnF puisque le rapport de l’Inspection des finances dont j’ai récemment parlé contestait les [non-]choix effectués. Du côté de Google également puisqu’il numérisent par bibliothèques entières. Affirmer que leur choix n’est pas pertinent, c’est affirmer que le fonds de la Bodleian n’est pas cohérent, ce qui n’a pas vraiment de sens.

Le choix effectué, il faut hiérarchiser l’information. JNJ conteste les choix de Google, selon lui fondés sur la recherche de l’audimat. Il donne alors l’exemple de Stendhal, convaincu de n’être lu et compris qu’en 1936 et affirme que Google l’aurait mal classé [sous-entendu : « quelle bande d’idiots, il est pourtant évident que Stendhal est un grand écrivain »].

À ce moment comme à d’autre, on a la désagréable impression que JNJ parle de classement des ouvrages dans le vide, comme si ce classement ne dépendait pas d’une recherche effectuée par un lecteur. Après, ce qu’il dit de Stendhal est probablement vrai, mais j’incline à penser que la BnF de 1880 aurait également proposé Georges Ohnet ou Emile Augier avant le Grenoblois. D’ailleurs, le simple fait d’avoir été assez clairvoyant pour récupérer ses archives suffit à sauver la mémoire de l’illustre Hyacinthe Gariel. Mais le fait même qu’il pose la question en ces termes amène à s’interroger sur les idées de JNJ en matière de hiérarchie de l’information : le rang doit-il dépendre de la qualité de l’oeuvre ? Selons quels critères ? Déterminés par qui ?

*L’impérialisme culturel américain

La discussion roule alors sur la diversité culturelle et notamment des langues utilisées. JNJ revient sur les exemples donnés dans son livre sur les poésies de Victor Hugo disponibles uniquement en traduction anglaise et sur la vision tronquée car anglaise de la Révolution française. Outre qu’il précise que ces défauts qui existaient au début du projet ont été largement corrigés depuis, MB souligne le paradoxe qu’il y a à se plaindre que la culture française ne soit pas assez présente dans Google livres tout en faisant pression pour éviter que les fonds des bibliothèques françaises y soient intégrés.

*Oeuvres sous droit, oeuvres orphelines

Même si nous sortons des questions patrimoniales, cette partie de la discussion est révélatrice de la vision de chacun des interlocuteurs.
MCS parle de « l’orgueil » de Google et de la désinvolture avec laquelle il s’est placé en dehors du droit d’auteur : elle parle du point de vue de l’éditeur avec comme valeur première le respect du droit d’auteur. MB acquiesce mais fait remarquer que la désinvolture existe également chez les « éditeurs vis-à-vis de cette masse de textes sur lesquels il ont posé un veto, qui n’est plus accessible parce qu’ils ne veulent plus la publier, parce qu’ils sont supposés n’être plus suffisamment rentables, dont les auteurs eux-mêmes ne peuvent rien faire car ils ont passé des accords avec les éditeurs ». C’est à dire qu’il parle du point de vue du lecteur, avec comme valeur première la diffusion et l’accès au savoir. Et il souligne que si Google est en effet une entreprise commerciale qui cherche le profit, c’est également le cas des éditeurs français, qui acceptent de rendre inaccessibles des ouvrages dont ils détiennent les droits en ne prenant en compte que leurs intérêts propres et non ceux du public.

La position de MB est intéressante car elle est très rarement prise en compte alors qu’elle est centrale. Il convient de la plupart des critiques faites à Google, des risques de monopole, etc. Mais il est chercheur et il a juste besoin de livres.
Intellectuellement, il est d’accord avec JNJ mais, en tant qu’usager, il doit être pragmatique. « Comme consommateur, je préfèrerais utiliser Quaero mais Google est meilleur », dit-il.
Or, dans la plupart des médias, la question n’est abordée que d’un point de vue éthique, politique, stratégique… en oubliant que ces sites sont avant tout des outils pour des gens qui cherchent des livres. Et qu’il arrive un moment où, même si on craint la menace que représente Google, on ira sur Google Livres parce que le livre dont on a besoin est sur Google Livre.

Seule solution pour sortir de cette aporie : que l’Europe y mette les moyens. Tout le monde a souligné le faible budget consacré à la numérisation en France, alors que les enjeux sont gigantesques pour des dizaines d’années. Le budget annuel est inférieur au prix d’un unique avion Rafale… Eh oui.

9 Responses to “Bibliothèques numériques : et l’usager ?”


  1. 1 Lully 8 octobre 2009 à 07:11

    C’est très intéressant, cette comparaison des résultats sur le tremblement de terre de Lisbonne. En termes de pertinence, Gallica et Europeana souffrent des carences dans leurs fonds au regard de la base de Google, si bien qu’il est difficile de déterminer ce qui tient aux possibilités du moteur et ce qui tient à la taille de la collection.
    Non, je ne crois pas que Google aurait rejeté Stendhal : il l’aurait pris s’il avait trouvé dans une des bibliothèques américaines numérisées un de ses ouvrages. Et si aucun exemplaire n’avait été disponible, il ne l’aurait pas cherché spécifiquement.

    A l’inverse, le bibliothécaire sélectionnera la liste des titres à numériser, et essaiera de se les procurer ensuite : par exemple si une bib numérise un fonds de revues du XIXe siècle auquel il manque des numéros dans ses propres collections, elle essaiera de se procurer les numéros manquants pour les numériser aussi.
    Google s’en fout (mais ce n’est pas forcément une critique).

    • 2 RM 8 octobre 2009 à 07:35

      Je crois que cela vient d’une sorte de méprise sur le rôle d’une bibliothèque numérique. On a l’impression en écoutant ces gens qu’ils voudraient qu’elles soient une représentation exacte du monde ou plutôt qu’elles coïncident parfaitement à leur propre représentation du monde. On peut se poser des questions sur la pertinence de ce souhait en tant que tel mais il devient franchement illusoire dès lors que l’on se restreint aux oeuvres du domaine public.
      Bref, il faudrait peut-être déjà leur dire qu’une bibliothèque n’est pas une encyclopédie et cela clarifiera le débat.

      Stendhal : tu as raison, personne ne l’aurait rejeté. La question est plutôt à quel rang ses oeuvres auraient été proposées : auraient-elles été visibles ou enfouies en page 27 ?
      Il est très possible qu’il aurait été enfoui chez Google, en effet et je n’y vois rien de scandaleux. C’est déjà difficile de coïncider avec la culture d’une époque, je ne pense pas que le but d’une bibliothèque numérique soit de découvrir des écrivains ou de mettre en valeur les génies méconnus.

      Choix de ce qu’on numérise : ce que tu dis est valable pour Persée (qui contacte des bibliothèques partout en France s’il lui manque un numéro de revue pour se le procurer) mais pas pour la BnF, qui numérise son fonds uniquement.

  2. 3 Lully 8 octobre 2009 à 07:51

    L’UPMC numérise ses fonds (http://jubil.upmc.fr/sdx/pl/) et va chercher des numéros manquants ailleurs.
    Et puis Gallica moissonne également pour compléter ses collections (Medic@).

    Pour l’ordre de classement dans Google Book Search : tu as des infos sur la manière dont c’est fait ?
    Car le pagerank est inopérant dans des collections dépourvues de liens hypertextes. Qu’a inventé Google ?
    La pertinence par pondération des champs ?

  3. 4 Lully 8 octobre 2009 à 07:53

    Si c’est une pondération des des champs, Stendhal n’aurait pas été moins bien classé que Hugo : ça dépendrait de la requête. Mais est-ce le cas ?
    Une pondération en tient absolument pas compte de la notoriété de l’auteur ou de l’ouvrage. A moins qu’on y ajoute :
    1. les stats de consultation
    2. le nb de fois où un ouvrage est présent dans « Ma bibliothèque » sur Google
    3. le nombre d’exemplaires numérisés — mais ça c’est absurde : j’espère que Google n’a pas numérisé Les Misérables chaque fois qu’il l’a trouvé dans une bib !
    Par contre, l’exploitation des API WorldCat seraient très intéressante pour associer le nombre d’exemplaires dans WorldCat comme critère de pondération dans une bib numérique.

  4. 5 Bibale 9 octobre 2009 à 18:59

    Beaucoup ne semblent pas comprendre que l’approche de Google consiste justement à ne pas favoriser tel ou tel ouvrage dans l’absolu mais bel et bien à proposer un vrac et une méthode de recherche très pertinente sur ce vrac.

    Les approches de Google pour atteindre une pertinence importante sont multiples, parmi elles figurent notamment l’extraction de citations bibliographiques et de citation tout court. Ainsi un texte de stendhal souvent cité (son contenu) sera rapproché du contexte dans lequel il l’est, créant un graphe similaire à celui composé des liens Web.

  5. 6 Lully 10 octobre 2009 à 13:51

    @Bibale : vous m’intéressez. Avez-vous une source décrivant ce mode de fonctionnement dans Google Book Search ?
    Car j’ai du mal à croire que la seule application du PageRank, créée pour les pages web qui de façon essentielle se citaient entre elles, puisse aussi bien fonctionner pour des livres, où la fréquence de citations n’a rien à voir !
    N’importe quelle page de thèse comportera moins de notes de bas de page qu’un court billet de blog ne comportera de liens.

  6. 7 Philarête 10 octobre 2009 à 14:10

    Merci pour cet excellent billet, qui me permet de découvrir ce blog. Je me promets d’y revenir souvent.
    Merci aussi à « Novice », qui me l’a fait découvrir en l’indiquant dans un commentaire chez moi.

  7. 8 Bibale 11 octobre 2009 à 20:19

    @Lully il n’y a malheureusement pas de littérature décrivant tout ce qui est fait derrière Google Book Search. J’ai dit que l’extraction de citations était l’une des approches. La citation/les liens depuis le Web lui-même sont aussi analysés, mais votre remarque est juste, le monde des livres étant moins liés que celui du Web l’approche PageRank marche moins bien, mais le monde de l’édition est intéressant à analyser pour déceler une certaine structure, ainsi certains éditeurs sont spécialisés, la traduction d’un ouvrage en de multiples langues est un indicateur, les styles proches peuvent également donner des indications.

    Regardez par exemple ce que google fait en extrayant les lieux géographiques du contenu de certains ouvrages, cf http://books.google.com/books?id=2_OflXjThdIC et http://booksearch.blogspot.com/2007/01/books-mapped.html


  1. 1 La Feuille » Archive du blog » Question d’éthique Rétrolien sur 8 octobre 2009 à 16:10

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s




octobre 2009
L M M J V S D
« Sep   Nov »
 1234
567891011
12131415161718
19202122232425
262728293031  

%d blogueurs aiment cette page :