Archive for the 'Digital humanities' Category

L’open data en bibliothèque départementale

La bibliothèque départementale de Saône-et-Loire est le premier réseau rural à participer au mouvement de l’open data, dont nous avons déjà souligné le caractère fondamental pour rendre nos missions de service public et concourir à la diffusion de la connaissance. Après avoir abordé l’open data dans une très grande structure avec Frédéric Blin de la BNU de Strasbourg, nous nous entretenons donc avec Jérôme Triaud, conservateur des bibliothèques, directeur de la lecture publique de Saône-et-Loire.

Jérome Triaud

Jérome Triaud

RM : La direction de la lecture publique de la Saône-et-Loire met ses données à disposition de tous dans le cadre de l’open data : pouvez-vous nous expliquer comment la décision à été prise ?

Jérôme Triaud : Comme vous le savez, le département de Saône-et-Loire a été le premier département français à s’inscrire dans ce vaste mouvement de libération de données. C’est en septembre 2011 que l’annonce a été faite et que le site opendata71.fr a été ouvert. Depuis, l’ensemble des services collaborent à la fourniture de données de tout type. J’ai pensé que la bibliothèque départementale ne pouvait pas rester à la traîne et qu’elle devait s’engager pleinement dans ce projet départemental. Mettre à disposition les données brutes que nous produisons est le prolongement direct de notre activité de bibliothécaire. Nous collectons des documents, organisons les savoirs, réalisons leur médiation : cela est connu. Mais les bibliothécaires sont de plus en plus conscients qu’ils sont des producteurs de contenus…Et des données nous en produisons au quotidien : les métadonnées de nos catalogues pour commencer, mais aussi nos bibliographies commentées – les fameux coups de cœur – nos dossiers documentaires, nos statistiques etc…Bref, il m’est apparu que nous ne pouvions pas rester en retrait.

RM : En quoi consistent ces données et à quoi peuvent-elles servir ? Y a-t-il déjà des projets ou des réutilisations ?

Jérôme Triaud : Les données de la DLP que vous pouvez retrouver sur le site Opendata71 sont essentiellement issues de son catalogue. Mais nous avons également mis à disposition l’ensemble des statistiques que nous produisons à partir de l’activité de notre réseau de 130 bibliothèques. Ainsi, les données versées par la DLP sur le site Opendata71 concernent la lecture publique sous toutes ses facettes : gestion des bibliothèques, cartographie documentaire, état des prêts, taux d’inscription et répartition des inscrits, mais aussi activité des bibliothèques dans le domaine de l’animation culturelle, et quelques éléments liés à la formation des professionnels qui font vivre la lecture publique en milieu rural, qu’ils soient salariés ou bénévoles.
Ces données peuvent être agrégées à d’autres données. Prenons un exemple : nous avons réalisé un très bon dossier sur le centenaire de la naissance d’Henri Vincenot, auteur bourguignon. On pourrait très bien imaginer une application touristique qui se servirait de ces éléments, ainsi que des données de notre catalogue pour créer un parcours Vincenot en Bourgogne. On trouverait des images et la géolocalisation des lieux liés à l’auteur, mais aussi des éléments de fond concernant sa biographie. Enfin, le touriste pourrait localiser les bibliothèques proposant des oeuvres de Vincenot…
Mais d’autres services pourraient être mis en œuvre : actuellement, nous n’avons pas de catalogue collectif départemental. En agrégeant nos données et celles de nos bibliothèques-partenaires, nous pourrions construire ce service aux usagers.

Non, la Saône-et-Loire, ce n'est pas que ça (photo Félix Potuit CC-BY-SA)

Non, la Saône-et-Loire, ce n’est pas que ça (photo Félix Potuit CC-BY-SA)

RM : Votre action est doublement original puisque à la fois les collectivités rurales et le monde de la culture sont en retard sur l’open data : en quoi ce mouvement vous semble-t-il important pour ces deux mondes ?

Jérôme Triaud : On donne souvent une image peu flatteuse des départements ruraux, éloignés de la modernité. Mais il y a une richesse des données produites par les collectivités rurales qui mérite d’être exploitée et qui permettra à ces collectivités de créer de nouveaux services. Nous avons tout intérêt à ne pas se laisser mettre en place deux pays, l’un qui serait en phase avec les technologies de l’information et de la communication et l’autre, qui s’en tiendrait définitivement éloigné.
Quant au monde de la culture, il est étonnant et pour le moins paradoxal de constater ce peu d’intérêt pour l’opendata. Les acteurs de la culture sont des créateurs mais aussi des passeurs de culture. On glose depuis longtemps sur la menace que font peser les industries culturelles sur la diversité culturelle : l’opendata est une réponse essentielle car il accélère le mouvement de circulation des idées et permet la reprise en mains par les citoyens de leur destin démocratique. Comme le dit Bernard Stiegler, l’opendata est « un événement d’une ampleur comparable à l’apparition de l’alphabet. »

L’édition numérique en histoire de l’art

Anne-Laure Brisac-Chraïbi, ingénieur de recherche à l’Institut national d’histoire de l’art et à InVisu organise une journée d’études sur le devenir de l’édition en histoire de l’art au temps du numérique

Que devient l’édition d’histoire de l’art, avec le numérique ?

Les chercheurs et les amateurs écrivent/lisent l’histoire de l’art en prenant comme point de départ les objets visuels :

– comment les nouvelles formes de publications que fait naître le numérique se présentent-elles ?

– quels types d’ouvrages et de lecture sont-ils proposés ?

– quels liens s’établissent-ils avec les catalogues de musées, d’exposition en ligne ?

– de quelle façon les éditeurs prennent-ils en compte cette discipline particulière – quels modèles économiques imaginent-ils, quels aspects juridiques doivent-ils envisager ?

Telles seront certaines des questions soulevées, parmi d’autres, lors de la journée d’étude du 13 janvier 2012 : Signes et balises. L’édition numérique en histoire de l’art, réalisations, projets, enjeux.

J’aurai l’honneur d’intervenir à une des tables rondes afin de parler de la politique des Nouvelles de l’estampe à cet égard et de sa présence (très bientôt !) sur revues.org.

Le programme complet se trouve ici.

L’entrée est libre et gratuite et cela se passe vendredi 13 janvier à l’auditorium de la galerie Colbert (2, rue Vivienne ; 75 002)

Apologie pour l’usage de l’empreinte. 5. Conclusion

Il n’est que trop grand temps de clore cette série de billets. Je n’ai en fait rien de plus à dire, si ce n’est qu’il m’est parfaitement incompréhensible que l’on puisse travailler sur le livre ancien sans empreinte, tellement sont nombreux les cas où elle seule discrimine deux éditions, tellement son emploi est rapide et pratique. Je laisse donc la parole à plus savant que moi.

Neil Harris, 2006

Though opinions migh well differ abour the efficacy of one fingerprint system with respect to another, doing without them is an option few genuine profesional users are willing to consider.

Renoncer à utiliser l’empreinte typographique revient à renoncer à s’élever au-dessus de l’exemplaire. Refuser de considérer l’édition d’un ouvrage. Refuser de comparer un fonds avec les autres. Refuser la rigueur. Cela revient à considérer que l’informatique n’a rien changé et qu’il n’y aucune raison de cesser de travailler comme en 1850.

Cela revient à affirmer que chaque livre doit être recatalogué à partir de rien ; à renouveler sans fin ni cesse un travail fastidieux et inutile quand l’empreinte permet de rattacher un exemplaire à une notice pré-existante.

Refuser de regrouper les exemplaires par édition interdit toute étude à grande échelle sur la production des livres, interdit toute recherche autre que purement de détail. Comment établir des statistiques globales sans avoir auparavant établit la liste des éditions existantes ?

Ce n’est pas un hasard si Google s’intéresse de très près aux bibliographies nationales rétrospectives et si cette entreprise a accordé son « Google Digital Humanities grants » à l’ESTC, bibliographies des ouvrages anglophones anciens.

Il est temps de reprendre le traitement du livre ancien sur les bases des digital humanities et cela ne pourra se faire sans base méthodologique fiable, c’est à dire sans identification unique de chaque édition/émission.

Google Ngram viewer : un extraordinaire corpus mais…

On a pu se rendre compte ces dernières années que deux parcours pouvaient amener à créer des bibliothèques numériques. D’une part, les bibliothèques, qui conservaient, acquéraient et diffusaient des données sur divers supports et ne voyaient pas pourquoi ils ne le feraient pas en ligne. D’autre part, Google, qui cherchait et mettait en ordre l’information sur internet et ne voyait pas pourquoi ils ne le feraient pas dans les livres anciens également.

Ce n’est pas le lieu ici d’évaluer qui le fait le mieux. Mais une chose est sûre : plus les masses de données deviennent gigantesques, plus le moteur de recherche devient important. Et, en cela, Google possède un gros avantage sur Gallica.

En faisant tourner ses robots sur une (grosse) sélection de livres, Google peut donc obtenir des données statistiques de tout premier ordre. Car le corpus est énorme : 5 200 000 ouvrages, soit plus de 500 milliards de mots, nous annonce Google. Passionnant pour l’étude de l’usage des langues, donc. Un matériau dont on peut sortir des centaines de thèses et d’articles et dont on parlait déjà… en 2006.
Google annonce dans l’article de Science que ses chercheurs ont publié avec d’autres de Harvard, du MIT, de l’Encyclopaedia Britannica et de l’Houghton Mifflin Harcourt que cela représente 4% de l’ensemble des livres publiés dans le monde depuis l’invention de l’imprimerie. Je ne m’étends pas sur l’analyse de cette annonce puisqu’on trouve bien des éléments chez Veronis, Affordance, LanguageLog, Hubert Guillaud, etc, etc.

Le fait est d’autant plus intéressant que, non seulement Google ne vend pas ces données mais les place même sous une licence Creative Commons BY, la plus permissive qui soit. C’est à dire que, contrairement à Gallica, elle les ouvre entièrement et en permet la réutilisation la plus large, y compris commerciale. L’idéal si l’on veut que ses données soient réellement réutilisées et permettent des usages imprévus et innovants.

Mais… il y a un « mais ».

Et le lièvre gît bien sûr dans la typographie ancienne. Voici une lettre prise au hasard dans l’édition montbéliardaise (1676) de celles d’Arnauld d’Andilly :

III. Iìa un Prinee, Jy| ONSEIGNEVR,
Ie laí/îc à Mr. à vous mander particulierement les íêntiments de vos Amis , & de vos seruiteurs sur ce qui vous touche , dont ie l’ay entretenu à loiiir. Si le Comte de Mansseld n’entreprend rien contre la France, ce diicours est du tout inutile: Mais s’il afsiege quelque place, & que vous puiíîìez vous jetter de. dans auec moyen de la desendre ; il n’y aura que ceux qui enuieront vostre valeur, qui manqueront à loiier vostre action. Ie sçav bien que quand vous ne le seriez pas , vous n’en sçaun’ez «stre blàsmé, puis que vous n’auez point d’employ qui vous y oblige. Mais si vostre gencroíìte demeuroit dans les bornes des deuoirs ordinaires , eile ne meriteroit ny des louanges extraordinaires, ny la gloire que vous auez d’estre en plus grande estime dans ì’eíprit des gens dç »nerite , par la consideration de vostre vertu, que par celle de vostre naifsance , qui n’auroic pas seule le pouuoir de me rendre aufïî venta »* hlemenc que ie le suis

On comprend vite que faire des statistiques lexicales sur un tel texte est une entreprise audacieuse. Voire absurde.
Il ne sert donc de rien d’améliorer le traitement des données tant que l’on n’aura pas amélioré les données elles-mêmes : il est de toute première instance que les OCR fassent des progrès sur les typographies anciennes.

Pour illustrer le propos, un unique exemple – cher à tous les wikisourciers – l’ſ. L’ « s long », donc, qui trouve place à l’intérieur des mots tandis que notre « s rond » se place à la fin. Cette ſ, de forme inhabituelle pour l’œil actuel, est pris pour une f par les OCR. Google nous permet donc d’obtenir de très belles statistiques sur les mots « eft » ou « prefque »…

Usage comparé de « est » (bleu) et de « eft » (rouge) de 1750 à 1830 dans le corpus francophone

Usage comparé de « est » (bleu) et de « eft » (rouge) de 1750 à 1830 dans le corpus francophone

Usage comparé de « prefque » (bleu) et de « presque » (rouge) dans le corpus francophone de 1750 à 1830.

Usage comparé de « prefque » (bleu) et de « presque » (rouge) dans le corpus francophone de 1750 à 1830.

Outil à prendre pour l’instant avec des pincettes sur les textes anciens, donc… Remarquons tout de même que pour étudier l’usage de l’s long, c’est pas mal du tout (disparition plus tardive que ce que je pensais).

Rencontres Wikimedia

Ces deux derniers jours avaient lieu les Rencontres Wikimédia, dans des locaux cordialement mis à disposition par l’Assemblée nationale.

Ces dernières avaient pour thème « Patrimoine culturel et web collaboratif » : wikipédiens de tous les pays et professionnels des bibliothèques, archives et musées se sont retrouvés pour présenter les projets réalisés ou en cours et nouer des liens entre eux.

Sans doute aurai-je l’occasion de revenir sur certaines communications : il s’est dégagé de ces projets une envie, une énergie, une compétence, une capacité d’entreprendre et de mener à bien des projets proprement enthousiasmants.

Je me borne pour l’instant à mettre en ligne la présentation du principal projet que j’ai mené : la collaboration avec la BnF. Ce dernier était présenté à la tribune par Nicolas Vigneron (aspects techniques) et moi-même pour Wikimédia France et Arnaud Beaufort pour la BnF.

Publications

Je me permets de signaler ici deux parutions de votre très-humble et très-obéissant serviteur.

Pour les bibliothécaires

D’abord, celle d’une version augmentée et mise à jour de mon mémoire de conservateur des bibliothèques sur les bibliographies nationales rétrospectives.

R. Mathis, Les bibliographies nationales rétrospectives, 2010

R. Mathis, Les bibliographies nationales rétrospectives, 2010

Ce dernier, placé sous une licence CC-BY, reste bien sûr à votre disposition sur le site de l’enssib.

Je me contente de placer ici le court résumé de présentation, écrit de mes blanches mains :

« Un certain nombre de pays ont tenté depuis le milieu du XXe siècle de recenser l’ensemble du patrimoine imprimé publié dans leur langue ou sur leur sol. Ces entreprises de longue haleine, demandant une forte expertise scientifique, sont longtemps restées confinées dans le milieu des bibliographes. Le regard que l’on jette sur elles a toutefois changé avec leur mise en réseau: elles se trouvent désormais au centre des enjeux de numérisation, de précision des métadonnées et constituent finalement des outils de première importance afin de renouveler l’étude de la production écrite de l’Ancien Régime au prisme des digital humanities, tout en appelant à un renouvellement des pratiques de traitement du livre ancien en bibliothèque. »

Pour les dix-septièmistes

Colloque « Les Mondes à part ». ENS-LSH, 23 janvier 2009

Colloque « Les Mondes à part ». ENS-LSH, 23 janvier 2009

L’autre publication, ce sont les actes d’une journée d’étude que j’avais co-organisée avec Françoise Poulet et Géraldine Louis à feue l’ENS-LSH (désormais ENS Lyon, site Descartes).

On trouvera l’argument de la journée sur cette page et la liste des intervenants sur celle-ci : les interventions sont faites par de brillants doctorants (sauf moi, terne doctorant…).

Rainer Zaiser, professeur à l’université de Kiel et éditeur des Papers on French Seventeenth Century Literature a trouvé notre programme suffisamment intéressant pour le publier dans sa revue, ce dont nous lui sommes infiniment reconnaissants.

En voici donc la table des matières :

Introduction par G. Louis, R. Mathis et F. Poulet

I. « Mondes à part » et espace social : stratégies de distinction et de séparation

  • Karine Abiven (Université Paris IV-Sorbonne) : « Le récit du monde : le discours narratif comme facteur de cohésion de la société mondaine ».
  • Françoise Poulet (Université de Poitiers) : « « Comptes-tu mon esprit entre les ordinaires ? » Alidor (La Place Royale) et Alceste (Le Misanthrope) ou l’extravagante mise à l’écart du moi ».
  • Marion Lemaignan (Institut universitaire européen de Florence) : « Des femmes dans les lieux du collectif : trajectoires déviantes et interstices sociaux au XVIIe siècle ».

II. Persécutions et relégations : les dimensions politiques de la mise à l’écart

  • Rémi Mathis (Université Paris IV-Sorbonne) : « « Une trop bruyante solitude ». Robert Arnauld d’Andilly, Solitaire de Port-Royal, et le pouvoir royal (1643-1674) ».
  • Géraldine Louis (Université de Saint-Étienne) : « La rédaction des Mémoires du Cardinal de Retz. Condition et résultat de la conversion d’une disgrâce en retraite ».
  • Camille Le Fauconnier (EHESS-École des chartes) : « Sublet de Noyers. La disgrâce d’un ministre au XVIIe siècle : une zone d’ombre de l’histoire, une zone grise de la société ».
  • Marion Brétéché (Université Paris IV-Sorbonne) : « De la mise à l’écart à l’écriture sur le monde : les mécanismes de l’exil aux Provinces-Unies des « historiens-informateurs » (vers 1680 – vers 1720) ».

III. Les « mondes à part » du récit : de l’utopie aux stratégies discursives de déstabilisation des valeurs établies

  • Mathilde Bernard (Université Paris III-Sorbonne Nouvelle) : « Le Colloquium heptaplomeres ou l’exil de la tolérance ».
  • Mathilde Levesque (Université Paris IV-Sorbonne) : « Les Mondes à part de l’énonciation : la parole dissociée dans l’œuvre de Cyrano de Bergerac ».
  • Élodie Argaud (Université de Saint-Étienne) : « Bayle, historien du libertinage ? Propositions pour la lecture des Pensées diverses sur la comète ».
Papers on French Seventeenth Century Literature, 73 (2010)

Papers on French Seventeenth Century Literature, 73 (2010)

Récapitulatif

  • Les bibliographies nationales rétrospectives. Entre recherche d’identité et identité de la recherche, Sarrebruck : Éditions universitaires européennes, 2010, 120 p.  ISBN : 978-6131510113
  • Les « mondes à part » : représentations symboliques et critiques de la mise à l’écart au XVIIe siècle dans Papers on French Seventeenth Century Literature, vol. XXXVIII, n°73, 2010 (codir. G. Louis, R. Mathis et F. Poulet)

Rendre service, en toute simplicité

J’étais ces deux derniers jours à Anvers où l’on avait eu la faiblesse de m’inviter à donner une conférence sur un sujet passionnant (si, si. En tout cas, moi, ça me passionne) : la page de titre en noir et rouge.

J’ai donc fréquenté les deux institutions possédant des fonds patrimoniaux importants (en plus du musée Plantin-Moretus). D’abord la Erfgoedbibliotheek Hendrick-Conscience, puisque la conférence se tenait dans la superbe Nottebohmzaal.

La Nottebohmzaal

La Nottebohmzaal (Photo : Johannes Vande Voorde. CC-BY-SA. Source : Wikimedia Commons)

Puis les fonds de la bibliothèque de l’université d’Anvers (y compris les fonds de la Ruusbroecgenootschap), où Goran Proot a bien voulu m’ouvrir la salle des preciosa.

Le campus vu depuis la salle de lecture des preciosa

Le campus vu depuis la salle de lecture des preciosa (Photo : R. Mathis. CC-BY-SA. Source : Wikimedia Commons)

Goran Proot, actuellement déchargé pour trois ans de ses activités de conservateur afin de s’adonner à la recherche en histoire du livre, est le responsable du fonds ancien de l’université et l’un des promoteurs du prometteur STCV, la bibliographie « nationale » flamande (je préfère mettre des guillemets à « nationale », ne désirant pas prendre parti dans le terrain miné que sont les affaires politiques belges…).

Comme dans beaucoup d’universités, le patrimoine n’est pas l’essentiel et les moyens sont donc limités. Or, en tant que chercheur, Goran fréquente très fréquemment les bibliothèques comme lecteur et connaît donc les besoins des personnes qui hantent sa salle de lecture. Afin de pallier la difficulté, il a donc mis en place un système extrêmement simple mais utile et précieux : la numérisation à la carte.

Il suffit qu’un lecteur ait besoin de voir un livre présent dans les fonds de l’université pour qu’on photographie chacune de ses pages, en couleur. En bon historien du livre, Goran photographie du plat avant au plat arrière sans rien omettre des pages blanches. Les photographies sont en couleur et de bonne qualité, ce qui permet de zoomer.

Rendons-nous sur la liste des exemplaires ainsi disponibles. Nous choisissons Leven lyden ende doodt ons heeren Jesu Christi : l’excellent travail de catalogage nous donne déjà une collation exacte [(…)4 A-2C8 2D4 (en 76 gegraveerde folio’s)], un véritable compte des pages (qui ne consiste pas seulement à regarder le dernier numéro qui apparaît) [[8], 391 [= 417], [7] p.] et la formidable empreinte du STCN/V (sur laquelle je m’étais promis de revenir). Cela donne déjà de très bons éléments afin de relier cet ouvrage à une émission précise : ce serait raffiner que de ne pas s’en contenter. Maintenant, si, forts de ces renseignements, nous voulons avoir accès au texte ou à l’objet-livre, il suffit de se rendre ici pour le lire en ligne, avec la possibilité d’en télécharger le pdf (aussi en .odt ou .zip).

Mais, surtout, comme je l’ai dit, s’il n’avait pas été numérisé, il aurait suffit d’envoyer un mail pour qu’il le soit en moins d’une semaine, sans avoir à fournir de longues et ennuyeuses justifications. La charge de travail est minimale, le coût presque nul, les économies en temps et en argent faites par les lointains lecteurs importantes, le service rendu immense.

Loin des fantasmes sur les dangers de la divulgation des collections, sur les droits d’auteur prétendus ou sur les risques de la désertification de la salle de lecture, la simplicité du service offert à un collègue (ou pas) dont on comprend la démarche et les besoins.


février 2017
L M M J V S D
« Oct    
 12345
6789101112
13141516171819
20212223242526
2728