Les «Dépositions de 1641» (1641 Depositions), détenues par la
bibliothèque du Trinity College de Dublin, font partie des nombreuses
collections importantes, culturelles et historiques, conservées par des
universités, des musées, des archives et des particuliers en Europe. En
1641, une rébellion des catholiques irlandais a changé le cours de
l'histoire du pays et conduit à l'un des dossiers historiques et
culturels les plus riches d'Europe. Les Dépositions de 1641 se composent
de 8 000 témoignages et comptent près de 20 000 pages. Pendant des
décennies, et dans bien des cas pendant des siècles, des chercheurs, des
étudiants ou de simples particuliers ont fouillé de telles collections
pour exhumer des détails du passé: une tâche longue et laborieuse,
pleine de chausse-trappes et de culs-de-sac. Parmi les nombreux
obstacles rencontrés, citons les textes incomplets ou incohérents, les
mots effacés, les erreurs d'orthographe ou d'impression, l'évolution du
langage, et tout simplement l'énorme quantité de documents.
Une équipe de chercheurs d'Autriche, de Bulgarie, d'Irlande,
d'Israël et d'Italie, utilise des méthodes informatiques de pointe pour
faire la plupart du gros travail. Le projet CULTURA («Cultivating
understanding and research through adaptivity»), soutenu par plus de 2,8
millions d'euros de la Commission européenne, contribue à extraire
rapidement un sens des archives numérisées, à dépasser les incohérences
de la langue, établir des liens entre les événements historiques, les
gens et les objets, et à rendre plus aisément accessible à tous le riche
patrimoine historique et culturel de l'Europe.
«Lorsque l'on étudie des documents historiques, beaucoup
d'informations ne sont pas immédiatement évidentes: il peut y avoir des
ambiguïtés et des incohérences. Il faut donc appliquer des processus
capables de partir de ces informations pour trouver ces références
cachées», explique le Dr Owen Conlan, professeur adjoint au groupe
Knowledge and Data Engineering de la School of Computer Science and
Statistics du Trinity College. «Nous pouvons alors utiliser ces
informations pour tracer un chemin et établir entre les références des
connexions qui n'était pas immédiatement évidentes.»
Le Dr Conlan, qui coordonne le projet CULTURA, cite en exemple les
«Dépositions de 1641». Parmi les nombreuses personnes mentionnées dans
les témoignages, le nom de Phelim O'Neil revient fréquemment. Ce noble
irlandais catholique était l'un des leaders des rebelles pendant le
soulèvement. Mais dans les textes, et aussi ailleurs, il est appelé Sir
Felim O'Neill de Kinard, Phelim MacShane O'Neill ou Féilim Ó Néill, ou
tout simplement «Le Rebelle».
«Il déclara que, pendant le temps que lui, ce déclarant, était ainsi
retenu et restait parmi les rebelles, il avait observé et savait
parfaitement que la plus grande partie des rebelles du comté d'Armagh
était allé assiéger le château d'Augher, où ils avaient été repoussés et
des plongeurs du rebelle O'Neil tués.» Au titre de représailles, le
grand rebelle, Sir Phelim O'Neil (chevalier), «donna ordre et décharge à
un certain Maolmurry McDonnell, un rebelle des plus cruels et sans
pitié, de tuer tous les hommes de nationalité anglaise ou écossaise…»
Un réseau social pour l'histoire
Dans le but d'extraire le sens de textes historiques aussi «bruités»
et de commencer à relier les références, l'équipe de CULTURA a utilisé
un logiciel de pointe en traitement du langage, capable de «normaliser»
la langue et d'en extraire une signification sémantique compréhensible
par les hommes et utilisable par les ordinateurs.
«Nous ne modifions aucunement le document et nous nous assurons
d'une étroite fidélité avec l'original. Notre système ne fait que bâtir
une autre couche d'information à partir de laquelle on peut extraire une
signification», explique le Dr Conlan.
Le système utilise de puissants algorithmes pour extraire
automatiquement les entités et leurs relations, afin de mettre en
évidence les principaux personnages et dates ainsi que les autres
entités et les relations. À partir de là, l'équipe a mis au point des
outils qui analysent les connexions entre les entités et les relations
avec le contenu, bâtissant une sorte de réseau social historique qui
contribue à remettre en contexte les événements et les personnages
passés, les rendant bien plus faciles à visualiser et à comprendre.
Cette approche fonctionne bien entendu avec des textes, comme les
«Dépositions de 1641», mais aussi avec des images. Dans ce cas, la
signification sémantique est extraite des métadonnées associées à chaque
image et renseignées lors de la numérisation. L'équipe de CULTURA
applique actuellement ce processus pour analyser la collection Imaginum
Patavinae Scientiae Archivum (IPSA) de l'université de Padoue en Italie.
Il s'agit d'une archive numérique d'herbiers illustrés et de
manuscrits, commentés en latin et datant du 14ème siècle.
«La collection IPSA se compose principalement d'images, accompagnées
de métadonnées substantielles. Ces métadonnées contiennent des passages
descriptifs mais ont aussi une valeur historique en décrivant les
processus qui prévalaient lors de la création de la collection
originale», souligne le Dr Conlan. «Avec notre analyse de réseau social,
nous pouvons par exemple savoir qui a réalisé les illustrations, qui
les a financées et par quelles autres illustrations elles ont été
influencées.»
Le système CULTURA ne se contente pas d'être adaptable en fonction
du contenu et des documents étudiés: il s'adapte lui-même aux besoins de
chaque utilisateur et groupe d'utilisateurs. Par exemple, un chercheur
universitaire très ferré sur un certain sujet ou une collection donnée
utilisera le système à la poursuite d'une référence très spécifique. Par
contre, un particulier tout simplement curieux d'une période historique
donnée attendra plutôt une vision plus générale.
«Nous avons également constaté que les chercheurs débutants qui
utilisent ce système vont bien plus vite et bien plus loin dans leurs
travaux», souligne le Dr Conlan.
Rendre plus accessible le patrimoine culturel et historique
Le système CULTURA peut satisfaire de nombreux autres types
d'utilisateurs grâce à un processus innovant de personnalisation qui
tient compte du profil de l'utilisateur et du contexte de sa recherche
d'information. Des «widgets» intégrés au système proposent des contenus
associés qui pourraient être intéressants, en s'appuyant en partie sur
ce qui a attiré des utilisateurs similaires. Le système propose aussi de
nouvelles voies de recherche, mais laisse bien entendu le choix final à
la discrétion de l'utilisateur.
«La personnalisation doit faire ce que fait un bon conteur: éveiller
l'intérêt de son public, évaluer les réactions et ajuster l'histoire en
cours de route. Mais ici, le conteur et la personnalisation visent
juste une personne», précise le Dr Conlan.
Le système peut même proposer des scénarios autour de certains
événements, dates, lieux ou personnes, présentant à l'utilisateur une
histoire agréable à suivre, qui s'adapte dynamiquement à son profil et à
son utilisation.
«Les documents historiques ne doivent pas être réservés aux
professeurs d'université et aux chercheurs. Ils doivent être accessibles
à une grande variété de personnes, depuis des écoliers et des étudiants
jusqu'aux sociétés historiques et aux groupes d'intérêt, en passant par
le grand public», affirme le Dr Conlan. «L'accessibilité et la
reconnaissance sont parmi les difficultés majeures que rencontrent les
collections numériques. CULTURA a beaucoup à leur apporter en la
matière.»
Outre les Dépositions de 1641 et la collection IPSA, l'équipe a
commencé à appliquer le système CULTURA à un ensemble de documents
historiques relatif au Soulèvement de Pâques 1916 et à sa répression, un
autre événement charnière de l'histoire de l'Irlande, lorsque les
républicains irlandais se sont soulevés contre la domination
britannique.
«Le centenaire du Soulèvement approche, c'est donc une date très
importante pour l'Irlande. Nous avons prévu beaucoup de travail avec les
écoles, notamment car ces documents sont plus récents et accessibles»,
déclare le coordinateur de CULTURA. «En particulier, nous voulons
associer des événements aux personnes réelles dans les documents car
elles représentent les entités les plus attrayantes. C'est une
excellente méthode pour attirer l'attention du lecteur sur des
événements autrement quelque peu abstraits, et les présenter dans un
contexte bien plus clair.»
Plusieurs partenaires comptent continuer de soutenir le système
après l'achèvement du projet dans l'objectif de l'étendre à d'autres
collections. Certains partenaires cherchent séparément à commercialiser
des parties du système.
Le projet CULTURA a été financé par le septième programme-cadre (7e PC) de l'Union européenne.
Lien vers le projet sur CORDIS:
-
le 7e PC sur CORDIS-
Fiche d'informations du projet CULTURA sur CORDIS
Lien vers le site web du projet:
-
Site du projet «Cultivating understanding and research through adaptivity»
Autres liens:
-
Site web de la stratégie numérique de la Commission européenne