Le mois dernier, Ben et Sara Brumfield ont présenté lors d'un séminaire -- Préserver la diversité des connaissances dans un contexte multilingue et multiculturel : enjeux et défis pour les sciences de l'information -- organisé par Amel Fraisse à l'Université de Lille en France. La vidéo de présentation et les diapositives sont ci-dessous. (Find the version of this blog post in English here.)
Vidéo de présentation
https://pod.univ-lille.fr/video/20787-geriico_bensarabrumfield_17juin2021mp4/
Contenu de la présentation et diapositives
Sara et moi sont informaticiens. Nous avons créé une plate-forme pour la transcription participative de manuscrits et la correction OCR. Le logiciel sappele FromThePage. Nous nous occupons avec le crowdsourcing autour des documents d'archives et des collections spéciales, en particulier des documents textuels. FromThePage fonctionne dans le cloud et de nombreuses institutions y s’abonnent pour fournir la plate-forme en tant que service.
En bref, notre plateforme permet aux gens de voir l’image d'une page et de transcrire le texte de cette page. Nous essayons de garder les choses assez simples que possible pour les utilisateurs, car franchement, la transcription de texte est déjà très difficile.
Il s'agit également d'un logiciel open source géré par des institutions du monde entier.
Il faut commencer par un avertissement : alors que nous aimerions nous concentrer sur les projets multilingues et multiculturels dans cette présentation, la majorité des utilisateurs que nous voyons sur FromThePage.com viennent de pays anglophones : les États-Unis, la Grande-Bretagne et l'Australie. Certaines installations indépendantes du logiciel sont principalement non anglaises, mais nous sommes plus familiers avec les projets hébergés sur notre propre système ou celui de notre amis de l'Université du Texas-Austin. (Boucoup des utilisateurs du système UT-Austin viennent d'Amérique latine.)
Pour rendre les textes consultables.
Ici on voit un projet de transcription en gaélique de l'University College Dublin. Ils retournent leurs transcriptions dans leurs systèmes de bibliothèque numérique pour les rendre consultables en texte intégral. La majorité des projets sur FromThePage a comme but obtenir une transcription en texte brut dans les systèmes de bibliothèque pour la lecture et la recherche.
Les projets de transcription peuvent également être destinés à la sensibilisation. Il s'agit d'un projet du New Orleans Jazz Museum pour un transcription de leurs documents coloniaux. Ils ont engagé des francophones et des étudiants de français de la région de la Nouvelle-Orléans pour transcrire des documents comme ce contrat.
Une autre raison de transcrire est l'enseignement. Cet exemple utilise la transcription pour enseigner aux étudiants la paléographie espagnole et comment travailler avec des sources primaires de l'Amérique espagnole des XVIe et XVIIe siècles.
On peut transcrire pour créer des données d'entraînement pour les algorithmes d'intelligence artificielle. Ce texte médiéval français a été transcrit pendent l’Image du Monde Challenge. Le texte résultant a été transformé en texte brut à l'aide des Medieval Unicode Font Extension, puis utilisé pour créer un modèle Transkribus pour le français médiéval.
Les chercheurs modernes peuvent avoir besoin de recherches non publiées d'anciens chercheurs, telles que ces enquêtes linguistiques auprès de locuteurs de la langue mésoaméricaine mixtèque. En transcrivant les réponses, des linguistes comme Ryan Sullivant peuvent analyser la langue mixtèque parlée il y a 40 ans.
Les résultats sont encodés sous forme de jeux de données et conservés dans le système AILLA.
Les répertoires géographiques historiques peuvent également servir de sources pour les jeux de données SIG.
Ceux-ci nécessitaient un balisage supplémentaire pour corriger l'OCR et représenter la hiérarchie administrative.
Mais le résultat a été cet impressionnant Gazetteer Pelagios LatAm.
Une raison importante de translittérer est que la réforme de l'orthographe peut rendre le patrimoine culturel inaccessible au public.
Ces contes populaires sont écrits en malais, en utilisant l'écriture jawi, qui est basée sur l'écriture arabe. Leur translittération dans l'écriture latine utilisée aujourd'hui les rend lisibles par les locuteurs malais modernes.
Parfois, la traduction est nécessaire pour l'accès public. Ce journal de la Seconde Guerre mondiale est conservé par les Archives du Musée mémorial de l'Holocauste des États-Unis. Il enregistre les tentatives d'une famille juive allemande d'échapper de la France occupée.
Pour qu'il soit lisible par un public américain, if faut le traduire en anglais.
Dans d'autres cas, la traduction est nécessaire pour que les chercheurs de différentes disciplines collaborent.
Le Codex Aubin est richement illustré et intéresse les historiens de l'art des codex aztèques.Malheureusement, peu d'historiens de l'art comprennent le nahuatl classique, la langue du texte.
La traduction par des linguistes permet aux historiens de l'art et aux linguistes de collaborer sur le codex.
De même, les médiévistes étudiant les textes juridiques n’ont que parfois la maîtrise de l'ancien français nécessaire pour travailler avec des textes originaux. En conséquence, ils nécessitent une traduction pour de nombreux historiens du droit.
Connaissant la motivation pour la transcription et la traduction, quels sont les problèmes auxquels nous avons été confrontés au cours des cinq dernières années ?
Comment la langue affecte-t-elle la communication avec les contributeurs ?
Les bénévoles ont souvent besoin d'une « permission » pour contribuer. Tant la langue de l'interface que la langue de communication autour du projet peuvent leur donner cette permission ou les dissuader.
Dans l'exemple de l'enquête Mixtec, un volontaire a laissé quelques courts commentaires en anglais. Lorsqu'ils ont été invités à communiquer en espagnol, leurs contributions ont augmenté plusieurs fois.
Comment la langue de l'interface du logiciel affecte-t-elle la transcription ?
Même si les textes peuvent être transcrits à partir de n'importe quelle langue, la langue du logiciel elle-même est importante. Grâce à une subvention du National Endowment for the Humanities, nous avons travaillé avec nos partenaires des bibliothèques de l'Université du Texas pour traduire FromThePage en espagnol et en portugais.
Cela permet non seulement la transcription de textes espagnols et portugais, mais aussi de textes en langues indigènes comme ces documents coloniaux écrits en nahuatl. Nous pensons que répondre aux attentes des utilisateurs d'Amérique latine permettra de les connecter aux textes qui font partie de leur histoire.
Voix de la communauté.
De nombreuses communautés autochtones travaillent avec les archives coloniales à leurs propres fins. Souvent, les auteurs de ces documents n'étaient pas sympathiques aux peuples autochtones qu'ils décrivent. Certains documents tentent de justifier le vol de terres ou d'autres attaques contre les peuples autochtones. Néanmoins, ces documents peuvent enregistrer des langues, de la patrimoine et des histoires perdus.
Un moyen important de servir les communautés autochtones est de s'assurer qu'elles peuvent restreindre le contenu sacré ou privé. La transcription peut être la première fois que le matériel a besoin de restriction, comme dans le cas de ce rituel pour attraper des kangourous.
Un autre mécanisme important est de laisser les communautés répondre aux archives coloniales en dehors de la transcription. Fournir un espace pour des interprétations alternatives des documents par les peuples autochtones permet à leur point de vue d'être entendu et peut corriger le dossier textuel colonial sans mutiler le texte.
Confidentialité et contrôle par la communauté.
Beaucoup des communautés autochtones veulent travailler avec des textes à leurs propres fins, sans intervention de personnes extérieures. La tribu Sioux de Standing Rock transcrit des sources primaires en Dakȟóta/Lakȟóta pour créer du matériel pour la revitalisation de la langue. Le projet est privé; les personnes extérieures à la communauté ne peuvent même pas le voir.
Ecriture de droite à gauche. Certains défis de la transcription multilingue sont plus techniques que sociaux.
Il s'agit d'un projet géré par la British Library, demandant à des volontaires de transcrire des manuscrits scientifiques arabes dans leur collection. Vous voyez le texte arabe transcrit à droite - chaque ligne commence par un numéro de ligne - mais la justification du texte est complètement fausse !
Nous avons dû ajouter beaucoup de fonctionnalités pour les besoins de l’écriture de droite à gauche. Il faut lire la langue du document et adopter la direction du script en conséquence.
Écriture de haut en bas
Un problème plus difficile est que la langue d'un texte peut ne pas déterminer la direction du texte. Les textes japonais et chinois modernes sont écrits de gauche à droite, mais les documents plus anciens sont de haut en bas.
(Cet écran n'est qu'une preuve de concept créée par Kiyonori Nagasaki pour démontrer le besoin d'une fonctionnalité d'encodage de la direction du texte.)
Un autre problème que nous avons découvert était que notre logiciel de base de données prenait en charge Unicode, mais la prise en charge n'était pas complète.
Nous avons d'abord rencontré un problème lorsqu'un utilisateur a tenté de transcrire un mot grec dans un texte et que le logiciel a fait une erreur.
Après enquête, nous avons appris que l'utilisateur n'avait pas utilisé de lettres grecques standard, mais avait copié des lettres à partir d'un clavier spécial utilisé pour les symboles mathématiques.
Ces symboles sont représentés dans le plan multilingue supplémentaire Unicode (SMP), qui contient des points de caractères supérieurs à 65525. Par défaut, de nombreuses bases de données populaires ne prennent en charge que les caractères Unicode qui peuvent être enregistrés dans trois octets. Cela nécessite une migration des données pour prendre en charge les caractères au-dessus du plan multilingue de base (BMP).
Ne pensez pas que ce problème se limite aux langues obscures !
Ces deux textes sont en anglais et contiennent des caractères du plan multilingue supplémentaire. (Caractères d'alchimie dans une recette à gauche ; un hymne mormon écrit dans le script Deseret à droite.)
Traduction d'un fac-similé.
Si votre objectif est de traduire, avez-vous besoin de transcrire ? De nombreux locuteurs ourdous en occident n'ont jamais utilisé de clavier ourdou.
Pour ce projet, nous avons ajouté une fonctionnalité qui permet aux transcripteurs de traduire à partir d'une image plutôt que d'une transcription. Une seule étape était plus rapide et plus respectueuse du temps des bénévoles.
Tout est connecté.