La Text Encoding Initiative : les moyens pour ajouter de la valeur à un texte numérisé

par

Guylaine Beaudry


Cursus vol.1 no 2 (printemps 1996)


Cursus est le périodique électronique étudiant de l'École de bibliothéconomie et des sciences de l'information (EBSI) de l'Université de Montréal. Ce nouveau périodique diffuse des textes produits dans le cadre des cours de l'EBSI.

ISSN 1201-7302

cursus@ere.umontreal.ca
URL:http://www.fas.umontreal.ca/ebsi/cursus/

L'auteure

Après des études en musicologie, Guylaine Beaudry obtiendra une maîtrise en bibliothéconomie et sciences de l'information en 1996. Ses intérêts portent, entre autres, sur la norme SGML et les publications savantes. Elle a été éditrice de Cursus de janvier 1995 à janvier 1996. Dans le cadre de sa maîtrise à l'EBSI, elle réalise la conversion vers SGML de deux revues savantes: Surfaces et Géographie physique et Quaternaire.

La Text Encoding Initiative : les moyens pour ajouter de la valeur à un texte numérisé a été écrit à l'automne 1996 dans le cadre du cours Structure et fonctions des logiciels documentaire (BLT 6351) donné par le professeur Yves Marcoux.

Pour joindre l'auteure:beaudryg@ere.umontreal.ca


Droits d'auteur

Tout texte demeure la propriété de son auteur. La reproduction de ce texte est permise pour une utilisation individuelle. Tout usage commercial nécessite une permission écrite de l'auteur.



Introduction

Qu'est-ce qui distingue Les Fleurs du Mal de Charles Baudelaire sur support électronique de la même oeuvre sur support papier? Le support papier permet la lecture en diagonale, la lecture attentive, la consultation de la table alphabétique des titres des poèmes et bien sûr procure le plaisir au lecteur de la sensation et de l'odeur du papier, de l'objet livre. L'avènement de l'édition électronique, même s'il ne signifie pas, comme certains peuvent le penser, la disparition du support papier, amènera inévitablement une remise en question des conditions et des types d'utilisation de ce support. Dans un environnement numérisé, la matérialisation du texte peut se faire de différentes façons, le support papier étant une des possibilités. Le support électronique permet la lecture à l'écran, la lecture sur papier et éventuellement l'écoute du texte grâce aux outils de synthèse vocale. Le support électronique offre donc le choix au lecteur du contact, de la relation qu'il souhaite établir avec le texte. Il permet une distinction entre l'accès à l'information et la façon de se l'approprier. Dès qu'un texte est numérisé il devient possible d'y faire la recherche de simples chaînes de caractères, ce qui ajoute aux capacités de repérage offertes par la table des matières ou l'index. En utilisant un langage décrivant la structure logique du document de façon compréhensible pour l'ordinateur, la recherche pourra alors s'effectuer sur une chaîne de caractères en tenant compte de sa localisation dans la structure du document. Ces capacités de recherche permettent donc un accès supplémentaire à l'information que ne permet pas le texte imprimé. De plus, l'édition électronique permet d'ajouter une valeur à l'information en utilisant l'hypertexte. Il est alors possible de relier un poème à son analyse, à sa traduction, à des notes ou à d'autres versions présentées dans d'autres éditions de la même oeuvre.

Cet article présente d'abord les origines de la Text Encoding Initiative (TEI) et les raisons pour lesquelles SGML a été choisi pour l'encodage des textes de ce projet. Suit une introduction à la définition du type de document (DTD) élaborée par la TEI. Pour cette partie, bien que le texte comporte plusieurs définitions, une connaissance de base de SGML peut être nécessaire à une bonne compréhension. Le lecteur sera peut-être intéressé à consulter le texte suivant: A Gentle Introduction to SGML. Dans la dernière partie, une liste de projets utilisant la DTD est donnée ainsi que les objectifs de la Text Encoding Initiative pour les prochaines années.

1. Origine de la Text Encoding Initiative

1.1 La valeur d'un texte sur support électronique

L'importance des possibilités du texte sur support électronique est devenue évidente. Depuis quelques années, de nombreux projets de recherche sont consacrés à l'analyse de textes par ordinateur dans des domaines comme la littérature, la philologie, la linguistique et les sciences de l'information. Dans ce courant, plusieurs institutions se sont constituées des banques de textes numérisés; ces textes numérisés deviennent de plus en plus des ressources courantes. Un sondage mené en 1989 et repris en 1991 démontre que, pour l'intervalle compris entre ces deux années, le nombre de bibliothèques faisant l'acquisition de textes électroniques a plus que doublé (Prince-Wilkin 1991, 13). Mais qu'est-ce qui fait la valeur et la qualité d'un texte électronique? La réponse est certainement liée à l'utilisation que veulent en faire les clientèles. Sans considérer le support physique, la valeur d'un texte est basée sur la qualité et la rigueur du travail d'édition. Un deuxième critère déterminant pour les textes sur support électronique est le format. Un format d'encodage doit permettre de rendre compte et de maximiser un travail d'édition de qualité en permettant aux utilisateurs de bien l'exploiter. Le format est également un facteur important pour l'utilisation du texte par différentes applications qui sont par exemple: analyse de concordance, repérage d'information, analyse de style, génération d'index selon la fréquence des mots ou production de nouvelles éditions critiques sur support papier ou électronique. Pour réaliser ces applications, le format d'encodage des textes doit permettre un accès aux mots et au mieux, à la structure logique des documents. Un format image comme format définitif des textes est donc à rejeter car seul un format qui permet l'accès aux textes et à leur structure logique permettra les applications souhaitées.

Le repérage et les autres applications peuvent être rendus très complexes en raison de la nature même des textes. Un texte peut comporter plusieurs passages écrits dans une autre langue, des annotations ou des notes, des citations, des directives scéniques ou des tableaux. Selon le genre littéraire, l'articulation du texte se fait par chapitre, section, scène, acte, verset ou autres. Tous ces éléments, souvent implicites, sont autant d'informations susceptibles d'être utiles, voire nécessaires à l'utilisateur. Le format d'encodage du texte doit donc rendre compte, selon les besoins, de la structure logique du document.

1.2 Balisage

L'accès au texte est possible en utilisant l'ASCII (American Standard Code for Information Interchange), ce que plusieurs initiatives de numérisation ont choisi d'utiliser.1 Cependant, l'utilisation de ces textes demeure limitée à la lecture ou à la simple recherche de chaînes de caractères. Pour avoir accès à un texte de façon dynamique, le balisage représente une solution intéressante.

Le balisage était le travail que faisait à l'origine le typographe. Il consistait à inscrire à la main sur un document des codes qui servaient ensuite à préparer la représentation physique du texte. La ponctuation et les espaces que nous utilisons pour articuler et délimiter les paragraphes, les phrases et les mots sont aussi une forme de balisage. Appliqué au texte sur support électronique, le balisage permet d'aller plus loin en rendant explicite pour l'ordinateur ce qui est implicite pour le lecteur. Le balisage permet d'identifier la structure logique d'un texte. Comme le mentionne Susan Hockey (1994, 684):

A text without markup can only be used for very simple applications. One analogy is trying to perform functions such as sorting and searching on a bibliographic record which does not have field divisions.

Pour répondre aux besoins des chercheurs, plusieurs systèmes de balisage ont été créés ainsi que le rapporte Susan Hockey (1994, 684-5). Au début des années soixante à Édimbourg, le système COCOA a été développé pour des textes écossais anciens. COCOA permet l'identification de la structure logique d'un texte et est utilisé par la majorité des programmes d'analyse de textes, notamment le Oxford Concordance Program. Le Thesaurus Linguae Graecae a aussi développé son propre système de balisage appelé beta code. Par la suite, sont apparus des systèmes de balisage performants, notamment TEX (Tau Epsilon Xi) qui est un système puissant pour la description des formules mathématiques. TEX est très utilisé dans le monde scientifique et est disponible dans le domaine public. Les systèmes de balisage spécifique (procedural markup) tels qu'utilisés par les traitements de textes comme Word ou WordPerfect sont maintenant très répandus. Il est à noter que ces systèmes de balisage sont des formats propriétaires, c'est-à-dire qu'ils sont développés par des organisations dont l'objectif est d'acquérir une part du marché.

La cohabitation de tous ces formats a nécessairement menée vers un véritable chaos (Burnard 1988). À cette étape, le balisage apparaissait déjà comme étant essentiel pour obtenir des textes de qualité, cependant chacun de ces langages a été développé pour des besoins et des applications spécifiques, ce qui contribue au manque de flexibilité. De plus, il y a peu de documentation disponible et les possibilités d'adaptabilité à de nouvelles situations sont difficiles, parfois impossibles: beaucoup de temps et d'efforts doivent être investis pour convertir les textes d'un format à un autre. À cause de ces caractéristiques, aucun de ces formats ne pouvait donc espérer être adopté comme norme officielle.

1.3 SGML

En 1986, le Standard Generalized Markup Language (SGML) est sanctionné ISO 8879:1986 par l'Organisation internationale pour la normalisation qui est l'instance de normalisation la plus élevée à l'échelle mondiale. SGML n'est pas un langage mais plutôt un métalangage qui permet de fournir un cadre syntaxique servant à la conception de grammaires pour la description de l'information sur support électronique. SGML est un langage de balisage descriptif, par opposition au balisage procédural qui lui, est orienté vers l'aspect visuel du document. SGML permet la description de la structure logique d'un document en y apposant des balises qui permettent d'identifier les différentes composantes d'un texte, appelées éléments. Par exemple, <chapitre> est une balise qui pourrait servir à la description d'un segment d'un document répondant aux caractéristiques décrivant l'élément "chapitre". Les relations entre les éléments et la définition de ces éléments sont déclarées par le concepteur dans la Définition du type de document (DTD) qui est une sorte de grammaire pour un genre particulier de document. L'instance de document qui comprend les données (le contenu), le balisage descriptif et la référence à une DTD demeure complètement indépendante du traitement, de la plateforme et du logiciel utilisés. Cette particularité rend l'information balisée avec SGML très flexible. L'échange d'un même document entre un mini-ordinateur et un ordinateur Macintosh, tous deux utilisant des logiciels différents, est monnaie courante avec SGML.

1.4 Qu'est-ce que la Text Encoding Initiative (TEI)?

Le besoin de normalisation dans le balisage des textes en littérature et sciences humaines a conduit vers la Text Encoding Initiative. Les fondateurs de ce projet sont principalement des chercheurs en littérature et en sciences humaines qui souhaitaient un système de balisage et un format facilitant le traitement par ordinateur, l'échange et le partage des textes numérisés. La TEI est gérée et subventionnée principalement par trois associations professionnelles ayant des activités de recherche dans le domaine du traitement de textes par ordinateur: l'Association for Computational Linguistics (ACL), l'Association for Literary and Linguistic Computing (ALLC) et l'Association for Computing and the Humanities (ACH).2

L'objectif de la TEI est de produire un modèle général et des directives pour l'encodage de tous les genres de textes littéraires, peu importe la langue, en répondant aux exigences des chercheurs de chacun des domaines concernés. Aussi, devenait-il crucial pour les chercheurs et les universitaires que les textes créés puissent être utilisés, et plus encore, être réutilisés dans un très grand nombre d'applications, celles existantes comme celles qui ne sont pas encore imaginées ou développées.

1.5 La conférence de Poughkeepsie

La genèse de la TEI remonte à une conférence tenue au Collège Vassar à Poughkeepsie (New York) en novembre 1987. Environ trente représentants venant des domaines de l'archivistique, des sciences humaines, de la littérature et de la recherche universitaire ont reconnu non seulement l'intérêt, mais la nécessité d'une normalisation pour l'encodage et l'échange des textes. Leurs discussions ont mené à des recommandations sur la portée, la structure et le contenu que devrait avoir le système d'encodage. La conférence a résulté en une série de principes3 pour l'élaboration d'un système d'encodage des textes. Le succès de cette conférence est dû à l'implication et au regroupement d'organismes clés dans le traitement des textes par ordinateur et à l'apparition alors récente du SGML qui permettait le développement d'un système simple, flexible et ayant la capacité de satisfaire tous les besoins.

1.6 Pourquoi SGML?

Les caractéristiques du format retenu devaient permettre de remplir les besoins qui avaient déjà été identifiés, à savoir, la capacité d'exprimer des distinctions et parfois des chevauchements hiérarchiques complexes, la capacité d'assurer l'indépendance des données vis-à-vis des différents logiciels et des plateformes informatiques et la compatibilité avec les normes existantes. SGML était donc le candidat le plus apte à répondre aux besoins.

Suite à cette conférence, le coup d'envoi de la Text Encoding Initiative fut donné en juin 1988 grâce à l'implication financière du National Endowment for the Humanities. Quatre comités ont alors été mis sur pied par des chercheurs de l'Europe et de l'Amérique du Nord pour étudier les questions se rapportant à la documentation des textes électroniques, à leur représentation, à leur analyse et leur interprétation et à la syntaxe du métalangage. Ce travail a mené à l'élaboration d'une DTD et des Guidelines for Electronic Text Encoding and Interchange.4 Les grandes lignes de cette DTD de même qu'une brève description des Lignes directrices font l'objet de la section suivante.

2. La DTD de la TEI et les Lignes directrices

2.1 Guidelines for Electronic Text Encoding and Interchange

Les Lignes directrices sont des conventions pour la description physique et logique de plusieurs genres de textes. Elles proposent des solutions pour les références croisées à l'intérieur et à l'extérieur d'un document, pour l'identification arbitraire de segments de textes, pour l'alignement d'éléments parallèles occupant la même place dans la structure hiérarchique et pour le chevauchement de hiérarchies. Elles proposent également des conventions pour les liens à partir du texte vers des données textuelles, sonores ou visuelles grâce à la norme HyTime.5

En raison d'un grand souci de préservation de l'autonomie intellectuelle des chercheurs qui balisent les textes, la TEI a opté pour la définition de "lignes directrices" plutôt que de chercher à l'établir des règles immuables. Être trop contraignant aurait mené à l'impossibilité d'appliquer les principes à une situation donnée. Un schéma trop permissif, par contre, risquait de nuire à l'échange des ressources. Il fallait donc trouver un juste milieu.

Plutôt que de simplement suggérer l'utilisation du SGML, la TEI a développé une DTD spécifique. L'utilisation de celle-ci est soumise à des pratiques qui se divisent en trois niveaux: obligatoires, recommandées et optionnelles. De plus, des mécanismes explicites sont définis pour modifier ou faire des ajouts à la DTD tout en s'assurant que les documents soient conformes à la DTD de la TEI. Les Lignes directrices de la TEI proposent à leurs utilisateurs une démarche visant à identifier ce qui est à baliser et, ensuite, à réaliser le balisage en SGML de sorte que les textes résultants puissent être échangés électroniquement.

2.2 Modèle de la DTD de la TEI

Les Lignes directrices comptent 1290 pages pour décrire le modèle de la TEI. La présente description se limite à la définition de base des principales composantes de la DTD. La DTD de la TEI n'est ni monolithique ni une solution à tous les problèmes ni une collection non structurée de balises. Ce qui est proposé est plutôt un cadre de base avec une variété d'additions optionnelles répondant à des applications spécifiques. On réfère à ce modèle comme étant celui de la pizza de Chicago (le client choisit la pâte de son choix, une croûte mince par exemple, et fait ajouter les ingrédients qu'il désire) en le comparant aux menus de cafétéria ou de tables d'hôte où tous les choix sont faits à l'avance. Dans le langage des déclarations ceci peut s'illustrer de la façon suivante: 6

<!ENTITY % croûte "(pan | mince | farcie)" >
<!ENTITY % garniture "(pepperoni | champignon | poivron | anchois ...)">
<!ELEMENT pizza - - (%croûte; fromage & tomate, (%garniture;)* )>

Le modèle de la DTD de la TEI est constitué de modules ou fragments de DTD qui peuvent être combinés de différentes façons selon certains principes. La DTD de la TEI n'est donc pas définie comme un seul bloc. Son architecture est modulaire, ce qui donne la possibilité de construire plusieurs DTD qui seront toutefois conformes à la TEI. Une DTD conforme à la TEI est potentiellement composée de quatre fragments de DTD:

1- Un ensemble de balises obligatoires (core tag sets)

Cet ensemble a deux composantes:

a) L'ensemble des éléments et des attributs requis pour tous les genres de documents. Par conséquent cet ensemble est obligatoire.

b) Un en-tête qui peut être comparé à une page de titre électronique (TEI header).

2- Un ensemble de balises de base (base tag set)

L'utilisateur doit ici choisir parmi les six ensembles définis qui représentent autant de catégories de textes: prose, poésie, théâtre, transcription du discours (transcribed speech), dictionnaire et informations terminologique. Les ensembles de balises de base définissent les types de documents. Par exemple, TEI.dictionnaries est l'ensemble qui contient la déclaration des éléments nécessaires au balisage d'un dictionnaire. Généralement, un seul ensemble de balises de base est nécessaire pour l'encodage d'un genre spécifique.

3- Ensembles de balises additionnelles (additional tag sets)

Ces balises permettent de répondre à des besoins particuliers. L'utilisation de ces balises est compatible avec tous les ensembles de base.

4- Ensembles de balises auxiliaires (auxiliary tag sets)

Ces ensembles sont composés de balises avec des rôles très précis et très spécifiques, typiquement pour la description d'éléments appartenant à une DTD indépendante de la DTD principale. Ce mécanisme est possible grâce à l'option CONCUR qui permet le balisage d'un document avec différentes structures hiérarchiques.

Lorsque CONCUR est utilisé, l'identificateur générique7 est précédé du nom de la deuxième DTD. Par exemple, si les citations sont balisées en utilisant une DTD représentée par le nom "QD", l'élément <q> ayant comme valeur de l'attribut "who", Jean prendra la forme suivante: <(QD) q who=Jean>. Il y a quelques limitations à cette option, mentionnons premièrement la nécessité de définir plus d'une DTD. Deuxièmement, tous les parseurs SGML ne supportent pas l'option CONCUR, en fait la majorité de ceux qui sont disponibles dans le domaine public ne la supporte pas.

Au plus haut niveau, tous les documents conformes à la TEI partagent un modèle commun composé d'un en-tête bibliographique et de l'élément <text>. Voici un exemple d'un document minimal conforme à la TEI :

<!DOCTYPE tei [ <!ENTITY TEI.prose "INCLUDE">
]>

<tei> <teiHeader> <fileDesc> <titleStmt> <title>Le plus petit document conforme à la TEI</title> </titleStmt> <publicationStmt> <p>Ce document n'est pas publié.</p> </publicationStmt> <sourceDesc> <p> Ce document est original.</p> </sourceDesc> </fileDesc> </teiHeader> <text> <body> <p>Voici le document conforme à la TEI le plus court qu'on puisse imaginer. </p> </body> </text> </tei>

Deux modifications peuvent s'opérer sur ce modèle minimal: plusieurs éléments <tei> peuvent se suivre, cette première option permet de considérer l'oeuvre d'un même auteur comme un seul texte. Une deuxième option serait de considérer l'oeuvre d'un auteur comme une suite de textes indépendants. Le contenu de la balise <text> peut donc être une seule oeuvre ou un ensemble d'oeuvres. Dans ce deuxième cas, un élément <group> apparaît à la place de l'élément <body> de <text> et peut être composé d'une séquence d'autres <group> ou <text>. L'ensemble de balises de base (base tag sets) détermine la structure d'un document, plus précisément, la composition de l'élément <text> selon l'interprétation qu'on veut donner au texte.

2.2.1 Divisions

Les différentes parties d'un texte sont définies par la nature même du document. Le choix de la structure de base détermine le vocabulaire des parties ou sections d'un texte. L'articulation d'une lettre n'est pas celle d'un roman ou d'un dictionnaire. Cependant, tous ces objets tels que "chapitre", "section", "acte" ont en commun d'être incomplets en eux-mêmes et d'avoir une place définie dans la structure logique du document. Puisque pour certaines raisons culturelles ou d'application, l'appellation de ces objets peut varier, l'architecture de la TEI les considère comme le même type d'élément, soit une division représentée par l'élément <div>. Une distinction est cependant possible entre les différentes positions hiérarchiques (<div1>, <div2>, etc. jusqu'à <div7>).

Pour les éléments dont la position importe peu, un élément <div> peut être employé. Cependant, les divisions numérotées et celles qui ne le sont pas ne peuvent pas apparaître dans un même élément.

Pour préciser la nature de l'élément <div>, l'attribut "type" est utilisé; par exemple, un chapitre pourrait être identifié par la balise <div2 type='chapitre'>. Pour conjuguer avec cette variété, la définition de toutes les divisions de l'élément <text> est donnée par une "entité paramètre" appelée "%component.seq". Le contenu de cette entité paramètre variera donc d'un ensemble de balises de base à un autre.

2.2.2 Exemple d'un document comportant des divisions

<!-- ... -->
<body>
     <div1 type=recueil>
          <div2 type=poème>
               <titre>L'invitation au voyage</titre>
                    <strophe>
                    <vers>
                         <segment>Mon enfant, ma soeur, </segment>
                         <segment>Songe à la douceur</segment>
                         <segment>D'aller là-bas vivre ensemble!</segment></vers>
                    <vers>                         
                         <segment>Aimer à loisir,</segment>
                         <segment>Aimer et mourir</segment>
                         <segment>Au pays qui te ressemble!</segment></vers>
                    <vers>
                         <segment>Les soleils mouillés</segment>
                         <segment>De ces ciels brouillés</segment>
                         <segment>Pour mon esprit ont les charmes</segment>
                         <segment>Si mystérieux</segment>
                         <segment>De tes traîtres yeux</segment>
                         <segment>Brillant à travers leurs larmes.</segment></vers>
                     </strophe>
                     <refrain>
                          <segment>Là, tout n'est qu'ordre et beauté,</segment>
                          <segment>Luxe, calme et volupté.</segment>
                     </refrain>
                     </strophe>
                     <!-- ... -->
          </div2>
          <!-- ...-->
     </div1>
</body>       
<!-- ... -->

2.3 Classes

Les quatre cents éléments déclarés dans la DTD de la TEI peuvent être regoupés de bien des façons. La TEI identifie deux grands types de regroupement:

1. Par classes d'attributs (attribute classes)

Les éléments d'une classe d'attributs partagent le même ensemble d'attributs. Par exemple, tous les éléments avec lesquels il est possible de faire une référence croisée ou une association avec un autre élément utilisent le même ensemble d'attributs, appelé "pointer".

2. Par classes de modèles (model classes)

Les éléments d'une classe de modèles partagent les mêmes propriétés logiques dans la structure du document, ils apparaissent à la même position dans la structure SGML du document. Par exemple, tous les éléments utilisés pour décrire des corrections éditoriales ou des omissions sont membres de la classe "edit". Les éléments nécessaires pour les citations bibliographiques font partie de la classe "bibl". Un élément peut faire partie de plusieurs classes. Les classes sont définies dans la DTD de la TEI par des entités paramètres et sont utilisées pour les mises à jour, la documentation et les modifications.

2.4 TEI Lite

La DTD TEI Lite est une sélection des éléments, attributs et paramètres de la DTD complète de la TEI. L'objectif de ce sous-ensemble est de donner un ensemble de départ comprenant les éléments que chaque utilisateur de la TEI devrait connaître. L'utilisation de la DTD TEI Lite ne peut cependant pas rendre compte du système modulaire de la DTD complète qui est souvent nécessaire pour le balisage de genres de textes particuliers.

Malgré cela, plusieurs applications peuvent être effectuées en utilisant TEI Lite. Les Oxford Text Archive l'utilisent pour convertir vers SGML les textes déjà numérisés dans un autre format. Tous comme les Electronic Text Centers de l'Université de Virginie et de l'Université du Michigan l'utilisent pour le balisage de tous leurs documents. La Text Encoding Initiative utilise elle-même TEI Lite pour sa documentation technique.

2.5 L'en-tête de la TEI (TEI header)

La description catalographique des documents numérisés est un aspect qui a été étudié en profondeur par un comité de la TEI. L'intérêt que suscite l'en-tête de la TEI d'un point de vue bibliothéconomique est certain. Tout en innovant, les solutions proposées s'harmonisent avec les processus déjà en place dans les bibliothèques, comme le démontre l'exemple de l'Université de Virginie qui suit cette brève description des réponses apportées par la TEI.

L'en-tête de la TEI, qui fait partie de l'ensemble de balises obligatoires, sert à décrire un document balisé pour permettre aux utilisateurs d'avoir de l'information sur le texte lui-même: la ou les source(s), les principes utilisés pour le balisage et l'historique des révisions et modifications apportées au texte. Ces informations sont nécessaires autant pour les chercheurs qui utilisent les textes que pour les catalogueurs. Aucun document n'est conforme à la TEI s'il ne comporte pas la balise <teiHeader>.

Les quatres parties de cet en-tête sont:

1- <fileDesc> peut être vu comme l'équivalent de la page titre d'un document papier. Il est difficile d'imaginer un document sans page titre, de la même façon l'élément <fileDesc> est le seul qui soit obligatoire pour la <teiHeader>. La flexibilité offerte par l'architecture de la TEI permet la description d'un texte en respectant la norme bibliothéconomique RCAA2.

2- L'élément <encodingDesc> décrit la relation entre le texte encodé et sa ou ses source(s). Il peut contenir, par exemple, de l'information sur le projet dans lequel s'inscrit l'encodage de ce texte ou des détails sur les décisions éditoriales qui ont été prises.

3- L'élément optionnel <profileDesc> permet de donner une description détaillée de ce qui caractérise les aspects non-bibliographiques du texte, tels la langue d'usage, la situation dans laquelle le texte a été produit, le nom des participants et leur rôle. La classification et les descripteurs assignés au texte font également partie de cet élément.

4- <revisionDesc> permet la description de l'historique des changements apportés au texte.

L'en-tête peut être très simple ou très complexe et exhaustif. Tout dépend de l'application et des besoins des usagers. Les décisions quant au niveau de précision à apporter à l'élément <teiHeader> sont importantes. Il ne faut pas négliger l'importance d'une très bonne description pour l'acquisition de textes électroniques.

Une application intéressante est d'utiliser l'élément <teiHeader> pour créer un enregistrement en format MARC. La bibliothèque de l'Université de Virginie a réalisé un tel projet (Gaynord 1994). Depuis 1994, le catalogage des textes sur support électronique est réalisé avec l'en-tête de la TEI. Ces descriptions sont ensuite télédéchargées par FTP sur l'ordinateur central. Un programme en langage PERL fait alors la conversion de la description catalographique de SGML vers le format MARC. Les notices MARC sont par la suite chargées dans le catalogue d'accès public de la bibliothèque.

Quelques limitations ont été identifiées par les utilisateurs. L'élément <revisionDesc> offre la possibilité de documenter les changements apportés au texte électronique. Cependant, bien que ce problème touche tous les genres de textes électroniques, les Lignes directrices ne définissent pas quand et comment identifier une nouvelle version suite à des modifications apportées. Des discussions entre les bibliothécaires, les chercheurs et les créateurs de textes devraient avoir lieu pour arriver à des ententes définissant de façon univoque ce que constitue la "version" d'un texte.

Avec l'élément <teiHeader> un document transporte sa description catalographique et même davantage. Un utilisateur peut chercher dans le contenu des différents éléments pour identifier l'information ou le texte dont il a besoin. Cependant, rien dans l'en-tête ne permet de naviguer à travers le texte ou retrouver des portions de celui-ci qui répondent à certains critères.

3. Présent et futur de la Text Encoding Initiative

3.1 Qui utilise la DTD de la TEI?

Voici une liste de quelques projets qui utilisent la DTD de la TEI.

Women Writers Project

Ce projet a débuté en 1989 à l'Université Brown. L'objectif est de constituer une base de données avec accès au plein texte de la littérature écrite par des femmes en anglais pour la période de 1330 à 1830.

<URL:http://www.stg.brown.edu/projects/wwp/wwp_home.html>

Center for Electronic Texts in the Humanities (CETH)

Mis sur pied conjointement par l'Université de Princeton et l'Université Rutgers en 1991, le CETH a pour objectif de promouvoir le développement, la diffusion et l'utilisation des textes électroniques en sciences humaines.

<URL:http://www.ceth.rutgers.edu/>

The Oxford Text Archive (OTA)

Géré par les Oxford University Computing Services, l'OTA rend disponible plus de 1500 titres. Son site comprend des textes électroniques de plusieurs auteurs importants en grec, en latin, en anglais et en une douzaine d'autres langues.

<URL:http://info.ox.ac.uk:80/~archive/>

American Verse Project

Il s'agit d'une nouvelle source de textes conformes à la TEI annoncée le 18 décembre 1995. Cette nouvelle initiative vient de Humanities Text Initiative de l'Université du Michigan et constituera une collection de textes de la poésie américaine.

<URL:http://www.hti.umich.edu/english/amverse/>

Electronic Text Center - University of Virginia Library (ETC)

Le ETC numérise et collecte depuis septembre 1992 des textes dans le but de les rendre disponibles par son service de textes en-ligne. Le Centre met également à la disposition de la communauté de l'Université de Virginie l'équipement informatique et les logiciels permettant l'analyse des textes tout en fournissant la formation nécessaire aux chercheurs pour l'utilisation de ces nouveaux outils.

<URL:http://www.lib.virginia.edu/etext/ETC.html>

3.2 Le futur de la TEI

Avec la DTD et les Lignes directrices, la TEI a déjà accompli beaucoup dans l'établissement de fondations intellectuelles pour le balisage de textes. Naturellement, beaucoup reste à faire. Dans un article portant entre autres sur le futur de la TEI, Ide et Sperberg-McQueen (1995) énoncent les objectifs suivants:

- Production de documentation destinée à la formation des utilisateurs;

- Évaluation suite à une utilisation à grande échelle et implantation de mécanismes pour poursuivre l'extension et la modification des Lignes directrices;

- Mise en place de processus plus efficaces pour répondre aux demandes des utilisateurs;

- Démarches pour l'implantation de la DTD et des Lignes directrices dans plusieurs projets de numérisation, d'archivage et de production de textes électroniques;

- Activités de formation pour les utilisateurs;

- Extension des Lignes directrices comprenant des modifications, des révisions et des extensions en tenant compte de nouvelles normes telles que HyTime et DSSSL (Document Style Semantics and Specification Language);

- Description d'autres genres littéraires;

- Poursuite des recherches concernant la description physique d'autres types de textes comme, par exemple, des documents manuscrits, papyrus, etc.

Des collaborations s'établissent aussi avec d'autres acteurs des industries de la langue pour le développement de norme, par exemple, avec le Expert Advisory Group on Language Engineering Standards (EAGLES). Des membres de l'organisation de la TEI sont également impliqués dans le projet européen MULTEXT (Multilingual Tools and Corpora), qui s'appelait au départ "the Text Software Initiative". Les participants au projet MULTEXT développent des logiciels d'analyse de textes. Ces logiciels seront compatibles avec tout document SGML ainsi qu'avec des documents non balisés (Ide; Véronis 1994).

Conclusion

Plusieurs personnes s'accordent pour reconnaître la très grande réussite de la TEI. Les résultats sont remarquables pour son produit, son adoption et son utilisation par le milieu ainsi que pour la gestion et la coordination du projet. La TEI est aujourd'hui reconnue par la communauté universitaire, par l'industrie et par les agences gouvernementales de financement en Amérique du Nord, en Europe et au Japon. En effet, un comité TEI a été formé au Japon pour y encourager l'utilisation de TEI et coordonner les recommandations venant d'expériences japonaises.

Charles F. Goldfarb, l'inventeur du SGML, à la fin de sa préface élogieuse aux quatre numéros spéciaux de Computers and the Humanities sur la TEI écrit:

The vaunted "information superhighway" would hardly be worth traveling if the landscape were dominated by industrial parks, office buildings, and shopping malls. Thanks to the Text Encoding Initiative, there will be museums, libraries, theaters, and universities as well.

Les Fleurs du Mal et toute la production littéraire auront une place de choix sur les inforoutes. Grâce à SGML et à la TEI, l'utilisateur ou le lecteur pourra de plus en plus choisir la relation qu'il souhaite avoir avec le texte.


NOTES

1. Voir à ce sujet le projet Gutenberg <URL:http://jg.cso.uiuc.edu/pg_home.html>Retour

2. TEI est subventionnée pour environ 1 000 000 US$ par le US National Endowment for the Humanities, la Fondation Andrew W. Mellon, le Conseil national de recherche en sciences humaines du Canada et la Direction générale XIII de la Commission de l’Union européenne.Retour

3. Voir annexe 1.Retour

4. Qui seront appelées Lignes directrices dans la suite de ce texte.Retour

5. HyTime (ISO 10744) Langage de structuration hypermédia/événementiel (Hypermedia/Time-based Structuring Language).Retour

6. Exemple inspiré d’un texte de Lou Burnard <URL:http://info.ox.ac.uk:80/~archive/teij31/ORGN.htm>Retour

7. Le mot employé pour désigner l’élément dans une balise, e.g. le mot text est l’identificateur générique de la balise (Generic identifier) . Un parseur SGML est un programme qui analyse une DTD et un document balisé avec celle-ci pour ensuite contrôler si le document comporte des erreurs de balisage. L’élément <text> est présent dans le haut de la hiérarchie de tous les ensembles de balises obligatoires. Une entité paramètre est définie pour utilisation dans une DTD et non à l’intérieur d’un texte balisé. Le contenu d’une entité paramètre est un ensemble de déclarations que le concepteur d’une DTD peut utiliser plusieurs fois. L’utilisation d’entités paramètres évite la redondance dans l’écriture et la lecture de la DTD ce qui la rend plus claire. Les entités paramètres facilitent également la gestion d’une DTD. Des modifications faites à l’intérieur d’entités paramètres évitent de modifier les déclarations d’une DTD. Les changements apportés s’appliquent automatiquement à tous les éléments touchés en une seule opération. Le signe pourcent (%) est le premier caractère d’une entité paramètre.Retour

Quelques ressources World Wide Web sur la TEI

La page d'accueil de la TEI

<URL:http://www.uic.edu/orgs/tei/>

Guidelines for Electronic Text Encoding and Interchange

<URL:http://etext.virginia.edu/TEI.html>

Où trouver la DTD de la TEI?

<URL:ftp://ftp.ifi.uio.no/TEI>

<URL:ftp://info.ox.ac.uk/pub/ota/TEI/dtd/>

Texte d'introduction à la TEI

<URL:http://info.ox.ac.uk:80/~archive/barebones>

L'architecture de la DTD de la TEI

<URL:http://info.ox.ac.uk:80/~archive/teij31>

TEI Lite et une introduction à la TEI

<URL:http://info.ox.ac.uk/~archive/teilite/>


Bibliographie

Barnard, David T.; Burnard, Lou; Gaspart, Jean-Pierre; Price, Lynne A.; Sperberg-McQuenn, C.M.; Varile, Giovanni Battista. "Hierarchical Encoding of Text: Technical Problems and SGML Solutions." Computers and the Humanities 29, no 3 (1995): 211-231.

Burnard, Lou. "Report of Workshop on Text Encoding Guidelines." Literary and Linguistic Computing 24, no 4 (1988): 131-133.

Burnard, Lou. "Rolling your own with the TEI." Information Services & Use 13, (1993): 141-154.

Burnard, Lou. "What is SGML and How Does It Help?" Computers and the Humanities 29, no 1 (1995): 41-50.

Coombs, James H.; et al. "Markup Systems and the Future of Scholarly Text Processing." Communications of the ACM 30, no 11 (1987): 933-947.

Dunlop, Dominic. "Practical Considerations in the Use of TEI Headers in a Large Corpus." Computers and the Humanities 29, no 1 (1995): 85-98.

Gaynor, Edward. "Cataloging Electronic Texts: The University of Virginia Library Experience." Library Resources and Technical Services 38, no 4 (October 1994): 403-413.

Gaunt, Marianne I. "Center for Electronic Texts in the Humanities." Information Technology and Librairies 13, (mars 1994): 8-13.

Giordano, Richard. "The TEI Header and the Documentation of Electronic Texts." Computers and the Humanities 29, no 1 (1995): 75-84.

Goldfarb, Charles F. "Preface." Computers and the Humanities 29, no 1(1995): 1.

Guédon, Jean-Claude. Why are Electronic Publications Difficult to Classify? The Orthogonality of Print and Digital Media. 1994.

<URL:http://www.nlc-bnc.ca/documents/libraries/cataloging/guej1.txt>

Herwijnen, Eric Van. SGML Pratique. Paris: International Thomson Publishing France, 1995.

Hockey, Susan. "Developing Acces to Electronic Texts in the Humanities." Computers in Libraries 13, no 2 (February 1993): 41-43.

Hockey, Susan. "Evaluating Electronic Texts in the Humanities." Library Trends 42, no 4 (Spring 1994): 676-693.

Ide, Nancy M.; Sperberg-McQueen, C.M. "The TEI: History, Goals, and Future." Computers and the Humanities 29, no 1(1995): 5-15.

Ide, Nancy M.; Véronis, Jean. "MULTEXT (Multilingual Tools and Corpora)." Proceedings of the 14th International Conference on Computational Linguistics, COLING'94, Kyoto (Japan), 1994, 90-96.

Lynch, Clifford A. "Text Encoding Initiative." Bulletin of the American Society for Information Science 15, (June/July 1989): 15-16.

Price-Wilkin, John. "Text Files in Libraries : Present Foundations and Future Directions." Library hi tech 9, no 3 (1991): 7-44.

Seaman, David. Campus Publishing in Standardized Electronic Formats - HTML and TEI. Electronic Text Center - University of Virginia Library, November 1994.

Sperberg-McQueen, C.M. "The Design of the TEI Encoding Scheme." Computers and the Humanities 29, no 1(1995):17-39.

Sperberg-McQueen, C.M.; Burnard, Lou, eds. Guidelines for Electronic Text Encoding and Interchange (TEI P3). Chicago/Oxford: Text Encoding Initiative, 1994.

Annexe 1

Principes émanant de la Conférence de Vassar qui a eu lieu en novembre 1987.

1. The Guidelines are intended to provide a standard format for data interchange in humanities research.

2. The Guidelines are also intended to suggest principles for the encoding of texts in the same format.

3. The Guidelines should

a. define a recommended syntax for the format,

b. define a metalanguage for the description of text-encoding schemes,

c. describe the new format and representative existing schemes both in that metalanguage and in prose.

4. The Guidelines should propose sets of coding conventions suited for various applications.

5. The Guidelines should include a minimal set of conventions for encoding new texts in the format.

6. The Guidelines are to be drafted by committees on

a. text documentation

b. text representation

c. text interpretation and analysis

d. metalanguage definition and description of existing and proposed schemes,

coordinated by a steering commitee of representatives of the principal sponsoring organizations.

7. Compatibility with existing standards will be maintained as far as possible.

8. A number of large text archives have agreed in principle to support the Guidelines in their function as an interchange format. We encourage funding agencies to support development of tools to facilitate this interchange.

9. Conversion of existing machine-readable texts to the new format involves the translation of their conventions into the syntax of the new format. No requirements will be made for the addition of information not already coded in the texts.