L'analyse de textes littéraires assistée par ordinateur: une introduction

par

Véronique Parenteau

Cursus vol. 4 no 1 (automne 1998)

Cursus est le périodique électronique étudiant de l'École de bibliothéconomie et des sciences de l'information (EBSI) de l'Université de Montréal. Ce périodique diffuse des textes produits dans le cadre des cours de l'EBSI.

ISSN 1201-7302

C. élec. : cursus@ere.umontreal.ca
URL : http://www.fas.umontreal.ca/ebsi/cursus/

Droits d'auteur

Tout texte demeure la propriété de son auteur. La reproduction de ce texte est permise pour une utilisation individuelle. Tout usage commercial nécessite une permission écrite de l'auteur.

L'auteure

Après des études de premier cycle en Études littéraires à l'Université du Québec à Montréal, Véronique Parenteau a obtenu sa maîtrise à l'EBSI avec le profil "Analyse de l'information et bases de données" au printemps 1998. Durant l'été 1997, elle a travaillé à la création du Répertoire de sites Web de référence du Québec (http://www2.biblinat.gouv.qc.ca/wgraphie/intro.htm) de la Bibliothèque nationale du Québec. Depuis juin 1998, elle est bibliothécaire pour l'entreprise CEDROM-SNi.

Le texte suivant a été produit dans le cadre du cours BLT 6271, Recherche en analyse documentaire, sous la direction de Mme Michèle Hudon.

Pour joindre l'auteure : parenteauv@cedrom-sni.qc.ca

Table des matières

Introduction
1. L'analyse statistique de la littérature
2. Les procédés

2.1 Analyse de données "brutes"
2.2 Analyse du contenu

3. Les usages

3.1 Comparaisons
3.2 Déterminer la paternité d'un texte
3.3 Distinguer les imitations des oeuvres authentiques
3.4 L'étude des motifs rythmiques dans les vers
3.5 Marques d'un auteur dans l'évolution du langage

4. Complémentarité homme-machine
5. Critiques et limites de l'analyse de textes par ordinateur
Conclusion
Bibliographie

"The statistical analysis of a literary text can be justified by the need to apply an objective methodology to works which for a long time may have received only impressionistic and subjective treatment. Hesitation by literary scholars and mistrust of such a blatantly quantitative approach may be alleviated by choosing the least contestable mode of analysis, namely that of counting" (Holmes, 1994, p.87).

Introduction

Certains diront que, s'il y a un domaine que l'informatique n'a pas encore envahi, c'est bien la littérature, cet art très ancien que seul le cerveau humain peut produire, lire et comprendre. Comment un ordinateur pourrait-il intervenir dans l'analyse d'un texte issu de l'imagination d'un homme ou d'une femme? Littérature et informatique ne semblent pas pouvoir faire très bon ménage.

Pourtant, il existe un certain nombre de spécialistes - pour la plupart, des non littéraires - qui misent sur cet outil pour les assister dans leurs analyses littéraires. Il s'agit bien d'une "assistance", puisque l'ordinateur ne peut pas analyser une oeuvre littéraire comme le ferait un chercheur humain. Il faut évidemment une bonne dose d'interprétation dans l'analyse littéraire et c'est une opération que même le plus évolué des logiciels connus ne parviendra pas à accomplir.

La grande "nouveauté" apportée par l'informatique aux études littéraires, c'est une façon d'analyser les textes quantitativement, statistiquement. Ce sont des méthodes qui permettent de traduire en chiffres, en tableaux, en graphiques, des données textuelles qui font généralement l'objet d'analyses qualitatives.

Qu'est-ce que l'informatique peut apporter à l'étude de la littérature? Qu'est-ce que l'analyse statistique permet de découvrir, de comprendre au sujet des oeuvres littéraires? Qu'est-ce qu'un ordinateur peut faire de plus qu'un être humain en ce domaine? Quels usages les chercheurs font-ils de cet outil qu'est l'ordinateur? Quelles sont les limites de l'informatique dans l'étude de la littérature?

C'est à ces questions que ce texte veut répondre en proposant un état de la question sur l'analyse de textes littéraires assistée par ordinateur. Il ne s'agit donc pas de décrire des logiciels d'analyse de texte ni de comprendre le fonctionnement technique et statistique de l'analyse de texte par ordinateur. Il s'agit plutôt de comprendre comment l'ordinateur peut être utile à l'analyse littéraire et quelles sont ses limites.

La première partie de cet exposé vise à définir brièvement en quoi consiste l'analyse de textes littéraires assistée par ordinateur (i.e. leur analyse statistique) et, plus particulièrement, la stylométrie qui est une façon de quantifier le style. La seconde partie présente les procédés selon lesquels les logiciels informatiques peuvent mesurer le style d'un texte littéraire, les variables dont ils tiennent compte. Ensuite, plusieurs exemples concrets d'analyses statistiques sont présentés afin d'illustrer les usages que les spécialistes font de l'ordinateur dans leurs recherches en littérature. La section suivante montre la complémentarité entre le travail humain et celui de la machine. Enfin, la cinquième et dernière partie est consacrée aux limites de l'analyse de textes littéraires par ordinateur et à la synthèse de différentes critiques formulées à l'endroit de cette façon d'étuder la littérature.

1. L'analyse statistique de la littérature

Dans le domaine des études littéraires, on rencontre surtout des analyses qualitatives d'oeuvres, de courants, de genres. Dans le cas d'études visant à déterminer la paternité d'un texte, par exemple, on se tourne généralement vers l'opinion des experts en littérature sur le style et les subtilités de l'usage du langage, du vocabulaire et de la grammaire. Arriver à un consensus des opinions, voilà le problème de la plupart des domaines impliquant une grande part "d'intuition" humaine et d'"expérience", comme c'est le cas en études littéraires. Les méthodes quantitatives et statistiques d'analyse des données pourraient avoir beaucoup à offrir aux sciences humaines, dont font partie les études littéraires (Lowe et Matthews, 1995). Elles peuvent apporter des informations supplémentaires qui sont quantifiables.

La majorité des analyses de textes littéraires impliquant l'informatique utilisent la stylométrie comme moyen d'analyse. Il s'agit en fait d'une forme de quantification du style. Le style d'un auteur est ce qui tend à distinguer son écriture entre toutes.
"Recognizing, for example, that even a writer who flaunts an abstruse vocabulary will also need to use many mundane words, stylisticians regard style as a general predisposition toward a particular mode of expression rather than an invariant habit or constant" (Sigelman et Jacoby, 1996, p.11).
Chaque texte se définit par un ensemble de caractéristiques statistiques, mesurables. Si plusieurs oeuvres d'un auteur comportent les mêmes caractéristiques, l'auteur fait un usage récurrent d'un style particulier. Si l'oeuvre d'aucun autre auteur ne possède les mêmes caractéristiques, on peut dire que son style est unique (Holmes, 1994).

La stylométrie - aussi appelée "statistique stylistique" - est l'application des méthodes mathématiques pour extraire des mesures quantitatives d'un texte (Lowe et Matthews, 1995). Les données sur lesquelles se penche la stylométrie, ce sont les mots. Ils sont la matière brute de cette science. Selon David I. Holmes, aucun stylométriste n'est encore parvenu à établir une méthodologie qui arrive à mieux saisir le style d'un texte que celle qui s'appuie sur des éléments lexicaux (1994). Holmes explique qu'il n'y a pas meilleurs paramètres pour établir une comparaison objective entre des auteurs:
The lexical level is the obvious place to initiate stylistic investigations, since questions about style are essentially comparative and more data exist at the lexical level than at any other in the form of computed concordances (1994, p.91).

Les caractéristiques stylistiques d'un texte doivent, pour être étudiées par ordinateur, avoir ces propriétés décrites par Bailey: "they should be salient, structural, frequent and easily quantifiable, and relatively immune from conscious control" (Holmes, 1994, p.88, citant Bailey, 1979). On espère, en mesurant de telles caractéristiques, découvrir l'unicité de l'écriture d'un auteur et arriver à distinguer son style de celui d'un autre. On veut faire la distinction entre les véritables différences stylistiques et les variations dues au hasard (Holmes, 1994).

Le meilleur outil pour faire l'analyse stylométrique d'un texte, pour en tirer des statistiques, est probablement l'informatique. Les logiciels d'analyse de texte¹ permettent aux chercheurs de repérer des mots et expressions, de produire des profils statistiques, des graphiques, des tableaux et ce, rapidement et efficacement.

2. Les procédés

L'ordinateur ne peut évidemment pas analyser un texte avec la même profondeur que le ferait un chercheur humain. Les objets de l'analyse par ordinateur sont de deux ordres: les données "brutes" (les chaînes de caractères, les syllabes, la ponctuation, etc.) et celles qui sont plus de l'ordre du contenu (le vocabulaire et les thèmes).

2.1 Analyse de données "brutes"

Comme cela a déjà été mentionné plus haut, les mots sont les données brutes de la stylométrie. L'ordinateur peut les identifier grâce aux espaces et aux marques de ponctuation (Fortier, 1995). L'ordinateur permet de compter les mots contenus dans un texte, de repérer ceux qui sont les plus utilisés, de les localiser pour mieux voir le contexte de leur utilisation ou encore dans le but de faire un index qui facilitera leur repérage ultérieur, de déterminer les intervalles entre les différentes occurences d'un mot, etc. (Johnson, 1996b). En 1887, dans son article "The Characteristic Curves of Composition" paru dans la revue Science, T.C. Mendenhall affirmait que la longueur des mots était une caractéristique pouvant permettre de distinguer les auteurs (Holmes, 1994). Depuis, plusieurs études ont été faites à partir de cette théorie. L'avènement de l'informatique a de beaucoup facilité ce type d'analyse.

Une autre façon de découvrir des traits stylistiques distinctifs, selon Holmes, est de calculer les pourcentages de noms, verbes, adjectifs, adverbes, etc., à condition, bien sûr, qu'ils puissent être reconnus fidèlement (1994). En effet, certains mots peuvent laisser planer un doute quant à leur nature (les mots brise, marche et porte, par exemple, peuvent aussi bien être des noms communs que des verbes accordés au présent de l'indicatif).

L'usage des mots offre plusieurs possibilités de discrimination. Selon Holmes, "some words vary considerably in their rate of use from one work to another by the same author. For discrimination purposes we need context-free or "function" words to be able to conduct reliable comparisons between literary works" (1994, p.90).

Outre les mots, d'autres aspects d'un texte peuvent être pris en considération par l'ordinateur pour analyser le style. Les syllabes, notamment, peuvent apporter de bons indices aux études sur la paternité d'un texte, selon Holmes. Certains auteurs ont un style plus homogène en ce qui concerne la distribution du nombre de syllabes par mot (Holmes, 1994).

Les signes de ponctuation sont également facilement repérables et analysables par ordinateur. Une étude menée par Étienne Brunet montre, par exemple, l'usage des divers signes de ponctuation chez six auteurs français: Marcel Proust, Émile Zola, René de Chateaubriand, Jean-Jacques Rousseau, Jean Giraudoux, et Victor Hugo. Brunet a notamment découvert que Chateaubriand et Rousseau sont les seuls à continuer à cultiver les signes de ponctuations "intermédiaires" (deux points, point-virgule), que Hugo et Giraudoux utilisent beaucoup le point et les signes exepressifs (point d'interrogation et point d'exclamation) et que Proust utilise beaucoup la virgule, étant donné que ses phrases sont très longues (Brunet, 1991)².

L'ordinateur peut aussi permettre d'étudier l'évolution de la longueur des phrases dans un texte ou encore la place des dialogues par rapport aux passages narratifs (Johnson, 1996b).

2.2 Analyse du contenu

Les analyses basées sur les données "brutes" peuvent paraître assez simples, mais on peut s'en servir pour aller plus loin en analysant le vocabulaire et les thèmes (Johnson, 1996b).

2.2.1 Le vocabulaire

L'une des notions fondamentales de la stylométrie, c'est la mesure de ce que l'on peut appeler la "richesse" et la "diversité" du vocabulaire de l'auteur. La prémisse de base est que l'auteur a à sa disposition une certaine quantité de mots, une certaine "banque" de mots et que parmi ceux-là, il en privilégiera certains aux dépens des autres (Holmes, 1994). Si on prend un échantillon de l'oeuvre d'un auteur, on peut s'attendre à y retrouver le reflet de son vocabulaire. Si on peut trouver une mesure qui puisse représenter statistiquement le vocabulaire, on pourrait l'utiliser pour fins de comparaisons.

Une telle mesure existe. En anglais, on l'appelle le "type-token ratio". Il s'agit du nombre d'unités lexicales (i.e. le nombre de formes différentes) formant le vocabulaire de l'échantillon divisé par le nombre d'unités (i.e. le nombre total de mots) formant l'échantillon (Holmes, 1994)³. Une autre façon de mesurer le vocabulaire est de calculer la chance que les deux membres d'une paire de mots (choisie au hasard) appartiennent au même "type" (i.e. la même forme d'un mot). On peut aussi se servir de la fréquence des mots en comptant le nombre de mots utilisés une fois, deux fois, trois, quatre, etc. Plus il y a de mots qui ne reviennent pas souvent, plus le vocabulaire est riche. On pourrait aussi tenter d'établir la quantité de mots rares ou techniques. Mais il faudrait alors une bonne part de travail humain pour déterminer quels mots pourraient appartenir à ces catégories (Holmes, 1994).

Le vocabulaire peut être utilisé comme moyen de comparaison entre plusieurs textes, comme l'a fait notamment Étienne Brunet. Afin de comparer le vocabulaire des différents textes de Victor Hugo, il a fait une analyse qui tient compte de ce qui pourrait être traduit comme la "jonction lexicale" ("the lexical connection"), c'est-à-dire la distance entre le vocabulaire de deux textes. Plusieurs textes de Hugo ont été étudiés par paires. Pour chacune de ces paires, le chercheur a considéré tous les mots des deux textes étudiés et la fréquence de chacun dans chaque texte. Les calculs effectués par l'ordinateur ont permis de tracer une carte que Brunet décrit ainsi: "at the bottom are grouped all the poetic collections, while the novels and plays are placed in the upper half, without merging too much into each other" (Brunet, 1991, p.76). Il a donc constaté que le vocabulaire des poèmes se distingue de celui des romans, des pièces de théâtre et des lettres.

2.2.2 Les thèmes et les champs lexicaux

L'étude par ordinateur du vocabulaire dans un texte peut aussi permettre de saisir les thèmes dont il est principalement question dans ce texte. Il s'agit d'utiliser l'ordinateur pour tracer la distribution du vocabulaire, des mots qui évoquent les différents thèmes (Fortier, 1995). La présence de concepts donnés et leur importance relative n'est pas toujours évidente à l'oeil nu (Laffal, 1995). Leur repérage par ordinateur peut donc faciliter le travail du chercheur.

Pour Julius Laffal, l'analyse des concepts d'un texte a deux utilités: "One is to gain insight into the similarities and differences between the texts for comparative studies. The second is to garner cues to the author's conceptual orientation in the texts under study" (1995, p.343).

L'analyse de concepts - telle que décrite par Laffal (1995) - est une forme d'analyse de contenu basée sur des catégories d'idées (ou concepts) représentées par les mots d'un texte. Chaque mot du texte est cherché par l'ordinateur dans un dictionnaire contenant des mots auxquels les concepts qu'ils évoquent sont associés. Puis, un profil de la fréquence et de la distribution des concepts est généré. Paul A. Fortier (1995) précise que le texte doit être encodé avant d'être comparé au dictionnaire. L'encodage dont il parle concerne les unités linguistiques et les parties du discours.

Pour construire le dictionnaire automatisé, les thèmes sont identifiés d'après des catégories sémantiques. La catégorisation se construit beaucoup par oppositions et similitudes à partir desquelles on établit une structure hiérarchique. Le résultat est donc très semblable au célèbre thésaurus de Roget⁴ (Fortier, 1995; Laffal, 1995). Chaque catégorie doit être exclusive et pas trop large pour être significative. Lorsque les thèmes ont été établis, il ne reste plus qu'à y associer les différents mots qui les évoquent. Selon le logiciel utilisé, l'ordinateur cherchera le mot exact parmi les entrées du dictionnaire ou bien il pratiquera une certaine lemmatisation et trouvera l'entrée la plus semblable (Laffal, 1995).

Étienne Brunet (1991) a fait l'analyse de l'évolution des thèmes de la nature et du temps dans À la recherche du temps perdu de Marcel Proust. Il a donc étudié ces champs lexicaux, c'est-à-dire l'ensemble des mots se rapportant à ces thèmes, dans les sept romans formant ce récit. Les graphiques tracés par le logiciel utilisé par Brunet montraient que le thème de la nature devient moins important au fil de la progression du récit tandis que celui du temps l'est de plus en plus.

Paul A. Fortier (1995) a fait l'analyse de certains champs lexicaux du roman L'Immoraliste d'André Gide. Il a étudié plusieurs thèmes (et leurs champs lexicaux) regroupés sous les grands thèmes de la santé et de la maladie du point de vue de la fréquence de leurs occurences pour vérifier leur importance relative les uns par rapport aux autres.

3. Les usages

La stylométrie, l'analyse statistique des mots, du vocabulaire et des thèmes composant une oeuvre littéraire, peut mener à des études un peu plus poussées. On utilise souvent les résultats de ce type d'analyse pour comparer entre eux des oeuvres et des auteurs, pour déterminer la paternité d'un texte, ou pour trouver ce qui distingue une oeuvre "authentique" d'un pastiche ou d'une imitation. L'analyse des motifs rythmiques des vers en poésie ou dans les pièces de théâtre par l'étude des mots et des syllabes est une autre façon d'observer le style d'un auteur.

3.1 Comparaisons

L'un des types d'études que l'on retrouve le plus fréquemment dans le domaine de l'analyse de textes littéraires assistée par ordinateur, est la comparaison de deux ou plusieurs textes entre eux, qu'ils soient d'un même auteur ou d'auteurs différents. La comparaison peut être basée sur différents aspects, notamment le vocabulaire et les concepts abordés.

3.1.1 Par le vocabulaire

Le chercheur Lee Sigelman (1995), s'est servi de l'analyse du vocabulaire par ordinateur pour juger de la qualité de travail de Marion Mainwaring qui a tenté de compléter The Buccaneers, un roman de l'américaine Edith Wharton. Cette oeuvre, demeurée inachevée en raison du décès de l'auteure en 1937, avait tout de même été publiée en 1938. Aux vingt-neuf chapitres qui avaient été écrits, Mainwaring en a ajouté douze. L'oeuvre "complétée" a été publiée dans la controverse en 1993. Les critiques étaient effectivement très sceptiques et divisés quant au succès avec lequel Mainwaring avait réussi son entreprise. C'est pourquoi Sigelman a voulu analyser les deux parties de l'oeuvre (celle produite par Wharton et celle ajoutée par Mainwaring) afin d'évaluer la fidélité avec laquelle Mainwaring avait complété le récit de Wharton.

Sigelman a fait une analyse, chapitre par chapitre, du ratio entre les mots nouveaux (i.e. n'apparaissant pas dans les chapitres précédents) et le nombre total de mots ("the ratio of new types to tokens", 1995, p.273). L'avantage de cette mesure statistique, c'est qu'elle est relativement simple et que la richesse du vocabulaire - qu'elle mesure - est reconnue comme étant une caractéristique généralement stable chez un auteur.

Sigelman a d'abord appliqué cette méthode à trois romans d'Edith Wharton: The House of Mirth (1905), Ethan Frome (1911) et The Age of Innocence (1920). Il a ainsi pu constater que le ratio de nouveaux mots suivait une progression semblable dans chacun des textes de Wharton. L'analyse des vingt-neuf chapitres de The Buccaneers écrits par Wharton a ensuite montré que cette progression suivait, là aussi, sensiblement le même modèle. Par contre, Sigelman a pu remarquer une brisure dans la progression de l'apparition de nouveaux mots dans les chapitres ajoutés par Mainwaring. "The ratio of types to tokens turns out to be 8840/89494, or 0.099, for Wharton's twenty-nine chapters of The Buccaneers, as compared to 5791/33023, or 0.175, for Mainwaring's twelve chapters" (1995, p.273). Il apparait donc que Mainwaring emploie un vocabulaire plus riche que Wharton. Cependant, pour que l'analyse soit plus représentative, Sigelman a repris l'analyse avec des échantillons de même taille, soit les douze chapitres de Mainwaring et les dix premiers de Wharton (un peu plus de 30,000 mots dans chaque cas). La différence entre le ratio de nouveaux mots chez les deux auteurs était alors beaucoup moins importante: 0,159 pour Wharton et 0.175 pour Mainwaring. Il y a donc peu de différence dans la richesse du vocabulaire si on étudie globalement chacune des deux parties.

Mais ce qu'il est plus intéressant de vérifier, c'est si la narration du roman est "rompue" à cause du changement d'auteur, en observant s'il y a rupture dans l'évolution du ratio de nouveaux mots d'un chapitre à l'autre. Sigelman pose la question: "Is the junction between Wharton's and Mainwaring's chapters seamless, or does it betray clear evidence of disruption of the narrative flow?" (1995, p.274). Il a comparé - du point de vue du ratio de nouveaux mots - les chapitres de Mainwaring avec les autres chapitres de The Buccaneers, mais aussi les autres romans de Wharton. Il a pu voir que dans les romans de Wharton et ses chapitres de The Buccaneers, le ratio fait une parabole vers le bas, avec quelques rares et faibles remontées. Cela s'explique simplement par le fait que, au début de la narration, l'auteur a besoin de plusieurs mots pour décrire les lieux, introduire les personnages, mettre l'action en contexte. Dans The Buccaneers, à l'endroit où Mainwaring fait son entrée (au chapitre 30), il y a une grosse remontée du ratio, donc beaucoup de nouveaux mots d'un coup.

Deux autres chercheurs, J.F. Burrows et D.H. Craig (1994), ont aussi utilisé l'analyse du vocabulaire pour fins de comparaison. Des critiques ont qualifié les tragédies anglaises romantiques de pauvres imitations des tragédies de la Renaissance. Burrows et Craig ont voulu voir à quel point ces deux groupes d'oeuvres étaient semblables ou dissemblables. Leur objectif était de déterminer les différences systématiques entre ces deux groupes de textes du même genre mais produits à des périodes très éloignées dans le temps. Ils espéraient ainsi apporter de nouveaux éléments au débat.

Burrows et Craig ont choisi dix pièces de chaque groupe et ont fait des comparaisons statistiques sur la base des mots les plus utilisés. L'analyse leur a fait voir des différences évidentes entre les deux groupes, allant au-delà des simples changements historiques du langage. "The Romantic tragedies are more expository; the Renaissance ones include more commonplace interactions between characters. The later plays do not show the marked variations in function-word frequencies of their predecessors" (Burrows et Craig, 1994, p.63). Ils ont pu constater que, parmi les pièces de la Renaissance, celles de William Shakespeare présentent à la fois les plus grandes affinités et les plus grandes différences par rapport aux tragédies romantiques.

3.1.2 Par les concepts abordés

L'analyse de concepts est un autre bon moyen de comparaison. On peut comparer, par exemple, les profils de concepts de deux oeuvres entre eux ou encore les fréquences relatives de différents concepts pour une même oeuvre.

C'est un peu ce qu'a fait Julius Laffal (1995). Voici comment il décrit son procédé:
To determine if profiles A and B are significantly different both are correlated with a third profile, C, thus providing the two correlation values, r(AC) and r(BC). A z' transformation is applied to the correlations. The difference between z'(AC) and z'(BC), divided by the sampling error of the difference, is evaluated for significance against the normal curve (Laffal, 1995, p.342).

Laffal a voulu vérifier si la pensée de Jonathan Swift avait changé entre 1697 et 1725 en étudiant les concepts traités dans deux de ses oeuvres: A Tale of a Tub et Gulliver's Travels, le premier publié en 1704, mais écrit vers 1697 alors que l'auteur avait trente ans et le second écrit entre 1721 et 1725. Il a donc produit, pour chaque livre, deux profils, l'un étant une liste alphabétique des concepts avec leur fréquence et leur importance (en pourcentage) par rapport au total, et l'autre étant une liste de ces mêmes concepts classés selon leur fréquence. Il a aussi fait l'analyse (et donc établi les profils) d'autres écrits de Swift (des lettres et des poèmes) contemporains à ces deux textes afin de pouvoir évaluer ses résultats dans un contexte plus large. Il a par exemple vérifié, à l'aide des profils de concepts, si Gulliver ressemblait davantage aux textes écrits par Swift durant la même année qu'à Tub et d'autres textes de 1697. Les corrélations ont été converties en cote Z et on a observé les différences.

Ces résultats permettent, selon Laffal, de faire trois constats: en ce qui concerne les concepts traités, (1) Gulliver est plus semblable aux textes qui lui sont contemporains (1725) qu'à Tub et aux autres textes de 1697; (2) Tub est légèrement plus semblable aux autres textes de 1697 (qui lui sont contemporains) qu'à Gulliver, mais la différence est peu significative; (3) il n'y a pas de différence entre la corrélation de Tub avec les autres textes de 1697 et celle de Gulliver avec les autres textes de 1725. Ces résultats suggèrent donc, toujours selon Laffal, que les concepts utilisés par Swift n'ont pas changé entre 1697 (lorsqu'il a écrit Tub) et 1725 (alors qu'il a écrit Gulliver), mais que les concepts spécifiques à Gulliver diffèrent de ceux qui sont spécifiques à Tub et aux autres textes de la même époque. De plus, en comparant les profils de Tub et Gulliver à ceux de textes contemporains produits par d'autres auteurs, Laffal a trouvé que Gulliver présente une plus grande corrélation que Tub avec d'autres textes du début du 18e siècle. Il affirme:
This finding affirms that Gulliver represents a unique departure in Swift's use of concepts rather than overall shift in his concepts between the 1690s and the 1720s. (...) (It( also suggests that Gulliver is atypical with respect to contemporary 18th century writings (Laffal, 1995, p.346).

Pour mettre tous ces résultats en contexte, il faut cependant en faire une évaluation qualitative, en observant la fréquence des concepts trouvés pour chaque texte. Laffal a donc regardé quels concepts sont plus traités dans Gulliver que dans Tub et les autres textes du 18e et vice-versa. Il a aussi comparé les concepts utilisés par Swift par rapport à ceux utilisés par les autres auteurs de l'époque pour voir en quoi Swift se distingue de ses contemporains. Il a fait des regroupements de concepts (par exemple, un incluant les concepts reliés à la culture, la religion, le langage et l'éducation) et des oppositions (concepts à consonnance négative vs positive). Il a trouvé notamment que (1) Swift a moins abordé les valeurs négatives (le mal, le crime, la destruction, la mort, la maladie, etc.) que ses contemporains tandis qu'il faisait plus référence aux valeurs positives; (2) il était plus attentif que ses contemporains à ce qui est matériel et au commerce et moins à l'éducation et à la culture, ce qui reflèterait, selon Laffal, son intérêt pragmatique pour la vie quotidienne.

3.2 Déterminer la paternité d'un texte

Les méthodes informatiques de comparaison entre différents textes ou différents auteurs peuvent permettre de déterminer la paternité d'une oeuvre (i.e. son auteur) (Holmes, 1994; Lowe et Matthews, 1995; Elliot et Valenza, 1996). On peut aussi, quand on connaît l'auteur, déterminer la période de sa vie durant laquelle il a écrit un texte (Holmes, 1994; Johnson, 1996b). Une étude statistique voulant déterminer la paternité d'un texte implique des comparaisons du texte en question avec des oeuvres des auteurs possibles en utilisant les tests statistiques appropriés qui analyseront les caractéristiques quantifiables des textes, caractéristiques réflétant le "style" de l'écriture, comme cela a été expliqué précédemment. Il s'agit de déterminer si le texte évoque plus le style de l'auteur A ou de l'auteur B.

Bailey a proposé, en 1979, trois règles pour définir les circonstances nécessaires à la détermination de la paternité d'un texte:
(i) the number of putative authors should constitute a well-defined set; (ii) the lengths of the writings should be sufficient to reflect the linguistic habits of the author of the disputed text and also those of each of the candidates; (iii) the texts used for comparison should be commensurate with the disputed writing (Holmes, 1994, p.87, citant Bailey, 1979).

S'il y a un auteur pour lequel la question de la paternité se pose souvent, c'est bien William Shakespeare. Plusieurs des oeuvres qui lui ont longtemps été attribuées soulèvent maintenant des débats: Shakespeare en est-il bien l'auteur? Des milliers de livres et d'articles ont été consacrés à ce sujet. Deux chercheurs, Ward E.Y. Elliott et Robert J. Valenza (1996), ont voulu tenter d'apporter des éléments de réponses. Ils ont fait passer une batterie de tests logiciels à des pièces et poèmes dont on est sûr qu'ils sont de Shakespeare. Suite à cette étape de validation des tests, ils en ont retenu 51 qu'ils ont fait passer aux textes dont la paternité est contestée. Les analyses statistiques portaient sur des aspects comme les mots, les contractions, certains modèles de phrases, les préfixes et suffixes, etc. Ces tests ont cependant été critiqués par Donald W. Foster qui affirme que plusieurs sont imparfaits (1996).

Parmi les oeuvre attribuées à Shakespeare et dont la paternité fait l'objet d'un débat, il y a les trois pièces de théâtre The Two Noble Kinsmen, The Double Falsehood et The London Prodigal. Certains croient qu'elles ont été coécrites par Shakespeare et John Fletcher, alors que d'autres contestent cette hypothèse. Deux spécialistes, David Lowe et Robert Matthews (1995), ont utilisé le "Radial Basis Function Network" (RBF), une méthode du domaine de ce qu'on appelle en anglais le "neural network", pour accomplir la tâche stylométrique de déterminer l'auteur ou les auteurs de ce texte. Le RBF est une méthode assez complexe que Lowe et Matthews décrivent ainsi:
although the original motivation of this particular network structure was in terms of functional approximation techniques, the network may be derived on the basis of statistical pattern processing theory, regression and regularisation, biological pattern formation, mapping in the presence of noisy data etc. (1995, p.450). Cette méthode leur a permis de comparer le vocabulaire des pièces mentionnées plus haut à celui d'un corpus de textes dont la paternité est indubitable (étant attribuée soit à Fletcher soit à Shakespeare). Les analyses qu'ils ont menées les ont amenés à dire que The Double Falsehood et The London Prodigal devraient être prioritairement attribuées à Fletcher. Le cas de The Two Noble Kinsmen est différent. Cette pièce a longtemps été considérée comme une véritable collaboration entre les deux auteurs. Selon l'étude de Lowe et Matthews, chaque acte de la pièce porte les marques des deux auteurs - et a donc pu avoir été écrit en collaboration - mais avec une prédominance tantôt de l'un tantôt de l'autre.

3.3 Distinguer les imitations des oeuvres authentiques

Comme on l'utilise pour déterminer la paternité d'un texte, l'analyse de textes littéraires assistée par ordinateur pourrait être utilisée pour distinguer une imitation d'une oeuvre authentique, pour identifier le plagiat (Johnson, 1996b). Sans ordinateur, cette tâche peut être assez difficile à accomplir, puisqu'une imitation se veut d'un style identique aux oeuvres authentiques d'un auteur donné.

Le pastiche est une oeuvre qui se veut une imitation du style d'un auteur donné. Il ne faut pas le confondre avec la parodie qui est plus caricaturale. Le pastiche est donc une forme d'imitation, mais non dissimulée; il ne s'agit pas de plagiat. Le roman policier, fantastique ou de science-fiction sont des genres qui font assez fréquemment l'objet de pastiches. L'oeuvre de l'écrivain américain Raymond Chandler n'y a pas échappé.

Lee Sigelman et William Jacoby (1996) ont utilisé les outils de l'analyse statistique pour évaluer la distinction entre les pastiches de son style et ses oeuvres originales. Ils se sont donc basés sur des éléments stylistiques pour faire ressortir les faiblesses des imitateurs. Ils ont d'abord "mesuré" le style de Chandler pour ensuite le comparer aux styles des différents pastiches. Toutefois, ils n'ont pas voulu s'attarder aux petits détails, mais plutôt à ce qu'ils considèrent comme les principales caractéristiques du style de l'auteur. Ils ont utilisé l'ordinateur pour analyser quatre caractéristiques:

la simplicité du vocabulaire (mesures utilisées: le degré de lisibilité, i.e. le nombre de syllabes par mot et de mots par phrase; l'usage d'un vocabulaire "de base", i.e. selon une liste de 850 mots permettant d'exprimer toute pensée);
l'action (mesures: le ratio entre les adjectifs et les verbes; le ratio entre les mots reliés à la violence et la criminalité et ceux reliés à la contemplation et la réflexion);
les dialogues (mesures: la densité, i.e. le nombre de mots qui font partie de dialogues divisé par le nombre total de mots; la fréquence; la longueur);
le langage des personnages (mesures: la fréquence relative des mots d'argot (selon une liste prédéterminée); la fréquence des comparaisons; la fréquence relative des mots considérés comme vulgaires ou obscènes; la fréquence relative des conjonctions de coordination.

Ces analyses ont permis à Sigelman et Jacoby de remarquer une certaine constance dans le style de Chandler. Ils ont comparé leurs résultats avec les pastiches et ont ainsi pu voir les similitudes et différences (dont certaines sont presque systématiques).

3.4 L'étude des motifs rythmiques dans les vers

L'analyse par ordinateur des mots et des syllabes peut contribuer à l'étude du rythme dans les vers de poèmes ou de pièces de théâtre. C'est ce que Sharon Diane Nell (1993) a fait.

La plupart des textes de pièces de théâtre du XVIIe siècle français sont composés d'alexandrins - des vers de douze syllabes. Les alexandrins classiques comportent toujours une césure, c'est-à-dire un repos entre la sixième et la septième syllabe. Elle marque la cadence du vers en le séparant en deux hémistiches composés de six syllabes chacun.

Pour faire son analyse, Nell part de Théorie du vers de Benoît de Cornulier. Cornulier a remarqué que certains types de mots ou de syllabes ne paraissent pas de part et d'autre de la césure, c'est-à-dire en sixième ou septième position, dans certaines circonstances. Il les a regroupés selon cinq "critères" nommés masculin, proclitique, enclitique, prépositionnel et féminin⁵. Il ne peut pas y avoir d'accent sur ces mots ou syllabes. Or, comme en français l'accent est mis sur la dernière syllabe d'une phrase, ces mots ne peuvent pas être placés à la fin de l'une des hémistiches d'un alexandrin. Autrement dit, ils ne peuvent pas se trouver en sixième ni en douzième position. Dans la langue française, les mots ou syllabes susceptibles d'être accentués sont les conjonctions, les adjectifs, verbes ou adverbes monosyllabes, et la dernière syllabe d'un mot qui en compte plus d'une. Ces observations amènent Nell à tirer cette conclusion: "in addition to the metrical division of the alexandrine line into two hémistiches of six syllables each, these two halves of the same line may be subject to further subdivision" (1993, p.187). Ce sont les divisions non métriques, c'est-à-dire les syllabes pouvant être accentuées et se trouvant ailleurs qu'en sixième ou douzième position, qui créent le rythme dans un alexandrin. Par opposition, les divisions métriques sont celles qui se trouvent en sixième ou douzième position.

Nell a utilisé la théorie des critères de Cornulier et la technologie informatique pour faire une analyse comparative des pièces Polyeucte de Pierre Corneille, Phèdre de Jean Racine et Le Tartuffe de Molière, toutes trois tirées du répertoire théâtral français du 17e siècle. L'objectif de son étude était formulé ainsi:
to determine if there were any constant qualities between the plays or if there seemed to be stylistic differences, indicated by a wide variation in the use of the internal rythmic patterns, for example, between the three playwrights, or if the occurrence of these patterns displayed similarities in all three works (Nell, 1993, p.190).

Nell a utilisé le tableur Excel de Microsoft pour effectuer son analyse. Elle a créé quatre documents dans Excel: (1) un contenant les sections d'alexandrins (elle a choisi d'étudier les hémistiches séparément plutôt qu'en alexandrins) codifiés selon les critères de Cornulier; (2) un autre contenant les 42 combinaisons de critères possibles; (3) un modèle pour la compilation statistique; (4) une feuille de macros qui assurait l'automatisation et la communication entre les autres documents.

Nell a collecté quatre types d'informations: (1) la fréquence globale des IRP (pour Internal rhythmic pattern) dans les trois pièces; (2) les différents types d'IRP présents dans chaque scène; (3) les pourcentages globaux des types d'IRP dans les trois pièces; (4) le comportement des IRP hexasyllabes dans les trois pièces. Elle a pu voir, par exemple, que les motifs (IRP) les plus fréquents sont les mêmes dans les trois pièces. Elle a tracé des portraits graphiques de chaque pièce en calculant la fréquence de chaque longueur de motifs (monosyllabes, bisyllabes, etc.) dans chaque scène. La longueur d'un motif correspond à la distance en syllabes entre deux syllabes accentuées.

3.5 Marques d'un auteur dans l'évolution du langage

Selon Dennis Taylor (1993), l'ordinateur permet de répondre à la question: comment un auteur donné contribue-t-il à l'évolution du langage? Il est possible de comprendre l'influence d'un auteur en faisant la corrélation entre son vocabulaire et ses expressions, d'une part, et des dictionnaires informatisés, d'autre part, pour ensuite produire le profil et l'historique de l'entrée de certains mots dans la langue. De grands auteurs ont inventé de nouvelles façons de dire les choses, ont modifié le langage et certaines de ces inventions et modifications font maintenant partie intégrante du langage courant. Il peut s'agir de nouveaux mots ou encore de nouvelles façons d'employer d'anciens mots. Auparavant, il n'y avait pas d'outils pour faire des liens entre les oeuvres littéraires et l'état du langage. Cela était donc un problème pour les littéraires de trouver comment mesurer l'originalité et la créativité des grands auteurs et, par la même occasion, leur participation à l'évolution du langage.

Pour ce faire, il faut trouver une façon de mesurer "les moments-clés du langage littéraire, ces moments où le langage viole une norme et constitue une déviation ou, mieux, une variation et un développement" (traduction de l'auteure)⁶ (Taylor, 1993, p.342). Il faut comparer l'oeuvre avec des dictionnaires informatisés qui lui sont contemporains (pour voir comment l'oeuvre se distingue des normes de l'époque à laquelle elle a été produite) et des dictionnaires plus "tardifs" (pour voir quels aspects du langage de l'oeuvre ont été incorporés au langage). Il faut aussi se servir de grammaires et autres sources également informatisées afin de faire ressortir les changements dans la façon d'employer les mots. "Our ultimate task is to computerize all dictionaries and all texts, and then conduct a study of what changes in the language correspond to what sources" (Taylor, 1993, p.343). À l'aide des dictionnaires et d'autres oeuvres antérieures au texte étudié, il est aussi possible de repérer les changements de collocations, c'est-à-dire qui concernent la position d'un mot par rapport à d'autres, la proximité des éléments entre eux. Selon Taylor, les nouveautés de collocation marquent les points de transition du langage, là où les changements s'opèrent. L'informatique peut aider à repérer ces lieux.

4. Complémentarité homme-machine

Les exemples d'applications de l'analyse de textes littéraires assistée par ordinateur exposés précédemment montrent que l'informatique permet au chercheur d'aller plus loin. Les logiciels font des tâches qui seraient longues et laborieuses, voire impossibles, pour l'humain seul. L'ordinateur est objectif. Il examine le texte entier sans que son attention ne soit davantage attirée sur un passage en particulier. Il n'est pas sujet aux distractions, pas plus qu'aux idées préconçues (Fortier, 1995). Une analyse statistique par ordinateur bien faite peut redonner des bases plus fermes à un débat qui, jusque-là, se perdait en conjectures (Burrows et Craig, 1994). Elle peut faire ressortir des aspects d'une oeuvre qui sont difficilement visibles à l'oeil nu. L'ordinateur est donc avant tout un accélérateur et un facilitateur (Olsen, 1993).

Toutefois, le plus évolué des logiciels ne peut évidemment pas, seul, produire une analyse significative d'un texte littéraire. Toute statistique a besoin d'une interprétation humaine pour prendre son sens. L'ordinateur fournit les données brutes qui seront ensuite soumises à la capacité d'analyse de l'expert (Fortier, 1995). L'intervention humaine est aussi nécessaire avant celle de la machine, ne serait-ce que pour numériser les oeuvres, dictionnaires et autres documents nécessaires à l'analyse. Après la numérisation, il faut aussi corriger les erreurs de transcriptions. Le chercheur doit aussi bien souvent préparer les données à être analysées pas l'ordinateur. Dans le cas des analyses de concepts décrites plus haut, par exemple, c'est au chercheur de déterminer les concepts, leur structure et leurs liens avec les différents mots.

Pour l'analyse des oeuvres de Jonathan Swift, Laffal a aussi traduit les mots des oeuvres qui étaient dans d'autres langues que l'anglais et il a remplacé les noms propres par name ou place, selon ce qu'ils désignaient. Les mots dont l'ortographe a changé depuis la rédaction de ces textes ont été réécrits selon l'ortographe moderne. De plus, le chercheur a dû intervenir durant l'analyse pour contrer les problèmes de polysémie. Pour ce faire, il a employé deux logiciels: one reads the text to be analysed and marks all words wich have more than one meaning in the dictionary. A second program advances through the marked text, stopping at each marked word with a display of numbered dictionary choices. The human editor selects the proper meaning by keying the pertinent number (Laffal, 1995, p.342).

L'informatique peut être employée pour analyser des données tirées d'oeuvres littéraires plutôt que sur les textes eux-mêmes. Mais alors, il faut une implication humaine plus grande, il faut collecter les données, les organiser, les traiter, etc. avant l'intervention de la machine. Le travail du chercheur précédant l'analyse par ordinateur devient plus important encore. Beverley Ormerod, Jean-Marie Volet et Hélène Jaccomard (1995) se sont servis de logiciels informatiques pour étudier les personnages féminins dans la littérature africaine francophone. Il s'agissait en fait d'une comparaison entre les personnages féminins chez les auteurs masculins et chez les auteurs féminins. Les chercheurs s'attendaient à trouver les résultats suivants: (1) que les personnages masculins soient beaucoup plus nombreux, autant dans les oeuvres des auteurs féminins que dans celles d'auteurs masculins; (2) que, chez les auteurs féminins, il y aurait une discrimination positive en faveur des personnages féminins "in terms of female characters' mere presence in a novel and in terms of their power, attitude and importance" (1995, p.355).

Ils ont établi un corpus de dix romans écrits par des hommes et dix par des femmes. Les données soumises à l'examen de l'ordinateur étaient constituées d'une liste exhaustive des personnages de ces vingt romans auxquels on a accordé trois notes de 1 à 5 (selon des critères préétablis), l'une correspondant à leur importance, une autre à leur pouvoir et la dernière à leur attitude dans le roman. C'est à ce niveau que se situait la plus grande part de l'intervention humaine avant le traitement des données par ordinateur. Les chercheurs ont ensuite fait ressortir la différence entre les textes d'auteurs masculins et ceux d'auteurs féminins.

Quant aux profils, graphiques, tableaux, etc. résultants des diverses analyses, ils ne sont pas eux-mêmes des interprétations des oeuvres littéraires. Ils servent plutôt de base aux études menées par les chercheurs. Dans tous les exemples mentionnés jusqu'ici, les chercheurs ont eu à interpréter les résultats fournis par les différents logiciels utilisés.

5. Critiques et limites de l'analyse de textes par ordinateur

L'analyse de textes littéraires assistée par ordinateur a bien sûr ses détracteurs. Les gens qui pratiquent ce type d'analyse ne sont généralement pas ceux que l'on considère comme des spécialistes de la littérature. Il y a bien, parmi les experts du domaine, quelques professeurs de littérature à l'université. Mais on trouve surtout des "non littéraires": des spécialistes en mathématiques, en physique, en informatique, en psychologie, voire en science politique, etc. Les littéraires qui n'utilisent pas l'informatique dans leurs travaux, eux, mettent souvent en doute cette façon d'étudier la littérature et ne semblent pas s'y intéresser outre mesure. The conclusions of most individual CARL (computer-assisted research on literature( projects have simply been too trivial or too obvious to attract attention. A second reason put forward for the marginalization of CARL is the rebarbative presentation of its research (Finch, 1995, p.511).

Alison M. Finch parle aussi d'une "mythologisation" des méthodes d'analyse statistiques par les experts eux-mêmes. Some surprising figures of speech infiltrate the critical diction of many CARL analysts - figures of speech that tend to mythologize their own entreprises. (...) It may have stopped CARL experts evaluating properly the results of their own research, and it cannot but be off-putting the non-CARL critics they are trying to win over (1995, p.512).

Pour certains experts de l'analyse de textes littéraires par ordinateur, Olsen en tête (1993), l'informatique a bien des choses à offrir à la littérature, mais elle est souvent mal utilisée et n'a pas l'impact qu'elle devrait avoir sur le champ des études littéraires. Olsen croit qu'il est nécessaire de réévaluer le rôle de l'informatique dans l'analyse de la littérature et d'aller dans de nouvelles directions. Il cite Rosanne Potter qui affirme que les spécialistes utilisant l'informatique en littérature ont trop souvent tendance à rendre leurs rapports très "techniques", ce qui n'aide pas à s'adjoindre un lectorat de littéraires. Potter remarque également que ce type d'études se limitent la plupart du temps à un petit nombre d'oeuvres (Olsen, 1993, citant Potter, 1989).

Selon Mark Olsen, les erreurs commises par les experts de l'analyse de textes par ordinateur ne sont pas d'ordre technique, mais plutôt théoriques et méthodologiques (1993). Il soulève aussi que les analyses de textes littéraires par ordinateur sont généralement faites sur la base d'éléments simples comme la longueur des mots et les ratios "type-token", alors que ces mesures donnent des résultats peu satisfaisants en eux-mêmes, selon lui. C'est aussi l'avis de David D. Miall: "The frequencies of words, collocations, or particular stylistic features, tell us rather little about the literary qualities of a text, since these aspects of a text find their meaning only within the larger and constantly shifting context constituted by the reading process" (1995, p.202).

Le problème, c'est qu'il n'est pas évident de transformer des qualités textuelles en statistiques. Paul A. Fortier soulève que, bien que les textes soient composés de mots, leurs effets sont produits par des phénomènes d'un ordre supérieur et plus complexe (1995). De plus, aucun algorithme informatique connu ne peut saisir si un mot donné est employé au sens figuré ou littéraire (Miall, 1995). Pour ce faire, il faudrait d'abord que le chercheur fasse un travail d'encodage, tâche énorme et fastidieuse. Selon Miall, prédire une nouvelle ère où un ordinateur serait capable de comprendre une oeuvre littéraire, c'est sous-estimer la complexité du processus de lecture d'un texte. Lire un poème ou un roman est un processus de transformation probablement encore plus complexe que dans le cas d'autres types de textes.

Par contre, il est convenu que les données issues d'analyses par ordinateur puissent être utiles pour des analyses plus poussées. Mark Oslen ajoute: It would seem that the approach of using computers to analyze the linguistic and symbolic environment - the collective and social elements of language - in order to understand individual texts and rhetorical stances, suggests that computer analysis of text should play a central and well defined role in our understanding of text (1993, p.313).

De plus, il est évident que, si certains aspects des textes littéraires sont quantifiables, d'autres ne pourront jamais l'être (Burrows et Craig, 1994).

Étienne Brunet, de son côté, soulève les dangers de l'obstination statistique. Lorsqu'un chercheur veut, par exemple, déterminer la paternité d'un texte, il avance d'abord une hypothèse puis soumet le texte à des tests. S'il n'arrive pas aux résultats escomptés et qu'il ne veut pas que ses efforts soient vains, il risque de s'acharner et d'interpréter les résultats de façon à leur faire dire ce qui lui convient le mieux. C'est que, pour Brunet, différentes personnes peuvent faire dire différentes choses aux statistiques. On a tendance à donner aux chiffres une supériorité presque divine sur les mots parce qu'ils semblent absolus; "but this apparent incontrovertibility, however impressive, often conceals relative and contingent procedures that have nothing essential about them", écrit-il (Brunet, 1991, p.70).

Conclusion

L'ordinateur permet aux chercheurs qui s'intéressent à la littérature d'ajouter un aspect quantitatif à leurs analyses. À l'aide de différents logiciels, les spécialistes peuvent obtenir des tableaux, des graphiques, des statistiques sur les mots qui composent les oeuvres qu'ils étudient, de même que sur les syllabes, les signes de ponctuation, le vocabulaire, les thèmes et champs lexicaux, etc. Ces résultats peuvent ensuite être utilisés pour comparer des auteurs ou des textes entre eux. Ils peuvent notamment aider le chercheur à déterminer la paternité d'un texte, à distinguer les imitations des oeuvres authentiques, à comprendre les motifs rythmiques dans des vers ou encore à saisir comment un auteur donné a contribué à l'évolution du langage. Mais l'informatique n'est qu'un outil, il fournit une assistance au chercheur qui doit intervenir avant et après l'analyse automatisée. L'analyse de textes littéraires assistée par ordinateur ne fait pas l'unanimité et les experts doivent composer avec les limites de cette méthode.

L'analyse de textes littéraires par ordinateur est marginalisée par les littéraires. La plupart d'entre eux ne croient pas que l'informatique puisse leur apporter une aide réelle dans leurs travaux et ne semblent pas avoir la curiosité de découvrir les possibilités de cet outil. Il faut dire qu'une bonne partie des écrits dans le domaine de l'analyse de textes par ordinateur sont assez techniques et quelquefois rébarbatifs pour qui n'est pas très familier avec les statistiques et l'informatique. D'un autre côté, les experts en analyse de textes littéraires assistée par ordinateur ne font pas toujours un usage très pertinent des outils informatiques. Bien des études se limitent à l'analyse d'aspects très simples comme la longueur des mots et des phrases, la fréquence de certains mots, etc. En eux-mêmes, les résultats de telles analyses ne sont pas très intéressants d'un point de vue strictement littéraire. Par contre, ils peuvent être pratiques lorsqu'utilisés pour fins de comparaison; à la condition, bien sûr, que la comparaison soit pertinente, que son auteur ait un objectif précis.

Il est certainement souhaitable que littéraires et experts en analyse de textes par ordinateur - qu'ils soient informaticiens, mathématiciens ou autres - s'associent, qu'ils joignent leurs connaissances et leurs spécialités pour arriver à faire un usage pertinent des outils informatiques en études littéraires. Il faut faire en sorte d'attirer les spécialistes de la littérature vers ce domaine et mettre à leur disposition des outils de qualité qui leur apporteront un soutien concret dans leurs travaux.

Toutefois, tant que le processus cognitif de la lecture ne sera pas mieux compris, les chercheurs ne pourront faire qu'un usage assez limité de l'informatique. Et ce n'est certainement pas demain le jour où l'ordinateur pourra saisir le sens de vers comme ceux-ci, tirés du poème "C'était un bon copain" de Robert Desnos:

Il avait le coeur sur la main
Et la cervelle dans la lune
(...)
Il avait l'estomac dans les talons
(...)
Il avait la tête à l'envers
Et le feu là où vous pensez
(...)
Quand il prenait ses jambes à son cou
Il mettait son nez partout
(...)
Il avait une dent contre Étienne
(...)
Il n'avait pas sa langue dans la poche
(...) (1930, p.86).

Le cerveau humain est en mesure de saisir le sens caché derrière des expressions, de faire des associations d'idées, de créer et d'interpréter des métaphores, et même de trouver des significations nouvelles aux mots qui composent le vocabulaire courant. Jamais un ordinateur, même armé du logiciel le plus évolué qui soit, ne pourra rivaliser d'intelligence et de perspicacité avec un auteur ou un lecteur humain.

Bibliographie

Bailey, R. W. "Authorship Attribution in a Forenstic Setting". Advances in Computer-aided Literary and Linguistic Research, D.E Ager et al (éd.), Birmingham: AMLC, 1979.

Brunet, Étienne. "What Do Statistics Tell Us?". Research in Humanities Computing, n°1 (1991): 70-92.

Burrows, J. F. ; Craig, D. H. "Lyrical Drama and the "Turbid Mountebanks": Styles of Dialogue in Romantic and Renaissance Tragedy". Computers and the Humanities 28 (1994): 63-86.

Desnos, Robert. Corps et biens, Paris: Gallimard, 1930.

Elliott, Ward E. Y. ; Valenza, Robert J. "And Then There Were None: Winnowing the Shakespeare Claimants". Computers and the Humanities 30, n°3 (1996): 191-245.

Finch, Alison M. "The Imagery of a Myth: Computer-Assisted Research on Literature". Style 29, n°4 (1995): 511-521.

Fortier, Paul A. "Categories, Theory, and Words in Literary Texts". Research in Humanities Computing, n°5 (1995): 91-109.

Foster, Donald W. "Response to Elliot and Valenza, "And Then Were None"". Computers and the Humanities 30, n°3 (1996): 247-255.

Holmes, David, I. "Autorship Attribution". Computers and the Humanities 28 (1994): 87-106.

Johnson, Eric. "The Kinds of Words used in the Novels of Jane Austen, Charles Dickens, and James Janke". Text Technology 6, n°2 (été 1996a): 91-96.

Johnson, Eric. "The World Wide Web, Computers, and Teaching Literature". 1996b.
http://www.triton.dsu.edu/tlwc/articles/webprof.html

Laffal, Julius. "A Concept Analysis of Jonathan Swift's A Tale of a Tub and Gulliver's Travels". Computers and the Humanities 29 (1995): 339-361.

Lowe, David ; Matthews, Robert. "Shakespeare Vs. Fletcher: A Stylometric Analysis by Radial Basis Functions". Computers and the Humanities 29 (1995): 449-461.

Miall, David D. "Representing and Interpreting Literature by Computer". The Yearbook of English Studies: Non-Standard Englishes and the New Media Special Number 25 (1995): 99-212.

Nell, Sharon Diane. "Toward a Theory of Rythm in French Poetry: Computer Assisted Recognition of Rythmic Groups in Traditional Isometrical Alexandrines". Computers and the Humanities 27 (1993): 185-223.

Olsen, Mark. "Signs, Symbols and Discourses: A New Direction for Computer-aided Literature Studies". Computers and the Humanities 27, n°5-6 (1993): 309-314.
http://tuna.uchicago.edu/homes/mark/Signs.html

Ormerod, Beverly ; Volet, Jean-Marc ; Jaccomard, Hélène. "The Female Voice and Traditional Discourse Biases: The Case of Francophone African Literature". Computers and the Humanities 28 (1995): 353-367.

Potter, Rosane. Literary Computing and Literary Criticism: Theoretical and Practical essays on Theme and Rhetoric. Philadelphie, 1989.

Sigelman, Lee. "By Their (New) Words Shall Ye Know Them: Edith Wharton, Marion Mainwaring, and The Buccaneers". Computers and the Humanities 29 (1995) 271-283.

Sigelman, Lee ; Jacoby, William. "The Not-So-Simple Art of Imitation: Pastiche, Literary Style, and Raymond Chandler". Computers and the Humanities 30, n°1 (1996): 11-28.

Taylor, Dennis. "Literary Texts and the State of the Language: The Role of the Computer". Computers and the Humanities 27 (1993): 341-347.

Notes

¹ Ces logiciels sont souvent faits sur mesure pour l'analyse particulière que le chercheur désire faire. Il y a donc presque autant de logiciels que de types d'analyses.

² Toutes les analyses de Brunet ont été faites grâce à la base de données FRANTEXT contenant 3,000 textes littéraires intégraux et qui permet d'exécuter simplement divers types d'analyses statistiques.

³ David I. Holmes le décrit ainsi: "If N = the number of units (word occurences) wich form the sample text (tokens), and V = the number of lexical units wich form the vocabulary in the sample (types), then the type-token ratio is defined by R = V/N" (Holmes, 1994, p.92).

⁴ "I have taken as my guide the more obvious characters of the ideas for wich expressions were to be tabulated, arranging them under such classes and categories as reflection and experience has taught me would conduct the inquirer most readily and quickly to the object of his search" (Roget cité par Laffal, 1995, p.342).

Masculin:: "Se dit d'un mot qui, s'appuyant sur le mot suivant avec lequel il forme une unité phonétique, est dépourvu d'accent tonique" (Le Nouveau petit Robert 1), ie les articles, les pronoms personnels relatifs, les prépositions monosyllabiques;
Proclitique:: Toutes les syllabes sauf la dernière d'un mot multisyllabe, à moins qu'une ou plusieurs de ces syllabes soient des "e" muets (Nell, 1993);
Enclitique:: "Mot qui prend appui sur le mot précédent et forme avec lui une seule unité accentuelle" (Le Nouveau petit Robert 1), ex: "ce" dans "qu'est-ce?";
Prépositionnel:: Une préposition est un "mot grammatical, invariable, introduisant un complément (d'un substantif, d'un verbe, d'un adjectif, d'un adverbe) en marquant le rapport qui unit ce complément au mot complété" (Le Nouveau petit Robert 1), ex: à, après, avec, jusque, outre, par, sauf, etc.;
Féminin:: "e" muet se trouvant entre deux consonnes (Nell, 1993).

⁶ "The key moments in literary language, those moments where the language violates a standard norm and constitues a deviation or, better, variation and development. Some of these deviations eventually become very influential and indeed become part of the standard language wich is then again subject to variation" (Taylor, 1993, p.342).

L'analyse de textes littéraires assistée par ordinateur: une introduction

Cours : BLT 6271, Recherche en analyse documentaire.
Professeur : Madame Michèle Hudon

Retour à la Table des matières -- Page d'accueil de Cursus -- Page d'accueil de l'EBSI