Dans son édition du 14 juillet dernier, le Sunday Times de Londres a déchaîné une véritable tempête dans le monde de l'édition en révélant que Robert Galbraith, l'auteur d'un premier roman policier intitulé The Cuckoo's Calling (L'appel du coucou), n'était autre que J.K.Rowling, l'auteure à grand succès de la série Harry Potter. Peu après, le New York Times lui a emboîté le pas en racontant comment le chef de la rubrique artistique du Sunday Times, Richard Brooks, avait découvert le pot aux roses.
J.K.Rowling
Un des collègues de Brooks avait reçu un message anonyme sur Twitter prétendant que Galbraith était Rowling. Puis, le compte Twitter de l'informateur anonyme avait été fermé. Avant de poser la question à l'éditeur, l'équipe de Brooks se livra à une petite enquête sur la Toile. Ils s'aperçurent que les deux auteurs avaient le même éditeur et le même agent. Ensuite, ils découvrirent que The Cuckoo's Calling et d'autres livres de Rowling présentaient d'étonnantes similarités linguistiques. Convaincus que l'informateur avait dit vrai, Brooks tenta de joindre Rowling. Finalement, le samedi suivant, comme le rapporte le New York Times : « Il obtint une réponse d'une porte-parole de Mme Rowling qui lui dit que celle-ci avait décidé d'avouer ».
Tandis que le monde littéraire était en ébullition, se demandant si l'informateur anonyme était ou non Little, Brown & Cie, l'éditeur de Rowling (ce qui n'était pas le cas), il est apparu plus intéressant de s'interroger sur la façon dont les experts informaticiens procédaient à leurs mystérieuses analyses linguistiques. Occasion d'apprendre non seulement comment s'accomplit l'enquête sur Rowling, mais aussi de pénétrer le monde fascinant de la linguistique légale.
Certes, l'idée de décortiquer les textes n'est pas nouvelle. Depuis longtemps, les étudiants en sciences politiques se livraient à des analyses de contenu manuelles. Prenant au hasard une vingtaine de lignes de Benjamin Constant, d'Alexis de Tocqueville ou de Max Weber, ils comptaient la fréquence des adjectifs positifs ou négatifs, des verbes actifs ou passifs, la longueur des phrases, etc. et tentaient d'établir des corrélations entre la forme et le fond. Fastidieux, l'exercice n'était pas forcément concluant. Avec l'informatique et les progrès de l'analyse statistique, la recherche s'est beaucoup affinée. Une des premières approches est celle dite de la comparaison des mots rares dont l'exemple classique est celui des Federalist Papers, une série d'écrits politiques rédigés par Alexander Hamilton, John Jay et James Madison, à l'époque où s'élaborait la Constitution des États-Unis [1] En 1963, des chercheurs parvinrent à attribuer à Madison ou à Hamilton 12 de ces textes par comptage des mots. Ils s'aperçurent notamment que Madison avait tendance à utiliser whilst et jamais while et on plutôt que upon. En revanche, Hamilton avait tendance à se servir de while et non de whilst et utilisait tantôt on, tantôt upon. Dans 12 écrits anonymes, on ne rencontrait jamais while et rarement upon, ce qui désignait nettement Madison.
Journaliste indépendante, Virginia Hughes est spécialiste des sciences neurologiques, de la génétique, de la médecine et des problèmes de comportement. Outre son blog et son info-lettre, elle collabore à Nature, Popular Science et Slate. Elle a décidé de mener une enquête sur l'enquête [2] et voici ce qu'elle a découvert.
En fait, c'est un journaliste du Sunday Times, Cal Flyn, qui a pris l'initiative de consulter deux spécialistes de la linguistique légale : Patrick Juola, de l'Université Duquesne à Pittsburgh, et Peter Millican, chercheur à l'Université d'Oxford. Après leur avoir exposé son hypothèse de travail, à savoir que Galbraith était Rowling, Flyn leur donna cinq livres à tester. Il s'agissait bien sûr du Cuckoo ainsi que d'un roman de Rowling intitulé The Casual Vacancy (Une place à prendre) plus trois autres romans policiers britanniques : The St.Zita Society, de Ruth Rendell, The Private Patient, de P.D. James et de The Wire in the Blood (La fureur dans le sang) de Val McDermid.
À l'aide du logiciel qu'il a mis au point avec ses étudiants, Juola a soumis le texte des cinq livres à quatre épreuves successives. La première consiste à comparer les duos lexicaux ou associations de mots, dans chaque livre. Cela vaut mieux que d'étudier les mots individuellement. Cette épreuve met en lumière, par exemple, ce qu'un auteur (à la différence d'un autre) qualifie de cher. C'est un premier repère.
Juola s'est également livré à une recherche des suites de caractères adjacents (character n-grams), en choisissant des séries de quatre lettres (4-grams). Par exemple, il a recherché la suite jump, laquelle recensera non seulement jump, mais aussi jumps, jumped et jumping. On s'attache ici aux concepts sans se préoccuper des accords grammaticaux et de la conjugaison. Ces deux épreuves révèlent des mots relativement rares. Juola a conçu une troisième épreuve consistant à recenser les 100 mots les plus courants et à noter les différences de fréquence. Même des mots très courants comme a, and, of, the, laissent une signature. C'est ainsi qu'il peut exister de faibles différences de fréquence, un livre ayant utilisé the dans une proportion de 6% du temps, alors qu'un autre ne l'aura employé que dans une proportion de 4%.
La dernière épreuve sépare complètement un mot de son sens, en triant les mots selon leur taille. Quelle proportion occupent, dans un livre, les mots de trois ou de huit lettres ? Cette répartition est sensiblement la même d'un livre à l'autre, mais des analyses statistiques plus pointues font apparaître des différences subtiles. En l'espèce, le test désignait Rowling. « La longueur des mots était l'un des éléments de preuve les plus solides pour désigner Rowling comme l'auteure du Cuckoo. »
Il fallut environ 90 minutes à Juola pour passer les cinq livres à la moulinette, et les quatre épreuves ont montré de façon concordante que Cuckoo ressemblait davantage à Casual Vacancy qu'à aucun des autres livres. Mais, pouvait-il s'agir d'un auteur écrivant « à la manière de » Rowling ?
La validation vint de l'autre côté de l'océan et fut apportée par Peter Millican et son logiciel, fort opportunément baptisé Signature. Ce logiciel utilise une méthode statistique appelée « analyse du composant principal » pour comparer tous les livres de l'échantillon retenu sur la base de leurs caractéristiques : longueur des mots, longueur des phrases, longueur des paragraphes, fréquence des lettres, fréquence de la ponctuation et usage des mots. Dans sa recherche sur Rowling, Millican découvrit quelques mots susceptibles d'être distinctifs. C'est ainsi que les autres auteurs employaient un peu plus souvent que Rowling les mots course (comme dans of course), someone et realized. Toutefois, cela n'était pas statistiquement significatif. Il soumit alors les livres à d'autres épreuves et, dans tous les cas, Cuckoo était celui qui ressemblait le plus à un livre de Rowling. Son opinion était faite et, cinq heures plus tard, il câblait au Sunday Times : « Je suis à peu près certain que, si c'est un de ces quatre auteurs, c'est Rowling. » Millican est lui-même émerveillé de sa découverte :
« Il y a quelque chose de fascinant à se dire qu'un logiciel peut permettre de découvrir la face cachée d'un texte. Des caractéristiques d'écriture que le lecteur ne peut déceler et dont l'auteur ne peut non plus se défaire, une sorte de signature, d'ADN ou d'empreinte digitale de la façon dont il écrit »
Maintenant que l'ADN a permis de confondre certains mystificateurs célèbres, la linguistique légale est-elle en train de devenir une science exacte ? On peut s'en réjouir du point de vue de la vérité historique. Mais, il est permis de craindre qu'elle porte un coup fatal à la mystification littéraire, genre très prisé au XIXe siècle et auquel s'adonnèrent, entre autres, Prosper Mérimée et, plus tard, Fernando Pessoa, Romain Gary (alias Émile Ajar), Doris Lessing ou, aujourd'hui, J.K. Rowling !
Jean Leclercq, d'après un article de Virginia Hughes, paru sur le site du National Geographic.
Virginia Hughes
[1] Hamilton, Jay, Madison. Le Fédéraliste. Paris, Librairie Générale de Droit et de Jurisprudence, 2° édition, 1957.
[2] Virginia Hughes. How Forensic Linguistics Outed J.K. Rowling (Not to Mention James Madison, Barack Obama, and the Rest of Us). July 19, 2013.
Lecture supplémentaire :
|
|
Forensic Linguistics : 2nd edition, May 2008 Bloomsbury Academic |
Langage
& société : Linguistique légale Langage et société, No. 132, juin 2010 |
Vocabulary Changes in Agatha Christie's Mysteries as an Indication of Dementia: A Case Study
Ian Lancashire* and Graeme Hirst†
University of Toronto, *Department of English and †Department of Computer Science
Commentaires