La nébuleuse des sentiments dans l'analyse thématique des données textuelles
par Henri Béhar, le 17 mars 1995
PASSAGE EN REVUES« LA NÉBULEUSE DES SENTIMENTS » [AVEC MICHEL BERNARD] DANS L’ANALYSE THÉMATIQUE DES DONNÉES TEXTUELLES, OUVRAGE DIRIGÉ PAR FRANÇOIS RASTIER, PUBLIÉ PAR ÉVELINE MARTIN, PARIS, DIDIER ÉRUDITION, 1995, PP. 53-84.
Nous poursuivons ici notre travail au sein de l’Institut National de la Langue Française (InaLF), chargé d’élaborer un dictionnaire destiné à succéder au Littré, dénommé TLF (Trésor de la Langue Française) désormais accessible sur le réseau : TLFi (atilf.fr) . Pour cela, on avait constitué la base de données textuelles FRANTEXT, enregistrant numériquement les œuvres littéraires françaises des XIXe et XXe siècles. Ainsi cette base pouvait fournir les exemples intégrés aux notices du dictionnaire, mais elle était une source textuelle, la plus importante en France, pour d’autres études, tant grammaticales que littéraires ou sémiotiques. C’est ainsi qu’un certain nombre de chercheurs, dont nous étions, ont élaboré les procédures destinées à dégager le contenu thématique des œuvres littéraires. Après avoir analysé la nature des sens selon différents auteurs, nous avons, Michel Bernard et moi-même, tenté d’approcher l’ensemble des sentiments. De ce fait, notre contribution rejoignait les préoccupations d’autres collègues de l’INaLF, ce qui conduisit à ce livre agencé par Eveline Martin et François Rastier.
Réédition électronique du volume en fac-similé
AVANT-PROPOS À LA RÉÉDITION ÉLECTRONIQUE
Ce volume s’organise autour d’un problème, d’un outil informatique et d’un corpus.
Le problème intéresse toute description sémantique de textes : comment définir et identifier des thèmes, retracer leurs liens privilégiés, dessiner leur évolution diachronique ? Comme l’expansion des banques de données textuelles suscite des besoins croissants, le développement de la thématique revêt un intérêt considérable, tant pour l’indexation que pour l’exploitation des textes.
Les enjeux de l’ouvrage pourront être récapitulés dans le chapitre final ; il faut avant tout justifier ici le choix des données.
Nous en sommes restés au discours littéraire, car les textes littéraires sont les plus nombreux dans la banque Frantext. Nous avons sélectionné un corpus de romans, genre textuel le mieux représenté : il regroupe 397 tomes de romans et recueils de nouvelles français publiés de 1830 à 1970, soit 350 œuvres. Ce nombre assure au corpus une masse critique qui permet des traitements statistiques significatifs et surtout se prête à débats et conjectures.
Les bornes chronologiques se justifient ainsi : l’unification des normes typographiques remonte à 1827, et la date de 1830 met à l’abri de variations qui gêneraient l’interrogation. Après 1970, le corpus des romans saisi est insuffisant, en quantité sinon en qualité. On verra que cette étendue temporelle permet de retracer des évolutions significatives.
Ce volume présente la première étude thématique sur un corpus romanesque d’une telle ampleur : il pose ainsi les problèmes à une toute autre échelle que les monographies dont on dispose généralement. En choisissant le thème des sentiments, nous ne pensions peut-être ne guère prendre de risques, mais les résultats de l’enquête engagent à reconsidérer bien des idées reçues.
François Rastier
SOMMAIRE :
I. Études générales et recherches de méthodes
Éveline MARTIN : Thème d’étude, étude de thème Étienne BRUNET : Cardiogrammes Henri BÉHAR, Michel BERNARD : La nébuleuse des sentiments David ERLICH : Une méthode d’analyse thématique. Exemples de l’ennui et de l’ambition Evelyne BOURION : Le réseau associatif de la peur Françoise SURDEL : Défense et illustration d’un thème littéraire : la pitié Gérard GORCY : Euphorie et spleen, deux thèmes antonymiques ? Danielle BOUVEROT : Pour l’amour de l’art Thierry MÉZAILLE : La couleur des sentiments chez Proust III. Épilogue François RASTIER : La sémantique des thèmes. Ou le voyage sentimental Bibliographie du corpus utilisé (ordre alphabétique) Bibliographie du corpus utilisé (ordre chronologique) Bibliographie générale des études consultées Télécharger le PDF de notre contribution
Article figurant dans : Henri Béhar, La Littérature et son golem, Paris, Honoré Champion, 1996, 254 p. Coll. Travaux de linguistique quantitative, n° 58. pp. 77-111.
Prolongements :
Outre les chapitres du volume collectif, accessibles chacun au nom de l’auteur,
on trouvera de nombreuses présentations relatives à l’analyse des données thématiques sur Internet
Publications de Michel Bernard :
De quoi parle ce livre ? Elaboration d’un thésaurus pour l’indexation thématique d’œuvres littéraires, Champion, 1994, 365 p.
Introduction aux Études Littéraires Assistées par Ordinateur, PUF, 1999, 225 p. L’Histoire littéraire au risque de l’informatique. La question du canon littéraire, Presses de la Sorbonne Nouvelle, 2011, 149 p.
Voir aussi : le logiciel d’aide à l’analyse textuelle et thématique Alceste et : L'analyse de données textuelles avec le logiciel ALCESTE de Daniel Bart (Cairn)