DEA Littératures, langues et Images dans les cultures européennes

Informatique : De l'écrit au numérique

Quelques sources bibliographiques :

* C. de Schaetzen et V. Gesche - Circulation des corpus spécialisés en terminologie. Actes de la 5è journée ERLA-GLAT - UBO Brest 1995. pp. 10-30

* A. Le Meur - Modèles, structures et échanges de données terminologiques. Terminologie et terminotique. Actes de la 1è Université d'automne en terminologie. Rennes II. 21 au 26 septembre 1992 - La Maison du Dictionnaire - Paris. pp. 245-274.

* Sandoval - SGML. Un outil pour la gestion électronique de documents. Hermès 1994. Paris

* E. Van Herwijnen - SGML Pratique. International Thomson Publishing. Paris.

* B. Habert, C. Fabre, F. Issac, De l'écrit au numérique. Constituer, normaliser et exploiter les corpus électroniques. Intereditions 1998

* E. Bruillard, B. de La Passardière, G.L. Baron. Le livre électronique, Hermès 1998

* Dufournaud, N. Comportements et relations sociales en Bretagne vers 1530, d’après les lettres de rémission, Mémoire de Maitrise, Univ. de Nantes. Available at http://palissy.humana.univ-nantes.fr/cete/txt/remission/Memoire.pdf

 

1. Introduction

Certains auteurs voient dans l'émergence actuelle des "nouvelles technologies de l'information et de la communication" une révolution aussi importante que celle de l'imprimerie au XVè siècle. Mais ils s'appuient essentiellement sur les possibilités de navigation, de consultation non séquentielle, de présentation multimédia que permettent ces technologies.

Notre point de vue est une peu différent. Pour nous, un texte est un objet d'étude, et nous constatons que les chercheurs travaillent encore, pour beaucoup d'entre eux, sur des "versions papier" des textes étudiés. Pourraient-ils travailler sur des versions électroniques ?

Du point de vue de l'informaticien,

- le volume de stockage représenté par une œuvre littéraire, par exemple, est très modeste par rapport à la capacité des supports actuels ;

- le débit des réseaux permet sans problèmes la transmission de textes "volumineux".

Mais cela suffit-il à imposer l'ordinateur comme nouveau support de l'objet d'étude ? Quels sont les problèmes rencontrés ? Quelles sont les solutions qui tendent à se développer ?

2. Quelques exemples de traitements sur des textes

Nous allons ici donner quelques exemples de traitements "statistiques" exécutés sur des versions électroniques "texte seul" d'Athalie (Racine), d'Aurélia (Nerval) et des Chants de Maldoror (Lautréamont).

Qualité du texte source

Une première question à se poser est celle de la qualité du texte source : fidélité de la transcription, absence d'ajouts parasites, etc. Par exemple, pour Athalie, notre document de base aura l'allure suivante:

Athalie

Jean Racine

 

ACTE PREMIER

Scène 1

Scène première.- JOAD, ABNER.

Abner

Oui, je viens dans son temple adorer l'Eternel ;

Je viens, selon l'usage antique et solennel,

Célébrer avec vous la fameuse journée

Où sur le mont Sina la loi nous fut donnée.

Que les temps sont changés ! Sitôt que de ce jour

La trompette sacrée annonçait le retour,

Du temple, orné partout de festons magnifiques,

Le peuple saint en foule inondait les portiques ;

Et tous, devant l'autel avec ordre introduits,

De leurs champs dans leurs mains portant les nouveaux fruits,

Au Dieu de l'univers consacraient ces prémices.

Les prêtres ne pouvaient suffire aux sacrifices.

L'audace d'une femme, arrêtant ce concours,

En des jours ténébreux a changé ces beaux jours.

D'adorateurs zélés à peine un petit nombre

Ose des premiers temps nous retracer quelque ombre.

Le reste pour son Dieu montre un oubli fatal ;

Ou même, s'empressant aux autels de Baal,

Se fait initier à ses honteux mystères,

Et blasphème le nom qu'ont invoqué leurs pères.

Je tremble qu'Athalie, à ne vous rien cacher,

Vous-même de l'autel vous faisant arracher,

N'achève enfin sur vous ses vengeances funestes,

Et d'un respect forcé ne dépouille les restes.

Joad

D'où vous vient aujourd'hui ce noir pressentiment ?

Abner

Pensez-vous être saint et juste impunément ?

Dès longtemps elle hait cette fermeté rare

Qui rehausse en Joad l'éclat de la tiare :

Dès longtemps votre amour pour la religion

Est traité de révolte et de sédition.

Quelques exemples de sortie produites par des logiciels d'analyse statistique

 

ATHALIE - All letters in words statistics

-------------------------------

Sorted by frequency

Letter Freq. % Percentage

10 20 30 40 50

+----+----+----+----+----+----+----+----+----+----+

e 10241 14.96 |***************

s 5954 8.70 |*********

a 4965 7.25 |*******

r 4821 7.04 |*******

n 4584 6.69 |*******

u 4560 6.66 |*******

t 4509 6.59 |*******

i 4475 6.54 |*******

o 4235 6.19 |******

l 3355 4.90 |*****

d 2448 3.58 |****

m 1928 2.82 |***

c 1904 2.78 |***

p 1805 2.64 |***

v 1400 2.04 |**

é 1084 1.58 |**

f 849 1.24 |*

j 831 1.21 |*

h 757 1.11 |*

q 749 1.09 |*

b 697 1.02 |*

g 568 0.83 |*

x 343 0.50 |*

z 316 0.46 |

è 300 0.44 |

à 282 0.41 |

ê 179 0.26 |

y 98 0.14 |

ô 58 0.08 |

ù 50 0.07 |

î 40 0.06 |

â 39 0.06 |

û 23 0.03 |

ç 15 0.02 |

k 8 0.01 |

Total all letters (Tokens) = 68470

Total different letters (Types) = 42

Type/Token ratio = 0.0006

Arithmetric Mean = 1630.2381

Standard Deviation (S.D.) = 2271.1026

Herdan's characteristic = 0.2150

Repeat rate for all letter "e" = 6.69

Fréquence des mots - ATHALIE

521 de

368 et

340 le

284 l

240 vous

229 à

226 la

224 que

203 d

191 un

161 en

159 je

156 les

155 dieu

151 ce

151 qu

139 son

138 est

126 des

125 il

119 du

118 a

115 qui

112 sa

107 dans

106 joad

103 ne

98 ses

97 pour

89 josabet

87 une

85 sur

79 athalie

79 joas

75 j

75 mon

72 tout

71 n

68 votre

66 on

65 lui

64 au

64 si

63 nous

62 abner

62 s

61 par

61 se

60 mais

58 plus

55 enfant

55 ma

55 mes

54 temple

51 tous

50 où

48 leur

48 me

48 nos

48 vos

47 quel

47 roi

46 aux

46 ces

46 fils

46 point

45 m

45 mathan

43 ai

43 cette

41 même

41 rois

41 sans

41 scène

40 choeur

40 elle

39 pas

38 david

37 seigneur

36 autre

36 cet

36 sang

34 moi

33 avec

33 c

32 voix

31 fait

30 père

29 leurs

29 reine

29 temps

29 yeux

29 zacharie

28 déjà

28 o

28 tu

27 comme

27 enfants

26 grand

26 mains

26 soit

26 tes

26 ton

25 ciel

25 jour

25 peuple

25 ta

24 deux

24 ont

23 lévites

22 faut

22 mère

22 quelque

22 sont

21 salomith

20 amour

20 donc

20 enfin

20 prêtres

20 quoi

19 coeur

19 être

19 hé

19 ils

19 loi

19 nom

18 contre

18 quelle

18 saint

17 autel

17 dont

17 est-ce

17 eux

17 fureur

17 hélas

17 ici

17 jamais

17 sous

16 bien

16 devant

16 horreur

16 moins

16 tant

15 bras

15 cher

15 eliacin

15 encor

15 fois

15 notre

15 ô

15 quand

15 seul

15 toute

15 vient

15 vois

15 zèle

14 encore

14 lieu

14 main

14 prêtre

14 seule

14 songe

14 trouble

14 veut

13 aujourd

13 dit

13 ennemis

13 foi

13 hui

13 jéhu

13 jours

13 soin

13 voilà

12 avait

12 doit

12 entre

12 est-il

12 fidèle

12 fille

12 lévite

12 nabal

12 paix

12 princesse

12 reste

12 sais

12 sion

12 toutes

12 veux

12 vu

11 avez

11 azarias

11 baal

11 gloire

11 heure

11 impie

11 lui-même

11 ou

11 peut

11 race

11 sainte

11 toi

11 vie

11 voir

11 voit

10 ainsi

10 bienfaits

10 dès

10 faire

10 jézabel

10 là

10 lois

10 peut-être

10 près

10 puis

10 rien

10 sait

10 secret

10 t

10 te

10 terre

10 toujours

10 tour

10 trop

10 vain

10 venez

9 achab

9 armes

9 avant

9 cieux

9 colère

9 courroux

9 esprit

9 était

9 femme

9 filles

9 fut

9 garde

9 heureux

9 jérusalem

9 juifs

9 laisse

9 larmes

9 livre

9 méchants

9 noble

9 ordre

9 partout

9 pieds

9 pourquoi

9 première

9 saints

9 soins

9 sort

9 suis

9 venger

8 ah

8 bientôt

8 cependant

8 craint

8 depuis

8 douceur

8 es-tu

8 front

8 hébreux

8 héritier

8 jeune

8 -joad

8 jusqu

8 madame

8 malheureux

8 naissance

8 ni

8 okosias

8 parents

8 parler

8 parmi

8 pleurs

8 portes

8 soldats

8 su

8 suite

8 tantôt

8 trône

8 troupe

8 voici

7 allez

7 âme

7 ans

7 audace

7 aussi

7 autels

7 bruit

7 donne

7 ennemi

7 entends

7 funeste

7 isra

7 -joas

7 juste

7 lieux

7 mémoire

7 montrer

7 mort

7 nourri

7 oui

7 pitié

7 pu

7 quels

7 rage

7 secours

7 sein

7 soeur

7 tel

7 vérité

7 vers

6 aimable

6 aime

6 alarmes

6 aspect

6 avis

6 bouche

6 camp

6 cherche

6 coeurs

6 commence

6 comment

6 connais

6 coup

6 crainte

6 défendre

6 doute

6 effet

6 enfance

6 fatal

6 fer

6 fuit

6 glaive

6 homicide

6 ii

6 iii

6 isma

6 iv

6 joie

6 loin

6 longtemps

6 moment

6 mortels

6 morts

6 non

6 ombre

6 oreille

6 perfide

6 péril

6 plein

 

ATHALIE - Word Length Statistics

----------------------

Word Freq. % Percentage

Len 10 20 30 40 50

+----+----+----+----+----+----+----+----+----+----+

1 1183 7.44 |*******

2 3370 21.21 |*********************

3 2174 13.68 |**************

4 2718 17.10 |*****************

5 1841 11.59 |************

6 1482 9.33 |*********

7 1405 8.84 |*********

8 846 5.32 |*****

9 481 3.03 |***

10 261 1.64 |**

11 74 0.47 |

12 38 0.24 |

13 10 0.06 |

14 6 0.04 |

15 2 0.01 |

Total letters (Tokens) = 68470

Total Words (Types) = 15891

Type/Token ratio = 0.2321

Mean word length = 4.3087

Variance (S.D. squared) = 5.5297

Standard Deviation (S.D.)= 2.3515

Herdan's characteristic = 0.0043

ATHALIE - Vers contenant "Dieu" (extrait)

Mais ma force est au Dieu dont l'intérêt me guide.

Déjà ce Dieu vengeur commence à la troubler ;

Un roi que Dieu lui-même a nourri dans son temple,

Dieu sur ses ennemis répandra sa terreur.

Qui, lorsqu'au Dieu du Nil le volage Israël

Qu'il éprouve, grand Dieu, ta fureur vengeresse ;

Que Dieu fera toujours le premier de vos soins ;

Entre le pauvre et vous, vous prendrez Dieu pour juge,

Mon Dieu, punissez-moi si je vous abandonne.

J'ignore contre Dieu quel projet on médite,

Dieu ne se souvient plus de David votre père !

Et quand Dieu, de vos bras l'arrachant sans retour,

Laissant à Dieu le soin d'accomplir sa promesse,

Enfants, offrez à Dieu vos innocentes larmes.

C'est votre roi, c'est Dieu pour qui vous combattez.

Grand Dieu, dans ton juste courroux ?

N'es-tu plus le Dieu jaloux ?

N'es-tu plus le Dieu des vengeances ?

Où sont, Dieu de Jacob, tes antiques bontés ?

N'es-tu plus le Dieu qui pardonne ?

Où sont, Dieu de Jacob, tes antiques bontés ?

Les fêtes de Dieu sur la terre.

Grand Dieu, dans ton juste courroux ?

N'es-tu plus le Dieu jaloux ?

N'es-tu plus le Dieu des vengeances ?

La voix du Dieu vivant a ranimé ta cendre ?

Grand Dieu, les attentats lui sont-ils imputés ?

Où sont, Dieu de Jacob, tes antiques bontés ?

N'es-tu plus le Dieu qui pardonne ?

Que les yeux de ma mère et que Dieu pour témoins.

Des Dieux des nations tant de fois triomphante,

Dieu nous envoie Abner.

Dieu dans ce coeur cruel sait seul ce qui se passe.

Et ton Dieu contre moi ne le saurait défendre.

Un enfant que Dieu même à ma garde confie,

Hélas ! Dieu voit mon coeur. Plût à ce Dieu puissant

Dieu vous ordonne-t-il de tenter l'impossible ?

Mais Dieu le conservant contre toute espérance,

Le seul lieu sur la terre où Dieu veut qu'on l'adore ?

Lieu terrible où de Dieu la majesté repose,

Grand Dieu, voici ton heure, on t'amène ta proie.

Lévites saints, prêtres de notre Dieu,

En l'appui de ton Dieu tu t'étais reposé :

Ce temple le reçut, et Dieu l'a conservé.

D'un fantôme odieux, soldats, délivrez-moi.

Soldats du Dieu vivant, défendez votre roi.

Et Dieu de toutes parts a su t'envelopper.

Ce Dieu que tu bravais en nos mains t'a livrée :

Quelques documents de sortie pour "Aurélia"

DOCUMENT I

 

 

1093 de

738 et

640 la

575 je

519 les

456 l

431 à

408 le

402 me

401 un

390 des

383 d

383 que

352 une

290 dans

277 qui

258 j

255 en

190 se

182 il

177 m

167 du

153 sur

150 qu

139 s

136 était

135 est

122 mon

122 plus

122 pour

119 au

118 ce

116 ne

108 où

106 mes

106 par

90 cette

90 n

85 avais

84 ces

84 moi

83 on

79 elle

78 comme

78 ma

76 c

76 pas

75 nous

75 page

74 avait

73 avec

73 dont

70 mais

68 tout

66 ou

66 sa

65 a

59 aux

57 y

54 monde

53 ses

53 si

51 esprit

51 terre

50 semblait

49 étaient

49 sans

48 ai

48 lui

47 deux

47 son

44 même

42 étais

41 leurs

41 peu

39 vie

38 ainsi

38 encore

35 sous

35 tous

35 vers

34 ils

33 été

33 leur

33 nuit

33 vis

31 yeux

30 amis

30 bien

30 dieu

30 là

30 maison

30 mort

29 autres

29 rêve

29 temps

29 voir

28 fait

28 idée

28 pendant

27 alors

27 autre

27 avaient

27 jour

26 pensée

26 soleil

25 avoir

25 quelque

24 âme

24 moment

24 sont

23 car

23 dit

23 puis

23 t

21 celui

21 fit

21 fois

21 forme

21 sorte

21 toujours

20 cela

20 ciel

20 corps

20 femme

20 figure

20 plusieurs

20 toutes

19 autour

19 elles

19 être

19 force

19 jours

19 point

19 quelques

19 traits

18 celle

18 devant

18 faire

18 longtemps

18 notre

18 sais

17 coup

17 crus

17 dis

17 entre

17 esprits

17 figures

17 grande

17 trois

17 voix

16 amour

16 cependant

16 cet

16 ceux

16 croyais

16 jusqu

16 moi-même

16 peut-être

16 pris

15 aurélia

15 chercher

15 chez

15 depuis

15 eus

15 milieu

15 seulement

15 toute

15 tu

14 air

14 aussi

14 dis-je

14 enfin

14 fleurs

14 fus

14 heure

14 heures

14 hommes

14 lumière

14 mal

14 parmi

14 quel

14 sembla

14 vue

13 allai

13 au-dessus

13 chose

13 dire

13 étoile

13 eux

13 jardin

13 -je

13 lit

13 nos

13 o

13 près

13 races

13 rue

13 salle

13 suis

13 trop

13 vaste

13 vous

12 après

12 aussitôt

12 dieux

12 doute

12 état

12 existence

12 faisait

12 fut

12 idées

12 images

12 instant

12 jamais

12 mille

12 ont

12 paris

12 peut

12 première

12 rendre

12 rues

12 sentais

12 soir

12 sommeil

11 as

11 assez

11 comment

11 déjà

11 diverses

11 fatale

11 grand

11 ici

11 loin

11 mis

11 mit

11 partie

11 personne

11 personnes

11 rêves

11 selon

11 sentis

11 soit

11 telle

11 the

10 certains

10 coeur

10 couleurs

10 dernier

10 disais-je

10 donc

10 ensuite

10 -et

10 famille

10 femmes

10 fils

10 forces

10 formes

10 hasard

10 histoire

10 homme

10 jeune

10 lieu

10 lorsque

10 lui-même

10 malheur

10 marche

10 nom

10 nouveaux

10 parfois

10 parler

10 place

10 porte

10 pourquoi

10 quand

10 reine

10 sang

10 sens

10 série

10 souvenir

10 table

10 tard

10 tour

10 transporté

10 travers

10 trouvais

10 trouvait

10 veille

10 ville

10 vint

9 allais

9 aller

9 ami

9 aspect

9 bon

9 chambre

9 cimetière

9 demeure

9 désormais

9 douce

9 eau

9 enfants

9 entrai

9 espoir

9 joie

9 larmes

9 mère

9 ni

9 nuages

9 ombre

9 pardon

9 parents

9 pays

9 petit

9 pu

9 quoi

9 race

9 raison

9 reconnaître

9 sept

9 seule

9 tête

9 text

9 toi

9 ton

9 voyais

9 vu

8 abord

8 âmes

8 anciens

8 arbres

8 argent

8 ayant

8 beaucoup

8 belle

8 chaque

8 choses

8 cieux

8 comprendre

8 contre

8 côté

8 dame

8 doux

8 electronic

8 fleur

8 haut

8 heureux

8 horloge

8 mémoire

8 nature

8 nombre

8 non

8 of

8 oncle

8 père

8 petite

8 premières

8 rayon

8 rien

8 sentiment

8 seul

8 sommes

8 sortis

8 souvenirs

8 souvent

8 te

8 trouvai

8 vision

7 afrique

7 aimais

7 allait

7 années

7 arrivé

7 asie

7 astres

7 au-delà

7 bague

7 bientôt

7 bizarres

7 cercle

7 certaines

7 confus

7 devait

7 dirigeai

7 double

7 entendre

7 étoiles

7 étrange

7 êtres

7 feu

7 feuilles

7 fis

7 frappé

7 frère

7 furent

7 humaine

7 image

7 laquelle

7 lune

7 main

7 maintenant

7 mauvais

7 mur

7 nouvelle

7 oiseau

7 paroles

7 part

7 passé

7 perdue

7 portait

7 pouvais

7 premiers

7 pus

7 rayons

7 regard

7 rose

7 sainte

7 sait

7 scène

7 science

7 sein

7 semblaient

7 signe

7 suite

7 tel

7 toutefois

7 vécu

7 vêtements

7 virginia

7 voulus

7 voyant

6 ancien

6 antiques

6 belles

6 bois

6 bonheur

6 bords

6 céleste

6 chacune

6 choeur

6 couchant

6 derrière

6 dès

6 désordre

6 devenait

6 disais

6 dit-il

6 divers

6 douleur

6 effet

6 église

6 eloîm

6 enfant

6 épreuves

6 espace

6 éternelle

6 etre

6 faute

6 frémis

6 fuc

6 gloire

6 grandes

6 harmonie

6 impressions

6 influence

6 jeunesse

6 levai

6 longs

6 matin

6 montagnes

6 morte

6 mourir

6 mystère

6 mystérieux

6 mystique

6 néant

6 nouveau

6 nouvelles

6 or

6 orgueil

6 orient

6 pic

6 pieds

6 portant

6 pouvait

6 pouvoir

6 représentait

6 retrouver

6 rhin

6 robe

6 siècle

6 soins

6 soldats

6 telles

6 to

6 travail

6 travaux

6 très

6 vague

6 vieille

6 vierge

6 visiter

6 vivement

6 voulu

6 vrai

5 apparaissait

5 art

5 aspects

5 avenir

5 avons

5 bonne

5 bras

5 café

5 certaine

5 christ

5 clarté

5 compris

5 compte

5 costume

5 coucher

5 couleur

5 création

5 croyant

5 dernière

5 désespoir

5 détails

5 disant

5 distinctement

5 divin

5 divine

5 divinité

5 donnait

5 donner

5 duc

5 écriai-je

5 élevé

5 empire

5 ennemis

5 époque

5 est-ce

5 étonnais

5 étranges

5 euc

5 événements

5 face

5 faisaient

5 fer

5 fille

5 fixer

5 frères

5 galeries

5 georges

5 guide

5 horizon

5 immortalité

5 jeter

5 jeunes

5 longue

5 magique

5 mains

5 mêmes

5 mesure

5 montagne

5 morts

5 murs

5 objets

5 ombres

5 paraissaient

5 parlait

5 partout

5 peuples

5 pied

5 plantes

5 plein

5 pleurant

5 prenait

5 presque

5 proche

5 proie

5 religions

5 retourner

5 révolution

5 route

5 rustique

5 située

5 soeurs

5 soin

5 spectacle

5 suivant

 

DOCUMENT II

 

 

8 abord

7 afrique

48 ai

7 aimais

14 air

13 allai

9 allais

7 allait

9 aller

27 alors

24 âme

8 âmes

9 ami

30 amis

16 amour

6 ancien

8 anciens

7 années

6 antiques

5 apparaissait

12 après

8 arbres

8 argent

7 arrivé

5 art

11 as

7 asie

9 aspect

5 aspects

11 assez

7 astres

7 au-delà

13 au-dessus

15 aurélia

14 aussi

12 aussitôt

19 autour

27 autre

29 autres

27 avaient

85 avais

5 avenir

25 avoir

5 avons

8 ayant

7 bague

8 beaucoup

8 belle

6 belles

30 bien

7 bientôt

7 bizarres

6 bois

9 bon

6 bonheur

5 bonne

6 bords

5 bras

5 café

23 car

20 cela

6 céleste

18 celle

21 celui

16 cependant

7 cercle

5 certaine

7 certaines

10 certains

84 ces

16 cet

16 ceux

6 chacune

9 chambre

8 chaque

15 chercher

15 chez

6 choeur

13 chose

8 choses

5 christ

20 ciel

8 cieux

9 cimetière

5 clarté

10 coeur

11 comment

8 comprendre

5 compris

5 compte

7 confus

8 contre

20 corps

5 costume

8 côté

6 couchant

5 coucher

5 couleur

10 couleurs

17 coup

5 création

16 croyais

5 croyant

17 crus

8 dame

11 déjà

9 demeure

15 depuis

10 dernier

5 dernière

6 derrière

6 dès

5 désespoir

6 désordre

9 désormais

5 détails

47 deux

7 devait

18 devant

6 devenait

30 dieu

12 dieux

13 dire

7 dirigeai

17 dis

6 disais

10 disais-je

5 disant

14 dis-je

5 distinctement

23 dit

6 dit-il

6 divers

11 diverses

5 divin

5 divine

5 divinité

10 donc

5 donnait

5 donner

7 double

9 douce

6 douleur

12 doute

8 doux

5 duc

9 eau

5 écriai-je

6 effet

6 église

5 élevé

79 elle

19 elles

6 eloîm

5 empire

6 enfant

9 enfants

14 enfin

5 ennemis

10 ensuite

7 entendre

9 entrai

17 entre

5 époque

6 épreuves

6 espace

9 espoir

51 esprit

17 esprits

5 est-ce

49 étaient

42 étais

12 état

33 été

6 éternelle

13 étoile

7 étoiles

5 étonnais

7 étrange

5 étranges

6 etre

19 être

7 êtres

5 euc

15 eus

13 eux

5 événements

12 existence

5 face

18 faire

5 faisaient

12 faisait

28 fait

10 famille

11 fatale

6 faute

20 femme

10 femmes

5 fer

7 feu

7 feuilles

20 figure

17 figures

5 fille

10 fils

7 fis

21 fit

5 fixer

8 fleur

14 fleurs

21 fois

19 force

10 forces

21 forme

10 formes

7 frappé

6 frémis

7 frère

5 frères

6 fuc

7 furent

14 fus

12 fut

5 galeries

5 georges

6 gloire

11 grand

17 grande

6 grandes

5 guide

6 harmonie

10 hasard

8 haut

14 heure

14 heures

8 heureux

10 histoire

10 homme

14 hommes

5 horizon

8 horloge

7 humaine

11 ici

28 idée

12 idées

182 il

34 ils

7 image

12 images

5 immortalité

6 impressions

6 influence

12 instant

258 j

12 jamais

13 jardin

575 je

5 jeter

10 jeune

5 jeunes

6 jeunesse

9 joie

27 jour

19 jours

16 jusqu

30 là

7 laquelle

9 larmes

33 leur

41 leurs

6 levai

10 lieu

13 lit

11 loin

6 longs

18 longtemps

5 longue

10 lorsque

48 lui

10 lui-même

14 lumière

7 lune

177 m

78 ma

5 magique

7 main

5 mains

7 maintenant

30 maison

14 mal

10 malheur

10 marche

6 matin

7 mauvais

402 me

44 même

5 mêmes

8 mémoire

9 mère

106 mes

5 mesure

15 milieu

12 mille

11 mis

11 mit

84 moi

16 moi-même

24 moment

122 mon

54 monde

5 montagne

6 montagnes

30 mort

6 morte

5 morts

6 mourir

7 mur

5 murs

6 mystère

6 mystérieux

6 mystique

8 nature

6 néant

9 ni

10 nom

8 nombre

8 non

13 nos

18 notre

75 nous

6 nouveau

10 nouveaux

7 nouvelle

6 nouvelles

9 nuages

33 nuit

13 o

5 objets

7 oiseau

9 ombre

5 ombres

83 on

8 oncle

12 ont

6 or

6 orgueil

6 orient

66 ou

75 page

5 paraissaient

9 pardon

9 parents

10 parfois

12 paris

5 parlait

10 parler

14 parmi

7 paroles

7 part

11 partie

5 partout

7 passé

9 pays

28 pendant

26 pensée

7 perdue

8 père

11 personne

11 personnes

9 petit

8 petite

41 peu

5 peuples

12 peut

16 peut-être

6 pic

5 pied

6 pieds

10 place

5 plantes

5 plein

5 pleurant

122 plus

20 plusieurs

19 point

7 portait

6 portant

10 porte

10 pourquoi

7 pouvais

6 pouvait

6 pouvoir

12 première

8 premières

7 premiers

5 prenait

13 près

5 presque

16 pris

5 proche

5 proie

9 pu

23 puis

7 pus

10 quand

14 quel

25 quelque

19 quelques

9 quoi

9 race

13 races

9 raison

8 rayon

7 rayons

9 reconnaître

7 regard

10 reine

5 religions

12 rendre

6 représentait

5 retourner

6 retrouver

29 rêve

11 rêves

5 révolution

6 rhin

8 rien

6 robe

7 rose

5 route

13 rue

12 rues

5 rustique

66 sa

7 sainte

18 sais

7 sait

13 salle

10 sang

49 sans

7 scène

7 science

7 sein

11 selon

14 sembla

7 semblaient

50 semblait

10 sens

12 sentais

8 sentiment

11 sentis

9 sept

10 série

53 ses

8 seul

9 seule

15 seulement

6 siècle

7 signe

5 située

5 soeurs

5 soin

6 soins

12 soir

11 soit

6 soldats

26 soleil

12 sommeil

8 sommes

47 son

24 sont

21 sorte

8 sortis

10 souvenir

8 souvenirs

8 souvent

5 spectacle

13 suis

7 suite

5 suivant

23 t

5 ta

10 table

5 taille

5 tant

10 tard

8 te

5 teinte

5 teintes

7 tel

11 telle

6 telles

29 temps

51 terre

9 tête

9 text

9 toi

5 tombe

9 ton

21 toujours

10 tour

15 toute

7 toutefois

20 toutes

19 traits

10 transporté

6 travail

6 travaux

10 travers

6 très

5 triste

17 trois

13 trop

8 trouvai

10 trouvais

10 trouvait

15 tu

5 univers

6 vague

13 vaste

7 vécu

10 veille

5 venaient

5 venait

5 version

7 vêtements

39 vie

5 vieillard

6 vieille

6 vierge

5 vigne

5 village

10 ville

5 vinrent

10 vint

33 vis

8 vision

6 visiter

6 vivement

5 vivre

29 voir

17 voix

5 voulait

6 voulu

7 voulus

13 vous

9 voyais

7 voyant

9 vu

14 vue

31 yeux

 

DOCUMENT III

 

 

Exemples de questions suggérées par les documents relatifs à "Aurélia"

On a représenté ci-dessous des extraits de sorties produites par deux logiciels d'analyse de données textuelles appliqués à une version électronique "texte seul" d'une œuvre de Gérard de Nerval, Aurélia.

- Le premier tableau (Document 1) indique, pour chaque mot apparaissant dans le texte, le nombre d'occurrences de ce mot. Les résultats sont classés par fréquences décroissantes. Le document se limite aux mots comptant plus de 5 occurrences.

- Le deuxième tableau (Document 2) indique de même les fréquences de mots, classées cette fois par ordre alphabétique des mots.

- Le troisième document est une copie d'écran donnant les résultats obtenus par une recherche de "proximité" de couples de mots. Il doit être lu de la manière suivante : 18 des 30 occurrences du mot "mort" se trouvent à proximité de l'un des mots "je", "j", "me", "moi". Il en est de même de 4 des 6 occurrences du mot "morte" et de toutes les occurrences des mots "mortels", "mortes", "morts". La partie centrale de l'écran donne, pour quelques occurrences, un extrait du contexte associé. Le bas de l'écran donne un extrait plus étendu pour l'une des occurrences.

Commentez les documents fournis en abordant notamment les points suivants :

- On distingue généralement plusieurs niveaux d'analyse des données textuelles. A quel niveau situez-vous une telle analyse ?

- Quel jugement peut-on porter sur la "qualité" du document utilisé : le document se limite-t-il au texte de G. de Nerval ? La transcription semble-t-elle fidèle ?

- La segmentation du texte (découpage en mots, phrases, paragraphes,...) est-elle correcte ?

- Quelles complémentarités peut-on trouver entre les deux tableaux de fréquences ?

- Quels éléments de l'œuvre de G. de Nerval ces documents mettent-ils en évidence ?

- Quels autres traitements suggérez-vous pour poursuivre cette exploration ?

Présentation et exemple d'utilisation d'un logiciel d'analyse statistique : Conc 1.8 pour Macintosh

 

Exemple d'utilisation

Utilisons un logiciel d'analyse statistique de données textuelles (Conc 1.8 pour Macintosh) pour réaliser quelques traitements sur le texte : Paul et Virginie, écrit par Bernardin de St-Pierre.

Le document source : c'est un fichier enregistré en format "texte seul", structuré sous forme de lignes de texte.

Définir ce qui est un mot : pour le logiciel, il existe deux sortes de caractères : ceux servant à former les mots et ceux servant à les séparer. On peut par exemple prendre comme séparateurs :

. ? ! , ; : ( ) " - — – … ' /

La séquence de tri : elle permet non seulement de définir l'ordre "alphabétique", mais aussi d'indiquer au logiciel que des caractères tels que "a" et "A" (voire "à", "â", etc.) doivent être considérés comme identiques.

La liste des mots à omettre : il y a fort à parier que les mots les plus courants seront des mots tels que "a", "des", etc. On peut spécifier une liste de mots qui seront ignorés (par exemple en créant un fichier contenant la liste de ces mots, et/ou spécifiant une longueur minimale pour les mots).

On peut ensuite construire la concordance, puis afficher l'index (par ordre alphabétique ou par fréquences croissantes) et différentes statistiques.

Puis, on exporte les résultats au format "texte" pour poursuivre le traitement à l'aide d'un autre logiciel (un tableur par exemple).

 

Comparaison de deux textes à l'aide de Conc 1.8

 

On a traité deux documents textuels à l'aide du logiciel.

Ces deux textes sont de nature très différente. En effet, il s'agit, pour le premier, de Paul et Virginie, écrit par Bernardin de St-Pierre, déjà utilisé dans le paragraphe précédent et pour le second, de l'ouvrage "La recherche intelligente sur l'Internet, outils et méthodes", écrit par Henry Samier et Victor Sandoval.

Pour chacun des deux textes, on a éliminé du traitement les mots de la liste suivante :

afin, ainsi, alors, au, auquel, aussi, autre, autres, aux, auxquels, avec, avons, ce, cela, celle, celui, ces, cet, cette, ceux, chaque, ci, comme, dans, de, des, donc, dont, du, elle, en, est, et, etc, etre, il, ils, la, le, les, leur, leurs, lorsque, lui, mais, meme, ne, nous, on, ont, or, ou, où, par, parce, pas, peu, peut, plus, pour, qu, que, qui, sa, se, ses, si, soit, sont, sous, sur, tous, toute, toutes, tout, un, une

De plus, le logiciel est configuré pour éliminer également tous les mots comportant un seul caractère, et pour considérer comme identiques des caractères ne différant que par la casse ou un signe diacritique (E, e, é, è, ê par exemple). Un effet secondaire est la disparition de tous les accents dans les listes ci-dessous.

Dans ces conditions, les deux textes sont de tailles similaires : 18608 mots dont 5485 différents pour "Paul et Virginie", 20780 mots dont 4547 différents pour "La recherche intelligente sur internet".

Les listes des 150 mots les plus fréquents dans chacun des deux textes sont données dans les annexes 1 et 2.

L'auteur du traitement a également eu l'idée saugrenue de rechercher le vocabulaire commun aux deux textes. Surprise : les deux textes partagent plus de 1000 mots différents de vocabulaire commun. En revanche, seuls les 46 mots suivants apparaissent avec une fréquence supérieure à 5 dans les deux textes :`

charge, figure, peuvent, maniere, excite, trouver, lieu, intelligent, nombreux, dernier, dire, repondent, realiser, premiere, lors, interets, presente, sciences, ouvrage, cherche, liens, societes, necessaire, produit, bout, offrent, apercu, lien, approche, atteindre, comprendre, interet, prix, homme, langage, lorsqu, puisqu, sujets, defaut, objet, questions, revolution, possede, presentent, regles, porter,

Commentez les documents fournis en abordant notamment les points suivants :

- On distingue généralement plusieurs niveaux d'analyse des données textuelles. A quel niveau situez-vous une telle analyse ?

- Quelle est - semble-t-il - la définition d'un "mot" pour ce logiciel ?

- Pourquoi a-t-on introduit une liste de mots omis ? Cette liste a-t-elle été choisie de manière pertinente vis-à-vis des deux textes ?

- Comment la nature profondément différente des deux textes se reflète-t-elle dans les listes de fréquences de mots ?

"Paul et Virginie" - FREQUENCE DES MOTS

 

virginie 199

paul 178

etait 174

avait 171

bien 100

tour 96

elles 90

dit 85

mme 81

jour 64

deux 63

fut 63

ile 62

vie 57

point 56

vers 56

apres 54

etaient 54

mer 54

quelque 54

temps 54

avaient 53

mere 53

mes 53

ni 52

homme 51

quand 51

faire 48

bois 47

encore 46

milieu 46

quelques 46

terre 46

dieu 45

grand 45

fils 42

ici 42

fille 41

bonheur 40

hommes 40

jamais 40

marguerite 40

monde 40

montagne 40

arbres 39

fortune 39

loin 39

tant 39

vertu 38

fait 37

fois 37

grands 37

vaisseau 37

enfants 36

famille 36

rien 36

domingue 35

vue 35

nature 34

notre 34

nuit 34

donne 33

ciel 32

toujours 32

coeur 31

eut 31

jusqu 31

lieu 31

riviere 31

autour 30

joie 30

souvent 30

corps 29

yeux 29

plusieurs 28

rochers 28

avoir 27

eux 27

air 26

cependant 26

chez 26

disait 26

mort 26

vieillard 26

aupres 25

europe 25

france 25

jeune 25

partie 25

pays 25

pied 25

quelquefois 25

trois 25

aime 24

fit 24

gouverneur 24

larmes 24

pieds 24

port 24

rocher 24

secours 24

seul 24

voir 24

ami 23

amie 23

amour 23

car 23

deja 23

depuis 23

maintenant 23

memes 23

meres 23

soleil 23

arbre 22

bientot 22

fruits 22

grande 22

habitation 22

malheureux 22

tante 22

aucun 21

beaucoup 21

bon 21

bras 21

chere 21

fleurs 21

frere 21

habitants 21

jeunes 21

moins 21

oiseaux 21

parents 21

peine 21

petit 21

seule 21

ayant 20

cote 20

haut 20

noirs 20

pendant 20

petite 20

toi 20

ame 19

amitie 19

entre 19

feu 19

malheur 19

passer 19

personne 19

plupart 19

"La Recherche Intelligente sur Internet" - FREQUENCE DES MOTS

recherche 414

information 326

outils 190

internet 169

www 139

informations 128

web 120

com 114

utilisateur 107

exemple 104

moteurs 102

documents 98

agents 93

donnees 92

requete 92

pages 90

utilisateurs 90

resultats 86

entreprise 84

figure 83

sites 82

moteur 77

contenu 76

automatique 72

fonction 72

permet 70

methode 69

recherches 67

reponses 66

agent 64

systemes 64

logiciel 63

temps 62

site 61

and 60

ensemble 58

peuvent 57

nombre 55

chaines 54

entre 51

logiciels 51

url 51

systeme 50

chaine 49

innovation 49

plusieurs 49

question 48

titre 48

castanet 47

cow 47

non 47

part 47

reseau 47

aide 46

besoin 46

altavista 45

expressions 44

backweb 43

document 43

mad 43

trouver 43

html 42

mots 42

analyse 40

entreprises 40

technologique 40

base 39

methodes 39

outil 39

environnement 37

faut 37

folle 37

intelligence 37

vache 37

veille 36

adresses 35

deux 35

infoseek 35

presentation 35

adresse 34

bases 34

chapitre 34

nouvelles 34

produits 34

serveur 34

utilisation 34

page 33

type 33

acces 32

automatiquement 32

client 32

forme 32

opentext 32

partir 32

phrase 32

resume 32

technologies 32

france 31

mot 31

processus 31

selon 31

utiliser 31

agit 30

expression 30

fonctions 30

applications 29

http 29

rapidement 29

sources 29

texte 29

donne 28

faire 28

pointcast 28

push 28

technologie 28

tres 28

besoins 27

bookmark 27

demande 27

fr 27

niveau 27

requetes 27

title 27

transmission 27

domaine 26

economique 26

effet 26

meta 26

millions 26

principaux 26

serveurs 26

transmetteur 26

application 25

differents 25

distribution 25

fait 25

interface 25

realiser 25

synthese 25

developpement 24

doit 24

gestion 24

index 24

java 24

nouveaux 24

permettant 24

permettent 24

rechercher 24

sens 24

utilise 24

 

 

 

Quelques éléments de réponse

- Les mots communs sont souvent des mots polysémiques, qui ne trouvent leur sens qu'en contexte

- La liste des mots omis est peut cohérente. Elle semble plus pertinente pour le texte scientifique (ce n'est guère étonnant, car elle a été constituée à partir de ce texte)

- Dans "Paul et Virginie", l'humain est au coeur des préoccupations. Thématique du bonheur. Le texte scientifique est conceptuel et abstrait. Aucun marqueur spatial ou temporel. Peu de verbes et pratiquement pas d'adjectifs. Il y a présence d'intelligence (37 occurrences), mais est-elle vraiment humaine ?

- En fait, le texte scientifique comporte de nombreux exemples d'utilisation, ce qui contribue à la diversité du vocabulaire. Le texte proprement dit est en réalité bien plus pauvre.

3. Quels traitements peut-on envisager sur les textes ?

Un ordinateur est une machine capable de réaliser, de façon beaucoup plus rapide et efficace qu'un "processeur humain", des traitements de l'information systématiques qui n'impliquent pas de capacités d'intelligence ou de libre-arbitre.

Pour faire réaliser un traitement "complexe" à un ordinateur, on devra le décomposer en une suite de traitements simples, d'opérations élémentaires. Quelles sont les opérations élémentaires que l'on peut envisager sur un texte ?

Recherche

Le cas de figure le plus simple consiste à rechercher une chaîne de caractères donnée dans un document. Cette fonction est disponible dans tous les traitements de textes et même dans les éditeurs les plus élémentaires.

Toutefois, on est souvent conduit à rechercher les éléments qui ne peuvent être exprimés à l'aide d'une chaîne de caractères unique. Par exemple :

- rechercher un mot tel que éthologie, sachant qu'il se trouve sous plusieurs graphies dans le texte : éthologie, Ethologie, Éthologie, etc

- recherche prenant en compte le contexte ; ainsi, dans un écrit de biologie traitant des insectes sociaux, on souhaitera définir un masque de recherche permettant de repérer toutes les expressions du genre :

stade 6 ouvrières

stade 12 ouvrières

sans pour autant s'arrêter sur une expression telle que :

jusqu'au stade de 21 individus incluant ...

Autrement dit, on cherche une expression du type :

stade [un ou plusieurs chiffres]

Dans un texte donné, le contexte peut également être déduit de la mise en forme de l'expression. Par exemple, dans une pièce de théâtre, vous pouvez souhaiter rechercher toutes les occurrences du nom d'un personnage, mais en limitant la recherche au texte proprement dit, à l'exclusion des listes de personnages données au début de chaque scène.

Sur un texte mis en forme, cela pourra, par exemple, être réalisé en recherchant :

Marianne

dans un paragraphe non centré.

Mais, ce n'est qu'à l'aide d'une "astuce" que nous parvenons là à nos fins.

Filtrage

La recherche définit un parcours du texte, avec des "points d'arrêt" sur les éléments qui nous intéressent. Mais on n'échappe pas à la lecture séquentielle de l'ensemble du document, même si celle-ci est faite par le logiciel. En particulier, les séquences recherchées ne sont pas livrées simultanément, dans une présentation synthétique.

Au contraire de la recherche, le filtrage consiste à ne retenir du texte que les parties jugées intéressantes. Par exemple, on souhaite extraire les phrases contenant un mot donné, ou les phrases contenant des définitions (mais comment repère-t-on une définition ?

On peut aussi souhaiter, par exemple, extraire les phrases contenant un mot répété. Mais, comment décider quels sont les mots pertinents ? La présence de deux déterminants ou pronoms identiques dans une même phrase n'a rien de remarquable...

Le filtrage n'est pas une opération que l'on peut réaliser naturellement avec un traitement de texte. Il faut avoir recours à d'autres outils.

Le tri

En informatique, le mot tri a un sens assez différent de son sens usuel : un tri est en fait un classement selon un ordre donné.

Le tri est rarement pratiqué sur le texte "source". Quel est l'intérêt de mettre les vers d'un poème par ordre alphabétique, par exemple ? En revanche, le tri est une fonction très utile sur des données produites par d'autres traitements. Par exemple, on peut compter les occurrences de chaque mot dans un texte et classer les résultats par fréquences décroissantes, par ordre alphabétique, etc.

En particulier, les données structurées sous forme de tableau se prêtent bien à des tris selon les valeurs d'une (ou plusieurs) colonnes. Mais parmi les problèmes qui peuvent se poser :

- le tri alphabétique et le tri numérique conduisent à des résultats différents ;

- il existe plusieurs relations d'ordre possible sur les caractères : comment les majuscules sont-elles placées par rapport aux minuscules ? Où place-t-on les caractères accentués ?

Opérations "statistiques"

Il ne s'agit déjà plus d'opérations véritablement élémentaires. Un outil comme Word, par exemple, permet de compter les caractères, les mots, les paragraphes. Des outils plus élaborés permettront de compter les occurrences de chaque mot, les cooccurrences, etc.

Traitements complexes

Un traitement complexe est obtenu en combinant des traitements élémentaires. Il s'agit soit d'exécuter une séquence de traitements élémentaires, soit des les répéter jusqu'à ce qu'une condition devienne vraie, etc.

Synthèse

Les opérations élémentaires décrites ci-dessus sont en partie réalisables par des outils bureautiques tels que Word. Mais cela reste très limité, et on est rapidement conduit à rechercher d'autres outils.

Par exemple, il est nécessaire de recourir à un autre outil lorsqu'il s'agit de réaliser des opérations telles que :

- vérifier que des données sont au bon format

- appliquer des traitements conditionnels

- faire des changements simultanés sur plusieurs fichiers.

4. Textes électroniques : une simple évolution technologique ?

Du livre au texte électronique

Ce paragraphe est largement inspiré de l'article de J. Clément, "Du livre au texte - les implications intellectuelles de l'édition électronique", in Sciences et Techniques Educatives, Vol. 5 N° 4, Hermès 1998.

"L'édition électronique introduit plus qu'un simple changement de support dans notre accès au savoir. En séparant le texte du livre, elle prive le lecteur de ses repères culturels habituels. Dans le même temps, elle nous invite à reconsidérer nos façons de lire et de penser".

L'auteur pose dans son article une idée de base sur laquelle s'appuie le reste du propos : il existe une relation étroite entre les supports de l'écriture et les modes de pensée qu'ils déterminent ; différents travaux ont montré que la pensée procède de la technologie et non l'inverse.

En appui de cette affirmation, l'auteur indique notamment :

- la parole est irréversible, alors qu'on peut relire un texte, d'où la possibilité de comparaison d'énoncés, etc

- Pendant longtemps, le support de l'écriture a été le rouleau qui reprend le déroulement linéaire de la parole. C'est l'invention, aux IIè - IIIè siècles du livre codex (feuillets rassemblés en cahiers) qui a bouleversé le rapport à l'écrit : indexation, repérage, libre-parcours du texte, etc

- Nous avons une grande familiarité avec les outils de lecture : ponctuation, alinéa, table des matières, pagination, références croisées...

Selon l'auteur, on ne lit pas un texte de la même manière selon l'édition dans laquelle il se présente. Or, l'édition numérique affranchit le texte de son rapport au livre. Le texte existe alors en dehors de son support matériel.

Quelques problèmes liés à la constitution d'un corpus

Il est aujourd'hui très facile de rassembler un ensemble de textes. Mais, accumuler des données textuelles n'est pas constituer un corpus.

Problèmes juridiques

Il existe très peu de corpus du domaine public. Le problème des droits d'auteurs se pose pour les auteurs de textes et leurs ayant-droits, mais la loi protège également les personnes et les institutions qui ont participé à la constitution, la création du corpus.

Quels regroupements ?

On peut être tenté de regrouper des documents simplement parce qu'ils sont faciles d'accès. Il s'agit alors de regroupements que l'on peut qualifier d'"opportunistes".

Mais la constitution d'un véritable corpus doit procéder d'une autre démarche. Elle doit résulter de choix raisonnés, sous-tendus par des objectifs de recherche explicites.

Deux exemples de grands "corpus de référence"

Certains auteurs opposent corpus de référence et corpus spécialisés.

Parmi les corpus de référence, on peut citer des réalisations telles que le British National Corpus (100 millions de mots), ou le corpus constitué à l'Institut National de la langue française (INaLF), qui a servi à la rédaction du Trésor de la Langue Française et a donné naissance à une base de textes accessibles en ligne : Frantext. Mais ce corpus est essentiellement constitué de textes littéraires, du XVIè siècle à nos jours.

Les corpus spécialisés réunissent des données linguistiques relatives à un aspect particulier : un domaine, un thème, etc.

D'autres typologies des corpus s'appuient sur d'autres caractéristiques :

- corpus comparables (dans une langue donnée)

 corpus parallèles (par exemple, au Canada, les mêmes données en version francophone et en version anglophone)

- corpus de suivi, qui s'enrichissent continuellement et permettent d'étudier l'évolution de la langue sur une courte durée (exemples : fichiers de composition de grands journaux).

Représentativité d'un corpus

Deux positions s'opposent :

- "Gros, c'est beau" : plus le corpus est gros, et plus il sera un échantillon représentatif de la langue traitée ;

- pour constituer un bon corpus, il faut faire des choix raisonnés de textes "représentatifs".

Mais, il n'existe guère de moyen de juger de la "représentativité" d'un texte par rapport à une population de données langagières.

Documenter un corpus

Sans une documentation jointe, un corpus est d'emblée moribond. Il en résulte la nécessité "d'attacher" aux textes faisant partie du corpus des informations telles que :

- Origine : auteur, éditeur, traducteur, contexte, datation

- Etat : mode de transmission (écrit, oral...), données non textuelles liées

- Objectifs : public visé, effet visé (information, divertissement, formation ...).

Nous reprendrons cet aspect dans le paragraphe donnant quelques idées sur la description de type de document de la TEI.

Synthèse

Lorsque l'on s'intéresse à un texte en tant qu'élément d'un corpus, ce n'est plus sa mise en forme qui importe. Mais on s'intéresse quand même à bien autre chose que le "texte seul", et il importe de mémoriser convenablement ces informations.

5. Le problème posé par les "formats de documents"

La constitution d'une "base de textes" ou corpus, même très limitée, suppose que les différents textes soient codés sous une forme "normalisée". Mais nous venons de voir que, selon la destination d'un document, le "format" de codage adopté sera différent : un texte destiné à une production "papier" pourra être mis en forme à l'aide d'un traitement de texte. Un document destiné à subir des traitements tels que ceux envisagés au paragraphe 3 n'a pas besoin d'une mise en page élaborée. En revanche, il serait intéressant qu'il contienne des informations de niveau "méta" : source, date d'édition, etc

Nous décrivons ici quelques formats (ou types de formats) utilisés pour la production ou l'échange de documents, tout en soulignant leurs limites.

Numérisation en mode "image"

On peut numériser chaque page de texte en "mode image". C'est ce que fait la Bibliothèque Nationale de France pour une partie de son fond. Les documents ainsi produits sont très proches de l'objet-livre, mais le "volume"!de ótogkage est très important, et il n'y a aucune manipulation textuelle possible.

Les formats "propriétaires"

Le format des documents enregistrés comme "documents Word", par exemple, est un format "propriétaire". Ce genre de format est très utilisé pour tous les travaux réalisés sur traitement de textes.

Cependant :

- Les spécifications complètes du contenu d'un fichier Word ne sont pas publiées par l'éditeur. Il est donc impossible de concevoir des traitements autres que ceux prévus par le logiciel, sur des fichiers enregistrés dans ce format.

- Pour utiliser un tel document, il faut disposer du logiciel correspondant, ou d'un logiciel disposant d'un "traducteur" correct.

- La durée de vie d'un tel format est très courte : 3 - 4 ans pour le logiciel lui-même, peut-être une dizaine d'années pour les traducteurs permettant de relire et de convertir le document.

Un format de ce type pose de nombreux problèmes au niveau de l'échange de documents et il est totalement inadapté à la mise en oeuvre de traitements élaborés et à la conservation à moyen terme du document.

Les formats d'échange "propriétaires"

En complément aux formats "propriétaires" des logiciels classiques de traitement de texte, de nombreux éditeurs proposent des "formats d'échange", mieux documentés. C'est le format RTF (Rich Text File) chez Microsoft, le format MIF chez FrameMaker.

Exemple en format RTF (Rich Text File)  :

{\rtf1\mac\deff2 {\fonttbl{\f21\fswiss Helvetica;}}

\pard\plain \s255\qj\li-567\sb240\sa120\keepn\pagebb\box\brdrs \b\f21\fs28 Formulation probabiliste de la dynamique de Murphy appliqu\’8ee \’88 l\rquote analyse des probl\’8fmes de recherche op\’8erationnelle\par

\pard\plain \qj\sa80 \f21\fs20 par William R. Simpson\par

\pard\plain \s254\qj\li-284\sb120\sa120\keepn \b\f21 R\’8esum\’8e\par

\pard\plain \qj\sa80 \f21\fs20 L\rquote auteur affirme que la formulation de la Loi de Murphy, dans son acceptation actuelle par les \’8ecrits de vulgarisation ...\par

\pard\plain \s254\qj\li-284\sb120\sa120\keepn \b\f21 Introduction\par

\pard\plain \qj\sa80 \f21\fs20 La formulation classique de la Loi de Murphy selon Edsall Murphy dans l\rquote univers physique est la suivante :\par

{\i \ldblquote Si quelque chose risque de mal se passer, alors, il est probable que cela se passera mal.\rdblquote \par

}\par }

- Contrairement au "format Word" précédent, les caractéristiques du format RTF sont publiées, et d'autres éditeurs peuvent l'utiliser. C'est d'ailleurs devenu un "standard de fait" proposé assez largement.

- Le format évolue à chaque sortie d'une nouvelle version de Word, mais la compatibilité "ascendante" est à peu près assurée. La compatibilité inverse pourrait l'être également, à condition que le logiciel soit programmé pour ignorer les instructions qu'il ne comprend pas, tout en l'indiquant à l'utilisateur.

- L'encodage choisi permet à un informaticien d'écrire des programmes de manipulation du document. Il facilite également le passage d'un type d'appareil à un autre (Mac, PC-DOS, PC-Windows, Unix).

Cependant :

- Ce format est peu pratique pour un usage quotidien : les opérations de lecture et d'enregistrement sont notablement plus longues qu'avec le "format Word".

- Ce format encode uniquement la forme (mise en page, caractères, etc) du document, et pas sa structure.

Le format "texte seul"

Lorsque l'on enregistre un document en format ASCII (ou texte seul), on n'enregistre que les caractères composant le texte, à l'exclusion de toute mise en forme. Mais on ne mémorise aucune information relative à la structure du document (titres, texte, citations, ...).

Exemple :

Formulation probabiliste de la dynamique de Murphy appliquée à l’analyse des problèmes de recherche opérationnelle

par William R. Simpson

Résumé

L’auteur affirme que la formulation de la Loi de Murphy, dans son acceptation actuelle par les écrits de vulgarisation ...

Introduction

La formulation classique de la Loi de Murphy selon Edsall Murphy dans l’univers physique est la suivante :

"Si quelque chose risque de mal se passer, alors, il est probable que cela se passera mal."

 

Chaque caractère est codé par un nombre, selon une norme ou un standard établi par un constructeur. Avantage : on rend le texte manipulable par un ordinateur qui peut le soumettre à toutes sortes d'opérations. C'est d'ailleurs le format des documents "Athalie", "Aurélia", etc présentés au début de ce chapitre.

Jeux de caractères

Un extrait de texte, destiné à être consulté sur une station fonctionnant sous Unix :

Le loup a posé sa tête sur les genoux du Petit Chaperon Rouge. Elle lui

gratte doucement le crâne. Il neige au bord du lac.

Le même fichier, lu sur un Macintosh :

Le loup a posÈ sa tÍte sur les genoux du Petit Chaperon Rouge. Elle lui

gratte doucement le cr‚ne. Il neige au bord du lac.

Le même fichier, lu sur un ordinateur fonctionnant sous DOS :

Le loup a posÚ sa tÛte sur les genoux du Petit Chaperon Rouge. Elle lui

gratte doucement le crÔne. Il neige au bord du lac.

D'un point de vue interne, un système informatique manipule uniquement des données de type numérique, sous forme binaire. Or, le traitement et l'échange de données textuelles suppose une utilisation massive de symboles. Aussi, dès l'apparition de systèmes de communication basés sur le numérique (comme le télégraphe), des codes ont été établis. Un code est une table de correspondance entre un nombre et un symbole graphique (ou glyphe d'un caractère).

 

Une norme est un document contenant des directives précises sur la réalisation d'un matériel, d'un produit, d'un processus. Ces normes sont notamment indispensables quand il s'agit de systèmes de communication. A côté de ces normes (édictées par des organismes officiels) existent des standards de fait (règles choisies, et diffusées par un constructeur, ou un éditeur et adoptées par d'autres institutions).

Le code ASCII (American Standard Code for Information Interchange), adopté comme norme internationale constitue le seul codage de caractères "universel". Mais il ne porte que sur 128 caractères (en fait 96 "vrais" caractères) ; les caractères accentués, les caractères porteurs de signes diacritiques ou particuliers à des langues autres que l'anglais en sont absents, et il est donc très insuffisant pour écrire les alphabets des langues européennes. Cependant, tous les autres codes englobent et donc reconnaissent le code ASCII.

Par extension de ce code, ont été d'abord développés des standards propres à certains constructeurs (codage Macintosh, MS-DOS), puis, plus récemment, de nouvelles normes. Ainsi, les stations Unix, les PC sous Windows utilisent le code ISO-Latin-1 qui comporte 256 caractères et permet de représenter l'alphabet de la plupart des langues européennes (mais auquel manquent trois caractères utilisés en Français : œ, Œ, Y-tréma).

 

Les systèmes les plus récents utilisent des systèmes tels qu'UNICODE, qui permet de coder 65536 caractères.

 

D'autres problèmes se posent au niveau de la transmission de l'information. Vous avez sûrement déjà été confrontés à ce type de problème si vous utilisez, par exemple, le courrier électronique. Pour que deux systèmes informatiques puissent communiquer, il faut que :

- il y ait accord sur la nature du codage de l'information ;

- le protocole de communication supporte ce codage.

Par exemple, un octet est formé de 8 éléments binaires. Or, le protocole du courrier électronique ne transmet que les 7 premiers éléments (ou bits) de l'octet. Faute d'un accord sur la façon de pallier cette limitation, tout message utilisant un codage sur 8 bits sera dénaturé.

En attendant que l'utilisation de normes telles que Unicode se généralise, les solutions actuelles (mises en place notamment pour les documents accessibles sur le Web) consistent essentiellement à utiliser le code ASCII, universellement reconnu, et d'utiliser pour les autres caractères des noms abstraits de symboles tels que é ou ç.. Mais, on perd la correspondance un caractère = un code.

D'autres formats utilisés pour l'échange et la consultation

Deux formats plutôt utilisés par les informaticiens : Latex, Postscript

Un autre format, très utilisé notamment par les scientifiques est celui des documents "sources" pour LATEX.

\documentclass[11pt]{article}

\title{{\bf Formulation probabiliste de la dynamique de Murphy appliqu\'ee \`a l'analyse des probl\`emes de recherche op\'erationnelle}}

\author{William R. Simpson}

\date{}

\begin{document}

\maketitle

\section{R\'esum\'e}

L'auteur affirme que la formulation de la Loi de Murphy, dans son acceptation actuelle par les \'ecrits de vulgarisation ...

\section{Introduction}

La formulation classique de la Loi de Murphy selon Edsall Murphy dans l'univers physique est la suivante :

\noindent

{\it ``Si quelque chose risque de mal se passer, alors, il est probable que cela se passera mal."}

\end{document}

Latex est un ensemble de logiciels du domaine public, et il en existe des versions pour différents systèmes d'exploitation. Cependant, il reste réservé à un public de "spécialistes". Remarquons que le fichier contient non seulement des informations relatives à la forme : \it, par exemple, indique que le texte qui suit sera en italiques, mais aussi des informations de structure (auteur, sections,...) à condition que l'utilisateur ait choisi d'utiliser les possibilités fournies par le style de document "article".

Postscript

Postscript n'est pas un format d'échange de documents. C'est en fait le langage de description de pages utilisé par les imprimantes Laser "haut de gamme". Le langage Postscript n'est pas du domaine public : Adobe touche des droits sur chaque imprimante Postscript vendue. Les programmes Postscript ne sont pas rédigés par des utilisateurs humains, ils sont générés par les pilotes des imprimantes et les logiciels. Cependant, ce format est couramment utilisé (au moins par les informaticiens) pour diffuser des documents destinés à être imprimés (exemple : des articles, thèses, etc). Mais, il s'agit en fait de documents non modifiables, destinés à la visualisation et à l'impression.

Ci-dessous, un extrait d'un fichier Postscript correspondant au texte précédent.

%%Title: (Sans titre1)

%%Creator: (Microsoft Word: LaserWriter 8 F1-8.1.1)

%%CreationDate: (8:31 Jeudi 4 F\216vrier 1999)

%%Page: 1 1

%%BeginPageSetup

initializepage

(PROF; page: 1 of 1)setjob

%%EndPageSetup

gS 0 0 538 781 rC

34 37 :M

f0_14 sf

-.405(Formulation probabiliste de la dynamique de Murphy appliqu\216e)A

62 51 :M

-.406(\210 l\325analyse des probl\217mes de recherche op\216rationnelle)A

390 77 :M

f1_10 sf

(par William R. Simpson)S

27 88 :M

f0_10 sf

(R\216sum\216)S

27 110 :M

f1_10 sf

(L\325auteur affirme que la formulation de la Loi de Murphy, dans son acceptation)S

27 121 :M

(actuelle par les \216crits de vulgarisation ...)S

27 143 :M

f0_10 sf

(Introduction)S

27 165 :M

f1_10 sf

(La formulation classique de la Loi de Murphy selon Edsall Murphy dans l\325univers)S

27 176 :M

(physique est la suivante :)S

27 198 :M

f3_10 sf

(\322Si quelque chose risque de mal se passer, alors, il est probable que cela se)S

27 209 :M

(passera mal.\323)S

endp

%%Trailer

end % md

%%EOF

Formats de consultation "grand public"

Certains éditeurs ont développé des formats plus spécifiquement destinés à la consultation, la lecture à l'écran. Au niveau commercial, le mécanisme est le suivant :

- L'éditeur diffuse gratuitement le logiciel de consultation (Acrobat Reader pour les documents au format PDF (portable document format) chez Adobe, Microsoft Reader pour les documents au format LIT chez Microsoft, ... )

- En revanche, l'éditeur vend les logiciels permettant de générer des documents utilisables par les logiciels de consultation précédents (Acrobat Exchange, Acrobat Distiller par exemple).

Avantages :

- La consultation à l'écran est en général assurée de manière correcte, et il existe quelques fonctionnalités supplémentaires : liens hypertextes, table des matières réactive, activation automatique de liens vers l'internet, etc).

- L'éditeur a le souci d'assurer une bonne portabilité entre systèmes différents. Ainsi, Acrobat Reader existe aussi bien sur Macintosh que sur PC/Windows, Linux, Unix, et les différentes versions utilisent le même format de document.

- Le document ne peut être modifié que par une personne possédant le logiciel de génération et contient des informations relatives aux conditions dans lesquelles il a été généré. L'authenticité du document est beaucoup mieux assurée que pour d'autres formats.

- Le document peut également être protégé (par un mot de passe) contre des modifications "sauvages". C'est le format PDF qui a été utilisé par Stephen King pour éditer électroniquement sa nouvelle "Ridin' on the bolide"... mais les pirates n'ont mis que quelques jours à cracker le code...

Inconvénients

Comme pour les formats "propriétaires" traditionnels, la définition du format de document n'est pas publiée. De tels documents ne peuvent donc servir de données de base pour des traitements automatiques.

 

Les langages de balisage : SGML, HTML, CES, TEI, etc

Comment résoudre simultanément les différents problèmes qui se posent : portabilité entre machines, possibilité de traitements automatisés, permettre différents types de consultation, encoder à la fois le texte, sa forme et sa structure, séparer les "niveaux de langage" dans un document ?

Les solutions actuelles concernant ce type de problème utilisent des langages de balisage fondés sur la norme SGML (ou plus récemment XML). Le plus connu d'entre eux est le langage HTML, utilisé pour les pages Web

HTML : hypertext markup language

Ce format est le seul qui soit véritablement "universel". Le format HTML est, en effet, celui qui est utilisé sur les pages du Web (Internet). Ci-dessous, le document précédent, mis au format HTML, tel qu'il peut être affiché par un éditeur de textes. Un navigateur tel que Netscape ou Internet Explorer en donnerait un "rendu" plus classique.

<html><head><!-- This document was created from RTF source by rtftohtml version

2.5 --></head><body><tt><b>Formulation probabiliste de la dynamique de Murphy

appliqu&eacute;e &agrave; l'analyse des probl&egrave;mes de recherche

op&eacute;rationnelle<p>

</b><p>

par William R. Simpson<b><p>

R&eacute;sum&eacute;<p>

</b><p>

L'auteur affirme que la formulation de la Loi de Murphy, dans son acceptation

actuelle par les &eacute;crits de vulgarisation ...<p>

<b><p>

Introduction</b><p>

<p>

La formulation classique de la Loi de Murphy selon Edsall Murphy dans l'univers

physique est la suivante :<p>

<i><p>

"Si quelque chose risque de mal se passer, alors, il est probable que cela se

passera mal."</i><p>

</tt>

</body></html>

Synthèse

Ces formats (à l'exception, dans une certaine mesure, du format HTML) ne séparent pas les informations relatives à la forme du document de celles relatives à sa structure. La forme d'un document est toujours plus ou moins liée au matériel utilisé (qualité de l'imprimante, taille du papier, écran, ...). La structure logique, elle, en est indépendante.

 

6 Vers une représentation logique des documents

6.1 Mise en page et représentation logique des documents

Il ne suffit pas de rendre des textes cohérents du point de vue du codage des caractères pour les rendre comparables du point de vue informatique. En effet, chaque document possède une structure. par exemple, un roman est découpé en livres, chapitres, paragraphes, répliques de dialogues, etc. Mais, dans une œuvre imprimée, cette structure n'est pas explicite : nous la déduisons à partir de la mise en forme, par application de règles heuristiques. Et, des mises en forme variées peuvent correspondre à une même structure logique.

Examinez, par exemple, la partie "bibliographie" d'un ensemble de mémoires, travaux d'étude et de recherches, thèses, etc. Vous y constaterez une grande diversité dans la mise en page, la disposition les jeux sur l'italique, le gras, etc. Lorsqu'il consulte ces bibliographies, le lecteur humain se livre à un véritable travail d'interprétation, en suivant des règles qui ne peuvent être définies de façon formelle. L'ordre des informations et leur mise en page ne manifestent donc pas directement leurs fonctions et leurs relations. Ils constituent un balisage de mise en page, par opposition à un balisage logique, qui manifesterait la structure du document et les relations entre ses constituant.

Si l'on travaille sur des documents électroniques avec des buts tels que :

- accroître la pérennité de ces documents ;

- faciliter leur traitement ;

- faciliter leur échange

on est rapidement amené à conclure qu'il est indispensable d'introduire des marqueurs - un balisage - permettant de se repérer dans la structure du document, est indispensable.

6.2 Un outil de définition de type de document : SGML

Le problème du balisage logique d'un document se pose clairement à deux niveaux :

- Expliciter la structure d'un document, prendre conscience de ses découpages, de leurs articulations, les nommer et les rendre explicites d'une manière ou une autre, c'est, en quelque sorte, faire une "analyse grammaticale" du document.

— Expliciter, pour une classe donnée de documents, la structure qui doit être respectée, ses subdivisions, les relations autorisées, c'est définir "grammaire de classe de documents".

Ce travail d'écriture de "grammaires de classes de documents" doit lui-même être normalisé pour être fructueux. SGML (standard generalized markup language) est une norme internationale permettant de définir des définitions de types de documents ou DTD.

6.3 Que trouve-t-on dans une DTD ?

Une DTD est un genre de "feuille de style". Mais, contrairement aux styles tels qu'ils sont définis dans un traitement de textes, la description est ici exprimée au niveau des articulations logiques du découpage du texte, et non pas au niveau de sa forme.

Les concepts de base dont une DTD va décrire le rôle sont ceux d'élément, d'attribut d'un élément et d'entité.

 

Les éléments sont les objets qui, ordonnancés selon un ordre précis, constituent le document. Par exemple, les parties, chapitres, paragraphes d'un document en seront des éléments.

 

Les attributs expriment des propriétés relatives aux éléments. Le numéro d'un chapitre, par exemple, pourra être un attribut de cet élément. Dans un document hypertexte, un lien hypertexte est un élément de type A (anchor). La description de la cible du lien est en attribut de l'ancre.

 

La notion d'entité a plusieurs usages. En particulier, les caractères accentués seront codés comme des entités de type caractère.

 

Une DTD définit les éléments qui peuvent apparaître dans un type de document précis, leur associe un nom. Elle précise le contenu de ces éléments (peuvent-ils contenir d'autres éléments, et lesquels), le nombre de fois et l'ordre dans lequel ils peuvent apparaître.

 

Nous nous proposons ici de donner quelques idées sur la DTD HTML (utilisée pour les documents accessibles par Internet) et sur la DTD TEI Lite.

7 Quelques notions sur la DTD HTML

Le Web ou World Wide Web, et les normes qui y sont associées ont été définis en 1990 par un groupe de recherche du CERN.

Le Web, la "toile d'araignée mondiale" est souvent associée à la notion de multimedia. Mais, les concepts sous-jacents dépassent ce seul aspect :

- il y a indépendance vis-à-vis du matériel : un document peut être consulté, à l'aide d'un logiciel adéquat, à partir de n'importe quel type d'ordinateur ;

- les documents sont des hypertextes ; c'est ce qui permet de surfer sur le Web.

HTML (acronyme de Hypertext Markup Language) a été créé spécifiquement pour le Web, ce qui en fait une sorte "d'esperanto" informatique.

Le document lui-même est un élément de type HTML. Il est encadré par les balises (qui peuvent être omises) :

<HTML>......</HTML>

Le document est composé d'un en-tête et d'un corps.

L'en-tête est déclaré à l'aide des balises <HEAD> et </HEAD>. Il contient des informations sur le document lui-même, notamment un titre délimité par les balises :

<TITLE>.........</TITLE>

Le corps est délimité par les balises :

<BODY>..........</BODY>

Remarque importante : Un document HTML peut être visualisé à l'aide de divers outils :

- A l'aide d'un éditeur de textes, on visualisera tous les caractères composant le document. Mais aucun traitement particulier ne sera attaché aux instructions (exprimées à l'aide de balises) qui se trouvent dans le document. La mise en forme sera "plate", les liens hypertexte inactifs, les images ne seront pas chargées, etc.

- A l'aide d'un navigateur (Netscape, Internet Explorer, et bien d'autres), on disposera d'un document mis en forme, avec les liens actifs, etc.

- A l'aide d'un "éditeur de pages HTML", on obtiendra une situation intermédiaire entre les deux précédentes. Par exemple, les liens ne seront pas actifs, mais seront repérés par des couleurs, etc.

Ainsi, visualisé à l'aide d'un éditeur de textes, un document HTML minimal pourrait être donné par :

<HTML>

<HEAD>

<TITLE>

Document exemple 1

</TITLE>

</HEAD>

<BODY>

Ceci est un exemple minimal de document HTML

</BODY>

</HTML>

Le "rendu" dans Netscape d'un tel document est le suivant :

 

L'élément BODY peut comporter, dans un ordre quelconque, un nombre quelconque d'éléments des types suivants :

- Des sous-titres de niveau 1 (<H1>...</H1>), de niveau 2 (<H2>...</H2>),..., jusqu'au niveau 6.

- Du texte ordinaire

- Des listes d'items. La liste elle-même est balisée par :

<UL>....</UL>

Chaque item de la liste est balisé par <LI>.

D'autres types de listes existent : <OL>, <DL>, etc

- Des parties décalées, balisées par <BLOCKQUOTE>....</BLOCKQUOTE>

- Des passages à la ligne simples, balisés par <BR> (élément de contenu vide).

- Des fins de paragraphes (ou passages à la ligne avec introduction d'un espace supplémentaire), balisés par <P> (élément de contenu vide).

- Des "lignes de séparation horizontales", balisées par <HR> (élément de contenu vide)

- Des liens (anchors), balises <A .....> .......</A>, avec la syntaxe suivante :

* Pour repérer un élément qui sera la cible d'un lien :

<A NAME="truc">un texte quelconque</A>

* Pour créer un lien vers cet élément, à l'intérieur du même document :

<A HREF="#truc">Un texte tel que : pour atteindre truc, cliquez ici</A>

* Pour créer un lien vers une autre page HTML, située par exemple dans un fichier nommé fic2.html :

<A HREF="file:fic2.html">Pour consulter le deuxième fichier, cliquez ici</A>.

* Pour créer un lien vers un document situé sur un autre serveur Web :

<A HREF="http://www.univ-brest.fr">

Dans cette expression, http précise le protocole de communication utilisé, et www.univ-brest.fr l'adresse du serveur. Faute d'indication supplémentaire, c'est ici le document "par défaut" du serveur qui ici implicitement désigné.

- Les sous-titres et les items de listes contiennent également du texte ou des liens.

Des balises permettent également d'indiquer de façon logique la mise en forme physique du texte : <B> pour gras, <I> pour italiques, <U> pour souligné.

La balise <IMG> permet d'insérer des images dans un document. Par exemple,

<IMG SRC="fl_baud.gif">

insère dans le document l'image contenue dans le fichier fl_baud.gif.

Les caractères qui ne font pas partie du jeu de caractères du code ASCII "de base" sont indiqués à l'aide d'entités. Les plus courantes d'entre elles sont données par le tableau suivant :

é

&eacute;

è

&egrave;

ê

&ecirc;

à

&agrave;

â

&acirc;

î

&icirc;

ï

&iuml;

ô

&ocirc;

ë

&euml;

Remarque.

Comme on peut le constater dans la présentation ci-dessus, HTML ne définit pas vraiment de hiérarchie dans le document. C'est plutôt un langage destiné à spécifier de façon abstraite la présentation d'une page d'information et de définir des liens hypertextes vers d'autres parties du même document, d'autres documents situés sur la même machine ou d'autres documents localisés sur d'autres serveurs WEB. Il faut noter que HTML possède aussi des balises permettant de spécifier des images, des sons, etc.

Ces connaissances sont-elles utiles à l'utilisateur ou au concepteur de documents HTML ?

L'utilisateur d'un Navigateur peut fort bien surfer sur internet sans connaissances sur HTML. Cependant, quelques idées de base lui permettront de mieux comprendre certaines options de configuration de son outil et certains comportements en cas d'erreurs.

Quant à l'utilisateur d'un éditeur HTML, quelques connaissances de ce type lui seront bien utiles. S'il n'a guère besoin de connaître la syntaxe exacte des balises HTML, des connaissances générales lui permettront d'aborder l'apprentissage du logiciel avec la problématique : "où se trouve le bouton ou le menu permettant d'insérer telle balise ?".

 

8. La Text Encoding Initiative

8.1 Introduction

La Text Encoding Initiative ou TEI est un projet international dont le but est de faciliter les échanges d'informations textuelles sur support électronique. Des recommandations ont été publiées en 1994, proposant des normes de balisage adaptées à la plupart des types de documents utilisés en sciences humaines et en traitement automatique de la langue.

Laissons la parole aux membres du projet :

The Text Encoding Initiative (TEI) is an international cooperative research effort, the goal of which is to define a set of generic Guidelines for the representation of textual materials in electronic form. The project was sponsored and organized by three leading professional associations in the field: the Association for Computational Linguistics (ACL), the Association for Literary and Linguistic Computing (ALLC) and the Association for Computing and the Humanities (ACH). It has been funded throughout its five years of activities on both sides of the Atlantic: primarily by the US National Endowment for the Humanities and by the European Union 3rd framework Programme for Linguistic Research and Engineering, but also with grants from the Mellon Foundation and from the Canadian Social Sciences and Humanities Research Council. Of equal significance has been the donation of time and expertise by the many members of the wider research community who have served on the TEI's Working Committees and Working Groups.

(...) The goals of the TEI project initially had a dual focus: being concerned with both what textual features should be encoded (i.e. made explicit) in an electronic text, and how that encoding should be represented for loss-free, platform-independent, interchange.

Early on in the project, the Standard Generalized Markup Language (SGML; ISO 8879) was chosen as the most appropriate vehicle for the Guidelines, initially on the purely pragmatic grounds that to create a comparably expressive and versatile formal language would be a major research project in itself. In the event, despite some frequently rehearsed inelegancies, SGML has proved entirely adequate to the needs of researchers, and after five years, is still increasing its domination of the software industry, with new product announcements coming every year. The TEI was thus able to focus its efforts on the expression, using SGML, of the set of textual features indicated as its first goal above.

L'ensemble des éléments spécifiés par la TEI est très vaste, et donc délicat à utiliser. Pour satisfaire la plupart des besoins de codage des documents électroniques courants, il suffit d'en utiliser un sous-ensemble bien choisi. Le but poursuivi par les auteurs de la DTD TEI Lite est justement de définir un tel sous-ensemble.

8.2 Un exemple d'utilisation de la TEI en histoire

N. Dufournaud (historienne) et J.-D. Fekete (informaticien) ont utilisé les spécifications de la TEI pour transcrire 100 lettres de rémission (1531-1532) disponibles aux archives de Nantes et en tirer des thématiques historiques.

Une lettre de rémission est une décision de pardon royal accordée à une personne condamnée par l'une des juridictions d'ancien régime. Ces lettres étaient remises à leur bénéficiaire, mais une copie en était gardée dans un registre à la chancellerie de la province de Bretagne. Exemple :

8.2.1 Pourquoi utiliser la TEI ?

Traditionnellement, le travail de dépouillement historique est fastidieux et non réutilisable : un historien paléographe transcrit un corpus, l'analyse et produit une étude qui est la forme finale du travail. Dans le meilleur des cas, les transcriptions sont jointes en annexe, mais n'ont qu'une diffusion très limitée. Il est pratiquement impossible d'améliorer de façon incrémentale un travail de ce type. D'où l'idée d'utiliser les possibilités des langages de balisage et notamment de la TEI pour rendre ce travail réutilisable et diffusable.

8.2.2 Les différentes étapes du travail

La transcription proprement dite est une étape très manuelle, réalisée par le paléographe. Le balisage est ensuite fait à la main, à trois niveaux :

Le balisage lexical : cette étape consiste à établir une transcription "diplomatique" en prenant note de tous les éléments supplémentaires au texte comme les tâches, les déchirures du manuscrit, les corrections et les ajouts de l'auteur, les numérotations des pages, etc. Exemples :

<unclear reason="tâche"></unclear> pour une tâche

de<del>de</del> pour une rature.

Le balisage sémantique : l'analyse mot à mot du texte permet de mettre en évidence les noms propres et de régulariser leur orthographe ; de même, on associe aux dates un attribut donnant la correspondance avec notre calendrier grégorien, etc. Exemples :

<name reg="François Ier">Francoys</name>

<date value="02/03/1532">second jour du moys de mars de l'an mil cinq cent trante ung</date>

Le balisage analytique : Dans cette dernière étape, on applique au texte la grille de dépouillement de l'historien, à l'aide de balises telles que <interp> (interprétation). Grâce à ce dernier balisage, il est possible de produire ensuite des tables d'analyses.

Echantillon de texte balisé :

<text>

<body>

<docdate value="04/01/1531">4 janvier 1530</docdate>

<pb n='Folio 1 Recto'>

<opener>

<lb><s ana="diplomatique-typepardon-abollition">Abollicion</s> pour <name

ana="crim-sexe-masculin" key="jb">Jehan Basset</name>

<lb>de <rs type="toponyme">Couayron</rs>, la <abbr>verificacion</abbr>de la

court

<lb>de <s ana="diplomatique-lieuremission-44">Nantes</s> la teneur de

<abbr>laquelle</abbr> ensuilt.

</opener>

<p>

<pb n='Folio 1 Verso'>

<lb n=1><name ana="diplomatique-commandement-roi">Francois</name>,

<abbr>etc</abbr>, a touz ceulx que ces

<abbr>presentes</abbr> lettres verront,

<lb n=2>salut. Savoir faisons, nous avoir reccu l'humble

<abbr>supplicacion</abbr>

<lb n=3>et requeste des <s ana="participant-intercesseur-parentsamisconsanguins">

parens et amys consanguins</s> de <abbr>notre</abbr>

<s ana="crim-fortune-pauvre"><abbr>povre</abbr></s>

<lb n=4>subgect <name key="jb">Jehan Basset</name> et agé de <s ana="crim-agechiffre-

10-19">dix oinct ans</s> ou envyron,

<lb n=5><s ana="crim-statutcivil-filiation">filz <add hand="nd">de</add></s>

<name key="fb">Francois Basset</name>, <s ana="crim-profession-laboureur">

laboureur</s>, demourant ou <s ana="crim-typodomicile-village">

villaige</s>

<lb n=6>de <s ana="crim-domicile-44">La Salle en Couairon</s> soulz

<abbr>notre </abbr><abbr>juridiction</abbr> de <rs type="toponyme>Nantes</rs>.

<lb n=7>Exposans, comme le <date ana="deroulement-modecalculjour-quantieme

deroulement-delai-undeuxans" value="24/10/29">vingt quatriesme

<abbr>jour</abbr></date> d'<date ana="deroulement-mois-octobre">octobre

<lb n=8>dernier</date>, <abbr>ledit</abbr> <name key="jb">Jehan Basset</name>

<s ana="crim-motifdeplacement-professionnel">charroyoit et menoit de

<lb n=9>la maison de <abbr>sondit</abbr> <abbr>pere</abbr> en une

charrette <add hand="nd">de</add> quatre

<lb n=10>beuffs de l'angreix <abbr>et</abbr> frambray, en une piece de

<lb n=11>terre</s> situee en la <s ana="deroulement-lieu-44">Gaignerie de

Blanchart</s> pres le

<lb n=12>villaige de La Salle. Sourvit ung <s ana="victime-sexe-masculin

victime-agequalifie-enfant">jeune ensfant</s>

<lb n=13>de l'aisge de <s ana="victime-agechiffre-0-9">sept ans</s> ou

Après balisage, il est possible d'obtenir différentes "vues" d'un document, selon la feuille de style utilisée. Par exemple, une vue "diplomatique" du document précédent pourra être :

 

4 janvier 1530

(Folio 1 Recto)Abollicion pour Jehan Basset de Couayron, la verificacion de la court de

Nantes la teneur de laquelle ensuilt.

(Folio 1 Verso)

[1]Francois, etc, a touz ceulx que ces presentes lettres verront,

[2] salut. Savoir faisons, nous avoir reccu l'humble supplicacion

[3] et requeste des parens et amys consanguins de notre povre

[4] subgect Jehan Basset et agé de dix oinct ans ou envyron,

[5] filz de Francois Basset, laboureur, demourant ou villaige

[6] de La Salle en Couairon soulz notrejuridiction de Nantes.

[7] Exposans, comme le vingt quatriesme jour d'octobre

[8] dernier, ledit Jehan Basset charroyoit et menoit de

[9] la maison de sondit pere en une charrette de quatre

[10] beuffs de l'angreix et frambray, en une piece de

[11] terre situee en la Gaignerie de Blanchart pres le

[12] villaige de La Salle. Sourvit ung jeune ensfant

[13] de laisge de sept ans ou envyron, nommé Georget

[14] Martin, filz de feu Jehan Martin, demeurant pres le

[15] villaige de La Salle ; lequel jeune ensfant avoit

A partir du balisage sémantique, il est également possible de construire automatiquement des index et des tables selon différents critères. Par exemple : distribution des âges des condamnés, sexe, lieu de déroulement des actes, etc.

8.2.3 Bilan du travail effectué

Les auteurs voient dans la méthode utilisée une nouvelle manière d'exploiter les sources historiques, permettant une capitalisation possible du travail. Ils soulignent cependant qu'il n'existe pas encore d'environnement de travail informatique adapté et que la collaboration entre des spécialistes des deux disciplines est actuellement indispensable.

 

8.3 Analyse de quelques caractéristiques de la DTD TEI Lite

8.3.1 Schématiser l'organisation des différents éléments

Avant d'étudier quelques caractéristiques de la DTD TEILite, il faut préciser la nature des règles que l'on trouve dans une DTD.

Fondamentalement, un document est décrit comme une structure hiérarchisée. C'est un arbre dont la racine représente le document et dont les nœuds sont les éléments logiques. Une DTD attribue un nom aux différents éléments susceptibles d'apparaître dans un document et fixe des règles relatives à leurs enchaînements possibles : tel élément ne peut apparaître qu'une seule fois dans un contexte donné, tel élément est obligatoire, facultatif, etc.

Pour décrire l'organisation imposée par une DTD donnée, il est souvent utile de se servir des schémas suivants. C'est ce que nous faisons dans les paragraphes ci-dessous.

un élément a

(a)

a suivi de b, dans cet ordre

(a,b)

a ou b

(a|b)

a, b permutables (a suivi de b ou b suivi de a)

(a&b)

a obligatoire, éventuellement répété

(a+)

a optionnel (0 ou 1 fois)

(a?)

a optionnel, éventuellement répété (0, 1 ou plusieurs fois)

(a*)

a est un élément terminal (a n'a pas de sous-élément)

 

Pour utiliser une DTD, il faut savoir quelles sont les balises autorisées à un point donné du document. Les logiciels indiquent quels sont les éléments qu'il est possible d'insérer à un niveau donné. Mais il faut aussi connaître le sens qu'il est convenu d'attribuer à telle ou telle balise. Un logiciel tel qu'Author/Editor permet de constituer des fichiers de commentaires indiquant à l'utilisateur le rôle de chaque élément. Ainsi, la description d'une DTD doit faire intervenir deux niveaux : au niveau sémantique, le rôle tenu par chaque élément, au niveau syntaxique, le contexte dans lequel on peut insérer un tel élément.

 

8.3.2 La classe de documents concernés par la TEI

Le domaine que cette DTD envisage de couvrir est très vaste ; elle ambitionne de permettre le codage de tout type de document et prend donc en compte des problèmes tels que :

- en fonction de la langue dans laquelle le document est écrit, il faut utiliser un jeu de caractères donné ;

- les textes littéraires sont de différents types : écrits en prose, avec ou sans dialogues, écrits en vers, pièces de théâtre, etc

- les textes scientifiques contiennent des références bibliographiques ; ils comportent souvent, en plus du texte ordinaire, des tableaux, schémas, images, formules mathématiques, etc

8.3.3 Les types d'informations faisant l'objet du codage

Le document électronique devra évidemment contenir le texte lui-même. Mais on envisage ici de représenter une information beaucoup plus complète :

- La structure logique du document, telle qu'elle a été définie par l'auteur ;

- Les informations supplémentaires apportées éventuellement par un ou plusieurs traducteurs (notes du traducteur, etc...)

- Les informations apportées par un (ou plusieurs) éditeurs :

* Notes d'éditeur

* Variantes de texte spécifiques à telle ou telle édition

* Options choisies par un éditeur pour mettre en valeur telle ou telle partie du texte ;

* Ruptures de pages observées dans telle ou telle édition (le même document électronique peut contenir les indications relatives aux ruptures de pages de plusieurs éditions) ;

* Eventuellement, les ruptures de lignes ;

- Les informations supplémentaires liées à la vie du document électronique lui-même : auteur de l'encodage, organisation qui a pris en charge l'encodage, auteurs et dates des révisions successives du document, etc

- Des informations permettant l'indexation du document : mots-clés, etc.

Etant donné les ambitions affichées, il n'est guère étonnant que la DTD "simplifiée" TEI Lite comporte plus de 130 balises ! Nous nous contenterons d'en décrire quelques-unes.

8.4 La structure générale d'un document

En général, un document est constitué d'un élément TEI.2, avec, pour les cas les plus courants, les définitions suivantes :

* TEI.2 :

Le contenu de l'élément TEIHEADER est décrit plus complètement infra.

* TEXT :

L'élément FRONT contient la page de titre, une éventuelle dédicace, une éventuelle préface, etc.

L'élément BACK contient les appendices, etc qui suivent le texte proprement dit.

* BODY :

* DIV1

Les divisions de niveaux 2, 3, ..., 7 sont structurées de manière analogue.

Les éléments P sont destinés à contenir les paragraphes de texte.

Tous les éléments peuvent posséder des attributs ID (identifiant) et N (numéro). Les éléments DIV1, ... , DIV7 possèdent en outre un attribut TYPE, qui peut prendre les valeurs book, chapter, part, etc.

Quelques éléments que l'on peut trouver dans un élément P :

Dans du texte en prose :

- Diverses marques de mise en évidence : HI, EMPH, FOREIGN, SIC, SOCALLED avec des informations sur la mise en évidence utilisée dans une édition donnée : <HI REND='Italic'>un texte</HI>

- Des marques éditoriales telles que LB (ruptures de lignes d'une édition donnée), PB (ruptures de page) avec comme attributs ED (identifiant de l'édition concernée), N (numéro de ligne ou de page) ou encore ADD (ajout fait par un intervenant), ORIG (version primitive du texte, la version actuelle est alors spécifiée par REG)

- Des notes (NOTE) avec comme attributs leur responsable (auteur, traducteur, éditeur,...), leur place (en marge, en bas de page, en fin de division ou de document), leur point ou zone d'ancrage.

- Des références croisées dans des constructions telles que :

Voir notamment <PTR TARGET=SEC12>.....

....

<DIV1 ID=SEC12><HEAD>Le codage des documents....

- Des repères d'index ; il est possible de spécifier plusieurs index.

Dans un texte en vers, on pourra trouver en outre des éléments tels que :

- LG pour indiquer une unité telle qu'une strophe, un refrain, ...

- L pour indiquer un vers ou une partie de vers ; l'attribut PART permet d'indiquer la partie initiale d'un vers (I), une partie médiane (M), la partie finale (F), un vers complet (N), un vers incomplet (Y) ...

Dans une pièce de théâtre, on pourra aussi trouver des éléments tels que :

- STAGE pour une indication scénique

- SP pour "speech", avec comme attribut WHO

- SPEAKER

Par exemple, l'encodage selon la TEI de "Dom Juan pourra avoir l'allure suivante :

8.5 Les informations référencées dans l'élément TEIHEADER

Le rôle de l'élément TEIHEADER est de fournir des informations analogues à celles figurant sur les pages de garde d'un ouvrage classique. Mais, la nature électronique du document nécessite de compléter ces informations "traditionnelles". En effet, il faut d'une part mémoriser des données relatives au document électronique, mais également des données relatives à la source à partir de laquelle il a été constitué. D'autre part, un document électronique, à la différence d'un document papier, est modifiable. Il faut donc aussi mémoriser des informations relatives à la version du document, aux différentes révisions dont il a fait l'objet, etc.

Un élément TEIHEADER contient obligatoirement un élément <FileDesc>, et de façon optionnelle, des éléments <EncodingDesc>, <ProfileDesc>, <RevisionDesc>.

L'élément <FileDesc> contient une description complète du fichier, avec notamment :

• Un élément <TitleStmt> dans lequel sont prévus des éléments contenant le titre, le nom de l'auteur, et d'une manière générale, toutes les informations relatives au contenu intellectuel du document ;

• Un élément <PublicationStmt> contenant, sous forme structurée, les références des éditeurs, et responsables de la diffusion du texte ainsi que des informations sur les conditions dans lesquelles le document peut être reproduit ;

• Un élément <SourceDesc> décrivant le document écrit à partir duquel le document électronique a été écrit ou généré.

L'élément <EncodingDesc> donne des informations le but poursuivi par les auteurs de l'encodage, sur les méthodes utilisées, et des statistiques sur les balises qui apparaissent dans le document.

L'élément <ProfileDesc> contient des informations relatives à la création de l'œuvre, à la langue dans laquelle le texte est écrit et permet d'associer des mots-clés au document.

L'élément <RevisionDesc> contient des informations relatives à la vie du document électronique et aux révisions qu'il a subies.

8.6 Le jeu de caractères :

Seuls sont considérés comme standard les caractères suivants :

abcdefghijklmnopqrstuvwxyz

ABCDEFGHIJKLMNOPQRSTUVWXYZ

0123456789"%&'()*+-./:;<=>?_espace

Tous les autres caractères doivent en principe être indiqués sous forme d'entités. Par exemple :

- aelig (æ) szlig (ß) euml (ë) Iuml (Ï) aacute (á) eacute (é)

- agrave (à) Egrave (È) acirc (â) Ecirc (Ê) ntilde (ñ) ccedil (ç)

- ldquo ("), rdquo ("), mdash (•), excl (!), num (#) ...

A titre d'exemple, nous proposons ci-dessous l'en-tête d'un document électronique contenant Utopia, de Sir Thomas More.

 

8.7 Exemple

<!DOCTYPE tei.2 PUBLIC "-//TEI//DTD TEI Lite 1.0//EN" [

<!ENTITY amp "&">]>

<TEI.2>

<TEIHEADER>

<FILEDESC>

<TITLESTMT>

<TITLE>

Sir Thomas More's Utopia: Latin text in electronic form

</TITLE>

<author>

More, Thomas, Sir, Saint, (1478-1535)

</author>

<RESPSTMT>

<RESP>

Original data capture

</RESP>

<NAME>

Ladislaus J. Bolchazy,

in collaboration with Gregory Gichan

and Frederick Theobald

</NAME>

</RESPSTMT>

<RESPSTMT>

<RESP>

Converted to TEI form

</RESP>

<NAME>

Lou Burnard

</NAME>

</RESPSTMT>

</TITLESTMT>

<PUBLICATIONSTMT>

<DISTRIBUTOR>

Oxford Text Archive

</DISTRIBUTOR>

<IDNO type=OTA>2079</IDNO>

<AVAILABILITY>

<P>

Freely available for purposes of academic

research provided that the information in this

header is retained with the file.

</P>

</AVAILABILITY>

<DATE>

1995

</DATE>

</PUBLICATIONSTMT>

<SOURCEDESC>

<P>

Automatically recoded from OTA text no 344, a text

of uncertain provenance but apparently that used

for

<bibl>

<title>

A concordance to the Utopia of St. Thomas

More and a frequency word list

</title>

<editor>

Ladislaus J. Bolchazy, in collaboration

with Gregory Gichan and Frederick

Theobald.

</editor>

<pubPlace>

Hildesheim ; New York

</pubplace>

<publisher>

Olms

</publisher>

<date>

1978

</date>

</bibl>

<p>

Internal evidence suggests that this text

follows the Yale edition of the complete works

of St. Thomas More (

<bibl>

<title>

Complete works of St. Thomas More,

volume 4: Utopia

</title>

<editor>

edited by Edward Surtz, S.J. and J.H.

Hexter

</editor>

<pubPlace>

New Haven, [Conn.] ; London

</pubPlace>

<publisher>

Yale University Press

<publisher>

<date>

1965

</date>

<biblScope>

pp 46-109 and 110-247

</biblScope>

</bibl>)

but this has not been verified.

</P>

<p>

Michael Day hypothesizes that this text could

have entered the OTA via Waite's Project Libri.

The introduction to the concordance states that

<q>

the machine-readable text of the Utopia of

St. Thomas More based on the Yale edition

is available to scholars through the

office of: Dr. Stephen V.F. Waite,

Director, The American Philological

Association's Repository of Greek and

Latin Texts in Machine-Readable Form, at

Dartmouth College, Hanover, New Hampshire

03755

</q>

</SOURCEDESC>

</FILEDESC>

<ENCODINGDESC>

<PROJECTDESC>

<P>

TEI version prepared for the EMLS Virtual Seminar

on Utopia, October 1995.

</P>

</PROJECTDESC>

<tagsdecl>

<tagUsage gi=BACK occurs=1>

<tagUsage gi=BACK occurs=1>

<tagUsage gi=BODY occurs=1>

<tagUsage gi=DIV1 occurs=2>

<tagUsage gi=DOCAUTHOR occurs=1>

<tagUsage gi=DOCTITLE occurs=1>

<tagUsage gi=HEAD occurs=2>

<tagUsage gi=NAME occurs=315>

<tagUsage gi=P occurs=2>

<tagUsage gi=S occurs=1098>

<tagUsage gi=TEXT occurs=1>

<tagUsage gi=TITLEPAGE occurs=1>

<tagUsage gi=TITLEPART occurs=1>

<tagUsage gi=TRAILER occurs=2>

</tagsdecl>

<REFSDECL>

<P>

No reference system

</P>

</REFSDECL>

<P>

The semicolon (;) is used for both semicolon and

commas; no distinction is made in the electronic

original

</P>

<P>

The original distinguishes between capitalised

words which mark proper names and those which do

not; the former have been converted to

NAME elements. Capital letters are not indicated at

the start of all sentences, however; this has been

preserved.

</P>

</ENCODINGDESC>

<profileDesc>

<creation>

Written in 1516.

</creation>

<langUsage>

<language id=LAT>

16th century Latin

</language>

</langUsage>

<textClass>

<keywords>

<term>

Utopian literature

</term>

<term>

England

</term>

<term>

16th century

</term>

</keywords>

</textclass>

</profileDesc>

<REVISIONDESC>

<CHANGE>

<DATE>

21 Oct 1995

</DATE>

<RESPSTMT>

<RESP>

ed.

</RESP>

<NAME>

Lou Burnard

</NAME>

</RESPSTMT>

<item>

First version.

</item>

</CHANGE>

</REVISIONDESC>

</TEIHEADER>

Un extrait du texte lui-même :