En s'intéressant à l'analyse syntaxique, les chercheurs visaient à ``dégrossir" l'analyse générale des phrases, pour que le traitement du sens à proprement parler se fasse plus aisément. Cette phase débuta au moment où les travaux de Chomsky sur la syntaxe prenaient toute leur ampleur (1957). Plusieurs méthodes d'analyse syntaxique se développèrent, mais la plus célèbre et la plus centrale reste la notion de grammaire formelle.
Avant tout, toute grammaire est concrètement représentée par un ensemble de règles. Une grammaire cherche à décrire une réalité, par exemple l'ensemble des phrases syntaxiquement correctes de la langue. Tout l'art de la création d'une grammaire est donc de repérer le bon nombre de règles pour couvrir l'ensemble de la réalité, mais pas plus. Si une grammaire permet de créer plus de phrases que ce que contient la réalité grammaticale de la langue, on dit qu'elle sur-génère, et si elle en produit moins, qu'elle sous-génère. L'équilibre n'est d'ailleurs jamais atteint pour une langue naturelle.
Une grammaire formelle est présentée sous la forme d'un ensemble de règles de
dérivation, ces règles exprimant la structure des entités syntaxiques telles
que la phrase (P), le groupe nominal (GN), le groupe verbal (GV) etc. Pour
exprimer par exemple qu'une phrase est composée d'un groupe nominal et d'un
groupe verbal, on utilise la règle P
GN + GV.
De même, un groupe nominal est composé d'un déterminant, et d'un nom, ou d'un déterminant, un adjectif et un nom. Il faut donc plusieurs règles pour exprimer la structure d'un groupe nominal :
GN
dét + N et GN
dét + Adj + N.
Ces règles peuvent se regrouper sous la forme :
GN
dét + N
dét + Adj +N ( le signe
se lit comme ``ou").
De même, pour traiter finalement les mots de la phrase, ceux-ci doivent apparaître en partie droite d'une règle de dérivation, comme par exemple :
N
chien, ou Adj
gros, etc.
A l'aide de cet ensemble de règles, il est donc possible de générer ou d'analyser un certain nombre de phrases. Le problème est de ne générer par ces règles que des phrases grammaticalement correctes. Considérons par exemple l'ensemble de règles suivant :
GN + GV
N
dét + Adj + N
V + GN
Jean
Marie
chiens
aime
aiment
belle
beaux
le
la
les
On peut dériver la phrase correcte ``Jean aime la belle Marie"4.5, comme présentée par l'arbre syntaxique suivant :
La suite de dérivations qui permettent d'atteindre cette phrase est la suivante :
Mais on peut également procéder en partant de la phrase pour l'analyser, auquel cas la succession des règles se fait dans l'ordre inverse.
Cette grammaire minimale sur-génère et sous-génère à la fois. La sous-génération est évidente, étant donnée la faiblesse du vocabulaire et des structures grammaticales, mais elle permet aussi de dériver des phrases comme ``Marie aiment la beaux Jean", ce qui montre le besoin de traiter les problèmes d'accord et de rection.
Un deuxième type de grammaire formelle permet donc de gérer ces problèmes :
il s'agit en fait d'un raffinement des catégories grammaticales, en tenant
compte du genre et du nombre par exemple, avec l'utilisation de Nsing (Nom
singulier), Nfém (Nom féminin), etc. Les règles tiennent alors compte des
accords, comme par exemple GN
la + Nfém.
Ainsi, en multipliant les règles et les entités manipulées, l'analyse syntaxique s'affine, mais la complexité du traitement augmente dans des proportions bien plus grandes. C'est le principe dit du ``rendement non proportionnel"4.6, qui exprime le fait que plus on rajoute de règles dans une grammaire formelle, plus l'utilité de ces règles supplémentaires est réduite (les règles ajoutées ne servent en fait qu'à gérer des exceptions).
Pour les outils de traduction, une fois la phrase ainsi analysée, on peut passer plus facilement aux structures grammaticales propres à une langue donnée, c'est effectivement un progrès notable par rapport au mot à mot.
Mais même cette étape ne permet pas de résoudre tous les problèmes. Par exemple, quel est l'arbre syntaxique de la phrase ``Le cuisinier sale la note", ou de la célèbre ``They are flying planes" de Chomsky ? La méthode se confronte ici à la polysémie grammaticale de certains mots, ce qui est encore plus répandu en anglais.
En résumé, si pour une phrase porteuse d'un sens il n'y a qu'un arbre syntaxique possible, certaines suites de mots (phrases) admettent plusieurs arbres syntaxiques, correspondant chacun à un sens possible. Encore pire, pour un sens donné, il existe plusieurs phrases possibles, et donc plusieurs arbres syntaxiques. L'analyse syntaxique ne permet donc pas de déterminer directement le sens d'un énoncé en langue naturelle.
La solution proposée par Chomsky face à ce problème, est de pousser encore plus loin l'analyse syntaxique, et de dégager ce qu'il appelle une structure profonde, par opposition à la structure de surface décrite par les formalismes syntaxiques classiques. Cette structure est par exemple identique pour ``Jean aime Marie" et ``Marie est aimée de Jean". Sa méthode consiste donc pratiquement à ajouter encore de nouvelles règles d'analyse, et à complexifier encore plus les systèmes.
Mais elle reste impuissante face à des cas où des effets de sens interviennent. Par exemple, les deux phrases ``Tous les fils de Marie aiment leurs frères" et ``Leurs frères sont aimés par tous les fils de Marie" ont des sens différents car les attributions d'un référent à l'anaphorique ``leurs" sont différentes. Pourtant, la grammaire transformationnelle de Chomsky leur donnerait une même structure profonde, donc un même sens.