Newsletter 4

No 4

December - 1995

Les dictionnaires automatisés des valences verbales du français et du néerlandais développés à la K. U. Leuven. Présentation
The pronominal approach in the light of contrastive research

Les dictionnaires automatisés des valences verbales du français et du néerlandais développés à la K. U. Leuven. Présentation.

Ludo Melis

Dans cette brève contribution, je voudrais présenter les dictionnaires automatisés des valences verbales du français et du néerlandais qui ont été développés à la K. U. Leuven dans le cadre du projet Proton, sous l'impulsion de K. Van den Eynde avec la collaboration de C. Eggermont pour l'analyse des données du français, de L. Dehaspe pour le néerlandais et de E. Broeders pour le traitement automatique et la gestion des banques de données; dans la dernière phase du projet, j'y ai été associé et je poursuis à l'heure actuelle certaines recherches à partir des dictionnaires. Les travaux préparatoires ont été effectués essentiellement dans la période 1986-1992 grâce aux subventions du conseil pour la recherche scientifique de l'université et du fonds national (NFWO-FNRS).

Les dictionnaires font partie d'un projet plus large d'application de l'approche pronominale à l'analyse des valences et à l'élaboration de dictionnaires électroniques, projet qui implique le développement de banques de données lexicales et morphologiques et d'analyseurs syntaxiques et qui s'est attelé à la description d'autres langues comme le danois, le chinois, le russe, le japonais, l'allemand ou l'espagnol.

Le cadre théorique peut être appréhendé à partir de Blanche-Benveniste et al. (1984; 1990), ou plus sommairement dans Melis (1987). Les caractéristiques spécifiques de l'application au problème de la valence sont discutées dans Gebruers (1991), Melis (1992), Melis et Eggermont (1994) et Eggermont (1994).

1. La définition d'une formulation verbale

Les deux dictionnaires de valence se présentent comme des suites d'entrées consacrées chacune à une formulation verbale. Par formulation verbale on peut entendre une construction spécifique représentée à l'aide de paradigmes pronominaux et ses reformulations possibles. Un verbe morphologique peut donner lieu à plusieurs formulations. Ceci fait que le dictionnaire français contient 8599 entrées, représentant 3734 verbes morphologiques différents et que le dictionnaire néerlandais en contient 6299 pour 4200 verbes. Les verbes retenus ont été repris, pour le français, aux dictionnaires de langue, en particulier au Petit Robert², et au dictionnaire de valence de Busse et Dubost; pour le néerlandais, la source a été le Basiswoordenboek de la collection Van Dale.

Dans ce paragraphe, je présenterai les critères qui ont servi à déterminer les formulations verbales; ceci s'est fait à partir de quatre paramètres:

le nombre de positions syntaxiques construites par le verbe;
la composition du paradigme de pro-formes apparaissant dans chaque position;
les reformulations accompagnant la formulation;
les liens de reconstruction entre formulations.

L'application du premier critère ne pose guère de problèmes. On distinguera ainsi deux formulations du verbe casser sur la base de l'opposition entre ÇA casse et JE casse ÇA et aussi deux formulations de séparer à partir du contraste entre JE LES sépare et JE LE sépare DE CELUI_LA. En général le dictionnaire a été assez large dans la sélection des positions à retenir; en cas de doute, la position a été incluse (v. Eggermont 1994: chap. 1 pour l'algorithme utilisé).

Le fonctionnement du second critère peut être illustré à partir du verbe regarder. On distinguera deux formulations impliquant chacune deux positions: (a) JE LE regarde et (b) ÇA ME regarde en s'appuyant sur le fait que (a) est caractérisé pour la position p0 ('sujet') par un paradigme contenant je, nous, qui, elle, il, ils,... , alors que (b) est caractérisé pour la même position par le paradigme que, ça. L'opposition aux niveau des paradigmes s'observe également en position p1: (a) permet non seulement te, vous, ...,mais aussi ceci, ça, alors que (b) n'admet que des pronoms tels que te, vous.

Les deux derniers paramètres impliquent la comparaison entre deux constructions. Dans le cas du paramètre trois, la comparaison porte entre une formulation à morphologie synthétique, une formulation à morphologie périphrastique et une formulation à morphologie réflexive. Deux formula-tions sont en relation de reformulation si les deux morphologies conservent le même nombre de positions et les mêmes paradigmes pronominaux. On admettra ainsi une relation de reformulation entre ça casse, c'est cassé et ça se casse. On remarquera que la formulation périphrastique dite passive n'est donc pas une reformulation de l'actif synthétique, à moins de considérer que le constituant introduit par la préposition par ou de, dit complément d'agent, fait partie des positions de valence. Sur ce point, la pratique a varié: la banque de données initiale mentionne les divers passifs dans la rubrique reformulation de la formulation active correspondante, mais Eggermont (1994) et Melis (1995) rejettent ce point de vue. L'utilité du paramètre des reformulations dans la distinction des formulations d'un même verbe peut être démontrée à partir du verbe dégager. Il existe une structure ÇA LE dégage qui doit être scindée en deux formulations, malgré le nombre de positions identiques remplies par les mêmes paradigmes parce qu'elle couvre d'une part des cas comme

(a) les plantes dégagent du gaz carbonique

qui ont une morphologie passive: Le gaz a été dégagé par la plante, et d'autre part des cas comme

(b) la robe dégage le dos

qui ne permet pas ce type de reformulation.

Le dernier paramètre concerne des relations entre constructions qui impliquent soit des modifications dans le nombre de paradigmes, soit dans la distribution des paradigmes sur les positions. Le premier cas peut être illustré par le cas classique des verbes à renversement -- Il cuit le poulet / le poulet cuit -- ou pour un type moins connu comme Cela lui évite des ennuis / il évite des ennuis. Le second cas peut être illustré par des verbes comme abonder ou réussir:

Les truites abondent dans la rivière;
la rivière abonde en truites.
Tout lui réussit. Il réussit dans tout.

La relation de reconstruction des rapports entre paradigmes et positions peut être exploitée pour distinguer deux formulations d'un même verbe dans un cas comme doubler vu le contraste entre (a) et (b), qui pour la formulation à deux positions possèdent le même nombre de paradigmes, les mêmes paradigmes et les mêmes reformulations:

Je double la voyelle. La voyelle double.
Je double la rhétorique. * La rhétorique double.

2. La représentation des formulations

2.1. Le recours aux pronomsPour décrire de manière inductive et constructiviste les faits de langue, l'approche pronominale part de l'hypothèse que les paradigmes que dégage une analyse distributionnelle des matériaux sont structurés. Les éléments qui en font partie partagent tous les propriétés syntactico-sémantiques corrélées à la configuration distributionnelle qui sous-tend le paradigme et ils manifestent en outre des propriétés spécifiques, individuelles. Les premières propriétés peuvent être appelées grammaticales et primaires, les secondes lexicales et secondaires. Certains membres du paradigme se caractérisent par la présence exclusive de propriétés grammaticales; ces propriétés ou traits, dont le nombre est limité, sont d'une part liés à la distribution, qu'ils expriment, et d'autre part de type classificatoire et général, tels que le genre ou la détermination. Ces termes sont appelés pronoms, même s'ils ne sont pas tous de type nominal au plan morphosyntaxique et que l'appellation moins courante de pro-forme soit donc plus exacte. Les autres membres du paradigme se caractérisent par la présence, massive, de traits non grammaticaux, c'est-à-dire de propriétés qui sont indépendantes de la distribution fondatrice du paradigme et dont la généralité est réduite; ils comportent cependant à côté de ces traits propres, descriptifs, les traits généraux qui caractérisent les pronoms. En ce sens, les pronoms sont plus fondamentaux que les membres lexicaux du paradigme, dans la mesure où ils sont définis par les traits constitutifs du paradigme et que leurs traits sont présents ou activés dans les autres membres du paradigme. Cette dernière relation peut être appelée relation de proportionnalité entre les pronoms, têtes du paradigme, et l'ensemble, potentiellement ouvert, de ses autres membres (Blanche-Benveniste et al. 1990: 40 ss). La relation de proportionnalité existant à l'intérieur d'un paradigme permet d'utiliser le sous-paradigme des pronoms pour représenter l'ensemble des réalisations d'une position de valence.

L'efficacité du recours aux pronoms pour représenter les faits de valence est renforcée, dans de nombreuses langues comme les langues romanes et germaniques, par la présence de variations formelles, qui offrent des informations fonctionnelles ou catégorielles. Ainsi les pronoms français le, lui et y s'opposent sur le plan fonctionnel - construction directe (le) vs construction introduite par à (lui, y) -- et sur le plan catégoriel -- nominal (le, lui) vs adverbial (y). Le recours au (sous-) paradigme des pronoms et non à un seul pronom permet en outre une approche plus nuancée des faits de valence, comme il ressort de l'exemple suivant, concernant les verbes aller, donner11, penser et répondre:

	leur	y	où?
aller	-	+	+
penser	-	+	-
répondre	+	+	-
donner	+	(-)	-

(L'emploi de y avec donner est marginal, mais non exclu, c'est pourquoi nous avons noté (-) dans le tableau.)

Enfin, Van Langendonck (1992) montre clairement que le système des pronoms anglais offre une base précieuse pour rendre compte des propriétés sémantico-référentielles des termes qui réalisent les différentes positions de valence. Concrètement, les banques de données ne donnent pas systématiquement tous les pronoms qui peuvent apparaître dans un paradigme, mais un sous-ensemble dont les autres membres peuvent être déduits par implication. Ainsi suffit-il de mentionner je dans le paradigme d'un verbe pour savoir que tu est également possible. En 2.2. et 2.3. je présenterai les paradigmes utilisés.

Le recours aux pronoms comme forme de représentation de base fait que tout élément construit, mais qui n'entre pas dans un paradigme pronominal est considéré, non comme la réalisation d'une position de valence et donc comme un actant du verbe, mais comme une composante, (pro-)nominale, adverbiale ou adjective du prédicat. Il en va ainsi des éléments mis en évidence dans les exemples suivants:

s'en aller, hocher la tête, perdre patience.

Ainsi est fournie une base pour distinguer les locutions verbales ou verbes composés des réalisations libres. Les phénomènes de figement lexical sont introduits dans la rubrique RESLEX de l'entrée. Pour le verbe flageoler l'entrée mentionnera ainsi sur POSS jambes; l'indication POSS signale que le déterminant possessif est corrélé à la personne grammaticale du sujet. Les restrictions lexicales ainsi incorporées peuvent dans certains cas admettre une certaine marge de variation; les informations fournies fournissent dans ce cas une première orientation. Ainsi mentionne-t-on pour fixer son attention sur X, les possibilités attention, vue, choix, ...; la liste n'est toutefois pas close.

La pratique a cependant montré qu'il est utile d'enricher les informations fournies par les pronoms de deux manières. En premier lieu, il est intéressant de noter la catégorie morpho-syntaxique des réalisations non pronominales. Si la réalisation par groupe nominal peut être considérée comme la réalisation non marquée - il ne faut donc pas la signaler explicitement - les dictionnaires mentionnent en couplage avec ça ou avec le pseudo-pronom il 'impersonnel' que-phrase indicatif, que-phrase subjonctif et les divers modes de réalisation de l'infinitif: inf. pour l'infinitif direct, de inf. ou à inf. dans les autres cas. En second lieu, il s'est avéré utile de signaler certaines formes de restrictions lexicales ou morpho-syntaxiques. Dans le cas du verbe empester, il convient ainsi de signaler que les réalisations de la pro-forme quoi dans Il empeste quoi? prennent nécessairement la forme le + N: Il empeste le tabac. Une telle indication sera introduite dans la rubrique LP de l'entrée.

2.2. Les paradigmes du dictionnaire français

Le dictionnaire français opère avec neuf paradigmes de pro-formes que je présenterai succintement; chaque paradigme peut également contenir le symbole [] pour signaler la possibilité de la réalisation nulle.

p0, correspondant en grandes lignes au sujet de la tradition grammaticale: je, nous, ça, ceci, celui-ci, ceux-ci, elle, il, ils, que, il ... en Q / il ... en (où Q représente un quantifieur);

p1, correspondant plus ou moins au complément nominal direct et à l'attribut: te, vous, ceci, ça, celui-ci, ceux-ci, la, le, les, que, en ...Q, en

p2 lui, leur, y, à ceci, ça, celui-ci, ceux-ci, lui, eux, quoi

p3 en, lui, leur, de lui, eux, ceci, ça, celui-ci, ceux-ci, quoi

Ces quatre paradigmes contiennent tous certains pronoms clitiques qui par leur forme marquent la position fonctionnelle. Pour les autres paradigmes, prépositionnels ou adverbiaux, de telles indications font généralement défaut. Dans la description il est fait appel aux pronoms non clitiques suivants:

ceci, ça, celui-ci, ceux-ci, quoi, lui, eux, l'un l'autre, soi-même

en combinaison avec une ou plusieurs prépositions, ainsi qu'aux pro-formes adverbiales, en particulier à combien?, comment? et où? Cinq paradigmes sont distingués: PPREP pour les paradigmes à préposition contrainte, PL pour le paradigme locatif à préposition non contrainte, ou plus exactement moins contrainte, PT pour le paradigme parallèle à interprétation temporelle, PM pour le paradigme de manière, caractérisé par la forme générale comment (Comment va-t-il?) et PQ pour le paradigme quantitatif. Ce dernier paradigme qui apparaît par exemple dans la combinatoire de verbes comme peser ( Il pèse vingt kilos) ou attendre (Il a attendu une heure) est accompagné de la spécification de la dimension affectée par la quantité. Dans le dernier cas le dictionnaire mentionne donc PQ combien DIMENS temps.

Les usages réflexifs qui n'entrent pas dans les relations de reformulation ou qui ne sont pas figés sont considérés dans le dictionnaire comme des réalisations de p1 ou de p2; à la mention de se, qui signale cette possibilité, s'ajoute l'indication réfl. ou récip. selon l'interprétation qui est admise.

Chaque entrée ne mentionne que les pronoms qui peuvent effectivement apparaître; la sélection est donc significative et elle peut recevoir une interprétation sémantico-référentielle (Melis 1994). La nécessité de fournir ces indications a présidé au choix des pronoms à retenir.

2.3. Les paradigmes du dictionnaire néerlandais

Les paradigmes utilisés dans le dictionnaire néerlandais sont construits selon des principes analogues, mais ils tiennent compte des données empiriques propres à cette langue.

p0 _t, wat, er, er (er) zoveel, hij, ze, wie, ik, we, die, dat

la première forme note het non accentué; à cette forme, ainsi qu'à er, s'attachent les indications morpho-syntaxiques relatives aux réalisations phrastiques ou infinitives, p.ex. -t ... dat / te / om / of

p1 _t, wat, _m, ze, er... zoveel, wie, je, jou, jullie, die, diedaar, dat, zich, zichzelf, elkaar, hoeveel, zoveel

Les informations relatives aux phrases intégrées et aux infinitifs sont présentées comme suit: dat z, of z, hoe z, ind. vraag, om te, inf.

p2 _t, _m, er ... Q, wie, je, zich, elkaar.

Pour les paradigmes à préposition fixe, la préposition est signalée, ainsi que les formes fondamentales prises dans la liste suivante:

wie, wat, jou, jullie, diedaar, zichzelf, elkaar, hoeveel, zoveel
er, er ... vz. (Q/te/dat), daar ... vz., hier ... vz., waar... vz, waar-vz., (om) te.

Pour le verbe aandringen op, on pourra ainsi signaler les possibilités suivantes:

Hij dringt aan op hulp. Hij dringt erop aan, daar op aan, hier op aan.
Waarop dringt hij aan?
De regering drong er gisteren op aan snel hulp te bieden/ dat er snel hulp zou geboden worden.

Pour PL et PT les adverbes locatifs hier, daar, waar ou temporels toen, nu, dan, wanneer sont également utilisés. Pour PM les adverbes zo et hoe sont utilisés et pour le paradigme quantitatif il est fait appel à zoveel - hoeveel et à zolang -hoelang, à côté de dat et wat. Les particularités du dictionnaire néerlandais sont décrites plus en détail dans Dehaspe (1993).

3. Un verbe comme exemple

Afin de montrer comment fonctionne concrètement la banque de données, je reproduis enfin les différentes entrées du verbe fonder dans une transcription quelque peu simplifiée, parce que débarassée de certaines contraintes du système informatique. Les différentes entrées, qui représentent chacune une formulation, se présentent de la même manière. Elles contiennent un numéro d'ordre, également exploité pour signaler les liens entre constructions (v. la rubrique RC), puis la forme du verbe et un exemple. Viennent ensuite les différents paradigmes; pour les paradigmes prépositionnels la préposition et son éventuelle variante adverbiale est donnée et, sur une ligne séparée, les pronoms qui peuvent l'accompagner. Les dernières lignes concernent les reformulations (RF) et les liens de construction (RC). Les indications entre parenthèses signalent que ces pronoms ne sont pas unaniment acceptés par les informateurs consultés.

fonder classe verbe
num      44410
forme    fonder
ex       Un savant a fondé cet institut.
p0       je, nous, on, qui, elle, il, ils, celui-ci, ceux-ci
p1       la, le, les, en Q, celui-ci, ceux-ci, ça
rf       passif être
num      44420
forme    fonder
ex       Je fonde mes idées sur celles de mon
         prédécesseur.
p0       je, nous, on, ui, elle, il, ils, celui-ci, ceux-ci
p1       la, le, les, en ...Q, que, celui-ci, ceux-ci, ça
pPrep    sur; là-dessus
         (qui), quoi, (lui), (eux), celui-ci, ceux-ci
rc       44420 / 44430; 44420 / 44450
num      44430
forme    fonder
ex       Rien ne fonde ce que tu prétends.
p0       que, elle, il, ils, celui-ci, ceux-ci, ça
p1       la, le, les, en ...Q, que, celui-ci, ceux-ci, ça
rf       passif se
rc       44420 / 44430; 44430 / 44455
num      44450
forme    se fonder
ex       Je me fonde sur le témoignage d'une voisine pour
         démasquer l'assasin.
p0       je, nous, on, qui, elle, il, ils, celui-ci, ceux-ci
pPrep    sur; là-dessus
         quoi, celui-ci, ceux-ci
rc       44420 / 44450
num      44455
forme    se fonder
ex       Son hypothèse se fonde sur de nombreuses
         expériences.
p0       que, elle, il, ils, celui-ci, ceux-ci, ça
pPrep    sur; là-dessus
         quoi, celui-ci, ceux-ci
         l'un sur l'autre
rc       44430 / 44455

Certains articles contiennent des informations supplémentaires; celles-ci concernent e.a. le contrôleur de l'infinitif (rubrique PIVOT) ou des contraintes diverses affectant les paradigmes ou leurs rapports.

4. Remarques finales

A l'heure actuelle, les liens entre constructions font l'objet de recherches approfondies, à la suite d'Eggermont (1994); on verra à ce sujet Melis (1995). En outre, le dictionnaire français fait l'objet d'une double révision portant sur sa complétude d'une part et d'autre part sur la confrontation des données rassemblées essentiellement à l'aide d'informateurs avec des données de corpus. Une confrontation systématique des données pour une centaine de verbes fréquents avec les données consignées dans un double corpus de français parlé et de français journalistique a été effectuée et ce type d'enquête se poursuit.

Des informations plus détaillées au sujet des banques de données, ainsi que sur les possibilités de consultation ou d'exploi-tation peuvent être obtenues de L. Melis

Ludo Melis,
Departement Linguïstiek, K. U. Leuven
Blijde Inkomststraat 21, B-3000 Leuven
fax: +32 16 32 47 67 tel.: +32 16 32 47 95
e-mail: ludo.melis@arts.kuleuven.ac.be

Références

BLANCHE-BENVENISTE C. ET AL. 1984 Pronom et Syntaxe, l'approche pronominale et son application au français. Paris: SELAF.
BLANCHE-BENVENISTE C. ET AL. 1990 Le français parlé, études grammaticales. Paris: CNRS.
DEHASPE L. 1993 Menelas Report on the Building of the Lexical Database. Leuven.
EGGERMONT C. 1994 Reformulations et restructurations: deux aspects de la systématique des verbes français. Thèse K. U. Leuven.
GEBRUERS R. 1991 On valency and valency-based machine translation, an inquiry into the language-technological applicability of theoretical valency concepts. Th. K. U. Leuven.
MELIS L. 1987 Formulation, groupe de formulations et dispositifs. Travaux de linguistique 263-272.
MELIS L. 1992 Proton, een pronominaal gestuurd valentiewoordenboek voor natuurlijke taalverwerving. TH. VENCKELEER & W. VERBEKE (éds.) Cultuurwetenschappen in beweging 1980-1990. Leuven-Antwerpen: I, 87-106.
MELIS L. 1994 Paradigmes de la valence verbale et réalisations nominales et pronominales. International Journal of Lexicography 7:2, 142-157.
MELIS L.1995 Les relations syntaxiques entre constructions verbales: propo-sitions pour une notation systématique. Communication au Romanistentag, Münster (Westf.).
MELIS L. et C. EGGERMONT 1994 L'approche pronominale de la valence. International Journal of Lexicography 7:2, 79-89.
VAN LANGENDONCK W. 1992 A pronominal approach to valency in translation. M. Thelen & B. Lewandowska (eds) Translation and Meaning. Maastricht, Euroterm II.

[table of contents]

The pronominal approach in the light of contrastive analysis

Bart Defrancq

In his article on the Proton project in this Contragram, Professor L. Melis draws up quite an impressive list of languages the pronominal approach (PA) has been applied to. Next to French, Dutch and Danish, which have been analysed most thoroughly, he mentions Chinese, Russian, Japanese, German and Spanish. We may, no doubt, add English to this list, since there are serious attempts (reflected in Dehaspe and Van den Eynde (1991) and Van Langendonck (1992a)) to apply the PA to English. If a theoretical framework like this can be uniformly and successfully applied to different languages, a contrastive analysis seems to be mere child's play. If we take the French verb profiter, for instance, the pronominal analysis would be the following¹2:

profiter (F1)
P0     je, nous, on, qui, que, elle, il, ils, celui-ci, ceux-ci, ça
P3     0, ceci, en, en(de ce qpi), en(de ce qps), quoi, celui-ci, ceux-ci,
       ça, ça(de ce qpi), ça(de ce qps)
ex.    r: profiter d'un avantage
profiter (F2)
P0     que, ceci, elle, il, ils, celui-ci, ceux-ci, ça     
P2     lui, leur, qui, (quoi), celui-ci, ceux-ci, (ça)
ex.    r: cette entreprise lui a beaucoup profité
profiter (F3)
P0     je, nous, on, qui, que, elle, il, ils, celui-ci, ceux-ci, ça
ex.    b: elle a bien profité pendant les vacances

The primitive semantic features of the pronouns, which have to be established independently from the valency analysis, then allow us to produce a valency scheme of the particular verb. This would look like this:

T1: ± human     T2: ± human
                    ± situational²
P0 of F1             P3 of F1
P2 of F2             P0 of F2
P0 of F3

restrictions:

if T2: P0 then T1 -situational 
                  -human³

The Dutch proto-equivalent profiteren only allows the first (F1) of these three formulations. On the basis of the PA a contrastively relevant fact would have been discovered.

There is, however, one major problem. The PA was never intended to be a uniform theoretical framework. On the contrary, a theoretical framework which would go too far beyond the language-dependent categories is explicitly rejected by Blanche-Benveniste et al. (1984):

"La sémantique primitive que nous dégagerons est étroitement liée aux données morphologiques de la langue [...]. Cette soumission aux particula-rités irréductibles de la langue nous amène à poser des éléments de sémantique non universaux. Nous avons effectivement une attitude négative face aux propositions d'universaux syntactico-sémantiques" (p. 55)

Theoretically, each language can thus be subject to a totally different description based on the properties of its prono-minal elements (for a demonstration of this, see Zhao Yilu (1994), who applies the PA to Chinese, which has no case-marking for pronouns). This is the reason why the PA has, on the one hand, been so successful in monolingual analyses, but, on the other hand, seems to have been handled with caution for contrastive purposes. Indeed, even the comparison of French, on the one hand, and Dutch and English on the other, would be rather difficult, since French pronouns, according to Blanche-Benveniste et al. (1984: 31), seem to be organised according to a primitive semantic feature [± personal], rather than according to the feature [± human]. If we look at the analysis of English and Dutch, made by Van Langendonck (1992a) and (1992b) respectively, we see that the feature [±human] plays an important role.

French, Dutch and English can hardly be compared on this basis. However, thePROTON research group had already introduced, in spite of Blanche-Benveniste's recommendation, the feature [± human] in the analysis of French. (And apart from French, Dutch and English for all the other languages the PA has been applied to: see Zhao Yilu (1994) for Chinese, Soldatjenkova (1995) for Russian, and Schøsler (1994) for Danish.) This is, no doubt, the most eye-catching difference between Blanche-Benveniste et al. (1984) and the PROTON research. Should it be seen as a step towards a language-independent description? The answer to this question is likely to be negative, for the definition of pronominal categories and features is always presented in terms of monolingual analyses.

Nevertheless, proposals have been made to use the data extracted by the PA for automatic translation. Since automatic translation is one of the most ambitious aims a contrastive analysis can have, it would be useful to examine how a model which explicitly casts doubt on the possibility of a language-independent description, deals with the problem of comparing languages. We will examine a proposal made by C. Eggermont and K. Van den Eynde (1991). We will not, for reasons of space, examine in detail the proposals made by R. Gebruers (1991).

Eggermont and Van den Eynde propose to link two monolingual pronominal valency dictionaries by means of a system of references and intersections.The references are integrated in the monolingual description. Next to the pronominal analysis of F1 of profiter, we find profiteren (van), gebruik maken (van), benutten, voordeel trekken (van). The information for the references has been extracted from the Van Dale bilingual dictionaries. Each of the references, as long as it is not a compound verb, has its description in the Dutch valency dictionary. This description should match the valency description of the French verb on some point. The two verbs are then linked together in an interlingual dictionary for the point (or intersection) on which their valency schemes match. The intersection between profiter and benutten would consist of the first formulation of the valency scheme in which the T2 has the feature [-human]. It is indeed difficult to to say ik benut mijn buurman (I make use of my neighbour). All the intersections are stocked in what is called an "inter-language database". In other words, and we might as well quote the authors in this respect: "In such an inter-language database all verbs of the source language have to be organized dependent on the target language" (p. 7).

The automatic translation will be the result of (1) the analysis of the proposed sentence according to the stocked valency schemes, (2) the selection of the matching intersections, (3) the transposition of the information in the target language format. Eggermont and Van den Eynde's proposal does not seem to be troubled by semantic features differences between French and Dutch. Indeed, if the source language has to be organized depending on the target language and if the information from the inter-language dictionary has to be correctly transposed to the target language, the features used should be (and they are) very much the same in both languages. This makes it possible, at least theoretically, to turn the meta-language composed of features into some kind of autonomous interlingua. The feature system would then function as an abstract representation between the two concrete descriptions and there would be no need for two inter-language dictionaries, as the authors claim there will be.

W. Van Langendonck (1992a) cautiously takes the step towards a translation system based on an interlingua. His proposal contains a deep-structure format based on categories shared by French and English, quot;from which we can derive the appropriate structure for both English and French", but then again only "in case we look for an interface, an intermediate structure between the two sentence types".

The PA seems to have more or less adopted a common practice in contrastive linguistics to construct some sort of abstract interlingua that allows a representation of structures by means of a set of general and mostly semantic features. It is important to note that the PA has not (unlike other methods which are concerned with contrastive problems) tried to formalize, or even to represent, the meaning of the verb itself. The PA relies entirely on a reference system in which the reference is supposed to be the translational equivalent of the verb in the source language. It goes without saying that the proper functioning of the translation will almost entirely depend on the refinement of the references, which, as we will see, is not always assured.

When we look at the pronominal analysis of the verb prétendre and what CONTRAGRAM has established to be its proto-equivalent in Dutch: beweren, the formulations and references look like this:

prétendre (F1)
P0      je, nous, on, qui, elle, il, ils, celui-ci, ceux-ci
P2      y, quoi, celui-ci, ceux-ci, ça
ex.     r: prétendre à un titre
ref.    aanspraak maken (op), dingen (naar), opeisen
prétendre (MOD) (F2)
P0      je, nous, on, qui, elle, il, ils, celui-ci, ceux-ci
INF     [the p0 of the infinitive has to be] human
ex.     r : je prétends être obéi
ref.    willen, voornemens zijn, vastbesloten zijn
prétendre (F3)
P0      je, nous, on, qui, elle, il, ils, celui-ci, ceux-ci
P1      le(qpind), le(inf), ça(qpind), ça(inf), que
RP      passif être, se passif
PIVOT   p0, [in main clause is] p0, [in subclause for] inf, [in] p1
NOMCL   [nominal clause in] ?p1, [:] prétendre le contraire
ex.     r : vous venez prétendre ensuite que vous ne m'avez pas
        questionné‚
ref.    beweren, verzekeren, staande houden
prétendre (F4)
P0      je, nous, on, qui, elle, il, ils, celui-ci, ceux-ci
P1      te, vous, qui, la, le, les, ?se réc.
LP      noart_np
LINK    p1, [is linked with] lex_part([])
ex.     ? : on le prétend milliardaire
ref.    beweren

The proposed translation method will encounter difficulties in at least two cases. First of all, in F1 there are cases in which neither of the three translations is correct6. (Although Van Dale (12th ed.) suggests that aanspraak maken op, can be used in those cases: die ijdele vrouw maakt nog aanspraak op schoonheid, we are inclined to reject this option for the translation of (1)).In these cases it should be a paraphrastic expression with the verb beweren, without this having any effect on the pronominal structure. When we look at the following example:

(1) Ce document rend impossible de prétendre au changement des cadres du GRECE. (LM)

we find that it corresponds to F1, but the translation should be:

(1a) Dit document maakt het onmogelijk te beweren dat de top van de GRECE veranderd is.

The fact that there is no reference to beweren can easily be repaired, but even if we do so, it will still be difficult to find an intersection between prétendre (F1) and beweren, since beweren only has the pronominal structures of F3. We cannot make a selection of features in French on the basis of the features in Dutch, because the features are totally different. The same observation applies to F4, which does not exist in Dutch and also has to be translated with a paraphrastic expression.

All this seems to suggest that the development of a translation system based on a pronominal feature interface is workable when the nature of the complement's head is identical (e.g. NP <--> NP) in the two languages, even if there are differences in form (e.g. NP <--> PP). When the nature of the complement's head is different (e.g. NP <--> Pfin) things become more complicated.

In most cases this problem is avoided. We find indeed that the intersections tend to privilege structural equivalence rather than lexical coherence. When, for an intersection, a choice has to be made between a translation with a paraphrase of what CONTRAGRAM would call the proto-equivalent and a translation with a similar feature schema of another equivalent, the second option will prevail. Nevertheless it is obvious that this option sometimes leads to an impasse when their is no lexical item with a similar structure available.

These reflections lead us back to our point of departure: in contrastive research it may prove very difficult, if not impossible, to deal with a number of problems with exclusively formal instruments. In this respect, the above quotation from Blanche-Benveniste et al. (1984) appears to be absolutely legitimate.

Notes

1. The pronominal data have been generously provided by the Department of Linguistics of the University of Leuven. (F1), (F2),... stand for the formulations (or structures) a verb can take. P0, P1,... stand for the pronominal elements which can appear in the given formulation.

2. T1 and T2 stand for Term1 and Term2, which should be understood as the structure-independent semantically defined unities underlying different structural elements in related formulations. The feature [± situational] refers to a subordinate clause.

3. The author of this article takes full responsibility for this representation, which does not necessarily correspond to the way the compilers of the PROTON dictionaries would want to represent things. The fact that under T2 the semantic feature [± human] has been given might slightly differ from the pronominal analysis of the verb which does not explicitly allow for [+human]. We have assumed that profiter de moi, de lui, etc. are covered by the pronoun en, which then has the secondary semantic feature [+human]. The PA considers the ccmpulsory preposition as a proof of the fact that [+human] is only a secondary feature. A primitive semantic feature would always have a pronominal form without preposition.

References

Blanche-Benveniste, C., J. Delofeu, J. Stefanini and K. Van den Eynde (1984) Pronom et syntaxe. L'approche pronominale et son application au français. Paris: SELAF.
Dehaspe, L. and K. Van den Eynde (1991) The pronominal approach to verbal valency: a formal description of speak, say, tell and talk. In: Klein E. et al. (eds.) Betriebslinguistik und Linguistikbetrieb. Tübingen: Niemeyer, vol. 1, pp. 273-280.
Eggermont, C. and K. Van den Eynde (1990) A pronominal basis for computer assisted translation. The Proton project. Thelen, M. and B. Lewandowski-Tomaszczyk (eds.) Translation and Meaning. Maastricht: Euroterm, vol. 1, pp. 1-14.
Gebruers, R. (1991) On valency and valency-based machine translation, an inquiry into the language-technological applicability of theoretical valency concepts. Doct. Th., University of Leuven.
Schøsler, L. (1994) Feature analysis of Danish paradigms with a view to a Da-nish application of the pronominal approach. In: International Journal of Lexicography, Vol.7,No.2,pp.118-141.
Soldatjenkova, T. (1995) A syntactic approach to the valency of Russian verbs. In: J. Daugaard (ed.) Valency. The pronominal approach applied to Danish, Russian, and Chinese. Odense: Odense Universitets Trykkeri, pp. 89-126.
Van Langendonck, W. (1992a) A pronominal approach to valency in translation. In: Thelen, M. and B. Lewandowska-Tomaszczyk (eds.) Translation and Meaning. Maastricht: Euroterm, vol 2, pp. 243-250.
Van Langendonck, W. (1992b) Valency in Dutch: a pronominal approach. In: I.T.L. 95-96, pp. 111-129.
Yilu, Z. (1994) Application of the pronominal approach to valency study of Chinese. In: International Journal of Lexicography, Vol. 7, No. 2, pp.106-117.