Pages

mardi 27 juillet 2010

Vocabulaire

Quand on apprend le chinois, une question qui revient est : combien y a-t-il de caractère? combien faut il en connaitre pour lire le journal ? combien en sait un chinois moyen? un universitaire?

Les réponses officielles à ces questions sont généralement quelque chose comme 100 000, 2 500, 3 000, 8 000 ou plus. Mais quand on approfondit le sujet, on se rend vite compte que la question est délicate.

Tout d'abord, il faut s'entendre ce que signifie connaître un caractère. En comprendre le sens si on le recontre dans un texte, savoir en plus comment il se prononce, l'utiliser à l'oral, naturellement, l'utiliser à l'écrit? On sent bien que chaque définition donnera des résultats différents.

C'est d'autant plus difficile qu'en chinois, comme en francais, le contexte aide à deviner le sens de pas mal de mots. Si je lis dans un roman "au fond du filet se débattait un sélatin", je vais deviner que le sélatin est probablement un poisson (ne cherchez pas, je viens de l'inventer...). Et ceci est même vrai de mots que l'on connait réellement. Je sais qu'un charme est un arbre, mais j'aurais l'air bien malin si on me demandait d'en montrer un, ou de dessiner ses feuilles...

En chinois c'est un peu pareil. Je peux deviner que le caractère 栩 désigne un arbre qui se prononce "yu", et j'aurai presque raison (c'est "xu", et ca peut être un chêne, même si ce n'est pas l'usage le plus courant). Et cette connaissance est parfois la bonne. Pour certains caractères un peu rares, tout ce qu'on trouve, dans le dictionnaire c'est sa prononciation et une définition du genre "une sorte d'arbre", ou "un oiseau"... Comme le mot est très rare, et plus utilisé de nos jours, on n'en saura pas plus (sauf à faire de l'étymologie créative : on m'a un jour expliqué que le caractère 栩, qui représente un arbre et une plume était le son que faisait un oiseau agitant ses ailes, j'avais répondu que c'était probablement un arbre dont les feuilles ressemblaient à des plumes...)

A ce stade, on est tenté de ce dire que la question "combien de caractères?" n'a pas de réponse. En fait, l'informatique et les statistiques ouvrent une autre voie.

Un chinois nommé Jun Da a compilé les fréquences d'apparition des caractères dans de très grands corpus de textes. Tout est là http://lingua.mtsu.edu/chinese-computing/

POur ce faire, il a compilé trois bases :
- des textes classiques (avant 1911), 65 millions de caractères
- des textes modernes, 193 millions de caractères, répartis en deux moitiés : textes informatifs (journaux, livres de référence) et textes imaginatifs (romans, poésie)

Soit au total plus de 250 millions de caractères (pour donner une idée, ceci représente l'équivalent de quelques milliers de gros livres)

Si on se limite au chinois moderne, il apparait au total 9 933 caractères différents. C'est nettement moins que ce que contient un bon dictionnaire, mais il faut observer que la saisie informatique de ces textes a pour effet de "normaliser" des variantes d'écriture, qui forment une grande partie des caractères manquants.

De façon intéressante, 1 100 de ces 9933 caractères n'apparaissent qu'une seule fois, 2 000 apparaissent 3 fois et moins. Il semble donc que 8 000 caractères (chiffre qu'on cite parfois comme "le chinois des lettrés") soit en fait le "nombre total" de caractères chinois qu'on rencontre en une vie de lecture... (l'ajout du chinois classique change un peu cette statistique : on a cette fois 12 041 caractères au total, dont 2050 3 fois et moins, et donc un "chinois total" de 10 000 caractères environ)

Si l'on prend le problème dans l'autre sens, on découvre que
- 152 caractères différents représentent 50% du corpus moderne (179 avec le classique)
- 1057 représentent 90% de l'usage (classique 1265)
- 1566 représentent 95% (classique 1891)
- 2838 représentent 99% (classique 3590)

Si on ajoute à cela que certains caractères rares peuvent être devinés (en fonction du contexte), on arrive probablement pour le chinois moderne à un corpus de l'ordre de 3000 - 3500 caractères, et 4 à 5 000 si on inclut le classique.

Ce qui reste tout à fait respectable...

2 commentaires:

  1. Intéressant ! on apprend des choses sur sa propre langue.
    A propos de ton caractère "栩", sais-tu qu'on l'utilise très couramment dans l'expression "栩栩如生" dont l'origine est de Zhuangzi "昔者庄周梦为胡蝶,栩栩然胡蝶也",selon sa place dans cette phrase, je crois bien que le caractère ait été désigné pour un oiseau.

    RépondreSupprimer
  2. En fait, il semble que 栩 ne soit utilisé que deux fois dans les classiques. Une fois dans les Odes, où les commentateurs le glosent comme une sorte de chêne, et une autre chez dans l'expression que tu cites.

    Mon impression est que, dans ce dernier passage, le 栩 est un emprunt pour un mot de même son qui veut dire joyeux. On trouve, une ou deux phrases plus loin l'expression 蘧蘧然, que les commentateurs glosent comme "tout d'un coup", alors que 蘧 veut dire du blé.

    Mais c'est impossible à décider, vu que c'est à peu près le seul usage connu de ce caractère...

    RépondreSupprimer