Lingunix : les outils UNIX appliqués à la recherche linguistique!

Présentation du projet

Bonjour à toutes et à tous, je suis très honoré de pouvoir présenter le projet lingunix.org sur orthophonielibre.wordpress.com .

Lingunix.org a pour vocation de développer des scripts Unix appliqués à la recherche en linguistique et en psycholinguistique. Ce projet est né suite à une recherche en psycholinguistique à laquelle j’ai participé à l’Université de Strasbourg en 2010.

Site Lingunix - les outils Unix appliqués la recherche en linguistique

Cette expérience fût réalisée selon le paradigme de Reicher (1969). Nous avions présenté aux sujets normaux lecteurs, en amorçage ( tps<60ms), un bigramme ou un trigramme suivi d’un masque (###) afin de contrer l’effet de la persistance rétinienne. Le sujet devait ensuite choisir la bonne réponse entre deux lettres proposées.

L’hypothèse de départ était la suivante : « la redondance orthographique a un effet sur la détection d’une lettre indépendamment de la prononciabilité du groupe de lettres dans laquelle elle se trouve. »

Je me suis rendu compte, en voyant le matériel expérimental utilisé, que les outils Unix avaient quelque chose à apporter dans la conception de ce genre de tests.

En effet, les commandes GREP, SED et AWK sont idéales pour manipuler et traiter des expressions régulières dans un flux de données.

On peut très facilement créer du matériel expérimental avec des commandes Unix (bigramme, trigramme, mots triés par fréquence d’occurrence, calcul du nombre de voisins orthographiques et phonologiques etc …).

Exemples d’applications

  • Manipuler des données avec AWK : Lire et exploiter des bases de données de type Lexique3.txt

Commande :

awk -F"\\t" '$4~/VER/ {print $1,$3,$19,$20,$10}' Lexique3.txt | sort -t\\ -k5nr | head -n10

Ce script Unix nous donne la liste des dix verbes les plus fréquemment employés dans la littérature française :

VERBE INFINITIF VOISIN ORTHO VOISIN PHONO FREQUENCE
dit dire 19 27 2601.62
fait faire 12 28 1459.26
été être 2 17 818.99
eu avoir 17 18 436.76
vu voir 14 24 393.45
pu pouvoir 18 25 349.32
devoir 9 24 243.65
voulu vouloir 3 9 174.19
passé passer 8 27 157.09
fini finir 4 5 149.26

La colonne 1 correspond au verbe tel qu’il a été rencontré dans la littérature, la colonne 2 à son infinitif, la colonne 3 à son nombre de voisins orthographiques, la colonne 4 à son nombre de voisins phonologiques, et la dernière colonne à la fréquence d’occurrence de ce verbe.

  • Création d’une base de données de type LEXIQUE à partir d’un texte :

cat texte.txt | sed "s/\\W/\\ /g" | sort | uniq | grep '^[a-z]' | grep '[a-z]$' > base.txt

Ce script va écrire dans une colonne la liste de tous les mots, présents dans le fichier texte.txt, triés par ordre alphabétique. L’avantage de ce script est qu’il élimine les doublons de mots. Après ce premier traitement, nous pouvons à partir de cette liste, faire par exemple des calculs de fréquences d’occurrences.

  • Génération d’un dictionnaire de trigramme :

Les dictionnaires de trigrammes sont souvent utilisés dans les tests psycholinguistiques expérimentaux fondés sur une tâche de décisions lexicales.

echo {a..z}{a..z}{a..z} > dictionnaire_trigramme.txt

Ce script va générer un dictionnaire de trigrammes présenté comme ci-après :

aaa aab aac aad aae aaf aag aah aai aaj aak aal aam aan aao aap aaq aar …

Objectifs du projet

L’objectif principal de lingunix.org est de défendre l’usage des outils Unix appliqués à la recherche en psycholinguistique et en linguistique. Plus précisément, je soutiens le développement de scripts écrits avec AWK (voir introduction à AWK pour les linguistes).

Au fil de l’avancement du projet, j’ai découvert d’autres utilités à l’analyse systématique du langage écrit s’inscrivant dans une dimension plus économique.

Pour vous donner un exemple concret, la fréquence d’occurrences d’un mot dans le langage est un paramètre qui entre en considération dans l’estimation de la valeur du nom de domaine d’un site web.

Il y a en réalité de nombreuses possibilités d’applications quand on maîtrise la manipulation de données de type LEXIQUE, tel que l’analyse de la densité de mots clés dans un texte pour le référencement, la prise en compte des voisins phonologiques pour le choix d’un nom de marque etc…

Je vous remercie de votre attention, et merci à Rémi SAMIER de m’avoir donné l’occasion de présenter mon projet sur orthophonielibre.wordpress.com.

Vivien SCHMITT http://www.lingunix.org


Vus : 1362
Publié par Rémi Samier : 36