Langue / linguistique

Corpus d’arabe parlé (1, 2 et 3) par Groupe ARAPI

, par Mohammad Bakri


Groupe ARAPI : Véronique Traverso, Catherine Pinon, Loubna Dimachki, Lina Choueiri


Les Carnets de l'Ifpo


Le projet ARAPI, Arabe Parlé en Interaction vise l’établissement d’une convention de transcription de données orales et son application pour la réalisation d’un corpus d’arabe moyen-oriental parlé. Le projet est conduit par un groupe de chercheurs (Groupe ARAPI) de différentes institutions – l’Ifpo Beyrouth (Catherine Pinon, Véronique Traverso), Université Libanaise – Centre des sciences du langage et de la communication (Moustafa Al-Hajj, Loubna Dimachki), Université Américaine de Beyrouth (Lina Choueiri), laboratoire ICAR (UMR 5191) à Lyon (Carole Etienne), laboratoire SEDYL (UMR 9292) à Paris (Stefano Manfredi), Laboratoire LLL (UMR 7270) à Orléans (Layal Kanaan). Il a bénéficié de financements de l’Ifpo, du Labex ASLAN (Lyon) et de l’Université Libanaise.

Le projet se situe dans une approche interactionnelle, qui s’attache aux usages du langage en situation, considérant que la parole est centrale dans la réalisation des actions sociales. Pour ces études, le corpus et sa transcription revêtent une importance centrale, puisqu’ils doivent permettre de rendre visibles les éléments sur lesquels les participants aux interactions établissent leur interprétation de ce qui se passe dans les échanges, et plus généralement dans la situation concernée.

Une des premières étapes dans le projet ARAPI a été de faire un tour d’horizon des bases d’arabe parlé librement accessibles sur internet. C’est l’objet de ce premier billet.


Institut Français du Proche-Orient (Ifop)


Corpus d’arabe parlé (1) : Quels corpus d’arabe parlé en libre accès ?

Publié le 31/10/2018

1. Évolution des corpus de langue au cours de trente dernières années

C’est au tournant des années 1990 que les bases de données, écrites et orales, ont commencé à se développer, principalement pour l’anglais puis pour d’autres langues (on trouvera une mise en perspective des bases qui se sont développées au cours des années 1990 dans Bruxelles et al. 2009, et pour l’anglais, Renouf 2004). Le développement de ces bases a été favorisé par des incitations institutionnelles à mettre en place des corpus de langue (en France par exemple, au cours des années 2000, les appels de l’Agence Nationale de la Recherche et de la Délégation générale à la langue française et aux langues de France), dans lesquelles les chercheurs étaient appelés à “rattraper le retard” en réalisant de gros corpus qui soient mis à la disposition de la communauté scientifique. Ces initiatives ont porté leurs fruits. Ainsi les articles réunis dans Avanzi, Béguelin & Diémoz en 2016 présentent non moins de treize bases de données de français parlé, représentant des français de plusieurs régions de France, de Belgique, de Suisse, du Québec, d’Amérique, d’Afrique, des français non standard ainsi que des français d’apprenants.

Cette importance accordée aux corpus et aux bases de données a modifié sensiblement la façon de travailler sur corpus. Ainsi il n’est plus guère acceptable aujourd’hui pour un chercheur de construire son propre corpus (de thèse par exemple), sans penser aux questions juridiques et éthiques (autorisation de collecte, consentement éclairé), aux standards de mise en forme des données et des corpus, aux possibilités de partage des données par l’intégration dans une base de données, etc. La construction d’un corpus est, de la sorte, soumise à de nombreuses contraintes, puisqu’on attend que soient explicitées et rendues publiques toutes les étapes de la confection. En contre-point, s’élèvent aujourd’hui des voix pour formuler les dilemmes qui sont nés de ces nouvelles attentes et contraintes (Groupe ICOR 2016) ou faire entendre l’importance des “petits” corpus (corpus de thèse par exemple ou corpus pour l’étude d’un phénomène très restreint) (voir le numéro de la Revue Corpus consacré aux “petits corpus”, Danino 2018).

2. Le cas de l’arabe

Pour l’arabe, la situation a surtout commencé à évoluer au tournant des années 2010, notamment grâce au développement de corpus et d’outils pour le traitement automatique des langues. Pour l’arabe écrit, il existe aujourd’hui une série de corpus présentant une variété de sources (Coran, presse, romans, réseaux sociaux, etc.), qui documentent des usages d’arabe classique, standard moderne, scientifique ou littéraire (voir les inventaires présentés dans Zaghouani 2014, et sur le site personnel de A. Eddakrouri, https://sites.google.com/a/aucegypt.edu/infoguistics/directory/Corpus-Linguistics/arabic-corpora).

Comme c’est le cas pour la plupart des langues, l’arabe parlé est moins bien représenté que l’arabe écrit dans ces bases. Ce retard est dû au fait que la constitution de corpus partageables est beaucoup plus lourde pour l’oral, si l’on prend en compte toutes les étapes nécessaires : terrain et collecte, exigences éthiques et juridiques, complexité et lourdeur des procédures de transformation des données primaires – les enregistrements – en données secondaires, opérations qui soulèvent notamment des problèmes de conventions de transcription et de représentation graphique de l’oral (voir billet Corpus d’arabe parlé 2 et 3). L’essentiel de ces étapes se réalisant « à la main », l’ensemble représente un travail extrêmement long et minutieux...

Lire la suite en Ligne


Groupe ARAPI (Véronique Traverso, Catherine Pinon, Loubna Dimachki, Lina Choueiri), « Corpus d’arabe parlé (1) : Quels corpus d’arabe parlé en libre accès ? », Les Carnets de l’Ifpo (Hypotheses.org), le 30 octrobre 2018. [En  ligne] http://ifpo.hypotheses.org/8865


Institut Français du Proche-Orient (Ifop)


Corpus d’arabe parlé (2) : Contraintes et problèmes liés à la réalisation des corpus d’arabe parlé en interaction

Publié le 21/12/2018

Ce billet discute une première série de questions pratiques auxquelles doit répondre toute personne qui entreprend de confectionner un corpus d’arabe parlé en vue de la recherche. Nous posons et traitons ces questions ici dans la perspective d’une approche pragmatique et interactionnelle des pratiques linguistiques. Ces approches reposent sur une conception située du langage, selon laquelle les usages sont à la fois formatés par la situation dans laquelle les locuteurs se trouvent, et eux-mêmes constitutifs de cette situation. Les approches interactionnelles s’intéressent spécifiquement à ce que l’on peut considérer comme “l’habitat” naturel du langage, les interactions de la vie sociale, construites par une alternance de prises de parole. Confectionner des corpus, et par voie de conséquence transcrire des données, pour décrire ces pratiques ne consiste pas à accumuler des quantités de mots transcrits et annotés. D’autres exigences se font jour, telles que la recherche de la “naturalité des données” et la notation des phénomènes souvent minuscules (une hésitation, la prononciation d’un son) qui sont nécessaires aux analyses.

Par rapport au cas d’autres langues, certaines caractéristiques de la langue arabe posent des problèmes spécifiques, qui complexifient l’entreprise de confection de corpus de langue parlée.

1. Les types de données : interactionnelles et naturelles

Les ressources auxquelles les locuteurs recourent pour parvenir à se comprendre dans leur vie sociale sont hétérogènes. Elles sont à la fois multimodales (gestes, regards, postures, manipulation d’objets, occupation de l’espace, etc.) et linguistiques. Elles sont mises en œuvre en fonction des besoins pratiques des locuteurs, eux-mêmes liés aux activités dans lesquelles ils sont engagés. Elles se déploient temporellement au cours de ces activités.

On parle de « ressources » pour signifier que l’approche est non normative. Elle se fonde sur l’observation et la description des usages effectifs des locuteurs. Ainsi, de nombreux phénomènes généralement considérés comme des usages relâchés, désorganisés, voire fautifs, de la langue (sur le plan syntaxique notamment), sont en réalité la trace du travail temporalisé et collaboratif que les locuteurs effectuent avec et sur les ressources qu’ils utilisent pour communiquer, en les combinant, les organisant temporellement et séquentiellement, et en les bricolant. Pour décrire ces ressources il faut travailler sur des données naturelles, c’est-à-dire des données qui ne sont pas produites pour les besoins de la recherche, ni dans une situation construite par le chercheur, comme consulter son médecin, inviter ses amis ou répondre à des questions pour la promotion de son film par exemple (voir Mondada 2000 sur la naturalité des données).

Bien que ce ne soit pas l’objet du présent billet, il importe de dire quelques mots des conditions de collectes de ce type de données. En effet, enregistrer des personnes dans les situations sociales, que ce soit sous forme audio ou vidéo, nécessite d’obtenir leur autorisation. Il faut avoir leur consentement éclairé, c’est-à-dire leur accord à être enregistrées après avoir été informées de l’usage qui sera fait des données, et du type de recherche entrepris. Les personnes doivent, non seulement consentir à être enregistrées, mais également spécifier le type d’usage qu’elles autorisent pour les données (usage du seul chercheur collecteur, usage ouvert à un plus grand nombre de personnes, autorisation de diffusion d’extraits de l’enregistrement dans des cours ou dans des conférences, autorisation à la mise en ligne dans des bases dédiées à la recherche, etc.).

Le plus souvent, dans les formulaires de demande de consentement éclairé (voir des exemples de formulaires sur le site http://icar.cnrs.fr/projets/corinte/recueil/autorisation.htm), les chercheurs s’engagent, de surcroît, à anonymiser les données qui seront diffusées (anonymisation de toutes les données à caractère personnel ; “bipage” et floutage de ces mêmes données à caractère personnel sur les données audio et vidéo).

Ces procédures d’anonymisation sont mises en œuvre dans les données primaires aussi bien que dans les données secondaires, les transcriptions, dont nous allons parler maintenant.

Lire la suite en Ligne



Institut Français du Proche-Orient (Ifop)


Corpus d’arabe parlé (3) : Choix pour la notation des sons et des phénomènes dans la réalisation de corpus d’arabe parlé

Publié le 13/06/2019

Nous poursuivons l’inventaire des questions pratiques relatives à la réalisation de corpus d’arabe parlé notamment afin de décrire les pratiques linguistiques dans des perspectives pragmatiques et interactionnelles. Ce troisième billet est consacré au choix des alphabets pour la transcription des données.

Aujourd’hui, on considère en général qu’un corpus d’arabe parlé partageable doit mettre à la disposition des utilisateurs, non seulement les données primaires (enregistrements), mais aussi au moins deux lignes (tiers) de transcription, une en caractères arabes et une (au moins) en transcription phonétique (voir les billets Corpus d’arabe parlé 1 et 2). Pour aborder les choses, il faut distinguer d’une part les types de transcription (phonétique ou orthographique) et d’autre part les types d’alphabet utilisés (basés sur l’alphabet latin ou sur l’alphabet arabe).

Dans les faits, les transcriptions orthographiques se font en caractères arabes, même si certaines formes de translittération en caractères latins respectent l’orthographe, avec une correspondance lettre à lettre. Pour les transcriptions phonétiques, qui cherchent à s’approcher des prononciations effectives, se pose la question du choix d’un alphabet. Il existe en effet différentes possibilités, toutes développées sur la base de caractères latins. Mais rappelons toutefois la mention par Habash, Diab & Rambow 2012 d’un essai de notation des dialectes à des fins descriptives à l’aide de l’orthographe standard de l’arabe enrichie d’autres signes. Ce type d’entreprise est en revanche plus fréquent et ancien en littérature, notamment théâtrale, avec les propositions d’écritures dialectales. Voir par exemple les recherches sur ce sujet de Doss 1996 et Boustani & Germanos, 2016. En lien avec nos questions, il est intéressant de souligner que l’oralisation de textes de ce type nécessite l’application de règles de lecture, qui peuvent être explicitées. C’est le cas par exemple de la troupe Zouqâq qui fournit, au début de ses pièces “Maʃraħ watanī wa Ʒenna Ʒenna Ʒenna” (2018, Dâr al-Fârâbî), une série de règles de lecture concernant aussi bien la notation des sons que celle de phénomènes comme les interruptions.

Lire la suite en Ligne


Groupe ARAPI (Véronique Traverso, Catherine Pinon, Loubna Dimachki, Lina Choueiri), « Corpus d’arabe parlé (2) : Contraintes et problèmes liés à la réalisation des corpus d’arabe parlé en interaction », Les Carnets de l’Ifpo (Hypotheses.org), le 21 décembre 2018. [En  ligne] http://ifpo.hypotheses.org/9039


Les Carnets de l'Ifpo

Partager

Imprimer cette page (impression du contenu de la page)