Langue / linguistique

Corpus d’arabe parlé (1 et 2) par Groupe ARAPI

, par Mohammad Bakri


Groupe ARAPI : Véronique Traverso, Catherine Pinon, Loubna Dimachki, Lina Choueiri


Les Carnets de l'Ifpo


Le projet ARAPI, Arabe Parlé en Interaction vise l’établissement d’une convention de transcription de données orales et son application pour la réalisation d’un corpus d’arabe moyen-oriental parlé. Le projet est conduit par un groupe de chercheurs (Groupe ARAPI) de différentes institutions – l’Ifpo Beyrouth (Catherine Pinon, Véronique Traverso), Université Libanaise – Centre des sciences du langage et de la communication (Moustafa Al-Hajj, Loubna Dimachki), Université Américaine de Beyrouth (Lina Choueiri), laboratoire ICAR (UMR 5191) à Lyon (Carole Etienne), laboratoire SEDYL (UMR 9292) à Paris (Stefano Manfredi), Laboratoire LLL (UMR 7270) à Orléans (Layal Kanaan). Il a bénéficié de financements de l’Ifpo, du Labex ASLAN (Lyon) et de l’Université Libanaise.

Le projet se situe dans une approche interactionnelle, qui s’attache aux usages du langage en situation, considérant que la parole est centrale dans la réalisation des actions sociales. Pour ces études, le corpus et sa transcription revêtent une importance centrale, puisqu’ils doivent permettre de rendre visibles les éléments sur lesquels les participants aux interactions établissent leur interprétation de ce qui se passe dans les échanges, et plus généralement dans la situation concernée.

Une des premières étapes dans le projet ARAPI a été de faire un tour d’horizon des bases d’arabe parlé librement accessibles sur internet. C’est l’objet de ce premier billet.


Institut Français du Proche-Orient (Ifop)


Corpus d’arabe parlé (1) : Quels corpus d’arabe parlé en libre accès ?


1. Évolution des corpus de langue au cours de trente dernières années

C’est au tournant des années 1990 que les bases de données, écrites et orales, ont commencé à se développer, principalement pour l’anglais puis pour d’autres langues (on trouvera une mise en perspective des bases qui se sont développées au cours des années 1990 dans Bruxelles et al. 2009, et pour l’anglais, Renouf 2004). Le développement de ces bases a été favorisé par des incitations institutionnelles à mettre en place des corpus de langue (en France par exemple, au cours des années 2000, les appels de l’Agence Nationale de la Recherche et de la Délégation générale à la langue française et aux langues de France), dans lesquelles les chercheurs étaient appelés à “rattraper le retard” en réalisant de gros corpus qui soient mis à la disposition de la communauté scientifique. Ces initiatives ont porté leurs fruits. Ainsi les articles réunis dans Avanzi, Béguelin & Diémoz en 2016 présentent non moins de treize bases de données de français parlé, représentant des français de plusieurs régions de France, de Belgique, de Suisse, du Québec, d’Amérique, d’Afrique, des français non standard ainsi que des français d’apprenants.

Cette importance accordée aux corpus et aux bases de données a modifié sensiblement la façon de travailler sur corpus. Ainsi il n’est plus guère acceptable aujourd’hui pour un chercheur de construire son propre corpus (de thèse par exemple), sans penser aux questions juridiques et éthiques (autorisation de collecte, consentement éclairé), aux standards de mise en forme des données et des corpus, aux possibilités de partage des données par l’intégration dans une base de données, etc. La construction d’un corpus est, de la sorte, soumise à de nombreuses contraintes, puisqu’on attend que soient explicitées et rendues publiques toutes les étapes de la confection. En contre-point, s’élèvent aujourd’hui des voix pour formuler les dilemmes qui sont nés de ces nouvelles attentes et contraintes (Groupe ICOR 2016) ou faire entendre l’importance des “petits” corpus (corpus de thèse par exemple ou corpus pour l’étude d’un phénomène très restreint) (voir le numéro de la Revue Corpus consacré aux “petits corpus”, Danino 2018).

2. Le cas de l’arabe

Pour l’arabe, la situation a surtout commencé à évoluer au tournant des années 2010, notamment grâce au développement de corpus et d’outils pour le traitement automatique des langues. Pour l’arabe écrit, il existe aujourd’hui une série de corpus présentant une variété de sources (Coran, presse, romans, réseaux sociaux, etc.), qui documentent des usages d’arabe classique, standard moderne, scientifique ou littéraire (voir les inventaires présentés dans Zaghouani 2014, et sur le site personnel de A. Eddakrouri, https://sites.google.com/a/aucegypt.edu/infoguistics/directory/Corpus-Linguistics/arabic-corpora).

Comme c’est le cas pour la plupart des langues, l’arabe parlé est moins bien représenté que l’arabe écrit dans ces bases. Ce retard est dû au fait que la constitution de corpus partageables est beaucoup plus lourde pour l’oral, si l’on prend en compte toutes les étapes nécessaires : terrain et collecte, exigences éthiques et juridiques, complexité et lourdeur des procédures de transformation des données primaires – les enregistrements – en données secondaires, opérations qui soulèvent notamment des problèmes de conventions de transcription et de représentation graphique de l’oral (voir billet Corpus d’arabe parlé 2 et 3). L’essentiel de ces étapes se réalisant « à la main », l’ensemble représente un travail extrêmement long et minutieux...

Lire la suite en Ligne


Groupe ARAPI (Véronique Traverso, Catherine Pinon, Loubna Dimachki, Lina Choueiri), « Corpus d’arabe parlé (1) : Quels corpus d’arabe parlé en libre accès ? », Les Carnets de l’Ifpo (Hypotheses.org), le 30 octrobre 2018. [En  ligne] http://ifpo.hypotheses.org/8865


Institut Français du Proche-Orient (Ifop)


Corpus d’arabe parlé (2) : Contraintes et problèmes liés à la réalisation des corpus d’arabe parlé en interaction


Ce billet discute une première série de questions pratiques auxquelles doit répondre toute personne qui entreprend de confectionner un corpus d’arabe parlé en vue de la recherche. Nous posons et traitons ces questions ici dans la perspective d’une approche pragmatique et interactionnelle des pratiques linguistiques. Ces approches reposent sur une conception située du langage, selon laquelle les usages sont à la fois formatés par la situation dans laquelle les locuteurs se trouvent, et eux-mêmes constitutifs de cette situation. Les approches interactionnelles s’intéressent spécifiquement à ce que l’on peut considérer comme “l’habitat” naturel du langage, les interactions de la vie sociale, construites par une alternance de prises de parole. Confectionner des corpus, et par voie de conséquence transcrire des données, pour décrire ces pratiques ne consiste pas à accumuler des quantités de mots transcrits et annotés. D’autres exigences se font jour, telles que la recherche de la “naturalité des données” et la notation des phénomènes souvent minuscules (une hésitation, la prononciation d’un son) qui sont nécessaires aux analyses.

Par rapport au cas d’autres langues, certaines caractéristiques de la langue arabe posent des problèmes spécifiques, qui complexifient l’entreprise de confection de corpus de langue parlée.

1. Les types de données : interactionnelles et naturelles

Les ressources auxquelles les locuteurs recourent pour parvenir à se comprendre dans leur vie sociale sont hétérogènes. Elles sont à la fois multimodales (gestes, regards, postures, manipulation d’objets, occupation de l’espace, etc.) et linguistiques. Elles sont mises en œuvre en fonction des besoins pratiques des locuteurs, eux-mêmes liés aux activités dans lesquelles ils sont engagés. Elles se déploient temporellement au cours de ces activités.

On parle de « ressources » pour signifier que l’approche est non normative. Elle se fonde sur l’observation et la description des usages effectifs des locuteurs. Ainsi, de nombreux phénomènes généralement considérés comme des usages relâchés, désorganisés, voire fautifs, de la langue (sur le plan syntaxique notamment), sont en réalité la trace du travail temporalisé et collaboratif que les locuteurs effectuent avec et sur les ressources qu’ils utilisent pour communiquer, en les combinant, les organisant temporellement et séquentiellement, et en les bricolant. Pour décrire ces ressources il faut travailler sur des données naturelles, c’est-à-dire des données qui ne sont pas produites pour les besoins de la recherche, ni dans une situation construite par le chercheur, comme consulter son médecin, inviter ses amis ou répondre à des questions pour la promotion de son film par exemple (voir Mondada 2000 sur la naturalité des données).

Bien que ce ne soit pas l’objet du présent billet, il importe de dire quelques mots des conditions de collectes de ce type de données. En effet, enregistrer des personnes dans les situations sociales, que ce soit sous forme audio ou vidéo, nécessite d’obtenir leur autorisation. Il faut avoir leur consentement éclairé, c’est-à-dire leur accord à être enregistrées après avoir été informées de l’usage qui sera fait des données, et du type de recherche entrepris. Les personnes doivent, non seulement consentir à être enregistrées, mais également spécifier le type d’usage qu’elles autorisent pour les données (usage du seul chercheur collecteur, usage ouvert à un plus grand nombre de personnes, autorisation de diffusion d’extraits de l’enregistrement dans des cours ou dans des conférences, autorisation à la mise en ligne dans des bases dédiées à la recherche, etc.).

Le plus souvent, dans les formulaires de demande de consentement éclairé (voir des exemples de formulaires sur le site http://icar.cnrs.fr/projets/corinte/recueil/autorisation.htm), les chercheurs s’engagent, de surcroît, à anonymiser les données qui seront diffusées (anonymisation de toutes les données à caractère personnel ; “bipage” et floutage de ces mêmes données à caractère personnel sur les données audio et vidéo).

Ces procédures d’anonymisation sont mises en œuvre dans les données primaires aussi bien que dans les données secondaires, les transcriptions, dont nous allons parler maintenant.

Lire la suite en Ligne


Groupe ARAPI (Véronique Traverso, Catherine Pinon, Loubna Dimachki, Lina Choueiri), « Corpus d’arabe parlé (2) : Contraintes et problèmes liés à la réalisation des corpus d’arabe parlé en interaction », Les Carnets de l’Ifpo (Hypotheses.org), le 21 décembre 2018. [En  ligne] http://ifpo.hypotheses.org/9039


Les Carnets de l'Ifpo

Partager

Imprimer cette page (impression du contenu de la page)