Paper published in a book (Scientific congresses and symposiums)
Automated text categorization in a dead language. The detection of genres in Late Egyptian
Gohy, Stéphanie; Martin Leon, Benjamin; Polis, Stéphane
2013In Polis, Stéphane; Winand, Jean (Eds.) Texts, Languages & Information Technology in Egyptology. Selected papers from the meeting of the Computer Working Group of the International Association of Egyptologists (Informatique & Égyptologie), Liège, 6-8 July 2010
This paper is a first step in applying machine learning methods typical of Automated Text Catego-rization (ATC) for Automatic Genre Identification (AGI) in Late Egyptian, a language written in either hieroglyphic or hieratic scripts that is found in documents from Ancient Egypt dating from ca. 1350-700 BCE. The study is divided into three parts. After a general intro¬duction on AGI (§1), we introduce the levels of annotation that are integrated in the Ramses corpus and can be used when performing AGI on Late Egyptian (§2). In the following section (§3) we offer a brief survey of the types of features that have been discussed in the literature on AGI, before proceeding with three case studies where we apply supervised machine learning methods — namely the naïve Bayes classifier (§4.1), the Support Vector Machine (§4.2), and the Segment and Combine approach (§4.3) — to a selection of texts in the corpus. Their respective performances are tested using lexical, part-of-speech and inflectional features.
Peer reviewed
Paper published in a book (Scientific congresses and symposiums)
- Détection automatique des textes épistolaires du corpus néo-égyptien : méthodes exploitant la récurrence de motifs discriminants
Gohy, Stéphanie; Martin Leon, Benjamin
2012In Purnelle, Gérald; Longrée, Dominique; Dister, Anne (Eds.) Actes des 11es Journées internationales d'Analyse statistique des Données Textuelles
Peer reviewed
Paper published in a book (Scientific congresses and symposiums)
Détection automatique des textes épistolaires du corpus néo-égyptien : méthodes exploitant la récurrence de motifs discriminants
Gohy, Stéphanie; Martin Leon, Benjamin
2012In Dister, Anne; Longrée, Dominique; Purnelle, Gérald (Eds.) Actes des 11es Journées internationales d'Analyse statistique des Données Textuelles
Dans cette contribution, nous proposons de développer deux méthodes permettant une détection automatique du genre épistolaire néo-égyptien. Parmi les critères pouvant être mobilisés afin de rendre compte des différents genres composant un corpus figure nitamment l'étude de "motifs", procédé déjà appliqué, entre autres, à un corpus d'historiens latins. Dans notre communication, nous proposons d'appliquer ce procédé au corpus néo-égyptien, et plus particulièrement au genre épistolaire. Pour ce faire, deux méthodes seront appliquées à notre corpus afin d'identifier les documents appartenant ou non au genre épistolaire. Nous commencerons par expliquer le principe de fonctionnement de ces deux méthodes. Les résultats obtenus seront ensuite analysés ; on tentera de comprendre pourquoi certains documents ont été mal classés.
Peer reviewed
Paper published in a book (Scientific congresses and symposiums)
Identification of ‘Textsorten’ in the Late Egyptian Corpus
Gohy, Stéphanie; Martin Leon, Benjamin
2010In Winand, Jean; Polis, Stéphane (Eds.) Texts, Languages & Information. Technology in Egyptology. Selected papers from the meeting of the Computer Working Group of the International Association of Egyptologists (Informatique & Égyptologie), Liège, 6-8 July 2010
Peer reviewed
Master’s dissertation (Dissertations and theses)
Classification automatique de textes néo-égyptiens selon leur genre littéraire
Martin Leon, Benjamin
Master’s dissertation (Dissertations and theses)
Projet « Ramsès » : Réalisation d’une bibliothèque de traitement à états finis
Martin Leon, Benjamin