Comment utiliser TXM4TXM ?
Pour utiliser TXM4TXM, vous devez sélectionner les fichiers XML que vous désirez traiter, puis choisir les exports que vous désirez.
Lorsque vous sélectionnerez un export, les options disponibles pour celui-ci s'afficheront.
Selon les exports, les étiquettes disponibles seront différentes, et certaines seront obligatoires.
(en
Les étiquettes en
Les étiquettes précédées d'un "@" sont des étiquettes qui seront exportées en tant qu'attributs. Et celles précédées d'un "#" seront exportées en tant que texte au sein de la balise. Cette notation est issue de la librairie xmltodict et est utilisée pour le passage de XML à JSON.
-
L'export "Pivot" est le résultat intermédiaire produit afin de proposer de multiples exports, il permet
alors de regénérer de prochains exports en s'affranchissant de quelques étapes.
Vous ne pourrez pas choisir d'étiquettes directement pour ce dernier, mais il contiendra l'ensemble des étiquettes sélectionnées pour les autres imports. Si vous désirez un même format, mais avec des balises spécifiques, utilisez l'export "JSON". -
L'export pour TXM vous fournira des XMLs reprenant au plus proche la structure originale.
Selon les annotations que vous choisirez, les mots seront contenus individuellement dans une balise < w > avec comme attributs les étiquettes rattachées au mot. -
L'export JSON est très similaire au "Pivot", cet export ne se différenciera alors dans les étiquettes,
car vous pouvez n'en choisir que quelques-unes.
Il sera également exempt de la clé "TEI-EXTRACTED-METADATA" qui est présente dans le "Pivot" et qui contient les métadonnées extraites du fichier XML original et servant à la génération des exports CoNLL-U et Hyperbase. -
L'export CoNLL-U vous permet d'obtenir les phrases/paragraphes uniquement, mais au même format que les
corpus d'Universal Dependencies.
Vous permettant alors de les exploiter dans certains logiciels, comme GREW-Match qui permet d'effectuer des recherches sur les relations de dépendance avec les mots, ou encore LIMA.
Si vous ne savez pas quelles étiquettes choisir, le mieux est de toutes les cocher. -
Pour utiliser une annotation manuelle dans Hyperbase, vous devez au minimum sélectionner les étiquettes
"lemma" et "pos".
À l'instar de l'export CoNLL-U, cet export ne prendra que les phrases/paragraphes.