Projet

Traitement du corpus chinois

Pour le corpus de chinois, il est impossible de le traiter dans la même façon qu'on a fait avec les autres langues, car les fichiers de dump des urls chinois ne sont pas segmentés, et comme il n'y a pas d'espace entre les mots chinois, notre script en bash ne peut malheureusement pas produire l'index… Continue reading Traitement du corpus chinois

Projet, Résumé des séances

Nuages et iTrameur -1er Contact Séance 28/11

Lors de la séance du 28 Nov, nous avons commencé la phase 2 de notre projet — l' analyse du corpus, avec les outils des nuages des mots et l'iTrameur (outil d'exploration des données). Tout d'abord, il y a plusieurs outils pour créer le nuage des mots: Wordle, Word Cloud Generator, WordItOut, etc. Ici, nous… Continue reading Nuages et iTrameur -1er Contact Séance 28/11