Projet

Traitement du corpus chinois

Pour le corpus de chinois, il est impossible de le traiter dans la même façon qu'on a fait avec les autres langues, car les fichiers de dump des urls chinois ne sont pas segmentés, et comme il n'y a pas d'espace entre les mots chinois, notre script en bash ne peut malheureusement pas produire l'index… Continue reading Traitement du corpus chinois

Projet, Résumé des séances

Nuages et iTrameur -1er Contact Séance 28/11

Lors de la séance du 28 Nov, nous avons commencé la phase 2 de notre projet — l' analyse du corpus, avec les outils des nuages des mots et l'iTrameur (outil d'exploration des données). Tout d'abord, il y a plusieurs outils pour créer le nuage des mots: Wordle, Word Cloud Generator, WordItOut, etc. Ici, nous… Continue reading Nuages et iTrameur -1er Contact Séance 28/11

Projet, Résumé des séances

Compte-rendu Séance 21/11/2018

Cette semaine, nous repartons du script vu lors de la séance précedente pour le finaliser. Jusq'au maintenant, notre script contient non seulement les traitements à faire sur les URLs initialement codées en UTF-8 mais aussi la conversion (avec la commande iconv) et le traitement des URLs non UTF-8. Pour chercher l'encodage des URLs, nous avons… Continue reading Compte-rendu Séance 21/11/2018

Projet, Résumé des séances

Avancement du script tableaux et séance du 7-14 Nov

Pendant les séances du 7 et 14 Nov, nous avons continué à travailler sur le script du tableau html à partir des listes d'urls que nous avons établies sur notre thème 'Bonheur au travail'. Tout d'abord, nous avons complété tous les traitements reste à faire dans le programme des séances précédantes. En complétant le script… Continue reading Avancement du script tableaux et séance du 7-14 Nov

Résumé des séances

Compte-rendu Séance 17 et 24/10/2018

Nous repartons du script vu lors de la séance précedente pour enrichir notre tableau. Dans notre script d'origine, nous avons crée un tableau avec deux colonnes, la première contenant la numération des URLs et la deuxième les liens vers les pages de chacune d'elles. Nous avons amélioré le script pendant ces deux séances afin d'enrichir… Continue reading Compte-rendu Séance 17 et 24/10/2018

Projet

Choix du thème

Voilà voilà! Pourquoi on a choisi le syntagme "Bonheur au travail"? Nous avons beaucoup discuté par rapport au mot de notre projet, et nous avions beaucoup d'idées comme "féminisme", "espoir", "gouvernement", "cheveux gris" etc. Mais après quelques recherches, chaque mot a son inconvénient. Premièrement, nous avons parcouru les projets des anciens étudiants et ils ont… Continue reading Choix du thème

Résumé des séances

Compte-rendu Séance 26/09/2018

Cet article de notre blog est consacré à réviser tout ce qu´on a vu et appris lors de deuxième séance du cours Projet encadré et Programmation du Master 1 Traitement Automatique des Langues. Nous avons appris les types de fichiers (fichiers ordinaires, répertoires, fichiers spéciaux), structure de fichiers, types de chemins (chemin absolu et relatif)… Continue reading Compte-rendu Séance 26/09/2018

Projet

Bienvenue!

Ce blog a été créé pour la réalisation du projet « La vie multilingue des mots sur le web » du cours Programmation et Projet Encadré en Master Traitement Automatique des Langues (formation collaborée entre l’Institut National des Langues et Civilisations Orientales -INALCO, l’université Paris 10 Nanterre et l’université Sorbonne Nouvelle Paris 3). Nous sommes deux… Continue reading Bienvenue!