Pour le corpus de chinois, il est impossible de le traiter dans la même façon qu'on a fait avec les autres langues, car les fichiers de dump des urls chinois ne sont pas segmentés, et comme il n'y a pas d'espace entre les mots chinois, notre script en bash ne peut malheureusement pas produire l'index… Continue reading Traitement du corpus chinois
Nuages et iTrameur -1er Contact Séance 28/11
Lors de la séance du 28 Nov, nous avons commencé la phase 2 de notre projet — l' analyse du corpus, avec les outils des nuages des mots et l'iTrameur (outil d'exploration des données). Tout d'abord, il y a plusieurs outils pour créer le nuage des mots: Wordle, Word Cloud Generator, WordItOut, etc. Ici, nous… Continue reading Nuages et iTrameur -1er Contact Séance 28/11
Compte-rendu Séance 21/11/2018
Cette semaine, nous repartons du script vu lors de la séance précedente pour le finaliser. Jusq'au maintenant, notre script contient non seulement les traitements à faire sur les URLs initialement codées en UTF-8 mais aussi la conversion (avec la commande iconv) et le traitement des URLs non UTF-8. Pour chercher l'encodage des URLs, nous avons… Continue reading Compte-rendu Séance 21/11/2018
Avancement du script tableaux et séance du 7-14 Nov
Pendant les séances du 7 et 14 Nov, nous avons continué à travailler sur le script du tableau html à partir des listes d'urls que nous avons établies sur notre thème 'Bonheur au travail'. Tout d'abord, nous avons complété tous les traitements reste à faire dans le programme des séances précédantes. En complétant le script… Continue reading Avancement du script tableaux et séance du 7-14 Nov
Compte-rendu Séance 17 et 24/10/2018
Nous repartons du script vu lors de la séance précedente pour enrichir notre tableau. Dans notre script d'origine, nous avons crée un tableau avec deux colonnes, la première contenant la numération des URLs et la deuxième les liens vers les pages de chacune d'elles. Nous avons amélioré le script pendant ces deux séances afin d'enrichir… Continue reading Compte-rendu Séance 17 et 24/10/2018
Compte-rendu Séance 10/10/2018
Suite des procédures pour faire le tableau html que nous avons vus lors de la séance précédente, nous avons continué à enrichir le tableau en ajoutant des colonnes. Pour ce faire, des nouvelles notions sont introduites. wget, curl, et lynx sont des 3 commandes pour récupérer le contenu d'un site web. - wget -lynx -dump… Continue reading Compte-rendu Séance 10/10/2018
Choix du thème
Voilà voilà! Pourquoi on a choisi le syntagme "Bonheur au travail"? Nous avons beaucoup discuté par rapport au mot de notre projet, et nous avions beaucoup d'idées comme "féminisme", "espoir", "gouvernement", "cheveux gris" etc. Mais après quelques recherches, chaque mot a son inconvénient. Premièrement, nous avons parcouru les projets des anciens étudiants et ils ont… Continue reading Choix du thème
Compte-rendu Séance 03/10/2018
Pendant la séance du 3 Oct, nous avons continué sur les notions de base et commandes de l’Unix. Tout d’abord, il existe 3 types de flux quand on saisit une commande : le flux entrant (standard input, représenté par 0), le flux sortant (standard output, représenté par 1) et le flux d’erreur (qui relève des erreurs dans… Continue reading Compte-rendu Séance 03/10/2018
Compte-rendu Séance 26/09/2018
Cet article de notre blog est consacré à réviser tout ce qu´on a vu et appris lors de deuxième séance du cours Projet encadré et Programmation du Master 1 Traitement Automatique des Langues. Nous avons appris les types de fichiers (fichiers ordinaires, répertoires, fichiers spéciaux), structure de fichiers, types de chemins (chemin absolu et relatif)… Continue reading Compte-rendu Séance 26/09/2018
Bienvenue!
Ce blog a été créé pour la réalisation du projet « La vie multilingue des mots sur le web » du cours Programmation et Projet Encadré en Master Traitement Automatique des Langues (formation collaborée entre l’Institut National des Langues et Civilisations Orientales -INALCO, l’université Paris 10 Nanterre et l’université Sorbonne Nouvelle Paris 3). Nous sommes deux… Continue reading Bienvenue!