Bonheur du tal

Traitement du corpus chinois

December 28, 2018 talbonheur

Pour le corpus de chinois, il est impossible de le traiter dans la même façon qu'on a fait avec les autres langues, car les fichiers de dump des urls chinois ne sont pas segmentés, et comme il n'y a pas d'espace entre les mots chinois, notre script en bash ne peut malheureusement pas produire l'index… Continue reading Traitement du corpus chinois

Nuages et iTrameur -1er Contact Séance 28/11

December 3, 2018December 3, 2018 talbonheur

Lors de la séance du 28 Nov, nous avons commencé la phase 2 de notre projet — l' analyse du corpus, avec les outils des nuages des mots et l'iTrameur (outil d'exploration des données). Tout d'abord, il y a plusieurs outils pour créer le nuage des mots: Wordle, Word Cloud Generator, WordItOut, etc. Ici, nous… Continue reading Nuages et iTrameur -1er Contact Séance 28/11

Projet, Résumé des séances

Compte-rendu Séance 21/11/2018

November 27, 2018 talbonheur

Cette semaine, nous repartons du script vu lors de la séance précedente pour le finaliser. Jusq'au maintenant, notre script contient non seulement les traitements à faire sur les URLs initialement codées en UTF-8 mais aussi la conversion (avec la commande iconv) et le traitement des URLs non UTF-8. Pour chercher l'encodage des URLs, nous avons… Continue reading Compte-rendu Séance 21/11/2018

Projet, Résumé des séances

Avancement du script tableaux et séance du 7-14 Nov

November 19, 2018November 19, 2018 talbonheur

Pendant les séances du 7 et 14 Nov, nous avons continué à travailler sur le script du tableau html à partir des listes d'urls que nous avons établies sur notre thème 'Bonheur au travail'. Tout d'abord, nous avons complété tous les traitements reste à faire dans le programme des séances précédantes. En complétant le script… Continue reading Avancement du script tableaux et séance du 7-14 Nov

Résumé des séances

Compte-rendu Séance 17 et 24/10/2018

November 5, 2018 talbonheur

Nous repartons du script vu lors de la séance précedente pour enrichir notre tableau. Dans notre script d'origine, nous avons crée un tableau avec deux colonnes, la première contenant la numération des URLs et la deuxième les liens vers les pages de chacune d'elles. Nous avons amélioré le script pendant ces deux séances afin d'enrichir… Continue reading Compte-rendu Séance 17 et 24/10/2018

Résumé des séances

Compte-rendu Séance 10/10/2018

October 23, 2018October 23, 2018 talbonheur

Suite des procédures pour faire le tableau html que nous avons vus lors de la séance précédente, nous avons continué à enrichir le tableau en ajoutant des colonnes. Pour ce faire, des nouvelles notions sont introduites. wget, curl, et lynx sont des 3 commandes pour récupérer le contenu d'un site web. - wget -lynx -dump… Continue reading Compte-rendu Séance 10/10/2018

Projet

Choix du thème

October 21, 2018 talbonheur

Voilà voilà! Pourquoi on a choisi le syntagme "Bonheur au travail"? Nous avons beaucoup discuté par rapport au mot de notre projet, et nous avions beaucoup d'idées comme "féminisme", "espoir", "gouvernement", "cheveux gris" etc. Mais après quelques recherches, chaque mot a son inconvénient. Premièrement, nous avons parcouru les projets des anciens étudiants et ils ont… Continue reading Choix du thème

Résumé des séances

Compte-rendu Séance 03/10/2018

October 9, 2018October 9, 2018 talbonheur

Pendant la séance du 3 Oct, nous avons continué sur les notions de base et commandes de l’Unix. Tout d’abord, il existe 3 types de flux quand on saisit une commande : le flux entrant (standard input, représenté par 0), le flux sortant (standard output, représenté par 1) et le flux d’erreur (qui relève des erreurs dans… Continue reading Compte-rendu Séance 03/10/2018

Résumé des séances

Compte-rendu Séance 26/09/2018

October 9, 2018October 9, 2018 talbonheur

Cet article de notre blog est consacré à réviser tout ce qu´on a vu et appris lors de deuxième séance du cours Projet encadré et Programmation du Master 1 Traitement Automatique des Langues. Nous avons appris les types de fichiers (fichiers ordinaires, répertoires, fichiers spéciaux), structure de fichiers, types de chemins (chemin absolu et relatif)… Continue reading Compte-rendu Séance 26/09/2018

Projet

Bienvenue!

September 25, 2018October 9, 2018 talbonheur

Ce blog a été créé pour la réalisation du projet « La vie multilingue des mots sur le web » du cours Programmation et Projet Encadré en Master Traitement Automatique des Langues (formation collaborée entre l’Institut National des Langues et Civilisations Orientales -INALCO, l’université Paris 10 Nanterre et l’université Sorbonne Nouvelle Paris 3). Nous sommes deux… Continue reading Bienvenue!