RECUEIL D'UN CORPUS ÉLECTRONIQUE À PARTIR DU WEB

Corpus de franšais contemporain constitué à partir de données numérisées préexistantes.

Ce petit ouvrage est mon mémoire de maitrise, le sujet en était la méthodologie de recueil de corpus à partir du web. Il s'agit de la relation d'une expérience de recueil, il traite entre autres de l'utilisation des moteurs de recherche, de l'aspiration "ciblée" des sites. Il comporte quelques astuces pratiques utiles pour ceux qui veulent constituer un corpus d'une certaine taille.

Pour ne pas être trop long à télécharger, il est divisé en quatre parties :


puce  Le mémoire :(typologie des corpus, méthodologie de recueil, analyse du fonctionnement des adresses d'un site pour optimiser le recueil...).

puce  Annexe 1 : (partielle) Détails de composition du corpus.

puce  Annexe 2 : Technique du recueil, exemples d'emplois de logiciels.

puce  Annexe 3 : Logiciel d'extraction d'url. (Une version provisoire de la NETtoyeuse sera prochainement disponible.)

puce  Annexe 4 :Composition du BNC (traduction partielle de leur site).


Retour page d'accueil