Ce petit ouvrage est mon mémoire de maitrise, le sujet en était
la méthodologie de recueil de corpus à partir du web. Il s'agit de la relation d'une expérience de recueil,
il traite entre autres de l'utilisation des moteurs de recherche, de l'aspiration "ciblée" des sites.
Il comporte quelques astuces pratiques utiles pour ceux qui veulent constituer un corpus d'une certaine taille.
Pour ne pas être trop long à télécharger, il est divisé en quatre parties :
Le mémoire :(typologie des corpus, méthodologie de recueil, analyse du fonctionnement des adresses d'un site pour optimiser le recueil...).
Annexe 1 : (partielle) Détails de composition du corpus.
Annexe 2 : Technique du recueil, exemples d'emplois de logiciels.
Annexe 3 : Logiciel d'extraction d'url. (Une version provisoire de la NETtoyeuse sera prochainement disponible.)
Annexe 4 :Composition du BNC (traduction partielle de leur site).