Dans ce MorDev, nous allons voir comment automatiser l’extraction de contenu ciblé depuis un site Web. Nous appliquerons cette méthode au site TripAdvisor, afin de constituer un corpus d’écrit touristique populaire de quelques millions de mots.
Pour ce faire, nous allons utiliser quelques outils basiques de ligne de commande, et réaliser progressivement un petit programme de quelques lignes.
Quelques connaissances en ligne de commande, programmation et expressions régulières seraient un plus, mais ne constituent nullement un pré-requis ! Par contre, les participants auront besoin d’un ordinateur avec une connexion Internet et une ligne de commande Unix (déjà présente sur Mac OS et Linux − pour Windows, il faudra préalablement installer Cygwin).