Récupération de données sur Internet complexifiée pour un de mes clients

LoupeComme indiqué dans ce billet, Onliners Services se spécialise au fil du temps dans la récupération de données sur Internet. Depuis la fin février, je travaille pour un chasseur de bien qui avait pour habitude de parcourir tous les biens des sites d’annonces immobilières et de recopier à la main les données dans un fichier Excel pour les traiter ensuite plus facilement. Ce travail de titan n’est évidemment pas viable à long terme. Le rythme effréné des publications d’annonces sur les sites ne permet pas d’être exhaustif.

Ce chasseur de bien m’a alors contacté, grâce à l’un de mes blogs, pour savoir si je ne pourrais pas faire l’extraction des données qui l’intéresse automatiquement. Après quelques échanges sur son besoin, nous avons décidé de travailler ensemble sur ce thème. Nous travaillons, pour le moment, uniquement avec un des leader du marché français.

Mon traitement récupère donc les données utiles et les enregistre dans un fichier Excel qui sera envoyé quotidiennement à mon client. Tous les jours il ne recevra que le différentiel avec le fichier précédent: les biens modifiés, ajoutés ou supprimés. Cela lui permettra d’être très réactif sur les nouvelles annonces ou celles dont le prix de vente a changé.

Mais voilà, hier matin, alors que je fignolais le traitement pour n’avoir aucun rejet (annonce que mon traitement ne saurait pas lire), toutes les annonces tombaient en erreur car le prix n’était pas récupéré. Après une étude plus approfondie, je me suis rendu compte que si le site était trop sollicité, le prix n’était plus affiché sous forme de texte mais encodé dans une image. Pour une utilisation normale du site, aucune différence, c’est transparent. Mais pour un traitement comme le mien cela complique tout. Il est en effet beaucoup plus compliqué de lire automatiquement une image que du texte.

Je suis donc en train de rechercher une solution afin d’offrir le service promis à mon client. Je vous tiendrai au courant sur les avancées de cette problématique…

5 Réponses vers «Récupération de données sur Internet complexifiée pour un de mes clients»

  1. Lecture de texte dans une image en PERL « Onliners Services dit :

    [...] de texte dans une image en PERL Comme indiqué dans ce billet précédent, j’avais un souci pour extraire des données d’un site car certaines de ces données [...]

  2. Ojal dit :

    Le gros hic de tput ça, c’est quand le ou les sites web en question feront des évolutions… Une grande partie du développement peut alors être remis en question…

  3. hfisselier dit :

    @Ojal > Oui, tout à fait. Mais a t’on vraiment le choix? Avez-vous une méthode plus appropriée?

  4. Nicolas dit :

    Petite question : Est-ce légal de prendre ces annonces pour les retraiter ? Si le site amis ce système en place, c’est qu’ils ont sans doute des raisons de se protéger. Ils ont donc du le prévoir dans la licence.

  5. dafotec récupération de données dit :

    Cet ebook peut aussi aider http://www.dafotec.fr/livre-blanc-recuperation-de-donnees.pdf

Ecrire un commentaire