Better Place

Better Place propose le téléchargement et la recherche sur des dossiers de marchés publics.

Les Dossiers de Consultation des Entreprises (DCE) sont récupérés depuis PLACE avec scraper-place. Seuls les dossiers postés sur PLACE après novembre 2017 sont disponible.

J'ai développé cet outil afin d'améliorer la transparence de la commande publique en France, mais il peut intéresser des entreprises et des administrations qui pourront trouver des exemples de DCE.

Données

Les nouveaux dossiers sont scrapés tous les matins puis publiés sur https://betterplace.info/.

Chaque dossier est dupliqué sur AWS Glacier par précaution.

La liste des dossiers est contenue dans une base PostgreSQL. Cette base est sauvegardée de manière hebdomadaire sur AWS S3.

L'extraction du contenu est effectuée avec Apache Tika. Pour pouvoir parser les gros dossiers (certains peuvent dépasser le giga-octet !) une instance AWS EC2 t2.large est utilisée pour cette étape.

Le contenu extrait est indexé par ElasticSearch.

Depuis sa mise en production (octobre 2017), 49374 dossiers on été indexés pour un total de 420 Go (en octobre 2018). Cela représente environ 100 dossiers par jour ouvré et 35 Go par mois. L'index ElasticSearch pèse 6 Go.

Si vous êtes intéressé pour obtenir un copie de mon historique (dossiers / base d'index) vous pouvez scraper le site ou prendre contact avec moi sur GitHub.

Les coûts des services nécessaires pour le stockage et la mise en ligne de cet index se montent à :

serveur online.net (serveur web + elasticsearch) : 15€/mois
AWS Glacier : 2€/mois
AWS EC2 : 1 x t2.large x 10mn/jour = 30c/mois
Nom de domaine : 12€/an

Code source

La documentation et le code source de scraper-place et Better Place sont tenus à jour sur Github.

Merci de signaler les problèmes éventuellement rencontrés par un issue sur GitHub.

Conditions d'accès et de réutilisation

Vous pouvez accéder aux informations publiées par ce site de comme bon vous semble.

Vous pouvez faire ce que vous voulez du code source de Better Place et de scraper-place. Toutefois, si vous réutilisez mon travail, je vous serais reconnaissant d'ajouter à la réutilisation un lien vers ce site.

Les DCE sont soumis aux éventuelles conditions de réutilisation fixées par les administrations les ayant produits. De plus, les conditions de réutilisation sont encadrées par le code des relations entre le public et l'administration (livre III, titre II). En particulier "la réutilisation des informations publiques est soumise à la condition que ces dernières ne soient pas altérées, que leur sens ne soit pas dénaturé et que leurs sources et la date de leur dernière mise à jour soient mentionnées".

Pareillement, les métadonnées en provenance de PLACE sont soumises aux conditions de réutilisation fixées par la direction des achats de l'Etat.