Ingestion
Scrapers Python par source. OCR Mistral pour PDF. Chunking par paragraphes (~600 tokens, overlap 100). Chaque chunk conserve sa source, sa date et son URL d'origine.
La console est fonctionnelle. Le refus est signalé plutôt qu'une extrapolation.
| Domaine | Phase 1 · indexé | Phase 2 · roadmap |
|---|---|---|
| Économie | insee · rci · wikipedia · 20 chunks | IEDOM · Lettre de l'Institut · data.gouv.fr Martinique |
| Institutions | ctm · rci · wikipedia · 165 chunks | Préfecture · Grand Port Maritime · ARS Martinique |
| Culture | la1ere · rci · wikipedia · 91 chunks | Bibliothèque Schœlcher · Parc naturel régional |
| Données publiques | france-antilles · la1ere · rci · wiki-martinique · wikipedia · 4 418 chunks | INSEE statistiques · Observatoire CTM · ADEME Antilles |
Fond cartographique : découpage communal officiel (IGN), 34 communes. La teinte indique le volume documentaire par commune, détecté par un gazetteer (34 entrées, désambiguïsation contextuelle). Survolez pour lire, cliquez pour ouvrir le détail.
Scrapers Python par source. OCR Mistral pour PDF. Chunking par paragraphes (~600 tokens, overlap 100). Chaque chunk conserve sa source, sa date et son URL d'origine.
Embeddings bge-m3 (1024 dimensions), stockés dans PostgreSQL + pgvector avec index HNSW. Recherche sémantique top-k, puis re-classement bge-reranker-v2. Seuil 0.55 sous lequel la base refuse.
Claude Sonnet 4.5 (température 0.2) contraint à l'extraction fidèle. Chaque phrase produite cite ses chunks par un marqueur numéroté. Refus documenté quand aucun chunk ne dépasse le seuil.
Biais de corpus vers la presse France-Antilles. Latence d'ingestion 2–6h entre publication et indexation. Pas de vérification factuelle au-delà de la fidélité à la source. Couverture partielle des institutions publiques.
Usage transformatif au titre de la Directive européenne 2019/790 (exception TDM : fouille de textes et de données). Citations limitées à 3 phrases maximum, toujours accompagnées d'un lien de retour vers l'article source. Aucun contenu intégral n'est republié. La base produit un index interrogeable, pas une archive alternative.
Retrait sous 72h sans justification requise. Contact : guillaumebolivard@gmail.com. Un journal des demandes de retrait est tenu et sera rendu public anonymement (Phase 2).
Madinina.kb est un instrument territorial construit par Guillaume Bolivard depuis Ducos. Le projet vise à montrer qu'une base de connaissances sérieuse sur la Martinique peut être bâtie avec des outils contemporains (embeddings, recherche vectorielle, synthèse LLM contrainte) tout en restant honnête sur sa couverture et ses limites.