- OpenStreetMap: Base de données géographiques (incluant cartes vectorielles, rues, etc.) – Plusieurs formats natifs dont XML (50Go) – conversion dans plusieurs formats possibles. D’autres données sur GeoNames.
- Wikipedia: toute l’encyclopédie et ses images, sous la forme d’un Dump exploitable (20Go). De façon plus générales, issue du projet Freebase, nous avons wikidata sur lequel repose wikipédia et qui contient une structure sémantique.
- OpenProductData: Tout ce qui contient un code barre (GTIN) est ici, Dump MySQL, avec ou sans photo (60Mo/2.6Go)
- OpenFoodFacts: une base de données de plus de 50Kproduits alimentaires en français au format MongoDB ou CSV (220Mo)
- OpenLibrary: Plus d’un million de livres stockés dans une base de données, de quoi lire… lire… lire ! (7Go)
- Data.gouv.fr: Des centaines de tables sur les codes postaux, des statistiques, des codes… c’est assez indescriptible tellement il y a de données sur la France… La version US c’est ici.
- WorldFactBook: des cartes stratégiques, la liste des membres de chaque gouvernement de chaque pays, etc. – tout cela contenu dans cette base de données de la CIA. On peut même avoir les données des années précédentes (jusqu’en 2000).
- DMOZ: C’est l’Open Directory Project – le plus grand annuaire de sites web téléchargeable sous la forme d’une base de données – un bon point de départ pour miner automatiquement de l’info sur le web. 4 Millions de sites web, plus d’un million de catégories… 90 langues. Fermé le 14 mars 2017.
- StackExchange: le plus grand réseau de sites anglophones de questions et réponses sur de nombreux sujets: 320 bases de données à télécharger.
- IMDb: Le cinéma, les séries, les acteurs… Plusieurs tables à jour, toutes téléchargeables (mais en anglais). Pour du français, vous pouvez miner Allocine.
- MusicBrainz: la même chose qu’IMDb, mais pour la musique !
- Ensembl: le génome humain et bien plus encore.
- ImageNet: on en a parlé ici, mais c’est la plus grande base de données qui relier photos d’objets et description.