Il existe de nombreuses définitions du Datamining. On le prend comme signifiant l'application d'algorithmes d'apprentissage et de méthodes statistiques à des ensembles de données du monde réel.
Le Datamining est le processus de sélection, d'exploration et de modélisation de grandes quantités de données afin de découvrir des modèles ou des relations inconnus qui fournissent un résultat clair et utile à l'analyste de données. Inventé au milieu des années 1990, le terme « Data mining » est aujourd'hui devenu synonyme de « découverte de connaissances dans les bases de données » qui, comme proposé par Fayyad et al., a mis l'accent sur le processus d'analyse des données plutôt que sur l'utilisation de méthodes d'analyse spécifiques.
Les problèmes d'exploration de données sont souvent résolus en utilisant une mosaïque de différentes approches tirées de l'informatique, y compris les bases de données multidimensionnelles, le machine learning, le soft computing et la visualisation de données, et à partir de statistiques, y compris les techniques de test d'hypothèses, de regroupement, de classification et de régression. Le métier de l'exploration de données réside dans le choix et la combinaison appropriés de ces techniques pour résoudre efficacement et de manière fiable un problème donné.
Il existe de nombreux domaines d'application du Datamining tels que la science, l'ingénierie, les affaires, la santé, etc. Dans notre étude, nous allons travailler sur des données de santé.
Dans la santé, l'exploration de données s'est avérée efficace dans des domaines tels que la médecine prédictive. Celle-ci est devenue aujourd'hui presque inconcevable sans l'utilisation des données personnelles numérisées. L'accès à ces données massives met en place des « centres de données cliniques », et permet des analyses multiparamétriques corrélant les données épidémiologiques, médicotechnique, issues des capteurs, de recherche clinique, voire de recherche fondamentale. De nouveaux outils mis en place sur les Big Data offrent une prédictibilité et permettent d'orienter la médecine vers des axes thérapeutiques novateurs. Ces axes rejoignent le concept de la Médecine 4P : Prédictive et Préventive - agissant par anticipation avant l'apparition de symptômes – et Personnalisée et Participative - adaptant interventions et traitements aux caractéristiques et réactions individuelles.