Techniques pour trouver des correlations dans une base de donnée?

Répondre
Partager Rechercher
Je vois 2 solutions qui dépendent un peu de ton budget temps

- Installer une version gratuite de Dataiku pour faire l'exploration de data, c'est assez rapide à prendre en main (qques heures)

- Si tu as plus de temps (et ce sera également + satisfaisant), installe un Jupyter Notebook (distrib miniconda) qui te permettra de faire tourner du Python sur browser, et fais toi qques tutos sur la librairie Pandas pour comprendre comment fonctionne un dataframe (c'est un tableau de données), et la librairie matplotlib pour faire un peu de visualisation. Pour une visu rapide des facteurs corrélés tu peux faire une matrice de corrélation c'est qques lignes de codes. Si tu veux voir quels sont les facteurs (features) qui portent le plus d'information alors en général on fait une analyse en composante principale et ensuite tu peux une fois que tu commences à formuler le problème un peu plus clairement à tester des algos de datascience un peu plus élaborés du genre clustering.
Une autre solution, qui n’est pas réservée à des professionnels :

« L’iconographie des Corrélations » est un outil simple permettant de tester d’un coup toutes les corrélations possibles, y compris les combinaisons de facteurs, d’éliminer les « fausses bonnes corrélations » (celles qui dépendent d’une tierce variable), et de détecter les corrélations masquées (celles qui paraissent faibles car la variable d’intérêt dépend de plusieurs variables indépendantes). La méthode, qui se prête aussi bien aux variables qualitatives qu’aux variables quantitatives, permet la découverte de corrélations inattendues.

Le résultat est un graphe intuitif livré à l’interprétation rapide par l’esprit humain qui le contemple.

Les corrélations « remarquables » positives sont représentées par un trait plein entre les deux variables. Les corrélations « remarquables » négatives sont représentées par un trait pointillé.

Voir une comparaison avec les autres méthodes sur un exemple simple : https://www.coryent.com/representati...sionnelle.html
Citation :
Publié par Pitit Flo -TMP
Alors qu'il n'existe pas d'outil simple et clé en main pour sortir les liens possibles entre variables de petites tables comme celles de l'OP, je suis presque déçu…
Ca existe, c'est juste payant. (et cher, généralement des formules à abonnement exclusivement, c'est la mode)
Ce domaine de compétences fait gagner énormément d'argent et tout le monde veut croquer, le partage de connaissances et le data c'est un peu antinomique.
Répondre

Connectés sur ce fil

 
1 connecté (0 membre et 1 invité) Afficher la liste détaillée des connectés