Aller à la page... |
Techniques pour trouver des correlations dans une base de donnée?
Suivre Répondre |
|
Partager | Rechercher |
|
Il n'y avait pas des logiciels justement avec des IA qui trouvaient des relations tous seuls?
|
27/03/2019, 10h43 |
|
Alpha & Oméga
|
J'ai utlisé KNIME pour faire ce genre de truc.
Sinon dans le genre j'ai commencé à faire joujou avec Glueviz mais pas sur des vrais projets. Tant qu'à faire installe Anaconda, comme ça t'aura Spyder (environnement/ide python avec package scientifique) et d'autres trucs sympas prêts à l'utilisation. Sinon SAS ça sert exactement à ça aussi, mais j'ai souvenir (ça remonte) d'un truc très laid. Et si |
27/03/2019, 11h04 |
|
Assurancetourix |
Voir le profil public |
Trouver plus de messages par Assurancetourix |
Alpha & Oméga
|
Ah j'oubliais un truc. Pour la représentation graphique / Dashboard, tu peux essayer de jouer un peu avec Google Data Studio (gratuit, en béta) qui a un vaste choix de format comme fichier source (même une spreadsheet ! ).
L'outil il en sait rien de ce que l'utilisateur trouve pertinent hein. Faut lui dire. Anaconda je ne vois pas l'intérêt si l'utilisateur ne fait pas de Python. C'est comme lui filer Databricks. |
27/03/2019, 11h07 |
|
Alpha & Oméga
|
Citation :
Si tes données de base sont assez propres/homogène et que tu n'as pas besoin d'inventer/calculer de nouveaux paramètres complexes... Son premier example: Citation :
|
27/03/2019, 11h11 |
|
Assurancetourix |
Voir le profil public |
Trouver plus de messages par Assurancetourix |
Assurancetourix |
Voir le profil public |
Trouver plus de messages par Assurancetourix |
Assurancetourix |
Voir le profil public |
Trouver plus de messages par Assurancetourix |
|
En tout cas elle donne envie ta base de données. Si jamais tu peux partager, je suis preneuse.
|
27/03/2019, 11h49 |
|
Alpha & Oméga
|
Citation :
Sinon On ne te demandera jamais de penser à tout dès le début. Tu vas d'abord regarder ce qui te semble couler de source et vérifier tes hypothèses en premier lieu. Au bout d'un moment tu auras forcément des instants "Hey mais pourquoi ça c'est comme ça ?" et tu vas creuser. Et théoriquement on peut creuser vachement profondément. Tu parle de pleine lune en rigolant mais parfois quand tu ne trouve pas de corrélation tu commence à penser en dehors des sentiers battus et y a des moments assez WTF quand tu tombe sur une corrélation impensable. Anecdote perso : Par exemple, à l'époque où je bossais encore dans le F2P on avait remarqué qu'effectivement et sans surprise, la période de noël était celle où on faisait le plus de thunes sur l'année. Mais paradoxalement, bien que c'était la période où les joueurs dépensaient le plus c'était aussi celle où ils jouaient le moins. Et sur la période post-noël on perdait plus ou moins 10% des joueurs qui ne revenaient pas après les vacances (Juillet-Aout avait le même effet, 10% des joueurs ne revenaient pas). Alors je ne sais pas si c'est encore le cas aujourd'hui et ça dépend aussi des jeux. Mais on avait trouvé ça assez intéressant à l'époque de pouvoir confirmer que les vacances avaient un effet "sevrage du MMO" bien réel. On a aussi l'effet météo. On avait moins de joueurs online quand il faisait beau que quand y avait un temps de merde. Pour en revenir au fait de creuser, c'est un peu le danger aussi. On peut parfois se perdre dedans tellement c'est prenant. Alors quand tu le fais à titre perso ça passe mais au boulot faut mettre "temps passé VS résultats" dans la balance et parfois, même si c'est frustrant, on arrête de creuser parce que ça vaut pas le coup. Par contre, comme c'est un data set que t'as récupéré et que tu n'as pas accès directement à la source, n'oublie pas que tu vas manquer pas mal d'information et de contexte. C'est l'un des gros pièges de l'analyse de donnée. Partir sur des conclusions avec les data que tu as sans prendre aussi en compte que ce que tu n'as pas est une erreur classique. Y a une histoire assez connue dans le milieu de la data (dont je ne fais absolument pas partie mais je bosse avec eux régulièrement) liée au biais du survivant. Tiens la page Wikipedia en français. La partie dont on parle beaucoup en data c'est celle sur les avions de la seconde guerre mondiale. Citation :
Dernière modification par Jyharl ; 27/03/2019 à 12h46. |
27/03/2019, 12h18 |
|
|
Citation :
Mon métier est de toute façon lié a l'analyse, mais je ne suis pas un pro du BI/MI/Data (je devrais m'y former, c'est tellement passionnant), et j'aime bien le coté artisanal de la chose. C'est juste qu'avec l'évolution des technologies (cf le thread évolution du travail sur l'agora), j'étais persuadé que les IA (ou plutôt les algos) arrivaient a maintenant trouver des corrélations et les présenter aux humains, qui alors font l'interprétation et décident si le facteur est valable et actionnable. La je crois que je vais me faire une petit base Access et basta, je ferais une interface pour sélectionner la catégorie que je veux analyser et je manipulerai pour voir s'il y a des paramètres significatifs. Mais j;aurais bien aimé demander cela a une IA |
27/03/2019, 13h01 |
|
|
Je complète un peu ce qui s’est dit en citant Lisrel : https://en.m.wikipedia.org/wiki/LISREL . C’est l’outil le plus efficace que j’ai pu utiliser dans une problématique « j’ai des données et j’en fait quoi ?! ».
Sinon, si tu as des donnés et que tu as des questions précises : tu auras des approches possibles différentes... qui passeront le plus souvent par de la normalisation/agrégation/nettoyage de données. Si ce genre de jeu de données intéresse des gens : pas mal de données sont « publiées » par les états. Ici pour la France par exemple : https://www.data.gouv.fr/fr/datasets...a-circulation/ . |
27/03/2019, 22h15 |
|
Caniveau Royal |
Voir le profil public |
Trouver plus de messages par Caniveau Royal |
|
Y a des outils en Python pour faire ce genre de recherche et de trouvaille. Ça demande pas mal de temps, et si tu ne connais pas Python ça peut prendre encore un peu plus de temps. Mais une matrice de corrélation, c'est une ligne de code une fois les données sous le bon format.
R, ou SAS, peuvent apporter les mêmes éléments si tu es plus familier avec ceux-là. Un exemple rapide en 2 mn de google-fu: https://datascience.stackexchange.co...ix-with-pandas |
28/03/2019, 12h55 |
|
|
Sauf que la fonction pca fait partie du package FactomineR, qu'il faut installer en plus de R (et R studio si tu souhaites ajouter une interface un peu plus amicale, il en existe d'autres, Eclipse par exemple). Ca implique une mini formation sur R pour comprendre la logique de fonctionnement, moi j'ai suivi ce doc mais il est un peu ancien maintenant, y a peut être mieux. Ensuite y a de la doc ciblée sur FactomineR (qui est un package français, donc la doc existe en français).
|
28/03/2019, 12h59 |
|
Pitit Flo -TMP |
Voir le profil public |
Trouver plus de messages par Pitit Flo -TMP |
Suivre Répondre |
Connectés sur ce fil1 connecté (0 membre et 1 invité)
Afficher la liste détaillée des connectés
|