Appel aux analystes de donnees... :)

Uvea · 08/02/2020, 22h03

Hello J0Liens,

J'ai besoin de votre aide pour faire mes devoirs.

Blague a part - je suis en train d'ecrire une these et je me replonge dans des vieux cours de statistiques. Je bataille sur la partie data science ou je n'y connais pas grand chose. PhD et chercheurs de tous poils, j'ai besoin de vous.

Voici un exemple simple. Sur ma recherche, j'ai obtenu des informations comme suit:

	Software de moins de 10 ans	Software de plus de 10 ans
Licences permanentes (paiement en 1 fois)	5	14
Licences sous forme d'abonnement (paiement mensuel)	13	9

Sur la base de ces donnees, je voudrais valider mathematiquement l'hypothese:

H1: Les software recents sont plus susceptibles d'etre vendus sous forme d'abonnements.
H2: Les software plus anciens sont plus susceptibles d'etre vendus sous forme de licences permanentes.

Les donnees corroborent les hypothese. Si je fais un test de χ², j'obtiens χ² = 4.44681 , degre de liberte = 1, p = 0.03497 (ce qui prouve qu'il y a une correlation car p < 0.05). Cela dit, je viens simplement de prouver que "l'age du software est correle avec le type de paiement", mais ca ne dit pas que l'hypothese H1 ou H2 est valide.

En effet, si j'interchange les valeurs comme ceci...:

	Software de moins de 10 ans	Software de plus de 10 ans
Licences permanentes (paiement en 1 fois)	13	9
Licences sous forme d'abonnement (paiement mensuel)	5	14

... la valeur de χ²ou de p ne change pas, mais la conclusion de l'hypothese devient fausse. La conclusion est meme completement inverse.

Quel modele statistique dois-je utiliser pour prouver ce que je souhaite prouver? Les mathematiques en elles-memes ne me font pas peur et je m'y retrouve en me plongeant dedans, par contre je ne sais pas quel outil utiliser. Je suis en train de perdre un temps fou a essayer de comprendre quel outil statistique resout quel type de probleme, et plutot que d'y passer la nuit je remets mon destin entre vos mains.

Merci d'avance pour votre aide...

Uv'

Faerune Stormchild · 08/02/2020, 22h25

Pour que l'une ou l'autre devienne validable, à mon avis il faut agglomérer autour la population des utilisateurs qui réellement existe. Au moins une proposition de population remarquable incontournable.
Si tu restes dans l'univers de tes échantillons tu leur fais dire n'importe comment quoi, oui.

Dans ce cas qu'est ce que ça pourrait être, cette constante?

Uvea · 08/02/2020, 22h30

Citation :

Publié par Faerune Stormchild

Pour que l'une ou l'autre devienne validable, à mon avis il faut agglomérer autour la population des utilisateurs qui réellement existe. Au moins une proposition de population remarquable incontournable.
Si tu restes dans l'univers de tes échantillons tu leur fais dire n'importe comment quoi, oui.

Dans ce cas qu'est ce que ça pourrait être, cette constante?

Je ne suis pas sur de comprendre...

Pour donner un peu de contexte: j'ai demande a des vendeurs et des acheteurs de software:
- l'age du software en question
- le modele de paiement qu'ils ont soit vendu ou achete.

J'ai recu 41 reponses, et ces reponses sont decoupees comme je l'ai montre dans le 1er tableau. Est-ce que ca aide?

Ce que je voudrais faire, c'est d'une maniere ou d'une autre demontrer qu'il n'y a pas seulement une correlation entre les colonnes du tableau, mais egalement une correlation entre les lignes du tableau. Je voudrais que le modele mathematique que j'utilise prouve que la ligne A est significativement plus petite que la ligne B dans la colonne A, et que la ligne A est significativement plus grande que la ligne B dans la colonne B.

En gros, et si je reflechis a haute voix, ca voudrait dire qu'il faudrait faire un calcul de correlation similaire, mais sur la transpose de la matrice?

Edit: nan ca donne la meme valeur de p si je transpose la matrice... Grmlml.

Edit 2: Je crois que j'ai compris ce que tu souhaites dire. En gros, tu dis que j'ai prouve l'hypothese et qu'il faut simplement que je remette la formule mathique dans son contexte d'application pour lui donner sa signification.

Uvea · 09/02/2020, 14h23

Probleme resolu.

Citation :

The PPMC is not able to tell the difference between dependent variables and independent variables. For example, if you are trying to find the correlation between a high calorie diet and diabetes, you might find a high correlation of .8. However, you could also get the same result with the variables switched around. In other words, you could say that diabetes causes a high calorie diet. That obviously makes no sense. Therefore, as a researcher you have to be aware of the data you are plugging in. In addition, the PPMC will not give you any information about the slope of the line; it only tells you whether there is a relationship.

C'est donc bien le contexte qui donne son sens a la correlation.

Faerune Stormchild Alpha & Oméga	Pour que l'une ou l'autre devienne validable, à mon avis il faut agglomérer autour la population des utilisateurs qui réellement existe. Au moins une proposition de population remarquable incontournable. Si tu restes dans l'univers de tes échantillons tu leur fais dire n'importe comment quoi, oui. Dans ce cas qu'est ce que ça pourrait être, cette constante?
08/02/2020, 22h25

Appel aux analystes de donnees... :)

Connectés sur ce fil