edutecnica

Correlazione

               

Mentre la regressione determina una funzione, la correlazione conduce a misurare la forza del legame tra due variabili.

Si definisce coefficiente di correlazione lineare di Bravais-Pearson il rapporto tra la covarianza di X e di Y e il prodotto degli scarti quadratici medi (dev.std.) di X e di Y.

correlazione tra variabili

Se chiamiamo come al solito lo scarto x'i=(xi-μ) ricordando che

    e          si ha

L'indice di correlazione r ha le seguenti proprietà

• è un valore dimensionale e non dipende dalle dimensioni di X o Y
• ha un valore compreso tra -1 e +1 : -1 ≤ r ≤ +1
• se r > 0 la correlazione è diretta o positiva
• se r < 0 la correlazione è inversa o negativa
• se r=1 la correlazione è perfetta diretta
• se r=-1 la correlazione è perfetta inversa
• se r=0 non esiste correlazione lineare, potrebbe però esistere una correlazione curvilinea, cioè le due variabili potrebbero essere legate da una relazione di tipo parabolico o di tipo esponenziale. etc.

Tenendo presente l'espressione delle due rette di regressione:

y=a+bx
x=c+dy

un'altra importante proprietà del coefficiente di correlazione lineare è

quindi, r è la media geometrica dei due coefficienti di regressione, preceduta da '+' se o due coefficienti sono positivi e dal segno '-' se i due coefficienti sono negativi, infatti se eseguiamo il prodotto dei coefficienti di regressione lineare.



coefficiente di determinazione

     

Consideriamo la varianza della variabile Y

Contrassegnando con i valori di Y teorici per ciascun xi e contrassegnando con yi i valori rilevati della Y, per ciascun valore xi dal grafico si vede come sia dunque

elevando al quadrato e sommando per n punti

E' possibile dimostrare in base al metodo dei minimi quadrati che il termine indicato è nullo. Si ha in definitiva

La varianza della variabile Y si decompone in una parte detta varianza spiegata, in quanto la variabilità della Y è dovuta alla dipendenza di Y da X; e in una parte detta varianza non spiegata in quanto la variabilità della Y non dipende dalla X ma da altri fattori.

Come si può notare

          coefficiente di determinazione  

Il coefficiente di determinazione, indica quale frazione di varianza totale è dovuta alla dipendenza lineare tra Y ed X, cioè indica quanto il modello di regressione lineare è aderente al fenomeno empirico che si sta studiando. Tanto più r2 è prossimo ad 1 tanto maggiore è la 'bontà' del modello lineare.

  Esempio  : nella tabella vi sono le rilevazioni del profitto e delle spese ( in mln.di Euro) sostenute da n=6 aziende calcolare il coefficiente di regressione e valutare il leagame tra le due variabili.

azienda profitto spese
A 50 20
B 60 40
C 30 14
D 85 50
E 95 60
F 40 26

Dalla tabella successiva

azienza x y x’ y’ x’y’ (x’)2 (y’)2
A 50 20 -10 -15 150 100 225
B 60 40 0 5 0 0 25
C 30 14 -30 -21 630 900 441
D 85 50 25 15 375 625 225
E 95 60 35 25 875 1225 625
F 40 26 -20 -9 180 400 81
tot 360 210 2210 3250 1622

applicando il metodo dei minimi quadrati si ottiene

le rette di regressione sono

              con

La correlazione può essere ritenuta molto buona, inoltre è r2=0,9265 dunque il 92,65% della varianza di Y è spiegata dalla dipendenza con la X. Il legame tra le due variabili può essere considerato forte.