Koreliacija

Straipsnis iš Vikipedijos, laisvosios enciklopedijos.
Peršokti į: navigaciją, paiešką

Koreliacija (arba koreliacijos koeficientas) tikimybių teorijoje ir statistikoje yra statistinis ryšys tarp kintamųjų.

Koreliacijos koeficientas – koreliacijos stiprumo matas. Jeigu dviejų kintamųjų koreliacijos koeficientas lygus nuliui, tai tie kintamieji yra statistiškai nepriklausomi.

Koreliacijos koeficientų yra keletas. Žinomiausi yra:

  • rxy – Pirsono (Pearson) tiesinės koreliacijos koeficientas
  • rS – Spirmeno (Spearman) ranginės koreliacijos koeficientas

Tiesinės koreliacijos koeficientas[taisyti | redaguoti kodą]

Tiesinės koreliacijos koeficientas būna dvejopas:

Matematinės savybės[taisyti | redaguoti kodą]

Dviejų atsitiktinių dydžių X ir Y, kurių vidurkiai yra μX ir taip:


\rho_{xy}={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E((X-\mu_X)(Y-\mu_Y)) \over \sigma_X\sigma_Y}.

Čia \mathrm{cov}(X,Y) yra dydžių X ir Y kovariacija.

Kadangi μX = E(X), σX² = E(X²) − E²(X) (ir atitinkamai tą patį galima pasakyti apie Y), tai koreliacijos koeficiento formulę galima užrašyti ir taip:

\rho_{xy}=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E^2(X)}~\sqrt{E(Y^2)-E^2(Y)}}

Kad koreliacijos koeficientas turėtų apibrėžtą reikšmę, standartiniai nuokrypiai σX ir σY turi būti baigtiniai ir nelygūs nuliui.

Koreliacijos koeficientas visada yra skaičius iš intervalo [-1; 1].

Jei tarp X ir Y egzistuojanti priklausomybė yra tiesinė, tai ρX, Y lygus 1 arba -1. Jis lygus 1, kai egzistuoja tokios konstantos a > 0 ir b, kad Y = aX + b. Jis lygus -1, kai egzistuoja tokios konstantos a < 0 ir b, kad Y = aX + b.

Reikšmių skalė[taisyti | redaguoti kodą]

Koreliacijos koeficiento reikšmių skalė
Labai stipri Stipri Vidutinė Silpna Labai silpna Nėra ryšio Labai silpna Silpna Vidutinė Stipri Labai stipri
-1 nuo -1 iki -0,7 nuo -0,7 iki -0,5 nuo -0,5 iki -0,2 nuo -0,2 iki 0 0 nuo 0 iki 0,2 nuo 0,2 iki 0,5 nuo 0,5 iki 0,7 nuo 0,7 iki 1 +1

Koreliacija ir priežastingumas[taisyti | redaguoti kodą]

Iš to, kad dviejų kintamųjų koreliacijos koeficientas nelygus nuliui, galima daryti tik tokią išvadą, jog egzistuoja statistinis ryšys, o ne koks nors priežastingumas (t. y., X nebūtinai veikia Y, nors X ir Y yra statistiškai susiję). Koreliacija, kuri tiesiogiai neatspindi priežastingumo, statistikoje vadinama „klaidingąja koreliacija“ (angl. spurious correlation).

Viena geriausių tokio teiginio iliustracijų yra pavyzdys su ledų suvartojimu ir nuskendusiųjų skaičiumi: pastebėta, jog padidėjus ledų suvartojimui, padidėja ir skenduolių skaičius, tad lyg ir norėtųsi daryti išvadą, jog ledų valgymas yra labai kenksmingas plaukikams. Šitame pavyzdyje neatsižvelgiama į svarbiausią užslėptą kintamąjį – oro temperatūrą. Vasarą būna karšta, todėl padidėja tiek ledų suvartojimas, tiek skenduolių skaičius, nes daugiau žmonių maudosi. Gali būti, jog koreliacinis ryšys yra nustatomas, o iš tikrųjų priežastingumas buvo visiškai priešingas: štai praeitame amžiuje buvo manoma, jog žmonėms yra naudinga turėti blusų, nes statistiškai buvo pastebėta koreliacija tarp žmonių sveikatos ir blusų turėjimo – blusas turėjo sveikesni žmonės. Iš tikrųjų, ryšys yra visiškai priešingas: blusos dažnai sukelia ligas, o žmogui susirgus karštine, jos nebegali gyventi žmogaus plaukuose, nes ten per karšta, todėl susirgęs žmogus blusų nebeturi.

Šiais laikais prastas koreliacijos ir priežastingumo suvokimas irgi yra dažnas, o ypač „tyrimuose“, kurie yra daromi spaudoje, norint sukelti sensaciją ir pan. JAV buvo atliktas tyrimas, kuris nustatė, jog rūkymas kenkia studentų mokslams, nes rūkantys studentai gauna mažesnius pažymius. Nepagalvota, jog pagrindinė tokios koreliacijos priežastis gali būti tokia, kad rūkantys studentai yra tokie studentai, kurie ir šiaip mokslams skiria mažiau dėmesio, o gal kaip tik, jie rūko tik todėl, jog nesiseka moksluose?