Koreliacija
Koreliacija (arba koreliacijos koeficientas) tikimybių teorijoje ir statistikoje – statistinis ryšys tarp kintamųjų.
Koreliacijos koeficientas – koreliacijos stiprumo matas. Jeigu dviejų kintamųjų koreliacijos koeficientas lygus nuliui, tai tie kintamieji yra statistiškai nepriklausomi.
Koreliacijos koeficientų yra keletas. Žinomiausi yra:
- rxy – Pirsono (Pearson) tiesinės koreliacijos koeficientas
- rS – Spirmeno (Spearman) ranginės koreliacijos koeficientas
Tiesinė koreliacija
[redaguoti | redaguoti vikitekstą]Laikoma, kad tarp dviejų atsitiktinių dydžių x ir y yra tiesinė koreliacija, jei pirmajam didėjant, antrasis turi tendenciją didėti arba mažėti apytikriai pagal tiesinę priklausomybę , kur a ir b yra teigiami ir neigiami skaičiai.[1] Tiesinę koreliaciją apibūdina tiesinės koreliacijos koeficientas, kuris būna dvejopas:
- rxy – imties koreliacijos koeficientas
- ρxy – generalinės aibės koreliacijos koeficientas
Matematinės savybės
[redaguoti | redaguoti vikitekstą]Dviejų atsitiktinių dydžių X ir Y, kurių vidurkiai yra μX ir taip:
Čia yra dydžių X ir Y kovariacija.
Kadangi μX = E(X), σX² = E(X²) − E²(X) (ir atitinkamai tą patį galima pasakyti apie Y), tai koreliacijos koeficiento formulę galima užrašyti ir taip:
Kad koreliacijos koeficientas turėtų apibrėžtą reikšmę, standartiniai nuokrypiai σX ir σY turi būti baigtiniai ir nelygūs nuliui.
Koreliacijos koeficientas visada yra skaičius iš intervalo [-1; 1].
Jei tarp X ir Y egzistuojanti priklausomybė yra tiesinė, tai ρX, Y lygus 1 arba -1. Jis lygus 1, kai egzistuoja tokios konstantos a > 0 ir b, kad Y = aX + b. Jis lygus -1, kai egzistuoja tokios konstantos a < 0 ir b, kad Y = aX + b.
Reikšmių skalė
[redaguoti | redaguoti vikitekstą]Labai stipri | Stipri | Vidutinė | Silpna | Labai silpna | Nėra ryšio | Labai silpna | Silpna | Vidutinė | Stipri | Labai stipri |
-1 | nuo -1 iki -0,7 | nuo -0,7 iki -0,5 | nuo -0,5 iki -0,2 | nuo -0,2 iki 0 | 0 | nuo 0 iki 0,2 | nuo 0,2 iki 0,5 | nuo 0,5 iki 0,7 | nuo 0,7 iki 1 | +1 |
Koreliacija ir priežastingumas
[redaguoti | redaguoti vikitekstą]Iš to, kad dviejų kintamųjų koreliacijos koeficientas nelygus nuliui, galima daryti tik tokią išvadą, jog egzistuoja statistinis ryšys, o ne koks nors priežastingumas (t. y., X nebūtinai veikia Y, nors X ir Y yra statistiškai susiję). Koreliacija, kuri tiesiogiai neatspindi priežastingumo, statistikoje vadinama „klaidingąja koreliacija“ (angl. spurious correlation).
Viena geriausių tokio teiginio iliustracijų yra pavyzdys su ledų suvartojimu ir nuskendusiųjų skaičiumi: pastebėta, jog padidėjus ledų suvartojimui, padidėja ir skenduolių skaičius, tad lyg ir norėtųsi daryti išvadą, jog ledų valgymas yra labai kenksmingas plaukikams. Šitame pavyzdyje neatsižvelgiama į svarbiausią užslėptą kintamąjį – oro temperatūrą. Vasarą būna karšta, todėl padidėja tiek ledų suvartojimas, tiek skenduolių skaičius, nes daugiau žmonių maudosi. Gali būti, jog koreliacinis ryšys yra nustatomas, o iš tikrųjų priežastingumas buvo visiškai priešingas: štai praeitame amžiuje buvo manoma, jog žmonėms yra naudinga turėti blusų, nes statistiškai buvo pastebėta koreliacija tarp žmonių sveikatos ir blusų turėjimo – blusas turėjo sveikesni žmonės. Iš tikrųjų, ryšys yra visiškai priešingas: blusos dažnai sukelia ligas, o žmogui susirgus karštine, jos nebegali gyventi žmogaus plaukuose, nes ten per karšta, todėl susirgęs žmogus blusų nebeturi.
Šiais laikais prastas koreliacijos ir priežastingumo suvokimas irgi yra dažnas, o ypač „tyrimuose“, kurie yra daromi spaudoje, norint sukelti sensaciją ir pan. JAV buvo atliktas tyrimas, kuris nustatė, jog rūkymas kenkia studentų mokslams, nes rūkantys studentai gauna mažesnius pažymius. Nepagalvota, jog pagrindinė tokios koreliacijos priežastis gali būti tokia, kad rūkantys studentai yra tokie studentai, kurie ir šiaip mokslams skiria mažiau dėmesio, o gal kaip tik, jie rūko tik todėl, jog nesiseka moksluose?
Šaltiniai
[redaguoti | redaguoti vikitekstą]- ↑ Petrė Grebeničenkaitė, Erika Tumėnaitė. Matematikos korepetitorius namuose. – Kaunas: Šiaurės Lietuva, 2002. – 233 p. ISBN 9986-705-90-8