Duomenų pergilinimas

Straipsnis iš Vikipedijos, laisvosios enciklopedijos.
Raidžių skaičius JAV rengiamame taisyklingos rašysenos konkurse naudotuose žodžiuose koreliuoja su mirčių skaičiumi nuo nuodingo voro įkandimų toje pat šalyje.

Duomenų pergilinimas (angl. data dredging arba angl. p-hacking) – manipuliacija statistiniais duomenimis, kuria gaunami „statistiškai patikimai“ atrodantys, tačiau iš tiesų tokiais nesantys dėsningumai bei koreliacijos. Ji taip pat vadinama daugelio palyginimų klaida (angl. multiple comparisons problem).

Įprastinė statistika remiasi požiūriu, jog duomenų aibėje ieškoma kokio nors vieno tikėtino dėsningumo. Jei toks dėsningumas stebimas, statistiniai metodai patikrina to pastebėjimo patikimumą, tačiau tik esant iš anksto sutartai klaidingos išvados tikimybei (moksle įprastai P < 0,05). Klaidos tikimybė vienam konkrečiam dėsningumui yra maža.[1]

Tačiau didesnėje duomenų aibėje paprastai būna daug visiškai atsitiktinių dėsningumų, todėl tikrinant įvairius galimus dėsningumus galima rasti ir tokių, kurie konkrečiam duomenų rinkiniui be pagrindo atrodo statistiškai patikimi. Taip yra todėl, jog bandant tūkstantį ar daugiau kartų, 5 % klaidos tikimybė nebėra maža, ir šansai, jog bent kartą iš tūkstančio tokia klaida pasitaikys, yra visiškai realūs. Kartais galima rasti visiškai nelogiškų sąsajų, pavyzdžiui, kad mirčių nuo nuodingo voro įkandimo valstybėje skaičius koreliuoja su toje šalyje vykstančiose taisyklingos rašysenos varžybose naudojamo žodžio ilgiu.

Žinomi atvejai[redaguoti | redaguoti vikitekstą]

  • 1981 prestižiniame žurnale Nature buvo paskelbtas straipsnis, teigiantis, jog didesnis vitamino β, karotino (antioksidantas) vartojimas ženkliai sumažina vėžio susirgimo tikimybę rūkantiems. Analizėje naudotiems duomenims tai atrodo labai įtikinamai. Tačiau vėlesni tyrimai naudojant pakartotinai surinktus duomenis parodė, jog šiuo atveju karotinas visiškai nepadeda, kai kuriose duomenų aibėse stebėta net priešinga koreliacija.
  • Kitoje studijoje, išspausdintoje žurnale Independent, buvo rašoma, jog padidintas vitamino C vartojimas gerokai sumažina ankstyvos mirties dėl širdies ligų tikimybę. „Vaisų valgymas perpus sumažina ankstyvos mirties galimybę“, entuziastingai rašė autoriai. Nors iš panaudotų duomenų taip ir atrodė, vėlesni, nepriklausomi tyrimai šių išvadų nepatvirtino.[1]

Šiuo metu epidemiologai naudoja dideles duomenų bazes, kuriose dažnai ieškoma bet kokių galimų sąsajų. Tačiau dalis jų gali būti atsitiktinės, specifinės būtent šiai analizei naudotai duomenų aibei, ir nepasitvirtinti kitose. P < 0,05 reikšmingumo testas neretai vis dar klaidingai aiškinamas teigiant, jog bet kurios gautos išvados bus klaidingos tik 1 iš 20 atvejų. Kuomet duomenų rinkinyje iš tiesų yra tik kelios tikros asociacijos, bet galima ieškoti ir daugybės kitų, klaidingais gali pasirodyti net ir dauguma „atrastų dėsningumų“.[1]

Išvengimo būdai[redaguoti | redaguoti vikitekstą]

Carlo Emilio Bonferroni (1892-1960), italų matematikas
  • Akivaizdžiausias būdas išvengti šios klaidos yra patikrinti išvadų patikimumą su duomenimis, kurie nebuvo naudoti atrandant pastebėtą sąsają.
  • Naudojama taip pat vadinamoji Bonferroni pataisa, padalinant slenkstinę P reikšmę iš bandytų palyginimų skaičiaus. Pavyzdžiui, jei tyrimų projekte buvo tikrinta 20 hipotezių su klaidinga nulinės hipotezės (dėsningumas atsitiktinis) atmetimo tikimybe 0,05, kiekviena šių hipotezių turi būti tikrinamos su daug mažesne klaidingo atmetimo tikimybe 0,05 / 20 = 0,0025. Bonferroni korekcija yra labai konservatyvus ir atsargus testas, pripažįstantis tik visiškai akivaizdžius dėsningumus. Bonferroni pataisą galima naudoti ir pasikliautiniems intervalams.

Šaltiniai[redaguoti | redaguoti vikitekstą]

  1. 1,0 1,1 1,2 Wasserstein, Ronald L.; Lazar, Nicole A. (2016-04-02). „The ASA Statement on p-Values: Context, Process, and Purpose“. The American Statistician. Informa UK Limited. 70 (2): 129–133. doi:10.1080/00031305.2016.1154108. ISSN 0003-1305.