From Wikipedia, the free encyclopedia
Estatistikan, histograma balio ezberdin asko hartzen dituen aldagai kuantitatibo (aldagai jarraitu) bati buruzko datu-multzo handiak (adibidez, pertsona askoren altuerak, autobus batek egunero ibilbide bat egiteko behar duen denbora minututan urte osoan zehar) irudikatzeko erabiltzen den datu-diagrama mota bat da. Datuak tartetan bildu eta maiztasun-banaketa osatu ondoren, maiztasunen araberako zutabeak altxatuz osatzen da. Histograma terminoa lehen aldiz Karl Pearson-ek erabili zuela esaten da.[1] Histogramatik maiztasun-poligono izeneko diagrama eratortzen da. Biztanleria-piramidea ere histogramak baliatuz eratzen da. Ez da diagrama egokia datu kopurua txikiegia denean (20 bat baino gutxiago); kasu horietarako puntu diagrama egokiagoa da. Estatistikan gehien erabiltzen den datu-diagrametako bat da, datuen ezaugarri estatistiko nagusienak (zentroa, sakabanatzea, ...) hautemateko aukera ematen baitu. Dena den, histogramaren parametroak (tarteak, ...) aldatzean, haren interpretazioa asko alda daitekeela hartu behar da kontuan. Halaber, datu-multzo zenbait alderatzeko aukera ematen du, dagozkien histogramak bateratuz. Dagokion ikusizko interpretazio bisualaz haraindi, histogramak datuen hurbilketarako tresna matematiko eta informatiko garrantzitsu dira, hala nola datuen hurbilketan eta datu-konpresioan.[2] Horretaz gainera, industrian Kaoru Ishikawak asmatutako kalitaterako oinarrizko zazpi lanabesetako bat da.[3][4]
Historigrama hitzaren etimologia ez dago guztiz argi. Batzuetan esaten da Antzinako grezieratik datorrela: ἱστός (histos) - "zutik dagoen edozer"- ; eta γράμμα (gramma) - "marrazkia, grabatua, idatzia"- elkartuz. Esaten da, baita ere, terminoa Karl Pearson-ek sartu zuela 1891ean, "diagrama historikoa" (historical diagram) kontzeptutik eratorrita.[5]
Histogramak erakusten duen informazio argiena zentroari buruzkoa da; zentroak datuak zein balioren inguruan biltzen diren adierazten du eta histogramako gailurrari erreparatuz hautematen da. Estatistikan aztertzen den beste ezaugarri garrantzitsu bat sakabanatzea da; horri buruz, histogramak datuak nondik nora doazen erakusten du, baina ez du sakabanatzearen neurririk ematen. Histograma zenbait batera irudikatzen direnean, ordea, sakabanatze-mailak alderatu egin daitezke. Alborapena, ordea, histograman aise hauteman daitezkeen ezaugarria da; datuak ezker edo eskuin aldera alboraturik dauden edo muga batekin topo egiten duten erakusten du. Kurtosi izeneko ezaugarria ere esplora daiteke, banaketa kanpai itxurakoa edo laua den hain zuzen. Moda edo gailur anitz dituen histogramak datuetan heterogeneotasuna dagoela erakusten du, ezaugarri ezberdinetako datu-multzoak batera jarri direla hain zuzen.
Histograma maiz alderatzen da eredu moduan hartzen den banaketa normalarekin. Banakuntza normala kanpai itxurakoa da eta guztiz simetrikoa; bere propietateak oso erabilgarriak dira estatistika-tresnak garatzean. Hori dela eta, garrantzitsua da histogramaren itxura aztertzea (kanpai itxurakoa eta simetrikoa den), datuek banaketa horretara egokitzen diren aztertzeko. Banakuntza normalaren itxura izateak ez du esan nahi histograma normala edo datuak normalak direnik, datuak adierazpen matematiko zehatza duen eta maiz erabiltzen den probabilitate-eredu horretara egokitzen direla baizik, guztiz ohikoak diren eta banaketa normalera egokitzen ez diren datu-multzoak egoten baitira orobat. Gainera, badira simetria eta kanpai-itxura erakusten dituzten baina banaketa normalaren araberakoak ez diren datu-multzoak; hain zuzen ere, banaketa normalarekiko doitasunak azterketa matematiko zorrotza eskatzen baitu, histogramaren azterketak horretan laguntzen badu ere.
Honako irudi hauetan ohiko histogramen interpretazio egiten da:[6]
Jatorriko datuak tarteetan biltzean, histogramak informazio-galera dakar datu haien aldean. Datuak zenbat eta tarte gutxiagotan biltzen diren, orduan eta informazio-galera handiagoa dago. Tarte kopuru handia ezartzen denean, berriz, informazio galera txikia da baina histogramaren helburua, datuak modu grafiko batean laburbiltzea alegia, kolokan gera daiteke. Beraz, histogramako tarte-kopurua finkatzeko oreka bat bilatu behar da, beraz, datuak behar bezala laburbildu eta informazio gehiegi ez galtzeko helburuen artean. Tarte kopuru egoki batek informazio behar den mailan laburbiltzen du informazioa, datuen egitura modu argian azalaraziz. Aurreko atalean adierazi bezala, 5-15 bitartekoa izaten da histograma baterako tarte kopuru egokiena; aldi berean, zenbat eta datu gehiago jaso, orduan eta tarte kopuru gehiago eratu behar direla ere gomendatzen da. Irizpide hauei jarraiki, badira formulak datu kopuru baterako tarte kopuru zehatza ematen dutenak. Nolanahi ere, tarte kopurua muga onargarrien baitan izanda ere, tarte kopuruan egindako aldaketa txiki batek interpretazioa guztiz aldatu dezakeela ere frogatu da. Eragozpen horiek gainditzeko eta bereziki histogramak dakarren informazio galdera saihesteko, orobat datuak tartetan biltzen dituen adar eta orrien diagrama izenekoa ere garatu da aukera moduan, jatorriko datuak atxikitzen dituena.
Tarte kopuru finko baterako ere, tarteen mugak non finkatzen diren ere eragin nabarmena du histogramaren itxuran eta interpretazioan. Ondoko irudian datu multzo baterako aukerako bi histograma desberdin eratu dira, bietan tarte kopurua berdina bada ere. Lehenengo histograman neurriak 68-72 tartearen inguruan biltzen direla ondorioztatzen da; bigarrenean, berriz, datu gehienak 54-66 tartean kokatzen dira. Tarteen aukera desberdinetarako interpretazioak duen ezegonkortasun hori histogramaren oztopotzat jo daiteke.[7]
Erregela eta formula zenbait garatu dira histogramako tarte kopurua edo tarte zabalera finkatzeko. Sturges erregelak datuetarako eredu eredu normal bat ezartzen du.[8] Scott erregelak oinarri teoriko sendoagoak ditu, histogramak datuek jatorri duten dentsitate-funtzioari buruzko errorean oinarrituta, banaketa normala erreferentzia harturik.[9] Freedman-Diaconis erregela oinarri estatistiko sendoak ditu eta ez du aurrez datuetarako inongo eredurik ezartzen. Doane erregela Sturgesen erregelaren hobekuntza bat da, datuetarako eredu egokiena normala ez denean. k tarte kopurua kalkulatzen duten formulen kasuan zenbaki ez osoa ateratzen denean, hurrengo zenbaki osora biribiltzen da.
Erregelaren izena | Formula | Erabilera |
---|---|---|
Sturges erregela | n, datu-kopurua | |
Rice erregela | n, datu-kopurua | |
Scott erregela | h tartearen zabalera finkatzen du; n, datu-kopurua; s, desbideratze estandarra | |
Freedman-Diaconis erregela | n, datu-kopurua; IQ, kuartil arteko ibiltartea | |
Doane erregela | k, Pearsonen kurtosi-koefizientea; n, datu-kopurua | |
- | Oinarri teorikorik gabekoa, baina batzuetan erabilia. | |
Argitasunagatik komeni izaten da tartearen zabalera konstantea izatea, baina batzuetan, histograman zehar maiztasunik gabeko hutsuneak sor ez daitezen, tarteak bateratzea, zabaltzea eta estutzea komeni da. Tarte-zabalera konstanterik gabe eratzen diren histogramak bereziki alborapen nabarmena duten datu-multzoetan aplikatzen dira. Beste batzuetan, hasierako eta bukaerako tarteak mugatu gabe uztea gomendatzen da (adibidez, >100, <25). Zabalera ez konstanteko egoera horietan guztietan aldaketa batzuk egin behar dira histograma eratzeko, zutabeek datuen trinkotasuna edo dentsitatea era egokian irudika dezaten. Zehatzago, tarte bakoitzeko zutabearen altuera, a alegia, honela kalkulatu behar da, n tarteko maiztasuna, N datu kopuru totala eta h tarte zabalera izanik:
Adibidez, espezie bateko animalien altuerak jasotzen dituen honako maiztasun-banaketa honetan horrela kalkulatuko litzateke dentsitatea:
Tartea | n (maiztasun absolutua) | Dentsitatea (a=n/Nh) |
---|---|---|
0-3 | 4 | 0.055 |
3-4 | 2 | 0.083 |
4-5 | 5 | 0.208 |
5-10 | 5 | 0.041 |
10-30 | 8 | 0.016 |
24 |
x aldagai jarraitu bateko balioen esparruan jasotako datuetarako, honela kalkulatzen da h(x) histogramaren funtzioa, x balioen tarte bakoitzari maiztasun absolutua, dagokion zutabearen altuera alegia, esleitzen diona: balio horri dagokion tartearen erdipuntua eta w tartearen zabalera izanik:[10][11]
h(x) balioetatik aise eratortzen dira f(x) maiztasun erlatiboa eta dentsitatea:
Adibide moduan, 10-20 tarterako aldagaiaren x=12 balioak duen dentsitatea kalkulatuko da aurreko adierazpenaz, datuak (5,8,10,13,15,16,19,20,22) izanik:
Datuak (xi) | 5 | 8 | 13 | 15 | 16 | 19 | 20 | 22 | |
xi-10 | -10 | -7 | -2 | 0 | 1 | 4 | 5 | 7 | |
-5 ≤ (xi-10) < 5? | ez (0) | ez (0) | bai (1) | bai (1) | bai (1) | bai (1) | bai (1) | ez (0) | h(x)=5 |
Tartearen zabalera 10 eta datu kopurua 8 izanik, dentsitatea hau izango da:
Dentsitate-histograma zutabeen altueratzat maiztasun absolutu eta erlatiboen ordez dentsitateak hartzen dituena da. Dentsitateekin, zutabe bakoitzeko azaleraren balioak tarte horretan suertatzeko probabilitatea adierazten du eta histograma osoko azalera 1 da, probabilitate-banakuntzetan bezala.[12]
Dentsitateak kalkulatzeko, ti tarte bakoitzeko ni maiztasun absolutua N×hi balioarekin zatitu behar da, hi tarteko zabalera izanik. Gogoratu behar da, aurreko atal batean erakutsi bezala, tarte-zabalerak desberdinak direnean, nahitaezkoa dela dentsitate-histograma eratzea, zutabeko altuerak adierazgarriak izan daitezen.
Dentsitate-histograma probabilitate banaketa jarraitu jakin batekin alderatu ahal izateko erabiltzen da, bi kasuetan azpiko azalera 1 izateaz gainera, tarte bateko probabilitatea azpiko azalerak ematen baitu. Dentsitate-histogramak probabilitate-banaketa jarraitzen badu, probabilitate-banaketa datuen eredu moduan baliatu ahal izango da. Horretaz gainera, dentsitate-histogramak dentsitate-zenbatespen moduan ere erabil daitezke; hain zuzen ere, histogramaren definizio matematikoa dentsitate-zenbatespenerako erabiltzen diren kernel-funtzio mota sinple bat besterik ez da.[10] Beste kernel-funtzioetan oinarrituta egindako dentsitate-zenbatespenak, finean datuak itxuratu edo leundu egiten dituztenak, histogramaren aukera hobe moduan ere erabiltzen dira.
Maiztasun-poligonoa histogramatik eratortzen den datu-diagrama bat da, tarte bakoitzeko erdipuntuetan zutabeen altuerak lotuz eratzen dena. Aukera moduan, tarteko erdipuntuak lotu ordez, tarte-ertzak lotzea proposatu da, alboko zutabe-altueren batezbestekoa hartuz ordenatu moduan.[13] Histograman bezalaxe, maiztasun absolutuekin, erlatoekin eta dentsitateekin era daitezke. Datu-multzoak alderatzeko dira egokiak bereziki, irudi berean maiztasun-poligono batzuk batera marraztu baitaitezke; histogramak, ordea, ezin izaten dira batera jarri, batak bestea estaltzen baitu. Badu histogramaren aldean abantaila teoriko bat: histograma ez da funtzio jarraitua, mailakakoa baizik[10]; maiztasun poligonoa, berriz, jarraitua da, histograman oinarritutako interpolazio lineal bati esker.[14]
Maiztasun-banaketa baten irakurketa sinple eta eroso baterako, zabalera konstanteko histogramak dira egokienak. Batzuetan, ordea, zabalera konstanteko tarteek hutsuneak utz ditzakete daturik ez dagoenean. Aldi berean, zabalera konstanteko tarte batean datu asko suertatzen direnean, tarte horretan datuak nola banatzen diren ezkutuan geratzen da. Aukera moduan, n-tigramak garatu dira, maiztasun bereko zabalera ezberdineko tarteak dituzten histogramak alegia. Horiek eratzeko, aski da tarte bakoitzean bildu nahi den datu-kopurua zehaztea eta hortik tarteak osatzen joatea, beti maiztasun berdinekin. Tarte zabalerak ezberdinak suertatuko direnez, histogramako zutabeak eratzeko, dentsitateak kalkulatu beharko dira aurreko atalean bezala.
Datu-multzo bakar baten ezaugarriak begiztatzeko helburuaz gainera, datu-multzo zenbaiten ezaugarriak alderatzeko ere erabil daitezke, histogramak edo horietatik eratorritako maiztasun-poligonoak batera jarriz. Horren adibide garbiena biztanleria-piramideak dira, non gizonen eta emakumeen adinak histograma horizontal banatan irudikatzen diren grafiko berean, adin-tarte berdinetarako. Datu multzo desberdinen alderaketa behar bezala egitearren, tarteak berdinak izan behar dira diagrama guztietan; horretaz gainera, zutabeen altuerak maiztasun erlatibo edo dentsitateen arabera finkatzea komeni da irizpide orokor moduan, datu-multzo bakoitzaren datu-kopuruaren eragina baztertu eta horrela tarte bakoitzeko zutabeak datu-multzo guztietarako era homogeneoan alderatu ahal izateko.
Histograma maiztasun metatuekin, maiztasun bakunekin kalkulatu ordez, eratu bada (aurreko zutabeak metatuz, alegia), histograma metatua dela esaten da. Histograma metatuak oso erabilgarriak dira kuantilak kalkulatu eta aztertzeko eta datu-banaketa zenbait batera aztertzeko. Histograma metatutik ojiba izeneko lerroa era daiteke, tarte muga - maiztasun metatua puntuak lotuz.[15]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.