Статистика
From Wikipedia, the free encyclopedia
Статистиката е наука, която се занимава със събирането, организирането, анализа, интерпретацията и представянето на данни.[1][2][3]
В прилагането на статистиката към научни, стопански или обществени проблеми обикновено се изхожда от дадена статистическа съвкупност или статистически модел, които се подлагат на изследване. Съвкупностите могат да бъдат различни групи от хора или предмети, като „всички хора, живеещи в дадена страна“ или „всички атоми, съставляващи даден кристал“. Статистиката се занимава с всички страни на данните, включително планирането на тяхното събиране чрез разработване на статистически проучвания и експерименти.[4][5]
Когато е невъзможно да бъдат събрани данни чрез пълно преброяване, статистиците събират данни чрез разработването на специални експериментални и проучвателни извадки. Представителните извадки дават възможност изводите и заключенията в приемлива степен да се разширят от извадката към съвкупността като цяло. Дадено експериментално изследване включва извършването на измервания върху изследваната система, нейното манипулиране и след това извършване на същите измервания, за да се установи дали манипулацията е променила измерваните величини. Обратно, наблюдателните изследвания не включват експериментални манипулации.
При анализа на данните се използват два основни статистически метода – описателна статистика, която обобщава данните от извадката с използване на показатели, като средна стойност или стандартно отклонение, и изводна статистика, която извлича заключения от данните, отчитайки случайните отклонения и грешки в тях.[6] Описателната статистика най-често се занимава с две групи свойства на дадено разпределение (извадка или съвкупност): централната тенденция се стреми да опише средната или типична стойност за разпределението, докато разсейването характеризира степента, в която единиците в разпределението се отклоняват от центъра и една от друга. Теоретична основа на анализа на данните е математическата статистика, която от своя страна се базира на теорията на вероятностите, изучаваща случайните явления.
Един обичаен статистически процес включва събирането на данни, което води до проверка на връзката между две множества от статистически данни или между едно множество и синтетичните данни, извлечени от идеализиран модел. Предлага се хипотеза за статистическата връзка между двете множества данни, след което тя се сравнява като алтернатива на идеализирана нулева хипотеза, според която между тях няма никаква връзка. Отхвърлянето или опровергаването на нулевата хипотеза се постига чрез статистически проверки, които оценяват количествено смисъла, в който нулевата хипотеза може да се докаже като погрешна при зададените за проверката данни. При работата с нулева хипотеза се отчитат два основни вида грешки – от първи род (нулевата хипотеза е невярно отхвърлена, давайки фалшив положителен резултат) и от втори род (нулевата хипотеза не е отхвърлена и е пропусната действителна връзка между съвкупностите, давайки фалшив отрицателен резултат).[7]
Процесите на измерване, чрез които се получават статистически данни, също могат да създават грешки. Те обикновено се класифицират като случайни (шум) или системни, но има и други видове грешки (например, груби грешки, като описване на данни с невярна мерна единица). Наличието на пропуски в данните или на цензура може да доведе до системни грешки в оценките, като за избягването на такива проблеми са разработени специални техники.
Статистиката възниква във връзка с нуждите на емпиричната наука и се отличава от повечето клонове на математиката по своята приложна насоченост.[8][9] Най-ранните текстове, посветени на статистически методи, базирани на теорията на вероятностите, са на ислямски математици и криптографи от VIII-IX век, като Халил Фарахиди и Ал-Кинди.[10][11][12] От XVIII век математическата статистика започва да използва задълбочаващите се резултати на математическия анализ, добивайки постепенно съвременния си вид. От средата на XX век централна роля в ключовите за статистиката обработка и анализ на големи обеми данни играят компютрите с разработвания за тях специализиран статистически софтуер.[13]