Loading AI tools
З Вікіпедії, вільної енциклопедії
Помилки першого роду (англ. type I errors α errors, false positives) та помилки другого роду (англ. type II errors β errors, false negatives) — поняття математичної статистики та її прикладних застосувань, які виникають під час перевірки статистичних гіпотез. Дані поняття часто використовуються в різних галузях науки і техніки, коли йдеться про ухвалення «бінарного» рішення (так/ні) на основі якогось критерію (тесту, перевірки, вимірювання), який з деякою ймовірністю може давати помилковий результат. Якщо істинна гіпотеза помилково відкидається, то ця помилка називається помилкою першого роду. Якщо помилково приймається хибна гіпотеза — це помилка другого роду.
Ця стаття потребує істотної переробки. (7 жовтня 2024) |
Нехай дано вибірку з невідомого розподілу , і поставлена бінарна задача перевірки статистичних гіпотез:
де — нульова гіпотеза, а — альтернативна гіпотеза. Припустимо, що заданий статистичний критерій
що зіставляє кожній реалізації вибірки одну з гіпотез, які маємо. Тоді можливі чотири ситуації:
У другому і четвертому випадку говорять, що відбулася статистична помилка, і її називають похибкою першого і другого роду відповідно.
Істинна гіпотеза | |||
---|---|---|---|
Результат застосування критерію |
правильно прийнята | неправильно прийнята (Похибка другого роду) | |
неправильно знехтувана (Похибка першого роду) |
правильно знехтувана |
Як видно з вищенаведеного визначення, похибки першого і другого роду є взаємно-симетричними, тобто якщо поміняти місцями гіпотези и , то похибки першого роду перетворяться на похибки другого роду і навпаки. Проте, в більшості практичних ситуацій плутанини не відбувається, оскільки прийнято вважати, що нульова гіпотеза відповідає стану «за умовчанням» (природному, найбільш очікуваному стану речей) — наприклад, що обстежена людина здорова, або що проходить через рамку детектора металлу пасажир не має заборонених металевих предметів. Відповідно, альтернативна гіпотеза позначає протилежну ситуацію, яка зазвичай трактується як менш імовірна, неординарна, така, що вимагає якої-небудь реакції.
З урахуванням цього похибку першого роду часто називають помилковою тривогою, помилковим спрацьовуванням — наприклад, аналіз крові показав наявність захворювання, хоча насправді людина здорова, або детектор металу видав сигнал тривоги, відреагувавши на металеву пряжку ременя. Через можливості помилкових спрацьовувань не вдається повністю автоматизувати боротьбу з багатьма видами погроз. Як правило, ймовірність помилкового спрацьовування корелює з імовірністю пропуску події (похибки другого роду). Тобто, чим чутливіша система, тим більше небезпечних подій вона детектує і, отже, запобігає. Але при підвищенні чутливості неминуче зростає і ймовірність помилкових спрацьовувань. Тому занадто чутливо (параноїдально) настроєна система захисту може звиродніти в свою протилежність і привести до того, що побічна шкода від неї перевищуватиме користь.
Відповідно, похибку другого роду іноді називають пропуском події — людина хвора, але аналіз крові цього не показав, або у пасажира є холодна зброя, але рамка детектора металу не виявила (наприклад, через те, що чутливість рамки відрегульована на виявлення тільки дуже масивних металевих предметів).
Ступінь чутливості системи захисту повинен бути компромісом між імовірністю похибок першого і другого роду. Де саме знаходиться точка балансу, залежить від оцінки ризиків обох видів помилок.
Ймовірність похибки першого роду при перевірці статистичних гіпотез називають рівнем значущості і зазвичай позначають грецькою буквою (звідси назва -errors).
Ймовірність похибки другого роду не має якоїсь особливої загальноприйнятої назви, на папері позначається грецькою буквою (звідси -errors). Проте з цією величиною тісно зв'язана інша, що має велике статистичне значення — потужність критерію. Вона обчислюється за формулою . Таким чином, чим вище потужність, тим менше імовірність зробити похибку другого роду.
Обидві ці характеристики зазвичай обчислюються за допомогою так званої функції потужності критерію. Зокрема, ймовірність похибки першого роду є функцією потужності, обчисленою при нульовій гіпотезі. Для критеріїв, заснованих на вибірці фіксованого обсягу, ймовірність похибки другого роду є одиниця мінус функція потужності, обчислена в припущенні, що розподіл спостережень відповідає альтернативній гіпотезі. Для послідовних критеріїв це також правильно, якщо критерій зупиняється з ймовірністю одиниця (при даному розподілі з альтернативи).
У статистичних тестах зазвичай доводиться йти на компроміс між прийнятним рівнем похибок першого і другого роду. Часто для ухвалення рішення використовується порогове значення, яке може варіюватися з метою зробити тест суворішим або, навпаки, м'якшим. Цим пороговим значенням є рівень значущості, яким задаються при перевірці статистичних гіпотез. Наприклад, у випадку детектора металу, підвищення чутливості приладу приведе до збільшення ризику похибки першого роду (помилкова тривога), а пониження чутливості — до збільшення ризику похибки другого роду (пропуск забороненого предмету).
У завданні радіолокаційного виявлення повітряних цілей, перш за все в системі протиповітряної оборони, помилки першого і другого роду, з формулюванням «помилкова тривога» і «пропуск цілі» є одним з основних елементів як теорії, так і практики побудови радіолокаційних станцій. Ймовірно, це перший приклад послідовного застосування статистичних методів в цілій технічній області.
Поняття помилок першого і другого роду широко використовуються в області комп'ютерів і програмного забезпечення.
Наявність слабких місць в обчислювальних системах призводить до того, що доводиться, з одного боку, вирішувати задачу збереження цілісності комп'ютерних даних, а з іншого боку — забезпечувати нормальний доступ легальних користувачів до цих даних (див. комп'ютерна безпека). Moulton (1983, с. 125) відзначає, що в даному контексті можливі такі небажані ситуації:
Помилки першого роду відбувається, коли механізм блокування/фільтрації спаму помилково класифікує легітимне email-повідомлення як спам і перешкоджає його нормальній доставці. Тоді як більшість антиспам-алгоритмів здатні блокувати/фільтрувати великий відсоток небажаних email-повідомлень, набагато важливішим завданням є мінімізувати число «помилкових тривог» (помилкових блокувань потрібних повідомлень).
Похибка другого роду відбувається, коли антиспам-система помилково пропускає небажане повідомлення, класифікуючи його як «не спам». Низький рівень таких помилок є індикатором ефективності антиспам-алгоритму.
Поки не вдалося створити антиспамову систему без кореляції між ймовірністю похибок першого і другого роду. Ймовірність пропустити спам у сучасних систем коливається в межах від 1 % до 30 %. Ймовірність помилково відкинути легітимне повідомлення — від 0,001 % до 3 %. Вибір системи і її настройок залежить від умов конкретного одержувача: для одних одержувачів ризик втратити 1 % хорошої пошти оцінюється як незначний, для інших же втрата навіть 0,1 % є неприпустимою.
Поняття похибки першого роду також використовується, коли антивірусне програмне забезпечення помилково класифікує нешкідливий файл як вірус. Неправильне виявлення може бути викликане особливостями евристики, або неправильною сигнатурою вірусу в базі даних. Подібні проблеми можуть відбуватися також і з антитроянськими і антишпигунськими програмами.
При пошуку в базі даних, до похибок першого роду можна віднести документи, які видаються пошуком, не зважаючи на їхню іррелевантність (невідповідність) пошуковому запиту. Помилкові спрацьовування характерні для повнотекстового пошуку, коли пошуковий алгоритм аналізує повні тексти всіх даних документів, що зберігаються в базі, і намагається знайти відповідності одному або декільком термінам, заданим користувачем в запиті.
Більшість помилкових спрацьовувань обумовлені складністю природних мов, багатозначністю слів: наприклад, «home» може позначати як «місце мешкання людини», так і «кореневу сторінку вебсайту». Число подібних помилок може бути понижене шляхом використання спеціального словника. Проте, це рішення відносне дороге, оскільки подібний словник і розмітка документів (індексування) повинні створюватися експертом.
Різноманітні алгоритми розпізнавання нерідко видають похибки першого роду. Програмне забезпечення оптичного розпізнавання текстів може розпізнати букву «a» за ситуації, коли насправді зображено декілька крапок, які використовуваний алгоритм розцінив як «a».
Похибки першого роду регулярно зустрічаються щодня в комп'ютерних системах попереднього огляду пасажирів в аеропортах. Встановлені в них детектори призначені для запобігання проносу зброї на борт літака; проте, рівень чутливості в них часто настроюється настільки високо, що багато раз за день вони спрацьовують на незначні предмети, такі як ключі, пряжки ременів, монети, мобільні телефони, гати в підошвах взуття тощо (див. виявлення вибухових речовин, детектори металу).
Таким чином, співвідношення числа помилкових тривог (ідентифікація пересічного пасажира як терориста) до правильних спрацьовувань (виявлення дійсно заборонених предметів) дуже велике.
Похибки першого і другого роду є великою проблемою в системах біометричного сканування, що використовують розпізнавання райдужної оболонки або сітківки ока, рис обличчя і т. д. Такі системи сканування можуть помилково ототожнити когось з іншою особою, «відомою» системі, інформація про яку зберігається в базі даних (наприклад, це може бути особа, що має право входу в систему, або злочинець, який розшукується, тощо). Протилежною помилкою буде нездатність системи розпізнати легітимного зареєстрованого користувача, або пізнати підозрюваного в злочині.[1]
В медичній практиці є суттєва відмінність між скринінгом і тестуванням:
Наприклад, в більшості штатів в США обов'язкове проходження новонародженими процедури скринінгу на оксифенілкетонурію і гипотіреоз, крім інших природжених аномалій. Не зважаючи на високий рівень похибок першого роду, ці процедури скринінгу вважаються за доцільне, оскільки вони істотно збільшують ймовірність виявлення цих розладів на найранішій стадії.[2] Прості аналізи крові, що використовуються для скринінгу потенційних донорів на ВІЛ і гепатит, мають істотний рівень похибок першого роду; проте в арсеналі лікарів є набагато точніші (і, відповідно, дорожчі) тести для перевірки, чи дійсно людина інфікована яким-небудь із цих вірусів.
Можливо, найбільш широкі дискусії викликають похибки першого роду в процедурах скринінгу на рак грудей (мамографія). У США рівень похибок першого роду в мамограмах досягає 15 %, це найвищий показник у світі.[джерело?][3] Найнижчий рівень спостерігається в Нідерландах, 1 %.[джерело?][4]
Похибки другого роду є істотною проблемою в медичному тестуванні. Вони дають пацієнтові і лікареві помилкове переконання, що захворювання відсутнє, тоді як насправді воно є. Це часто приводить до недоречного або неадекватного лікування. Типовим прикладом є довіра результатам кардіотестування при виявленні коронарного атеросклерозу, хоча відомо, що кардіотестування виявляє тільки ті затруднення кровотоку в коронарній артерії, які викликані стенозом.
Похибки другого роду викликають серйозні і важкі для розуміння проблеми, особливо коли шукана умова є широко розповсюдженою. Якщо тест з 10%-вим рівнем похибок другого роду використовується для обстеження групи, де ймовірність «істинно-позитивних» випадків становить 70 %, то багато негативних результатів тесту виявляться помилковими.
Похибки першого роду також можуть викликати серйозні і важкі для розуміння проблеми. Це відбувається, коли шукана умова є рідкісною. Якщо рівень похибок першого роду в тесті складає один випадок на десять тисяч, але в тестованій групі зразків (або людей) ймовірність «істинно-позитивних» випадків складає в середньому один випадок на мільйон, то більшість позитивних результатів цього тесту будуть помилковими.[5]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.