Loading AI tools
статистичні міри продуктивності правила бінарної класифікації З Вікіпедії, вільної енциклопедії
Чутли́вість (англ. sensitivity) та специфі́чність (англ. specificity) — це широко вживані в медицині статистичні міри продуктивності тестів[en] бінарної класифікації:
Цю статтю написано занадто професійним стилем зі специфічною термінологією, що може бути незрозумілим для більшості читачів. (грудень 2020) |
Терміни «істинно позитивний», «хибно позитивний», «істинно негативний» та «хибно негативний» позначують наявність або відсутність якогось стану, та правильність цієї класифікації. Наприклад, якщо станом є захворювання, то «істинно позитивний» означає «правильно діагностований як хворий», «хибно позитивний» означає «неправильно діагностований як хворий», «істинно негативний» означає «правильно діагностований як не хворий», а «хибно негативний» означає «неправильно діагностований як не хворий». Таким чином, якщо чутливість тесту складає 98 %, а специфічність — 92 %, то його рівень хибно негативних становить 2 %, а рівень хибно позитивних — 8 %.
У діагностичному тестуванні чутливість є мірою того, наскільки добре тест може визначати істинно позитивних. Чутливість також називають повнотою (англ. recall), коефіцієнтом влучання (англ. hit rate), та істиннопозитивним рівнем (англ. true positive rate). Вона є відсотком або часткою істинно позитивних серед усіх зразків, що мають заданий стан (істинно позитивних та хибно негативних). Чутливість тесту може допомагати показувати, наскільки добре він може класифікувати зразки, що мають цей стан. Високе значення чутливості означає, що тест правильно класифікує зразок без заданого стану як негативний частіше, ніж тест, що має нижчу чутливість.
У діагностичному тестуванні специфічність є мірою того, наскільки добре тест може визначати істинно негативних. Специфічність також називають вибірністю (англ. selectivity) та істиннонегативним рівнем (англ. true negative rate), і вона є відсотком або часткою істинно негативних серед усіх зразків, що не мають певного стану (істинно негативних та хибно позитивних). Наявність в тесту високого значення специфічності означає, що він правильно класифікує зразки із заданим станом частіше за тест із низькою специфічністю.
У «доброму» діагностичному тесті (такім, що намагається точно визначати людей, що мають певний стан) хибно позитивні повинні бути дуже низькими. Тобто, люди, яких визначають як носіїв стану, повинні з великою правдоподібністю справді мати цей стан. Це пов'язане з тим, що люди, яких ідентифікують як носіїв стану (але які, насправді, його не мають) можуть піддаватися: додатковому тестуванню (що може бути дорогим), стигматизації (наприклад, позитивний тест на ВІЛ), тривозі (наприклад, я хворий… я можу померти).
Для будь-якого тестування, як діагностичного, так і скринінгового, існує компроміс між чутливістю та специфічністю. Вищі чутливості означатимуть нижчі специфічності, й навпаки.
Терміни «чутливість» (англ. sensitivity) та «специфічність» (англ. specificity) запровадив 1947 року американський біостатистик Джейкоб Єрушалми.[1]
Джерела: Fawcett (2006),[7] Powers (2011),[8] Ting (2011),[9] CAWCR,[10] D. Chicco & G. Jurman (2020) (2020),[11] Tharwat (2018),[12] Смоляр та ін. (2013),[2] Коваль та ін. (2016),[3] Швець (2015),[4] Гущин та Сич (2018),[5] Мірошниченко та Івлієва (2019).[6] |
Кожна особа, якій роблять тест, або має, або не має це захворювання. Результат тесту може бути позитивним (класифікуючи особу як таку, що має захворювання) або негативним (класифікуючи особу як таку, що не має цього захворювання). Результати тесту для кожного суб'єкта можуть відповідати, а можуть і не відповідати справжньому станові суб'єкта. Таким чином є:
Після отримання чисел істинно позитивних, хибно позитивних, істинно негативних, та хибно негативних, можливо обчислити чутливість та специфічність тесту. Якщо виявляється, що чутливість є високою, тоді будь-яка особа, яку тест класифікує як позитивну, швидше за все, є істинно позитивною. З іншого боку, якщо специфічність є високою, то будь-яка особа, яку цей тест класифікує як негативну, швидше за все, є істинно негативною.
Розгляньмо групу з П позитивними та Н негативними екземплярами якогось стану. Чотири результати в таблиці невідповідностей, або матриці невідповідностей 2×2, а також виведення декількох метрик із застосуванням цих чотирьох результатів, може бути сформульовано наступним чином:
Справжній стан | ||||||
загальна сукупність | позитивний стан | негативний стан | поширеність = Σ позитивних станів/Σ загальної сукупності | точність = Σ істинно позитивних + Σ істинно негативних/Σ загальної сукупності | ||
позитивний прогнозований стан |
істинно позитивний | хибно позитивний, помилка I роду |
прогностична значущість позитивного результату (ПЗ+), влучність = Σ істинно позитивних/Σ позитивних прогнозованих станів | рівень хибного виявляння[en] (РХВ) = Σ хибно позитивних/Σ позитивних прогнозованих станів | ||
негативний прогнозований стан |
хибно негативний, помилка II роду |
істинно негативний | рівень хибного пропускання (РХП) = Σ хибно негативних/Σ негативних прогнозованих станів | прогностична значущість негативного результату (ПЗ-) = Σ істинно негативних/Σ негативних прогнозованих станів | ||
істиннопозитивний рівень (ІПР), повнота, чутливість, ймовірність виявлення, потужність = Σ істинно позитивних/Σ позитивних станів | хибнопозитивний рівень (ХПР), побічний продукт, ймовірність хибної тривоги = Σ хибно позитивних/Σ негативних станів | відношення правдоподібності позитивного результату (ВП+) = ІПР/ХПР | діагностичне відношення шансів (ДВШ) = ВП+/ВП− | міра F1 = 2 · влучність · повнота/влучність + повнота | ||
хибнонегативний рівень (ХНР), коефіцієнт невлучання = Σ хибно негативних/Σ позитивних станів | специфічність, вибірність, істиннонегативний рівень (ІНР) = Σ істинно негативних/Σ негативних станів | відношення правдоподібності негативного результату (ВП-) = ХНР/ІНР |
Розгляньмо приклад медичного тесту для діагностування якогось стану. Чутливість означає здатність тесту правильно виявляти хворих пацієнтів, які справді мають цей стан.[13] В прикладі медичного тесту, який використовують для виявляння якогось стану, чутливість (яку також іноді в клінічній постановці називають рівнем виявляння) тесту є пропорцією людей, які отримують позитивний тест на це захворювання, серед них, хто це захворювання має. Математично це можливо виразити так:
Негативний результат у тесті з високою чутливістю є корисним для виключення захворювання.[13] Тест із високою чутливістю є надійним, коли його результат є негативним, оскільки він рідко ставить помилковий діагноз тим, хто має захворювання. Тест із 100 %-ю чутливістю розпізнаватиме всіх пацієнтів із захворюванням, даючи позитивний результат. Негативний результат тесту однозначно виключатиме наявність захворювання в пацієнта. Проте позитивний результат тесту з високою чутливістю не обов'язково є корисним для встановлення захворювання. Припустімо, що «підробний» тестувальний набір розроблено таким чином, щоби він завжди видавав позитивні покази. При використанні на хворих пацієнтах всі пацієнти отримуватимуть позитивний тест, що даватиме цьому тестові чутливість 100 %. Проте чутливість не бере до уваги хибно позитивні. Цей підробний тест також повертає позитивний результат для всіх здорових пацієнтів, що дає йому хибнопозитивний рівень 100 %, роблячи його марним для виявляння або «встановлювання» захворювання.
Розрахунок чутливості не враховує невизначені результати тесту. Якщо повторити тест неможливо, то невизначені зразки потрібно або виключити з аналізу (число виключень повинно бути вказано при оголошенні чутливості), або їх можливо розглядати як хибно негативні (що дає значення найгіршого випадку для чутливості, й може відтак недооцінювати її).
Розгляньмо приклад медичного тесту для діагностування якогось захворювання. Специфічність означає здатність цього тесту правильно відхиляти здорових пацієнтів, що не мають цього стану. Специфічність тесту є пропорцією серед тих, хто справді не має цього стану, тих, хто отримав негативний тест на цей стан. Математично це також можливо записати так:
Позитивний результат у тесті з високою специфічністю є корисним для встановлювання захворювання. Такий тест рідко видає позитивні результати для здорових пацієнтів. Позитивний результат означає високу ймовірність наявності захворювання.[14] Тест зі 100 %-ю специфічністю розпізнаватиме всіх пацієнтів без захворювання як негативних, тож позитивний результат однозначно встановлюватиме наявність захворювання. Проте негативний результат тесту з високою специфічністю не обов'язково є корисним для виключення захворювання. Наприклад, тест, що завжди повертає негативний результат, матиме специфічність 100 %, оскільки специфічність не бере до уваги хибно негативні. Такий тест повертатиме негативний результат для пацієнтів із захворюванням, роблячи його марним для встановлювання захворювання.
Тест із високою специфічністю має нижчий рівень помилок першого роду.
Наведена вище ілюстрація-графік має на меті показати взаємозв'язок між чутливістю та специфічністю. Чорна пунктирна лінія в центрі графіка — це де чутливість та специфічність є однаковими. При русі ліворуч від чорної пунктирної лінії чутливість збільшується, досягаючи максимального значення в 100 % на лінії А, а специфічність зменшується. Чутливість на лінії А становить 100 % через те, що в цій точці є нуль хибно негативних, що означає, що всі позитивні результати тесту є істинно позитивними. При русі праворуч має місце протилежне, специфічність зростає, поки не досягне лінії Б, й складе 100 %, а чутливість зменшується. Специфічність на лінії Б становить 100 % через те, що число хибно позитивних на цій лінії є нульовим, що означає, що всі негативні результати тесту є істинно негативними.
Стосовно рисунку, що показує високу чутливість та низьку специфічність, з визначення чутливості, число хибно негативних окремо впливає лише на знаменник, і з лише кількома такими знаменник та чисельник є близькими одне до одного, й відтак видають високу чутливість. Аналогічно, подібні міркування може бути застосовано й до того, який показує низьку чутливість та високу специфічність.
У медичній діагностиці чутливість тесту є здатністю цього тесту правильно визначати тих, хто має захворювання (істиннопозитивний рівень), тоді як специфічність тесту є здатністю цього тесту правильно визначати тих, хто цього захворювання не має (істиннонегативний рівень). Якщо при тестуванні 100 пацієнтів, про яких відомо, що вони мають певне захворювання, позитивний тест отримують 43 з них, то цей тест має чутливість 43 %. Якщо тестують 100 без захворювання, й для 96 отримують повністю негативний результат, то цей тест має специфічність 96 %. Чутливість та специфічність є характеристиками тесту, що не залежать від поширеності, оскільки їхні значення є властивостями самого тесту, й не залежать від поширеності захворювання в досліджуваній сукупності.[15]Значеннями, на які впливає поширеність захворювання в тестованій сукупності, є прогностичні значущості позитивного та негативного результатів, а не чутливість та специфічність. Ці поняття проілюстровано графічно в аплеті Баєсова клінічна діагностична модель [Архівовано 22 січня 2021 у Wayback Machine.] (англ.), який показує прогностичні значущості позитивних та негативних результатів як функцію від поширеності, чутливості та специфічності.
Взаємозв'язок між прогностичною значущістю позитивних результатів скринінгового тесту та поширеністю його цілі є пропорційним, хоч і не лінійним в усіх випадках, крім одного особливого. Як наслідок, існує точка локального екстремуму та максимуму кривини, визначена лише як функція від чутливості та специфічності, за якою темп зміни прогностичної значущості позитивних результатів тесту падає диференціально відносно поширеності захворювання. Цю точку із застосуванням диференціальних рівнянь було вперше визначено Балайлою та ін.,[16] та названо поро́гом поши́реності (, англ. prevalence threshold). Рівняння порогу поширеності задається наступною формулою, де a = чутливість, а b = специфічність:
Місце положення цієї точки на кривій скринінгу має критичні наслідки для клініцистів та інтерпретування позитивних скринінових тестів у режимі реального часу.[які?]
Часто заявляють, що тест із високою специфічністю є дієвим для встановлення захворювання, коли він є позитивним, тоді як тест із високою чутливістю вважають дієвим для виключення захворювання, коли він є негативним.[17][18] Наслідком цього є широко вживані мнемоніки англ. SPPIN та англ. SNNOUT, відповідно до яких тест із високою специфічністю (англ. highly specific), коли він є позитивним (англ. positive), встановлює (англ. rules in) захворювання (англ. SP-P-IN), а тест із високою чутливістю (англ. highly sensitive), коли він є негативним (англ. negative), виключає (англ. rules out) захворювання (англ. SN-N-OUT). Проте, обидва ці евристичні формули вводять в оману, оскільки діагностична сила будь-якого тесту визначається як його чутливістю, так і його специфічністю.[19][20][21]
Компроміс між чутливістю та специфічністю досліджує аналіз РХП як компроміс між ІПР та ХПР (тобто повнотою та побічним продуктом).[22] Надавання їм однакової ваги оптимізує поінформованість[en] = специфічність + чутливість − 1 = ІПР − ХПР, величина якої дає ймовірність поінформованого рішення між двома класами (> 0 представляє належне використання інформації, 0 представляє ефективність на рівні вгадування, < 0 представляє помилкове використання інформації).[23]
Індекс чутливості[en], або d', — це статистика, яку використовують в теорії виявляння сигналу. Вона забезпечує розділення між середніми значеннями розподілів сигналу та шуму, в порівнянні зі стандартним відхиленням розподілу шуму. Для нормально розподілених сигналу та шуму з середніми значеннями та стандартними відхиленнями та , та та відповідно, d' визначають як
Оцінку d' також можливо знаходити з вимірювань коефіцієнту влучання[en] та рівня хибної тривоги[en]. Її обчислюють як
де функція Z(p), p ∈ [0,1], є оберненою до функції гауссового розподілу.
d' є безрозмірною статистикою. Вища d' вказує, що сигнал може бути легше виявити.
Пацієнти з колоректальним раком (підтвердженим ендоскопічним обстеженням) | ||||||
позитивний стан | негативний стан | поширеність = (ІП + ХН) / загальна_сукупність = (20 + 10) / 2030 ≈ 1,48 % |
точність = (ІП + ІН) / загальна_сукупність = (20 + 1820) / 2030 ≈ 90,64 % | |||
Результат скринінгового тесту на приховану кров у калі[en] |
результат тесту позитивний |
істинно позитивні (ІП) = 20 (2030 × 1,48 % × 67 %) |
хибно позитивні (ХП) = 180 (2030 × (100 − 1,48 %) × (100 − 91 %)) |
прогностична значущість позитивного результату (ПЗ+), влучність = ІП / (ІП + ХП) = 20 / (20 + 180) = 10 % |
рівень хибного виявляння[en] (РХВ) = ХП / (ІП + ХП) = 180 / (20 + 180) = 90,0 % | |
результат тесту негативний |
хибно негативні (ХН) = 10 (2030 × 1,48 % × (100 − 67 %)) |
істинно негативні (ІН) = 1820 (2030 × (100 − 1,48 %) × 91 %) |
рівень хибного пропускання (РХП) = ХН / (ХН + ІН) = 10 / (10 + 1820) ≈ 0,55 % |
прогностична значущість негативного результату (ПЗ-) = ІН / (ХН + ІН) = 1820 / (10 + 1820) ≈ 99,45 % | ||
ІПР, повнота, чутливість = ІП / (ІП + ХН) = 20 / (20 + 10) ≈ 66,7 % |
хибнопозитивний рівень (ХПР), побічний продукт, ймовірність хибної тривоги = ХП / (ХП + ІН) = 180 / (180 + 1820) = 9,0 % |
відношення правдоподібності позитивного результату (ВП+) = ІПР/ХПР = (20 / 30) / (180 / 2000) ≈ 7,41 |
діагностичне відношення шансів (ДВШ)= ВП+/ВП− ≈ 20,2 |
міра F1 = 2 × влучність × повнота/влучність + повнота ≈ 0,174 | ||
хибнонегативний рівень (ХНР), коефіцієнт невлучання = ХН / (ІП + ХН) = 10 / (20 + 10) ≈ 33,3 % |
специфічність, вибірність, істиннонегативний рівень (ІНР) = ІН / (ХП + ІН) = 1820 / (180 + 1820) = 91 % |
відношення правдоподібності негативного результату (ВП−) = ХНР/ІНР = (10 / 30) / (1820 / 2000) ≈ 0,366 |
Пов'язані обчислення
Цей гіпотетичний скринінговий тест (аналіз калу на приховану кров) правильно визначив дві третини (66,7 %) пацієнтів з колоректальним раком.[a] На жаль, врахування рівнів поширеності показує, що цей гіпотетичний тест має високий хибнопозитивний рівень, і не визначає колоректальний рак у загальній сукупності безсимптомних людей надійно (ПЗ+ = 10 %).
З іншого боку, цей гіпотетичний тест демонструє дуже дуже точне виявляння безракових осіб (ПЗ− = 99,5 %). Тому при застосуванні для планового скринінгу колоректального раку в безсимптомних дорослих негативний результат надає важливі дані пацієнтові та лікареві, як-то виключаючи рак як причину шлунково-кишкових симптомів, та заспокоюючи пацієнтів, що хвилюються за появу колоректального раку.
Значення чутливості та специфічності самі по собі можуть бути дуже оманливими. Щоби запобігти залежності від експериментів з невеликою кількістю результатів, мусить бути обчислювано чутливість чи специфічність «найгіршого випадку». Наприклад, певний тест може легко показати 100 %-ву чутливість за перевірки відносно золотого стандарту[en] чотири рази, але єдина додаткова перевірка відносно золотого стандарту, що дала поганий результат, означатиме чутливість лише в 80 %. Поширеним способом робити це є вказувати довірчий інтервал біноміальної пропорції[en], часто обчислюваний за допомогою оцінкового інтервалу Вілсона.
Для чутливості та специфічності може бути обчислювано довірчі інтервали, що дають діапазон значень, в межах якого правильне значення перебуває із заданим рівнем довір'я (наприклад, 95 %).[28]
В інформаційнім пошуку прогностичну значущість позитивного результату називають влучністю, а чутливість називають повнотою. На відміну від компромісу між специфічністю та чутливістю, обидві ці міри не залежать від числа істинно негативних, що є, як правило, не відомим, і набагато більшим за фактичні кількості релевантних та знайдених документів. Це припущення про великі кількості істинно негативних відносно позитивних в інших застосуваннях зустрічається рідко.[23]
Як єдину міру ефективності тесту для позитивного класу можливо використовувати F-міру. F-міра є середнім гармонійним влучності та повноти:
У традиційній мові перевірки статистичних гіпотез чутливість тесту називають його статистичною потужністю, хоча слово «потужність» у тім контексті має загальніше застосування, яке не є застосовним у контексті поточнім. Чутливий тест матиме менше помилок другого роду.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.