Чутливість та специфічність

Чутли́вість (англ. sensitivity) та специфі́чність (англ. specificity) — це широко вживані в медицині статистичні міри продуктивності тестів^[en] бінарної класифікації:

Чутливість вимірює частку істинно позитивних, що є визначеними правильно (наприклад, частку з тих, хто справді має певний стан (уражені), яку було правильно визначено як таких, що мають цей стан).
Специфічність вимірює частку істинно негативних (наприклад, частку тих, хто справді не має певного стану (не уражені), яку було правильно визначено як таких, що не мають цього стану).

Терміни «істинно позитивний», «хибно позитивний», «істинно негативний» та «хибно негативний» позначують наявність або відсутність якогось стану, та правильність цієї класифікації. Наприклад, якщо станом є захворювання, то «істинно позитивний» означає «правильно діагностований як хворий», «хибно позитивний» означає «неправильно діагностований як хворий», «істинно негативний» означає «правильно діагностований як не хворий», а «хибно негативний» означає «неправильно діагностований як не хворий». Таким чином, якщо чутливість тесту складає 98 %, а специфічність — 92 %, то його рівень хибно негативних становить 2 %, а рівень хибно позитивних — 8 %.

У діагностичному тестуванні чутливість є мірою того, наскільки добре тест може визначати істинно позитивних. Чутливість також називають повнотою (англ. recall), коефіцієнтом влучання (англ. hit rate), та істиннопозитивним рівнем (англ. true positive rate). Вона є відсотком або часткою істинно позитивних серед усіх зразків, що мають заданий стан (істинно позитивних та хибно негативних). Чутливість тесту може допомагати показувати, наскільки добре він може класифікувати зразки, що мають цей стан. Високе значення чутливості означає, що тест правильно класифікує зразок без заданого стану як негативний частіше, ніж тест, що має нижчу чутливість.

У діагностичному тестуванні специфічність є мірою того, наскільки добре тест може визначати істинно негативних. Специфічність також називають вибірністю (англ. selectivity) та істиннонегативним рівнем (англ. true negative rate), і вона є відсотком або часткою істинно негативних серед усіх зразків, що не мають певного стану (істинно негативних та хибно позитивних). Наявність в тесту високого значення специфічності означає, що він правильно класифікує зразки із заданим станом частіше за тест із низькою специфічністю.

У «доброму» діагностичному тесті (такім, що намагається точно визначати людей, що мають певний стан) хибно позитивні повинні бути дуже низькими. Тобто, люди, яких визначають як носіїв стану, повинні з великою правдоподібністю справді мати цей стан. Це пов'язане з тим, що люди, яких ідентифікують як носіїв стану (але які, насправді, його не мають) можуть піддаватися: додатковому тестуванню (що може бути дорогим), стигматизації (наприклад, позитивний тест на ВІЛ), тривозі (наприклад, я хворий… я можу померти).

Для будь-якого тестування, як діагностичного, так і скринінгового, існує компроміс між чутливістю та специфічністю. Вищі чутливості означатимуть нижчі специфічності, й навпаки.

Терміни «чутливість» (англ. sensitivity) та «специфічність» (англ. specificity) запровадив 1947 року американський біостатистик Джейкоб Єрушалми.^[1]

Термінологія та виведення
з матриці невідповідностей
позитивний стан (П) число справжніх позитивних випадків у даних негативний стан (Н) число справжніх негативних випадків у даних істинно позитивний (ІП)^[2]^[3] рівнозначно із влучанням істинно негативний (ІН)^[2]^[3] рівнозначно із правильним відхиленням хибно позитивний (ХП)^[2]^[3] рівнозначно з хибною тривогою^[en], помилка I роду хибно негативний (ХН)^[2]^[3] рівнозначно з пропусканням, помилка II роду чутливість,^[3] діагностична чутливість (ДЧ),^[2]^[4] повнота,^[5] коефіцієнт влучання^[en], або істиннопозитивний рівень (ІПР) ІПР = ІП/П = ІП/ІП + ХН = 1 - ІНР діагностична специфічність (ДС),^[2]^[4] вибірність або істиннонегативний рівень (ІНР) ІНР = ІН/Н = ІН/ІН + ХП = 1 - ХПР влучність^[5] або прогностична значущість позитивного результату (ПЗ+)^[4] ПЗ+ = ІП/ІП + ХП = 1 - РХВ прогностична значущість негативного результату (ПЗ-)^[4] ПЗ- = ІН/ІН + ХН = 1 - РХП коефіцієнт невлучання, або хибнонегативний рівень (ХНР) ХНР = ХН/П = ХН/ХН + ІП = 1 - ІПР побічний продукт, або хибнопозитивний рівень (ХПР) ХПР = ХП/Н = ХП/ХП + ІН = 1 - ІНР рівень хибного виявляння^[en] (РХВ) РХВ = ХП/ХП + ІП = 1 - ПЗ+ рівень хибного пропускання (РХП) РХП = ХН/ХН + ІН = 1 - ПЗ- поріг поширеності (ПП) ПП = √ІПР (-ІНР + 1) + ІНР - 1/(ІПР + ІНР - 1) міра загрози (МЗ) або критичний індекс успіху (КІУ) МЗ = ІП/ІП + ХН + ХП точність,^[3] діагностична ефективність (ДЕ)^[2]^[4] ДЕ = ІП + ІН/П + Н = ІП + ІН/ІП + ІН + ХП + ХН збалансована точність^[6] (ЗТ) ЗТ = ІПР + ХПР/2 міра F₁^[5] гармонійне середнє влучності та чутливості F₁ = 2 · ПЗ+ · ІПР/ПЗ+ + ІПР = 2 ІП/2 ІП + ХП + ХН коефіцієнт кореляції Меттьюза^[en] (ККМ) ККМ = ІП · ІН - ХП · ХН/√(ІП + ХП)(ІП + ХН)(ІН + ХП)(ІН + ХН) індекс Фаулкса — Меттьюза^[en] (ФМ) ФМ = √ІП/ІП + ХП · ІП/ІП + ХН = √ПЗ+ · ІПР поінформованість^[en], або букмекерська поінформованість (БП) БП = ІПР + ІНР - 1 маркованість^[en] (МК) або Δp МК = ПЗ+ + ПЗ- - 1 Джерела: Fawcett (2006),^[7] Powers (2011),^[8] Ting (2011),^[9] CAWCR,^[10] D. Chicco & G. Jurman (2020) (2020),^[11] Tharwat (2018),^[12] Смоляр та ін. (2013),^[2] Коваль та ін. (2016),^[3] Швець (2015),^[4] Гущин та Сич (2018),^[5] Мірошниченко та Івлієва (2019).^[6]

Кожна особа, якій роблять тест, або має, або не має це захворювання. Результат тесту може бути позитивним (класифікуючи особу як таку, що має захворювання) або негативним (класифікуючи особу як таку, що не має цього захворювання). Результати тесту для кожного суб'єкта можуть відповідати, а можуть і не відповідати справжньому станові суб'єкта. Таким чином є:

Істинно позитивні: Хворі люди, правильно визначені як хворі
Хибно позитивні: Здорові люди, неправильно визначені як хворі
Істинно негативні: Здорові люди, правильно визначені як здорові
Хибно негативні: Хворі люди, неправильно визначені як здорові

Після отримання чисел істинно позитивних, хибно позитивних, істинно негативних, та хибно негативних, можливо обчислити чутливість та специфічність тесту. Якщо виявляється, що чутливість є високою, тоді будь-яка особа, яку тест класифікує як позитивну, швидше за все, є істинно позитивною. З іншого боку, якщо специфічність є високою, то будь-яка особа, яку цей тест класифікує як негативну, швидше за все, є істинно негативною.

Розгляньмо групу з П позитивними та Н негативними екземплярами якогось стану. Чотири результати в таблиці невідповідностей, або матриці невідповідностей 2×2, а також виведення декількох метрик із застосуванням цих чотирьох результатів, може бути сформульовано наступним чином:

		Справжній стан
	загальна сукупність	позитивний стан	негативний стан	поширеність = Σ позитивних станів/Σ загальної сукупності	точність = Σ істинно позитивних + Σ істинно негативних/Σ загальної сукупності
Прогнозований стан	позитивний прогнозований стан	істинно позитивний	хибно позитивний, помилка I роду	прогностична значущість позитивного результату (ПЗ+), влучність = Σ істинно позитивних/Σ позитивних прогнозованих станів	рівень хибного виявляння^[en] (РХВ) = Σ хибно позитивних/Σ позитивних прогнозованих станів
	негативний прогнозований стан	хибно негативний, помилка II роду	істинно негативний	рівень хибного пропускання (РХП) = Σ хибно негативних/Σ негативних прогнозованих станів	прогностична значущість негативного результату (ПЗ-) = Σ істинно негативних/Σ негативних прогнозованих станів
		істиннопозитивний рівень (ІПР), повнота, чутливість, ймовірність виявлення, потужність = Σ істинно позитивних/Σ позитивних станів	хибнопозитивний рівень (ХПР), побічний продукт, ймовірність хибної тривоги = Σ хибно позитивних/Σ негативних станів	відношення правдоподібності позитивного результату (ВП+) = ІПР/ХПР	діагностичне відношення шансів (ДВШ) = ВП+/ВП−	міра F₁ = 2 · влучність · повнота/влучність + повнота
		хибнонегативний рівень (ХНР), коефіцієнт невлучання = Σ хибно негативних/Σ позитивних станів	специфічність, вибірність, істиннонегативний рівень (ІНР) = Σ істинно негативних/Σ негативних станів	відношення правдоподібності негативного результату (ВП-) = ХНР/ІНР

Розгляньмо приклад медичного тесту для діагностування якогось стану. Чутливість означає здатність тесту правильно виявляти хворих пацієнтів, які справді мають цей стан.^[13] В прикладі медичного тесту, який використовують для виявляння якогось стану, чутливість (яку також іноді в клінічній постановці називають рівнем виявляння) тесту є пропорцією людей, які отримують позитивний тест на це захворювання, серед них, хто це захворювання має. Математично це можливо виразити так:

чутливість = число істинно позитивнихчисло істинно позитивних + число хибно негативних

= число істинно позитивнихзагальне число хворих осіб у генеральній сукупності

= ймовірність позитивного тесту за умови, що пацієнт має захворювання

Негативний результат у тесті з високою чутливістю є корисним для виключення захворювання.^[13] Тест із високою чутливістю є надійним, коли його результат є негативним, оскільки він рідко ставить помилковий діагноз тим, хто має захворювання. Тест із 100 %-ю чутливістю розпізнаватиме всіх пацієнтів із захворюванням, даючи позитивний результат. Негативний результат тесту однозначно виключатиме наявність захворювання в пацієнта. Проте позитивний результат тесту з високою чутливістю не обов'язково є корисним для встановлення захворювання. Припустімо, що «підробний» тестувальний набір розроблено таким чином, щоби він завжди видавав позитивні покази. При використанні на хворих пацієнтах всі пацієнти отримуватимуть позитивний тест, що даватиме цьому тестові чутливість 100 %. Проте чутливість не бере до уваги хибно позитивні. Цей підробний тест також повертає позитивний результат для всіх здорових пацієнтів, що дає йому хибнопозитивний рівень 100 %, роблячи його марним для виявляння або «встановлювання» захворювання.

Розрахунок чутливості не враховує невизначені результати тесту. Якщо повторити тест неможливо, то невизначені зразки потрібно або виключити з аналізу (число виключень повинно бути вказано при оголошенні чутливості), або їх можливо розглядати як хибно негативні (що дає значення найгіршого випадку для чутливості, й може відтак недооцінювати її).

Розгляньмо приклад медичного тесту для діагностування якогось захворювання. Специфічність означає здатність цього тесту правильно відхиляти здорових пацієнтів, що не мають цього стану. Специфічність тесту є пропорцією серед тих, хто справді не має цього стану, тих, хто отримав негативний тест на цей стан. Математично це також можливо записати так:

специфічність = число істинно негативнихчисло істинно негативних + число хибно позитивних

= число істинно негативнихзагальне число нехворих осіб у генеральній сукупності

= імовірність негативного тесту за умови, що пацієнт не є хворим

Позитивний результат у тесті з високою специфічністю є корисним для встановлювання захворювання. Такий тест рідко видає позитивні результати для здорових пацієнтів. Позитивний результат означає високу ймовірність наявності захворювання.^[14] Тест зі 100 %-ю специфічністю розпізнаватиме всіх пацієнтів без захворювання як негативних, тож позитивний результат однозначно встановлюватиме наявність захворювання. Проте негативний результат тесту з високою специфічністю не обов'язково є корисним для виключення захворювання. Наприклад, тест, що завжди повертає негативний результат, матиме специфічність 100 %, оскільки специфічність не бере до уваги хибно негативні. Такий тест повертатиме негативний результат для пацієнтів із захворюванням, роблячи його марним для встановлювання захворювання.

Тест із високою специфічністю має нижчий рівень помилок першого роду.

Висока чутливість та низька специфічність
Низька чутливість та висока специфічність
Графікова ілюстрація чутливості та специфічності

Наведена вище ілюстрація-графік має на меті показати взаємозв'язок між чутливістю та специфічністю. Чорна пунктирна лінія в центрі графіка — це де чутливість та специфічність є однаковими. При русі ліворуч від чорної пунктирної лінії чутливість збільшується, досягаючи максимального значення в 100 % на лінії А, а специфічність зменшується. Чутливість на лінії А становить 100 % через те, що в цій точці є нуль хибно негативних, що означає, що всі позитивні результати тесту є істинно позитивними. При русі праворуч має місце протилежне, специфічність зростає, поки не досягне лінії Б, й складе 100 %, а чутливість зменшується. Специфічність на лінії Б становить 100 % через те, що число хибно позитивних на цій лінії є нульовим, що означає, що всі негативні результати тесту є істинно негативними.

Стосовно рисунку, що показує високу чутливість та низьку специфічність, з визначення чутливості, число хибно негативних окремо впливає лише на знаменник, і з лише кількома такими знаменник та чисельник є близькими одне до одного, й відтак видають високу чутливість. Аналогічно, подібні міркування може бути застосовано й до того, який показує низьку чутливість та високу специфічність.

У медичній діагностиці чутливість тесту є здатністю цього тесту правильно визначати тих, хто має захворювання (істиннопозитивний рівень), тоді як специфічність тесту є здатністю цього тесту правильно визначати тих, хто цього захворювання не має (істиннонегативний рівень). Якщо при тестуванні 100 пацієнтів, про яких відомо, що вони мають певне захворювання, позитивний тест отримують 43 з них, то цей тест має чутливість 43 %. Якщо тестують 100 без захворювання, й для 96 отримують повністю негативний результат, то цей тест має специфічність 96 %. Чутливість та специфічність є характеристиками тесту, що не залежать від поширеності, оскільки їхні значення є властивостями самого тесту, й не залежать від поширеності захворювання в досліджуваній сукупності.^[15]Значеннями, на які впливає поширеність захворювання в тестованій сукупності, є прогностичні значущості позитивного та негативного результатів, а не чутливість та специфічність. Ці поняття проілюстровано графічно в аплеті Баєсова клінічна діагностична модель [Архівовано 22 січня 2021 у Wayback Machine.] (англ.), який показує прогностичні значущості позитивних та негативних результатів як функцію від поширеності, чутливості та специфічності.

Поріг поширеності

Взаємозв'язок між прогностичною значущістю позитивних результатів скринінгового тесту та поширеністю його цілі є пропорційним, хоч і не лінійним в усіх випадках, крім одного особливого. Як наслідок, існує точка локального екстремуму та максимуму кривини, визначена лише як функція від чутливості та специфічності, за якою темп зміни прогностичної значущості позитивних результатів тесту падає диференціально відносно поширеності захворювання. Цю точку із застосуванням диференціальних рівнянь було вперше визначено Балайлою та ін.,^[16] та названо поро́гом поши́реності ( $\phi _{e}$ , англ. prevalence threshold). Рівняння порогу поширеності задається наступною формулою, де a = чутливість, а b = специфічність:

\phi _{e}

= √a (-b + 1) + b - 1(a + b - 1) = √ІПР (-ІНР + 1) + ІНР - 1(ІПР + ІНР - 1)

Місце положення цієї точки на кривій скринінгу має критичні наслідки для клініцистів та інтерпретування позитивних скринінових тестів у режимі реального часу.^[які?]

Неправильні розуміння

Часто заявляють, що тест із високою специфічністю є дієвим для встановлення захворювання, коли він є позитивним, тоді як тест із високою чутливістю вважають дієвим для виключення захворювання, коли він є негативним.^[17]^[18] Наслідком цього є широко вживані мнемоніки англ. SPPIN та англ. SNNOUT, відповідно до яких тест із високою специфічністю (англ. highly specific), коли він є позитивним (англ. positive), встановлює (англ. rules in) захворювання (англ. SP-P-IN), а тест із високою чутливістю (англ. highly sensitive), коли він є негативним (англ. negative), виключає (англ. rules out) захворювання (англ. SN-N-OUT). Проте, обидва ці евристичні формули вводять в оману, оскільки діагностична сила будь-якого тесту визначається як його чутливістю, так і його специфічністю.^[19]^[20]^[21]

Компроміс між чутливістю та специфічністю досліджує аналіз РХП як компроміс між ІПР та ХПР (тобто повнотою та побічним продуктом).^[22] Надавання їм однакової ваги оптимізує поінформованість^[en] = специфічність + чутливість − 1 = ІПР − ХПР, величина якої дає ймовірність поінформованого рішення між двома класами (> 0 представляє належне використання інформації, 0 представляє ефективність на рівні вгадування, < 0 представляє помилкове використання інформації).^[23]

Індекс чутливості

Індекс чутливості^[en], або d', — це статистика, яку використовують в теорії виявляння сигналу. Вона забезпечує розділення між середніми значеннями розподілів сигналу та шуму, в порівнянні зі стандартним відхиленням розподілу шуму. Для нормально розподілених сигналу та шуму з середніми значеннями та стандартними відхиленнями $\mu _{S}$ та $\sigma _{S}$ , та $\mu _{N}$ та $\sigma _{N}$ відповідно, d' визначають як

d'={\frac {\mu _{S}-\mu _{N}}{\sqrt {{\frac {1}{2}}(\sigma _{S}^{2}+\sigma _{N}^{2})}}}

^[24]

Оцінку d' також можливо знаходити з вимірювань коефіцієнту влучання^[en] та рівня хибної тривоги^[en]. Її обчислюють як

d' = Z(коефіцієнт влучання) — Z(рівень хибної тривоги),^[25]

де функція Z(p), p ∈ [0,1], є оберненою до функції гауссового розподілу.

d' є безрозмірною статистикою. Вища d' вказує, що сигнал може бути легше виявити.

Робочий приклад: Діагностичний тест із чутливістю 67 % та специфічністю 91 % застосовують до 2030 людей з метою пошуку розладу з поширеністю в сукупності на рівні 1,48 %

		Пацієнти з колоректальним раком (підтвердженим ендоскопічним обстеженням)
		позитивний стан	негативний стан	поширеність = (ІП + ХН) / загальна_сукупність = (20 + 10) / 2030 ≈ 1,48 %	точність = (ІП + ІН) / загальна_сукупність = (20 + 1820) / 2030 ≈ 90,64 %
Результат скринінгового тесту на приховану кров у калі^[en]	результат тесту позитивний	істинно позитивні (ІП) = 20 (2030 × 1,48 % × 67 %)	хибно позитивні (ХП) = 180 (2030 × (100 − 1,48 %) × (100 − 91 %))	прогностична значущість позитивного результату (ПЗ+), влучність = ІП / (ІП + ХП) = 20 / (20 + 180) = 10 %	рівень хибного виявляння^[en] (РХВ) = ХП / (ІП + ХП) = 180 / (20 + 180) = 90,0 %
	результат тесту негативний	хибно негативні (ХН) = 10 (2030 × 1,48 % × (100 − 67 %))	істинно негативні (ІН) = 1820 (2030 × (100 − 1,48 %) × 91 %)	рівень хибного пропускання (РХП) = ХН / (ХН + ІН) = 10 / (10 + 1820) ≈ 0,55 %	прогностична значущість негативного результату (ПЗ-) = ІН / (ХН + ІН) = 1820 / (10 + 1820) ≈ 99,45 %
		ІПР, повнота, чутливість = ІП / (ІП + ХН) = 20 / (20 + 10) ≈ 66,7 %	хибнопозитивний рівень (ХПР), побічний продукт, ймовірність хибної тривоги = ХП / (ХП + ІН) = 180 / (180 + 1820) = 9,0 %	відношення правдоподібності позитивного результату (ВП+) = ІПР/ХПР = (20 / 30) / (180 / 2000) ≈ 7,41	діагностичне відношення шансів (ДВШ)= ВП+/ВП− ≈ 20,2	міра F₁ = 2 × влучність × повнота/влучність + повнота ≈ 0,174
		хибнонегативний рівень (ХНР), коефіцієнт невлучання = ХН / (ІП + ХН) = 10 / (20 + 10) ≈ 33,3 %	специфічність, вибірність, істиннонегативний рівень (ІНР) = ІН / (ХП + ІН) = 1820 / (180 + 1820) = 91 %	відношення правдоподібності негативного результату (ВП−) = ХНР/ІНР = (10 / 30) / (1820 / 2000) ≈ 0,366

Пов'язані обчислення

Хибнопозитивний рівень (α) = похибка першого роду = 1 − специфічність = ХП / (ХП + ІН) = 180 / (180 + 1820) = 9 %
Хибнонегативний рівень (β) = похибка другого роду = 1 − чутливість = ХН / (ІП + ХН) = 10 / (20 + 10) = 33 %
Потужність = чутливість = 1 − β
Відношення правдоподібності позитивного результату = чутливість / (1 − специфічність) = 0,67 / (1 − 0,91) = 7,4
Відношення правдоподібності негативного результату = (1 − чутливість) / специфічність = (1 − 0,67) / 0,91 = 0,37
Поріг поширеності = ПП = √ІПР (−ІНР + 1) + ІНР − 1/(ІПР + ІНР − 1) ≈ 0,2686 => 26,9 %

Цей гіпотетичний скринінговий тест (аналіз калу на приховану кров) правильно визначив дві третини (66,7 %) пацієнтів з колоректальним раком.^[a] На жаль, врахування рівнів поширеності показує, що цей гіпотетичний тест має високий хибнопозитивний рівень, і не визначає колоректальний рак у загальній сукупності безсимптомних людей надійно (ПЗ+ = 10 %).

З іншого боку, цей гіпотетичний тест демонструє дуже дуже точне виявляння безракових осіб (ПЗ− = 99,5 %). Тому при застосуванні для планового скринінгу колоректального раку в безсимптомних дорослих негативний результат надає важливі дані пацієнтові та лікареві, як-то виключаючи рак як причину шлунково-кишкових симптомів, та заспокоюючи пацієнтів, що хвилюються за появу колоректального раку.

Значення чутливості та специфічності самі по собі можуть бути дуже оманливими. Щоби запобігти залежності від експериментів з невеликою кількістю результатів, мусить бути обчислювано чутливість чи специфічність «найгіршого випадку». Наприклад, певний тест може легко показати 100 %-ву чутливість за перевірки відносно золотого стандарту^[en] чотири рази, але єдина додаткова перевірка відносно золотого стандарту, що дала поганий результат, означатиме чутливість лише в 80 %. Поширеним способом робити це є вказувати довірчий інтервал біноміальної пропорції^[en], часто обчислюваний за допомогою оцінкового інтервалу Вілсона.

Для чутливості та специфічності може бути обчислювано довірчі інтервали, що дають діапазон значень, в межах якого правильне значення перебуває із заданим рівнем довір'я (наприклад, 95 %).^[28]

В інформаційнім пошуку прогностичну значущість позитивного результату називають влучністю, а чутливість називають повнотою. На відміну від компромісу між специфічністю та чутливістю, обидві ці міри не залежать від числа істинно негативних, що є, як правило, не відомим, і набагато більшим за фактичні кількості релевантних та знайдених документів. Це припущення про великі кількості істинно негативних відносно позитивних в інших застосуваннях зустрічається рідко.^[23]

Як єдину міру ефективності тесту для позитивного класу можливо використовувати F-міру. F-міра є середнім гармонійним влучності та повноти:

F = 2 × влучність × повнотавлучність + повнота

У традиційній мові перевірки статистичних гіпотез чутливість тесту називають його статистичною потужністю, хоча слово «потужність» у тім контексті має загальніше застосування, яке не є застосовним у контексті поточнім. Чутливий тест матиме менше помилок другого роду.

Оцінка Браєра^[en]
Крива ПАТ^[en]^[29]
Парадокс хибно позитивних(інші мови)
Дискримінація
Влучність та повнота
Статистична значущість
Коефіцієнт невизначеності^[en], також званий вправністю
Статистика Юдена J^[en]

Всі медичні скринінгові тести мають переваги та недоліки. Ці ризики та переваги описують керівні вказівки з клінічної практики, такі як для скринінгу колоректального раку.^[26]^[27]

[1]
Yerushalmy J (1947). Statistical problems in assessing methods of medical diagnosis with special reference to x-ray techniques. Public Health Reports. 62 (2): 1432—39. doi:10.2307/4586294. JSTOR 4586294. PMID 20340527. (англ.)
[2]
Смоляр, В.А.; Шаповал, Н.А.; Гузь, О.А; Хоперія, В.Г. (2013). Оцінка ефективності експрес-гістологічного дослідження у визначенні обсягу дисекції за папілярного раку щитоподібної залози. Клінічна ендокринологія та ендокринна хірургія. Київ: Український науково-практичний центр ендокринної хірургії, трансплантації ендокринних органів і тканин МОЗ України. 3 (44).
[3]
Коваль, С.С.; Макеєв, С.С.; Новікова, Т.Г. (2016). Оцінка ефективності застосування методики інтеграції даних ОФЕКТ/МРТ у діагностиці метастазів головного мозку. Клінічна онкологія. Київ: ДУ «Інститут нейрохірургії ім. акад. А.П. Ромоданова НАМН України». 3 (23). Архів оригіналу за 27 жовтня 2020. Процитовано 10 жовтня 2020.
[4]
Швець У. С. Основні поняття доказової медицини. — 2015. Архівовано з джерела 20 вересня 2020. Процитовано 10 жовтня 2020.
[5]
Гущин, І. В.; Сич, Д. О. (жовтень 2018). Аналіз впливу попередньої обробки тексту на результати текстової класифікації (PDF). Молодий вчений. Харківський національний університет імені В.Н. Каразіна. 10 (62): 264—266. Архів оригіналу (PDF) за 27 вересня 2020. Процитовано 10 жовтня 2020.
[6]
Мірошниченко, І. В.; Івлієва, К. Г. (2019). Оцінювання кредитного ризику методами машинного навчання. doi:10.32702/2307-2105-2019.12.87.
[7]
Fawcett, Tom (2006). An Introduction to ROC Analysis (PDF). Pattern Recognition Letters. 27 (8): 861—874. doi:10.1016/j.patrec.2005.10.010. (англ.)
[8]
Powers, David M W (2011). Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2 (1): 37—63. (англ.)
[9]
Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I (ред.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8. (англ.)
[10]
Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26 січня 2015). WWRP/WGNE Joint Working Group on Forecast Verification Research. Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Процитовано 17 липня 2019. (англ.)
[11]
Chicco D, Jurman G (January 2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)
[12]
Tharwat A (August 2018). Classification assessment methods. Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003. (англ.)
[13]
Altman DG, Bland JM (June 1994). Diagnostic tests. 1: Sensitivity and specificity. BMJ. 308 (6943): 1552. doi:10.1136/bmj.308.6943.1552. PMC 2540489. PMID 8019315. (англ.)
[14]
SpPins and SnNouts. Centre for Evidence Based Medicine (CEBM). Архів оригіналу за 20 липня 2014. Процитовано 26 грудня 2013. (англ.)
[15]
Mangrulkar R. Diagnostic Reasoning I and II. Архів оригіналу за 1 серпня 2011. Процитовано 24 січня 2012. [Архівовано 2011-08-01 у Wayback Machine.] (англ.)
[16]
Balayla, Jacques (2020). Prevalence Threshold and the Geometry of Screening Curves. arXiv:2006.00398. (англ.)
[17]
Evidence-Based Diagnosis. Michigan State University. Архів оригіналу за 6 липня 2013. Процитовано 23 серпня 2013. [Архівовано 2013-07-06 у Wayback Machine.] (англ.)
[18]
Sensitivity and Specificity. Emory University Medical School Evidence Based Medicine course. Архів оригіналу за 17 грудня 2018. Процитовано 13 грудня 2020. (англ.)
[19]
Baron JA (Apr–Jun 1994). Too bad it isn't true. Medical Decision Making. 14 (2): 107. doi:10.1177/0272989X9401400202. PMID 8028462. S2CID 44505648. (англ.)
[20]
Boyko EJ (Apr–Jun 1994). Ruling out or ruling in disease with the most sensitive or specific diagnostic test: short cut or wrong turn?. Medical Decision Making. 14 (2): 175—9. doi:10.1177/0272989X9401400210. PMID 8028470. S2CID 31400167. (англ.)
[21]
Pewsner D, Battaglia M, Minder C, Marx A, Bucher HC, Egger M (July 2004). Ruling a diagnosis in or out with "SpPIn" and "SnNOut": a note of caution. BMJ. 329 (7459): 209—13. doi:10.1136/bmj.329.7459.209. PMC 487735. PMID 15271832. (англ.)
[22]
Fawcett, Tom (2006). An Introduction to ROC Analysis. Pattern Recognition Letters. 27 (8): 861—874. doi:10.1016/j.patrec.2005.10.010. (англ.)
[23]
Powers, David M W (2011). Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2 (1): 37—63. hdl:2328/27165. (англ.)
[24]
Gale SD, Perkel DJ (January 2010). A basal ganglia pathway drives selective auditory responses in songbird dopaminergic neurons via disinhibition. The Journal of Neuroscience. 30 (3): 1027—37. doi:10.1523/JNEUROSCI.3585-09.2010. PMC 2824341. PMID 20089911. (англ.)
[25]
Macmillan NA, Creelman CD (15 вересня 2004). Detection Theory: A User's Guide. Psychology Press. с. 7. ISBN 978-1-4106-1114-7. Архів оригіналу за 19 серпня 2020. Процитовано 13 грудня 2020. (англ.)
[26]
Lin, Jennifer S.; Piper, Margaret A.; Perdue, Leslie A.; Rutter, Carolyn M.; Webber, Elizabeth M.; O’Connor, Elizabeth; Smith, Ning; Whitlock, Evelyn P. (21 June 2016). Screening for Colorectal Cancer. JAMA (англ.). 315 (23): 2576—2594. doi:10.1001/jama.2016.3332. ISSN 0098-7484. (англ.)
[27]
Bénard, Florence; Barkun, Alan N.; Martel, Myriam; Renteln, Daniel von (7 January 2018). Systematic review of colorectal cancer screening guidelines for average-risk adults: Summarizing the current global recommendations. World Journal of Gastroenterology (англ.). 24 (1): 124—138. doi:10.3748/wjg.v24.i1.124. PMC 5757117. PMID 29358889.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)
[28]
Diagnostic test online calculator calculates sensitivity, specificity, likelihood ratios and predictive values from a 2x2 table – calculator of confidence intervals for predictive parameters. medcalc.org. Архів оригіналу за 23 листопада 2020. Процитовано 13 грудня 2020. (англ.)
[29]
Миронов, Ю.Б. (2014). Сильні та слабкі сторони різних показників надійності банківських рейтингів (PDF). Науковий вісник Херсонського державного університету. Економічні науки (6). Архів оригіналу (PDF) за 20 січня 2022. Процитовано 12 грудня 2020.

Altman DG, Bland JM (June 1994). Diagnostic tests. 1: Sensitivity and specificity. BMJ. 308 (6943): 1552. doi:10.1136/bmj.308.6943.1552. PMC 2540489. PMID 8019315. (англ.)
Loong TW (September 2003). Understanding sensitivity and specificity with the right side of the brain. BMJ. 327 (7417): 716—9. doi:10.1136/bmj.327.7417.716. PMC 200804. PMID 14512479. (англ.)

Калькулятор Іллінойського університету в Чикаго [Архівовано 12 грудня 2015 у Wayback Machine.] (англ.)
Калькулятор чутливості/специфічності Коледжу Вассара [Архівовано 30 грудня 2020 у Wayback Machine.] (англ.)
Безкоштовний онлайн-калькулятор MedCalc [Архівовано 23 листопада 2020 у Wayback Machine.] (англ.)
Аплет баєсової клінічної діагностичної моделі [Архівовано 22 січня 2021 у Wayback Machine.] (англ.)

[28] Всі медичні скринінгові тести мають переваги та недоліки. Ці ризики та переваги описують керівні вказівки з клінічної практики, такі як для скринінгу колоректального раку.^[26]^[27]

[1] [1]
Yerushalmy J (1947). Statistical problems in assessing methods of medical diagnosis with special reference to x-ray techniques. Public Health Reports. 62 (2): 1432—39. doi:10.2307/4586294. JSTOR 4586294. PMID 20340527. (англ.)

[Смоляр2013-2] [2]
Смоляр, В.А.; Шаповал, Н.А.; Гузь, О.А; Хоперія, В.Г. (2013). Оцінка ефективності експрес-гістологічного дослідження у визначенні обсягу дисекції за папілярного раку щитоподібної залози. Клінічна ендокринологія та ендокринна хірургія. Київ: Український науково-практичний центр ендокринної хірургії, трансплантації ендокринних органів і тканин МОЗ України. 3 (44).

[Коваль2016-3] [3]
Коваль, С.С.; Макеєв, С.С.; Новікова, Т.Г. (2016). Оцінка ефективності застосування методики інтеграції даних ОФЕКТ/МРТ у діагностиці метастазів головного мозку. Клінічна онкологія. Київ: ДУ «Інститут нейрохірургії ім. акад. А.П. Ромоданова НАМН України». 3 (23). Архів оригіналу за 27 жовтня 2020. Процитовано 10 жовтня 2020.

[Швець2015-4] [4]
Швець У. С. Основні поняття доказової медицини. — 2015. Архівовано з джерела 20 вересня 2020. Процитовано 10 жовтня 2020.

[ГущинСич2018-5] [5]
Гущин, І. В.; Сич, Д. О. (жовтень 2018). Аналіз впливу попередньої обробки тексту на результати текстової класифікації (PDF). Молодий вчений. Харківський національний університет імені В.Н. Каразіна. 10 (62): 264—266. Архів оригіналу (PDF) за 27 вересня 2020. Процитовано 10 жовтня 2020.

[МірошниченкоІвлієва2019-6] [6]
Мірошниченко, І. В.; Івлієва, К. Г. (2019). Оцінювання кредитного ризику методами машинного навчання. doi:10.32702/2307-2105-2019.12.87.

[7] [7]
Fawcett, Tom (2006). An Introduction to ROC Analysis (PDF). Pattern Recognition Letters. 27 (8): 861—874. doi:10.1016/j.patrec.2005.10.010. (англ.)

[8] [8]
Powers, David M W (2011). Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2 (1): 37—63. (англ.)

[9] [9]
Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I (ред.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8. (англ.)

[10] [10]
Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26 січня 2015). WWRP/WGNE Joint Working Group on Forecast Verification Research. Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Процитовано 17 липня 2019. (англ.)

[11] [11]
Chicco D, Jurman G (January 2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)

[12] [12]
Tharwat A (August 2018). Classification assessment methods. Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003. (англ.)

[BMJ-13] [13]
Altman DG, Bland JM (June 1994). Diagnostic tests. 1: Sensitivity and specificity. BMJ. 308 (6943): 1552. doi:10.1136/bmj.308.6943.1552. PMC 2540489. PMID 8019315. (англ.)

[cebm-14] [14]
SpPins and SnNouts. Centre for Evidence Based Medicine (CEBM). Архів оригіналу за 20 липня 2014. Процитовано 26 грудня 2013. (англ.)

[15] [15]
Mangrulkar R. Diagnostic Reasoning I and II. Архів оригіналу за 1 серпня 2011. Процитовано 24 січня 2012. [Архівовано 2011-08-01 у Wayback Machine.] (англ.)

[16] [16]
Balayla, Jacques (2020). Prevalence Threshold and the Geometry of Screening Curves. arXiv:2006.00398. (англ.)

[17] [17]
Evidence-Based Diagnosis. Michigan State University. Архів оригіналу за 6 липня 2013. Процитовано 23 серпня 2013. [Архівовано 2013-07-06 у Wayback Machine.] (англ.)

[18] [18]
Sensitivity and Specificity. Emory University Medical School Evidence Based Medicine course. Архів оригіналу за 17 грудня 2018. Процитовано 13 грудня 2020. (англ.)

[pmid8028462-19] [19]
Baron JA (Apr–Jun 1994). Too bad it isn't true. Medical Decision Making. 14 (2): 107. doi:10.1177/0272989X9401400202. PMID 8028462. S2CID 44505648. (англ.)

[pmid8028470-20] [20]
Boyko EJ (Apr–Jun 1994). Ruling out or ruling in disease with the most sensitive or specific diagnostic test: short cut or wrong turn?. Medical Decision Making. 14 (2): 175—9. doi:10.1177/0272989X9401400210. PMID 8028470. S2CID 31400167. (англ.)

[pmid15271832-21] [21]
Pewsner D, Battaglia M, Minder C, Marx A, Bucher HC, Egger M (July 2004). Ruling a diagnosis in or out with "SpPIn" and "SnNOut": a note of caution. BMJ. 329 (7459): 209—13. doi:10.1136/bmj.329.7459.209. PMC 487735. PMID 15271832. (англ.)

[Fawcett2006-22] [22]
Fawcett, Tom (2006). An Introduction to ROC Analysis. Pattern Recognition Letters. 27 (8): 861—874. doi:10.1016/j.patrec.2005.10.010. (англ.)

[Powers2011-23] [23]
Powers, David M W (2011). Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2 (1): 37—63. hdl:2328/27165. (англ.)

[pmid20089911-24] [24]
Gale SD, Perkel DJ (January 2010). A basal ganglia pathway drives selective auditory responses in songbird dopaminergic neurons via disinhibition. The Journal of Neuroscience. 30 (3): 1027—37. doi:10.1523/JNEUROSCI.3585-09.2010. PMC 2824341. PMID 20089911. (англ.)

[MacmillanCreelman2004-25] [25]
Macmillan NA, Creelman CD (15 вересня 2004). Detection Theory: A User's Guide. Psychology Press. с. 7. ISBN 978-1-4106-1114-7. Архів оригіналу за 19 серпня 2020. Процитовано 13 грудня 2020. (англ.)

[26] [26]
Lin, Jennifer S.; Piper, Margaret A.; Perdue, Leslie A.; Rutter, Carolyn M.; Webber, Elizabeth M.; O’Connor, Elizabeth; Smith, Ning; Whitlock, Evelyn P. (21 June 2016). Screening for Colorectal Cancer. JAMA (англ.). 315 (23): 2576—2594. doi:10.1001/jama.2016.3332. ISSN 0098-7484. (англ.)

[27] [27]
Bénard, Florence; Barkun, Alan N.; Martel, Myriam; Renteln, Daniel von (7 January 2018). Systematic review of colorectal cancer screening guidelines for average-risk adults: Summarizing the current global recommendations. World Journal of Gastroenterology (англ.). 24 (1): 124—138. doi:10.3748/wjg.v24.i1.124. PMC 5757117. PMID 29358889.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)

[29] [28]
Diagnostic test online calculator calculates sensitivity, specificity, likelihood ratios and predictive values from a 2x2 table – calculator of confidence intervals for predictive parameters. medcalc.org. Архів оригіналу за 23 листопада 2020. Процитовано 13 грудня 2020. (англ.)

[30] [29]
Миронов, Ю.Б. (2014). Сильні та слабкі сторони різних показників надійності банківських рейтингів (PDF). Науковий вісник Херсонського державного університету. Економічні науки (6). Архів оригіналу (PDF) за 20 січня 2022. Процитовано 12 грудня 2020.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[a]

[28]

[29]

[26]

[27]