Криза відтворюваності

Криза відтворюваності станом на 2020 рік є тривалою методологічною кризою, в якій було встановлено, що багато наукових досліджень важко або неможливо повторити або відтворити. Криза відтворюваності найгірше впливає на суспільні науки та медицину.^[1]^[2] Криза має давні корені; ця фраза була придумана на початку 2010-х^[3] як частина зростаючої обізнаності про проблему. Криза відтворюваності є важливим полем досліджень у галузі метанауки.^[4]

Оскільки відтворюваність експериментальних результатів є важливою частиною наукового методу,^[5] неможливість повторити дослідження інших людей може мати серйозні наслідки для багатьох галузей науки, де значні теорії ґрунтуються на невідтворюваній експериментальній роботі. Криза відтворюваності особливо широко обговорюється в галузі психології та в медицині, де було зроблено ряд зусиль для повторного дослідження класичних результатів, для визначення достовірності результатів та, у випадку визнання ненадійним, причини збою відтворюваності.^[6]^[7]

Область застосування

Узагальнити

Перспектива

Загалом

У опитуванні 1500 науковців 2016 року було повідомлено, що 70 % з них не змогли відтворити хоча б одного експерименту іншого вченого (50 % не вдалося відтворити один з власних експериментів).^[8] У 2009 році 2 % вчених визнали фальсифікацію досліджень принаймні один раз, а 14 % визнали, що особисто знають когось, хто це робив. Медичні дослідники повідомляли про проступки частіше, ніж інші.^[9]

У психології

Кілька факторів поєднались, що поставило психологію в центр суперечки.^[10] Значна увага приділялася області соціальної психології,^[11] хоча інші сфери психології, такі як клінічна психологія,^[12]^[13] психологія розвитку,^[14] і педагогічні дослідження також були зачеплені.^[15]^[16] Відповідно до опитування, проведеного в 2018 році, на 200 мета-аналізів, «психологічні дослідження в середньому страждають низькою статистичною потужністю».^[17]

По-перше, сумнівні дослідницькі практики (СДП) були визначені як поширені у цій галузі.^[18] Такі практики, хоча і не є навмисно шахрайськими, передбачають використання великої кількості сірої області прийнятних наукових практик або використання гнучкості збору даних, аналізу та звітності, з намаганням отримати бажаний результат. Приклади СДП включають вибіркову звітність або часткову публікацію даних (повідомлення лише про деякі умови дослідження або зібрані залежні заходи в публікації), необов'язкові зупинки (вибір, коли зупинити збір даних, часто виходячи зі статистичної значущості тестів), округлення p-значення (округлення p — значення до 0,05 для підрахунку статистичної значущості), ефект витягування файлів (непублікація даних), підтверджуючі доповіді (оформлення дослідницьких аналізів як підтверджуючих аналізи) та маніпуляції з упередженням виживання (або вилучення залишків, або залишення залишків у наборі даних, щоб зробити статистичний тест значимим).^[18]^[19]^[20]^[21] Опитування понад 2000 психологів показало, що більшість респондентів визнали, що використовують хоча б один методів СДП, хибнопозитивні висновки, які часто є наслідком тиску моделі «Публікуйся або помри», авторську упередженість підтвердження, є властивою небезпекою в цій галузі, що вимагає певної ступеня скептицизму з боку читачів.^[22]

По-друге, зокрема, психологія та соціальна психологія опинилися в центрі декількох скандалів, пов'язаних із відвертим фальшивим дослідженням, зокрема, даними, зібраними Дідеріком Стапелем^[23] а також звинувачення проти інших. Однак більшість науковців визнає, що шахрайство, мабуть, робить менший внесок у кризу відтворюваності.

По-третє, було виявлено, що кілька наслідків у психологічній науці важко повторити ще до нинішньої кризи відтворюваності. Наприклад, науковий журнал Judgment and Decision Making опублікував декілька досліджень протягом багатьох років, які не забезпечують підтримки теорії несвідомої думки. Відтворення виглядають особливо важко, коли дослідницькі випробування попередньо зареєстровані та проводяться дослідницькими групами, які не дуже вкладаються у досліджувану теорію.

Ці три елементи разом призвели до відновлення уваги до відтворюваності, яку підтримує психолог Деніел Канеман.^[24] Вивчення багатьох ефектів показало, що декілька основних переконань важко повторити. Спеціальне видання журналу Social Psychology, присвячене дослідженню відтворюваності, і ряду попередніх переконань, які було важко повторити.^[25] Спеціальне видання журналу Perspectives on Psychological Science у 2012 році також зосереджувалося на проблемах, починаючи від упередженості публікацій до нульової відрази, що сприяє кризі відтворюваності в психології.^[26] У 2015 році було опубліковано перше відкрите емпіричне дослідження відтворюваності в психології під назвою Reproducibility Project. Дослідники з усього світу співпрацювали над повторенням 100 емпіричних досліджень із трьох найкращих журналів з психології. Менше половини спроб відтворення виявилися успішними у створенні статистично значущих результатів у очікуваних напрямках, хоча більшість спроб відтворення дали тенденції у очікуваних напрямках.^[27]

Багато експериментів та метааналізів скомпрометовані низькою якістю та конфліктом інтересів, що пов'язані як з авторами, так і з професійними адвокатськими організаціями, що призводить до багатьох помилкових позитивних результатів щодо ефективності певних видів психотерапії.^[28]

Хоча британська газета The Independent писала, що результати Reproducibility Project показують, що значна частина опублікованих досліджень — це лише «психо-балаканина»,^[29] криза відтворюваності не обов'язково означає, що психологія є ненауковою.^[30]^[31]^[32] Радше цей процес є частиною наукового процесу, в якому видаляються старі ідеї або ті, які не витримують ретельного вивчення,^[33]^[34] хоча цей процес видалення не завжди ефективний.^[35]^[36] Наслідком цього є те, що деякі сфери психології, які колись вважалися твердими, наприклад, соціальне домінування, потрапляли під посилену перевірку через невдалі відтворення.^[37]

Нобелівський лауреат та професор у галузі психології Деніел Канеман стверджував, що оригінальні автори повинні залучатися до відтворення, оскільки опубліковані методи часто занадто розпливчасті.^[38] Інші, такі як доктор Ендрю Вілсон, не погоджуються і стверджують, що методи повинні бути описані докладно.^[38] Дослідження рівня відтворюваності в психології в 2012 році показало більш високі показники успішності в дослідженнях відтворюваності, коли автор перетинався з авторами оригінального дослідження^[39] (91,7 % успішних відтворень у дослідженнях з перетинанням авторів порівняно з часткою 64,6 % успішності відтворення без перетину авторів).

Орієнтація на кризу реплікації призвела до інших оновлених зусиль у цій дисципліні для повторної перевірки важливих висновків,^[22]^[40] і у відповідь на занепокоєння щодо упередженості публікацій та p-хакінгу, понад 140 психологічних журналів прийняли сліпе рецензування результатів, де дослідження приймаються не на основі отриманих результатів та після закінчення досліджень, а перед проведенням досліджень та на основі методологічної суворості їх експериментальних розробок і теоретичних обґрунтувань методів статистичного аналізу перед збором чи аналізом даних.^[41] Крім того, широкомасштабне співробітництво між дослідниками, що працюють в декількох лабораторіях у різних країнах, і які регулярно відкривають свої дані для оцінки різними дослідниками, стали набагато більш поширеними в цій галузі.^[42] Попередній аналіз таких реформ підрахував, що 61 відсоток «сліпих результатів» досліджень призвели до нульового результату, на відміну від оцінених 5–20 % у попередніх дослідженнях.^[43]

Частоти відтворення результатів у психології

У доповіді Open Science Collaboration у серпні 2015 року, яку координував Брайан Носек, було оцінено відтворюваність 100 досліджень з психологічних наук з трьох високорейтингових журналів з психології.^[44] В цілому 36 % реплікацій дали значні результати (p-значення нижче 0,05) порівняно з 97 % початкових досліджень, у яких наявні відомості про суттєвий вплив. Середнє значення розміру ефекту^[en] у відтвореннях становило приблизно половину магнітуди розмірів ефектів, про які повідомлялося в оригінальних дослідженнях.

У цьому ж документі розглядалися показники відтворюваності та розмірів ефектів за журналом (Journal of Personality and Social Psychology [JPSP], Journal of Experimental Psychology: Learning, Memory, and Cognition [JEP: LMC], Psychological Science [PSCI]) та дисципліною (соцальна психологія, психологія розвитку). Коефіцієнт відтворення дослідження становив 23 % для JPSP, 48 % для JEP: LMC та 38 % для PSCI. Дослідження в галузі когнітивної психології мали вищій рівень реплікації (50 %), ніж дослідження в галузі соціальної психології (25 %).^[45]

Аналіз історії публікацій у топ-100 журналах з психології за 1900—2012 роки показав, що приблизно 1,6 % усіх публікацій з психології були спробами відтворення.^[39] Статті вважалися спробою відтворення, якщо в тексті з'явився термін «відтворення». Підмножина цих досліджень (500 досліджень) була вибрана випадковим чином для подальшого дослідження і дала менший коефіцієнт відтворюваності 1,07 % (342 з 500 досліджень [68,4 %] — насправді відтворення). У підмножині 500 досліджень аналіз показав, що 78,9 % опублікованих спроб відтворення були успішними. Імовірність успішного відтворення була значно вищою, коли хоча б один автор оригінального дослідження був учасником спроби відтворення (91,7 % відносно 64,6 %)

Дослідження, опубліковане у 2018 році у «Nature Human Behavior», прагнуло повторити 21 наукову роботу з соціальних та поведінкових досліджень із «Nature» та «Science», виявивши, що лише 13 можна успішно повторити.^[46]^[47] Аналогічно, у дослідженні, проведеному під егідою Center for Open Science, група з 186 дослідників з 60 різних лабораторій (що представляють 36 різних національностей з 6 різних континентів) здійснила відтворення 28 класичних та сучасних висновків з психології.^[48] Основна увага в дослідженні приділялась не тільки на тому, чи не повторювались висновки з оригінальних статей, а й у тому, наскільки висновки змінювалися залежно від варіацій вибірки та контексту. Загалом 14 з 28 досліджень не вдалося повторити, незважаючи на величезні розміри вибірки. Однак, якщо дослідження повторюється, воно відтворюється у більшості зразків, тоді як якщо дослідження не відтворюється, його не вдається повторити з невеликими варіаціями у вибірках та контекстах. Ці докази суперечать популярному поясненню, що невдача при відтворенні в психології, ймовірно, пов'язана зі зміною вибірки між початковим та повторним дослідженням.^[49]

Дисциплінарна соціальна дилема

Висвітлюючи соціальну структуру, яка стримує реплікацію в психології, Брайан Д. Ерп та Джим А. Еверетт перерахували п'ять пунктів щодо того, чому спроби відтворення є рідкістю:^[50]^[51]

«Незалежні, прямі відтворення інших висновків можуть забирати багато часу для дослідника, що займається відтворенням»
«[Відтворення], ймовірно, забирають енергію та ресурси безпосередньо від інших проектів, що відображають власне оригінальне мислення».
«[Відтворення] взагалі важче публікувати (значною мірою тому, що вони розглядаються як неоригінальні)»
"Навіть будучи опублікованими вони [відтворення], швидше за все, будуть сприйматися як базові вправи, а не як внески в основну галузь
"[Відтворення] приносять менше визнання і винагороди та навіть безпеки кар'єри авторам "^[52]

З цієї причини автори стверджують, що психологія стоїть перед дисциплінарною соціальною дилемою, коли інтереси дисципліни суперечать інтересам окремого дослідника.

Полеміка «методологічного тероризму»

Із зверненням уваги на кризу відтворюваності психології, психолог університету Прінстона Сьюзан Фіске повернула полеміку на виклик до критиків психології.^[53]^[54]^[55]^[56] Вона позначила цих невстановлених «супротивників» такими іменами, як «методологічний терорист» та «самопризначена поліція даних», і сказала, що критику психології слід висловлювати лише приватно або через контакт з журналами.^[53] Статистик і політолог Колумбійського університету Ендрю Гельман відповів Фіске, сказавши, що вона виявила готовність терпіти «мертву парадигму» неправдивої статистики і відмовилася відкликати публікації навіть тоді, коли вказували помилки.^[53]^[57] Він додав, що її перебування на посаді редактора було неприйнятним, і що ряд опублікованих нею праць базувався на надзвичайно слабкій статистиці; в одній із опублікованих робіт Фіске були великі статистичні помилки та «неможливі» висновки.^[53]

У медицині

З 49 медичних досліджень 1990—2003 рр. з більш ніж 1000 цитатами 45 заявили, що вивчена терапія була ефективною. З цих досліджень 16 % суперечили подальшим дослідженням, 16 % виявили сильніші ефекти, ніж наступні дослідження, 44 % були повторені, а 24 % залишилися беззаперечними.^[58] Управління з харчовх продуктів та лікарських препаратів США у 1977—1990 роках виявило вади у 10–20 % медичних досліджень.^[59] У праці, опублікованій у 2012 році, Гленн Беглі, консультант з біотехнологій, що працює в Amgen, та Лі Еллісс із Техаського університету, стверджували, що лише 11 % доклінічних досліджень раку можна повторити.^[60]^[61]

У 2016 році розроблена стаття Джона Іоаннідіса, професора медицини та досліджень і політики в галузі охорони здоров'я в університеті медицини Стенфордського університету та професора статистики в університеті гуманітарних наук і наук Станфордського університету на тему "Чому більшість клінічних досліджень не корисні. ".^[62] У статті Іоанідіс виклав деякі проблеми та закликав до реформи, характеризуючи певні моменти, щоб медичні дослідження знову були корисними. Один із прикладів, який він зробив, — це потреба в тому щоб медицина була пацієнтоорієнтованою (наприклад, у формі Інституту дослідження результатів пацієнтів), а не в сучасній практиці, в основному, спрямованій на забезпечення "потреб лікарів, дослідників або спонсорів ". Іоанідіс відомий тим, що його дослідження зосереджувались на самій науці ще з статті 2005 р. «Чому більшість опублікованих досліджень є помилковими».^[63]

У маркетингу

Маркетинг — ще одна дисципліна з «відчайдушною потребою» у відтворенні.^[64] Багато відомих маркетингових досліджень не повторюються після відтворення, помітним прикладом є ефект «занадто багато варіантів вибору», в якому велика кількість варіантів продукту робить меншими шанси придбання споживачем.^[65] Окрім згаданих раніше аргументів, потрібні дослідження відтворюваності у маркетингу, щоб вивчити застосованість теорій та моделей у різних країнах та культурах, що особливо важливо через можливий вплив глобалізації.^[66]

У економіці

У дослідженні 2016 року в журналі «Science» було встановлено, що третину з 18 експериментальних досліджень двох економічних журналів найвищого рівня («American Economic Review» та «Quarterly Journal of Economics») не вдалося повторити.^[67]^[68] Дослідження, проведене в 2017 році в «Economic Journal», припустило, що «більшість середніх ефектів в літературі з емпіричної економіки перебільшуються коефіцієнтом щонайменше 2, а принаймні одна третина перебільшується в 4 або більше разів».^[69]

У дослідженнях спорту

У дослідженні 2018 року розглянуто сферу фізичних вправ та спорту для вирішення завдань щодо недостатнього дослідження реплікації, обмеженої звітності про нульові та тривіальні результати та недостатньої прозорості досліджень.^[70] Статистики розкритикували спортивну науку за загальне використання суперечливого статистичного методу під назвою «висновок на основі величини», який дозволив вченим у галузі спорту отримати очевидно значні результати з зашумлених даних, тоді коли звичайне тестування гіпотез не знайшло жодного.^[71]

У керуванні водними ресурсами

Дослідження, проведене у2019 році у «Scientific Data», припустило, що лише невелика кількість статей у журналах водні ресурси можуть бути відтворені, тоді як більшість статей не можна було повторити через недоступність даних. Дослідження оцінило з 95 % впевненістю, що «результати можуть бути відтворені лише від 0,6 % до 6,8 % з усіх 1989 статей».^[72]

У системах пошуку інформації та рекомендацій

Дослідження в 2019 році, в якому повідомлялося про систематичний аналіз останніх публікацій, що застосовують методи глибокого навчання чи нейронні мережі до рекомендаційних систем, опубліковані на високорівневих конференціях (SIGIR, KDD, WWW, RecSys), показали, що в середньому менше 40 % статей відтворювані, від 75 % і 14 % залежно від конференцій. Більше того, всі, окрім однієї з проаналізованих статей, пропонували алгоритми, які не були конкурентоспроможними щодо значно старших та простіших правильно налаштованих базових алгоритмів. У статті також висвітлено низку потенційних проблем сьогоднішньої наукової діяльності та наведено заклик до вдосконалення наукової практики в цій галузі.^[73] Ці результати відповідають попереднім аналогічним висновкам ще з 2011 року.^[74]^[75]

Політичні наслідки

У США криза відтворюваності науки стала темою політичних суперечок, пов'язаних із спробою зменшити норми — наприклад. викидів забруднюючих речовин, аргументуючи тим, що ці норми ґрунтуються на дослідженнях, що не відтворюються.^[76]^[77] Попередні аналогічні спроби звинувачували дослідження, які використовували регулятори, у непрозорості.^[78]

Причини

Узагальнити

Перспектива

Glenn Begley та Джон Іоаннідіс запропонували наступні причини:

Генерування нових даних / публікацій безпрецедентною швидкістю.
Більшість цих відкриттів не витримають випробування часом.
Недотримання належної наукової практики та тиск «Публікуйся або помри».
Кілька різноманітних зацікавлених сторін

Вони роблять висновок, що жодна сторона не несе виключної відповідальності, і жодного єдиного рішення не буде достатньо. Насправді, деякі прогнози майбутньої кризи в механізмі контролю якості науки простежуються протягом декількох десятиліть, особливо серед науковців у науково-технічних дослідженнях (СТС). Дерек де Солла Прайс, який вважається батьком наукометрії, передбачав, що наука може досягти «старіння» в результаті її власного експоненційного зростання.^[79] Деяка сучасна література, схоже, підтверджує це передбачення «переповнення», нарікаючи на занепад як уваги, так і якості.^[80]^[81]

Філософ і історик науки Джеронім Р. Равец передбачив у своїй книзі 1971 р. «Scientific Knowledge and Its Social Problems» що наука — у прогресуванні від «малої» науки, що складається з ізольованих спільнот дослідників, до «великої» науки або «техно-науки» зазнала б великих проблем у її внутрішній системі контролю якості. Равец визнав, що структура стимулів для сучасних вчених може стати нефункціональною, відомою як теперішній виклик «Публікуйся або помри», створюючи збочені стимули для публікації будь-яких висновків, хоча б сумнівних. За словами Равеца, якість науки підтримується лише тоді, коли існує спільнота науковців, пов'язана набором загальних норм і стандартів, які всі сприймають, і можуть притягувати один одного до відповідальності.

Історик Філіп Мировський запропонував аналогічний діагноз у своїй книзі «Science Mart» (2011) у 2011 році.^[82] У назві слово «Mart» посилається на роздрібний гігант «Walmart», який Міровський використовує як метафору для кодифікації науки. Згідно з аналізом Міровського якість науки падає, коли вона стає товаром, яким торгують на ринку. Міровський аргументує свою думку, простежуючи занепад науки до рішення великих корпорацій закрити власні лабораторії. Вони передавали свою роботу в університети, прагнучи зменшити витрати та збільшити прибуток. Згодом корпорації перенесли свої дослідження далеко від університетів до ще дешевшого варіанту — Contract Research Organisations (CRO).

Криза системи контролю якості науки впливає на використання науки для політики. Це теза нещодавньої роботи групи науковців, яка визначає сучасну точку напруженості в «політиці, заснованій на доказах (або на основі інформації)».^[77]^[83]^[84]^[85]^[77] Економіст Ноа Сміт припускає, що фактором кризи стала завищена оцінка наукових досліджень та недооцінка навчальних можливостей, особливо у галузях, де зроблені останні великі відкриття.^[86]Інша основна причина — це упередження публікації, той факт, що позитивні результати швидше публікуються, ніж негативні (або нульові) результати. Це може призвести до канонізації помилкових фактів.^[87]

Відповідь

Узагальнити

Перспектива

Відтворюваність називається «наріжним каменем науки».^[88]^[89] Дослідження відтворюваності намагаються оцінити, чи відображаються у опублікованих результатах справжні висновки чи хибнопозитивні. Цілісність наукових висновків та відтворюваність досліджень важливі, оскільки вони формують фундамент знань, на якому будуються майбутні дослідження.

Метанаука

Докладніше: Метанаука

Метанаука — це використання наукової методології для вивчення самої науки. Метанаука прагне підвищити якість наукових досліджень, зменшуючи відходи. Він також відомий як «дослідження досліджень» і «наука про науку», оскільки він використовує наукові методи для вивчення того, як дослідження робиться і де можуть бути зроблені удосконалення. Метанаука стосується всіх галузей досліджень і була описана як «погляд на науку з висоти пташиного польоту».^[90] За словами Джона Іоаннідіса, «наука — це найкраще, що трапилося з людьми … але ми можемо це зробити краще».^[91]

Метадослідження продовжують проводитись для виявлення коренів кризи та їх подолання. Методи подолання кризи включають попередню реєстрацію наукових досліджень та клінічних випробувань, а також заснування таких організацій, як CONSORT та EQUATOR Network, які видають вказівки щодо методології та звітності. Продовжуються зусилля щодо реформування системи академічних стимулів, удосконалення академічної експертної оцінки, зменшення неправильного використання статистичних даних, боротьби з упередженостю у науковій літературі та підвищення загальної якості та ефективності наукового процесу.

Усунення упередженості публікацій шляхом попередньої реєстрації досліджень

Нещодавнє нововведення у публікації наукових робіт полягає у реєстрації звітів для подолання кризи відтворюваності.^[92]^[93] Формат рєстрованих звітів вимагає від авторів подати опис методів дослідження та аналізів до збору даних. Після того, як метод та план аналізу будуть перевірені шляхом експертної оцінки, публікація результатів дозволяє перевірити чи дотримуються автори запропонованого протоколу. Однією метою зареєстрованих звітів є обхід упередженості публікацій щодо значних висновків, які можуть призвести до впровадження сумнівних дослідницьких практик та заохотити публікацію досліджень з більш суворими методами.

Журнал Psychological Science заохочував попередню реєстрацію досліджень та звітування про розмір ефекту та довірчі інтервали.^[94] Головний редактор також зазначив, що редакція буде просити відтворити дослідження з дивовижними висновками, із використанням зразків невеликих розмірів, перш ніж дозволити публікацію рукописів.

Більше того, лише дуже невелика частка наукових журналів з психології та нейронаук прямо заявляла, що вони вітають подання відтворення досліджень у своїй меті та галузі чи у вказівках авторам.^[95]^[96] Це явище не заохочує звітування або навіть спроби відтворення досліджень.

Перехід до парадигми складних систем

Стверджувалося, що зусилля дослідників, що працюють в рамках звичайної лінійної парадигми, обов'язково стикаються з труднощами відтворення.^[97] Проблеми виникають, якщо причинно-наслідкові процеси в досліджуваній системі є пов'язаними із взаємодією, а не з складовими, мультипликативністю замість аддитивності та з багатьма малими нелінійними взаємодіями, що виробляють явища на макрорівні такими які не зводяться до їх компонентів на мікрорівні. У контексті таких складних систем звичайні лінійні моделі дають відповіді, які не є розумними, оскільки в принципі неможливо розкласти дисперсію, як це запропоновано загальною лінійною моделлю — прагнення відтворити такий результат, отже, очевидно, є проблематичним. В даний час такі ж питання задаються в багатьох галузях науки, де дослідники починають ставити під сумнів припущення, що лежать в основі класичних статистичних методів.^[98]

Підтримка спроб відтворення у навчанні

На основі курсових робіт з експериментальних методів в MIT, Стенфорді та Університеті Вашингтона було запропоновано, щоб курси методів психології та інших галузей акцентували увагу на спробах відтворення, а не на оригінальних дослідженнях.^[99]^[100]^[101] Такий підхід допоможе студентам засвоїти наукову методологію та забезпечить численні самостійні відтворення значущих наукових висновків, які б перевіряли повторюваність наукових результатів. Дехто рекомендує вимагати від аспірантів публікації високоякісної спроби відтворення на тему, пов'язану з їх докторським дослідженням до закінчення навчання.^[51]

Зменшення p-значення, необхідного для ствердження значущості нових результатів

Багато публікацій вимагають значення p<0,05, щоб заявити про статистичну значимість. Стаття «Redefine statistical significance»,^[102] за підписом великої кількості вчених та математиків, пропонується, що у "галузях, де поріг визначення статистичної значущості для нових відкриттів P<0,05, ми пропонуємо змінити на P <0,005. Цей простий крок негайно покращить відтворюваність наукових досліджень у багатьох галузях ".

Їх обґрунтування полягає в тому, що провідна причина невідтворюваності (полягає в тому, що) статистичні стандарти доказів для отримання нових відкриттів у багатьох галузях науки просто занадто низькі. Пов'язування статистичної значущості результатів з p<0,05 призводить до високого рівня хибноозитивних результатів навіть за відсутності інших експериментальних, процедурних та звітних проблем.

Згодом цей заклик був підданий критиці іншою великою групою, яка стверджувала, що «переосмислення» порогу не виправить поточні проблеми, призведе до нових, і що врешті-решт всі пороги потрібно обгрунтувати в кожному конкретному випадку, а не слідуючи загальним умовам.^[103]

Виправлення неправильного тлумачення p-значень

Хоча статистики одностайні, що використання значення p<0,05 дає слабкіші докази, ніж це загальноприйнято, відсутня одностайність щодо того, що слід робити щодо цього. Деякі виступають за те, щоб байєсівські методи повинні замінити p-значення. Це не відбулося в широких масштабах, почасти тому, що це складно, а почасти тому, що багато користувачів недовіряють специфікації попередніх розподілів за відсутності вихідних даних. Спрощена версія аргументу Байєса, заснована на тестуванні точкової нульової гіпотези, була запропонована Колкхуном (2014, 2017).^[104]^[105] Логічні проблеми індуктивного висновку обговорювались у роботі «The problem with p-values» (2016)^[106]

Небезпека опори на p-значення підкреслювалась тим, що навіть спостереження p = 0,001 не обов'язково є вагомим доказом проти нульової гіпотези.^[105] Незважаючи на факт що коефіцієнт ймовірності на користь альтернативної гіпотези щодо нуля близький до 100, якщо гіпотеза була неправдоподібною, попередня ймовірність реального ефекту — 0,1, навіть спостереження p = 0,001 мав би ризик хибнопозитивного результату на рівні 8 відсотків. Він навіть не досяг би рівня 5 відсотків.

Рекомендовано^[105] не використовувати терміни «значущий» та «несуттєвий». p-величини та довірчі інтервали все одно повинні бути визначені, але вони повинні супроводжуватися вказівкою на хибнопозитивний ризик. Було запропоновано, що найкращий спосіб зробити це — обчислити попередню ймовірність, у яку потрібно повірити, щоб досягти помилкового позитивного ризику, скажімо, 5 %. Розрахунки можна проводити за допомогою коду мовою R, що надається,^[105] або за допомогою вебкалькулятора.^[107] Цей так званий зворотний байєсівський підхід, запропонований Метьюсом (2001),^[108] є одним із способів уникнути проблеми, що попередня ймовірність рідко відома.

Також було запропоновано, що багато критиків частотницьких методів неправильно керуються ними, а проблеми зникають, коли застосовується підхід до статистичного висновку як жорсткого тестування.^[109] Цей підхід підкреслює, що нам потрібно знати, наскільки ймовірним є метод виявлення помилок, коли вони є.

Заохочення великих розмірів вибірки

Для поліпшення якості відтворення часто потрібні більші розміри вибірки, ніж ті, які використовувались в оригінальному дослідженні.^[110] Потрібні більші розміри вибірки, оскільки оцінки розміру ефекту публікацій в опублікованій роботі часто перебільшені через упередженість публікації та велику дисперсію вибірки, пов'язану з невеликими розмірами вибірки в оригінальному дослідженні.^[111]^[112]^[112]^[113] Крім того, використання значущості зазвичай призводить до завищених ефектів, оскільки, особливо при малих розмірах вибірки, лише найбільші ефекти стануть значущими.^[114]

Обмін вихідними даними в онлайн-сховищах

Онлайн-сховища, де дані, протоколи та знахідки можуть зберігатися та оцінюватися громадськістю, яка прагне покращити цілісність та відтворюваність досліджень. Приклади таких сховищ включають Open Science Framework, Registry of Research Data Repositories та Psychfiledrawer.org. Такі сайти, як Open Science Framework, пропонують значки для використання відкритих наукових практик для стимулювання вчених. Однак існує побоювання, що ті, хто, швидше за все, надасть свої дані та код для аналізу, — це ті дослідники, дослідження яких, ймовірно, є найскладнішими.^[115] Джон Іоаннідіс із Стенфордського університету припустив, що «може виникнути парадокс, що найбільш ретельні та витончені та уважні до методів та уважні дослідники можуть стати більш чутливими до критики та нападів на репутацію відтворювачів, які полюють на помилки, незалежно від того, наскільки ці серйозними є помилки».^[115]

Фінансування відтворення досліджень

У липні 2016 року Нідерландська організація наукових досліджень (Netherlands Organisation for Scientific Research) надала 3 мільйони євро на відтворення дослідження. Фінансування призначене для відтворення на основі повторного аналізу існуючих даних та відтворення шляхом збору та аналізу нових даних. Фінансування доступне у сферах соціальних наук, досліджень у галузі охорони здоров'я та інновацій у галузі охорони здоров'я.^[116]

У 2013 р. Фонд Лаури та Джона Арнольда фінансував запуск Центру відкритих наук з грантом у розмірі 5,25 мільйонів доларів і до 2017 року забезпечив додаткові 10 мільйонів доларів фінансування.^[117] Він також фінансував запуск Інноваційного центру метадосліджень у Стенфорді в Стенфордському університеті, яким керують Джон Іоанідіс та Стівен Гудман для вивчення шляхів удосконалення наукових досліджень.^[117] Він також забезпечив фінансування ініціативи AllTrials, яку частково очолив Бен Голдакре.^[117]

Заохочення тріангуляції, а не лише відтворення

Маркус Р. Мунафо та Джордж Дейві Сміт стверджують, що у публікаціях, опублікованих у «Nature», дослідження повинні акцентувати увагу на триангуляції, а не просто на відтворенні. Вони стверджують, що,

саме по собі відтворення утримує нас далеко (і) може насправді погіршити ситуацію ... Ми вважаємо, що головним захистом від хибних ідей є тріангуляція. Це стратегічне використання декількох підходів для вирішення одного питання. У кожного підходу є свої непов'язані припущення, сильні та слабкі сторони. Результати, які погоджуються в різних методологіях, рідше є артефактами. ... Можливо, одна з причин відтворення викликала такий великий інтерес - часто повторювана думка, що фальсифікація лежить в основі наукової спільноти. Ця ідея була популяризована максимою Карла Поппера 1950-х років, що теорії ніколи не можуть бути доведені, лише фальсифіковані. І все ж, перебільшена оцінка повторення експериментів може забезпечити необґрунтоване відчуття впевненості щодо висновків, що спираються на єдиний підхід. ... філософи науки продовжували працювати з Поппером. Кращі описи того, як фактично працюють вчені, включають те, що гносеолог Пітер Ліптон назвав у 1991 році "висновком до найкращого пояснення".^[118]

Підвищення загальних стандартів презентації методів

Деякі автори стверджують, що недостатня комунікація з експериментальних методів є головним фактором кризи відтворюваності та що покращення якості звітів про планування експерименту та статистичний аналіз допоможе покращити ситуацію.^[119] Ці автори схильні закликати як до широкої культурної зміни наукового співтовариства щодо того, як розглядаються статистичні дані, так і більш примусового поштовху від наукових журналів та органів фінансування.

Наслідки для фармацевтичної галузі

Узагальнити

Перспектива

Фармацевтичні компанії та венчурні капітали підтримують дослідницькі лабораторії або укладають договори з приватними постачальниками дослідницьких послуг (наприклад, Envigo та Smart Assays Biotechnologies), завдання яких — повторити академічні дослідження, щоб перевірити, чи є вони точними, до того, як інвестувати чи намагатися розробити новий препарат на основі лікарських засобів на цьому дослідженні. Фінансові ставки високі для компанії та інвесторів, тому для них вигідніше інвестувати в точні відтворення.^[120] Виконання відтворювальних досліджень споживає ресурси. Крім того, виконання експертного відтворення вимагає не тільки загальної експертизи методології дослідження, але й конкретного досвіду в часто вузькій темі, яка цікавить. Іноді дослідження вимагають конкретних технічних навичок та знань, і лише ті дослідники, які займаються вузькою областю досліджень, можуть мати ці навички. Зараз фонди рідко зацікавлені в банках відтворювальних досліджень, а більшість наукових журналів не зацікавлені в опублікуванні таких результатів.^[120] Дослідники раку Amgen Oncology змогли повторити лише 11 відсотків інноваційних досліджень, які вони обрали для виконання протягом 10-річного періоду;^[121] Аналіз дослідників у 2011 році з фармацевтичною компанією Bayer показав, що внутрішні висновки компанії узгоджувались з первинними результатами не більше ніж у чверті випадків.^[122] Аналіз також виявив, що коли вченим Bayer вдавалося відтворити результат у прямому експерименті на відтворення, він, як правило, добре перекладався на клінічні програми; що означає, що відтворюваність є корисним маркером клінічного потенціалу.

Примітки

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.