Как ученых не вводить в заблуждение относительно статистики
Увлекательная статья Дороти Бишоп появилась в Природа 584: 9 (2020); DOI: 10.1038 / d41586-020-02275-8
Сбор смоделированных данных может выявить общие способы, которыми наши когнитивные предубеждения сбивают нас с пути.
За последнее десятилетие были предприняты многочисленные усилия по продвижению надежных и достоверных исследований. Некоторые сосредотачиваются на изменении стимулов, например, путем изменения критериев финансирования и публикации, чтобы отдать предпочтение открытой науке, а не сенсационным открытиям. Но нужно обращать внимание и на человека. Чрезмерно человеческие когнитивные предубеждения могут привести нас к результатам, которых нет. Ошибочные рассуждения приводят к неаккуратной науке, даже если намерения хороши.
Несколько слов об авторе:
Профессор Дороти Бишоп
Профессор нейропсихологии развития кафедры экспериментальной психологии; Член Колледжа Святого Иоанна
Профессор Бишоп исследует языковые нарушения у детей. В некоторых случаях проблемы с речью имеют очевидную причину, например, потерю слуха или такое состояние, как синдром Дауна. В других случаях детям особенно трудно научиться говорить или понимать язык без видимых причин. Профессор Бишоп изучал детей с «определенными нарушениями речи», или SLI, которые составляют около 3% населения, но исследователи, как правило, не обращают на них внимания. Используя исследования близнецов, она изучила генетический компонент этих заболеваний и работала с молекулярными генетиками, чтобы выяснить, какие гены задействованы. Исходное изображение: Wikipedia
Как ученых не вводить в заблуждение относительно статистики
За последнее десятилетие были предприняты многочисленные усилия по продвижению надежных и достоверных исследований. Некоторые сосредотачиваются на изменении стимулов, например, путем изменения критериев финансирования и публикации, чтобы отдать предпочтение открытой науке, а не сенсационным открытиям. Но нужно обращать внимание и на человека. Чрезмерно человеческие когнитивные предубеждения могут привести нас к результатам, которых нет. Ошибочные рассуждения приводят к неаккуратной науке, даже если намерения хороши.
Исследователи должны больше осознавать эти ловушки. Подобно тому, как лабораторным работникам не разрешается иметь дело с опасными веществами без подготовки по вопросам безопасности, исследователям не следует позволять приближаться к P-значению или аналогичной статистической вероятностной мере, пока они не продемонстрируют, что понимают, что это означает.
Все мы склонны игнорировать свидетельства, противоречащие нашим взглядам. Столкнувшись с новыми данными, наши ранее существовавшие идеи могут привести нас к обнаружению несуществующих структур. Это форма предвзятости подтверждения, когда мы ищем информацию и запоминаем информацию, которая соответствует тому, о чем мы уже думаем. Его можно адаптировать: люди должны уметь отсеивать важную информацию и быстро действовать, чтобы избежать опасности. Но такая фильтрация может привести к научным ошибкам.
Примером этого является измерение заряда электрона физиком Робертом Милликеном в 1913 году. Хотя он утверждал, что его работа включала все точки данных из его знаменитого эксперимента с каплями масла, в его блокнотах были обнаружены другие, незарегистрированные точки данных, которые лишь незначительно изменили бы окончательное значение, но дали бы ему большую статистическую ошибку. Были споры о том, намеревался ли Милликен ввести своих читателей в заблуждение. Однако честные люди нередко подавляют воспоминания о неудобных фактах (RC Jennings Sci. Eng. Ethik 10, 639-653; 2004).
Другой тип ограничения способствует недопониманию вероятностей и статистических данных. Мы давно знаем, что людям трудно понять неопределенность, связанную с небольшими выборками (A. Tversky и D. Kahneman Psychol. Bull. 76, 105–110; 1971). В качестве текущего примера предположим, что 5% населения инфицировано вирусом. У нас есть 100 больниц, где проходят тестирование по 25 человек, 100 больниц, в которых тестируют 50 человек, и 100, где проходят тестирование 100 человек. Какой процент больниц не обнаруживает ни одного случая заболевания и ошибочно приходит к выводу, что вирус исчез? Ответ: 28% больниц, которые проверяют 25 человек, 8% больниц, проверяют 50 человек, и 1% больниц, проверяют 100 человек. Среднее количество случаев, выявляемых больницами, одинаково независимо от количества проверенных случаев, но диапазон намного больше при небольшой выборке.
Это нелинейное масштабирование трудно понять интуитивно. Это приводит к недооценке того, насколько шумными могут быть небольшие образцы, и, следовательно, к проведению исследований, в которых отсутствует статистическая мощность для обнаружения эффекта.
Исследователи также не осознают, что значимость результата, выраженная в P-значении, критически зависит от контекста. Чем больше переменных вы исследуете, тем больше вероятность того, что вы найдете неверно «значимое» значение. Например, если вы тестируете 14 метаболитов на наличие связи с заболеванием, то вероятность того, что вы обнаружите хотя бы одно значение P ниже 0,05 - обычно используемый порог статистической значимости, - не 1 из 20, а ближе к 1 из 2. XNUMX.
Как передать понимание этого? Ясно одно: обычное обучение статистике неадекватно или даже контрпродуктивно, поскольку может вызвать у пользователя неуместное доверие. Я экспериментирую с альтернативным подходом: генерирую смоделированные данные, которые студенты могут подвергнуть различным статистическим анализам. Я использую это, чтобы передать две ключевые концепции.
Во-первых, когда учащимся представлены пустые записи (например, случайные числа), они быстро обнаруживают, насколько легко найти ложные результаты, которые кажутся статистически «значимыми». Исследователи должны усвоить эту интерпретацию P-значения, когда его спрашивают: «Связано ли A с B?» сильно отличается от вопроса «Существуют ли корреляции для переменных A, B, C, D и E, для которых P <0,05?» Вопрос о том, связан ли конкретный метаболит с заболеванием, не то же самое, что поиск диапазона метаболиты, чтобы увидеть, связаны ли они с ним, последнее требует более тщательного тестирования.
Держим четырех всадников невоспроизводимости под контролем
Смоделированные данные также предоставляют информацию, когда образцы поступают из двух «популяций» разными способами. Студенты быстро понимают, что при небольшом размере выборки эксперимент может оказаться бесполезным, чтобы выявить даже умеренную разницу. 30-минутное моделирование данных может ошеломить исследователей, если они поймут последствия.
Исследователям необходимо приобрести привычки на протяжении всей жизни, чтобы их не вводили в заблуждение утвердительные предубеждения. Наблюдения, противоречащие нашим ожиданиям, требуют особого внимания. Чарльз Дарвин сказал в 1876 году, что у него появилась привычка: «всякий раз, когда я сталкиваюсь с опубликованным фактом, наблюдением или мыслью, которые противоречат моим общим выводам, немедленно и немедленно пишу об этом меморандум, чтобы написать: потому что я установил на собственном опыте, что такое факты и мысли гораздо чаще ускользают из памяти, чем благоприятные ". Я сам это видел. При написании литературных обзоров я с ужасом обнаружил, что совершенно забыл упомянуть статьи, противоречащие моим инстинктам, хотя в них не было особых недостатков. Я сейчас пытаюсь их перечислить.
Нам всем трудно видеть недостатки в нашей собственной работе - это нормальная часть человеческого познания. Но если мы поймем эти слепые пятна, мы сможем их избежать.