Методы машинного обучения, используемые тысячами ученых для анализа данных, часто вводят их в заблуждение, к такому выводу пришли исследователи из Университета Райса в Хьюстоне.
Все чаще для анализа собранных данных ученые используют алгоритмы машинного обучения, которые специально разработаны для поиска интересных вещей в массивах данных. Поэтому когда они ищут, они неизбежно находят закономерности. Новый подход охватывает все сферы науки от биомедицины до астрономии. Объемы собираемых и обрабатываемых данных огромны и очень дороги.
Результаты исследования Дженеверы Аллен из Университета Райса, представленные в Американской ассоциации содействия развитию науки, показывают, что широкая популярность машинного обучения играет с учеными злую шутку и ведет к «кризису в науке». Выводы, к которым приходит компьютер, слишком часто неточные или полностью ошибочные, потому что найденные закономерности относятся только к анализируемому набору данных, а не реальной картине мира.
«Часто такие исследования скрывают свою недостоверность до тех пор, пока кто-то другой не применит эту же методику к другой выборке данных, и не скажет: «О Боже, результаты этих двух исследований не пересекаются», – цитирует её BBC.
«Кризис воспроизводимости результатов в современной науке уже общепризнан. Я бы рискнула утверждать, что в большей степени это происходит из-за использования методов машинного обучения в науке», — продолжает она. Анализ показывает, что до 85% всех биомедицинских исследований, проводимых в мире, являются напрасной тратой сил и денег. Повторные исследования не подтверждают первоначальные результаты и выводы.
Кризис этот нарастает уже в течение последних двух десятилетий, а причина этого в плохо проработанных методиках проведения экспериментов. Которые потом не защищают исследователя от самообмана.
«Проблема в том, можем ли мы доверять выводам компьютера?, — говорит Аллен. — Действительно ли это научное открытие? Воспроизводимо ли оно? Если бы у нас был другой массив данных, увидели бы мы те же результаты? И, к сожалению, ответ часто, вероятно, нет».
В настоящее время доктор Аллен вместе с научной группой в медицинском колледже Бейлор в Хьюстоне работает над тем, чтобы повысить надежность биомедицинских результатов. Она создает новое поколение методов машинного обучения и статистики, которые смогут не только просеивать большие объемы данных, выявлять закономерности, но и говорить, какова точность и вероятность воспроизводимости результатов.
Профессор предупреждает: «Сбор огромных массивов данных невероятно дорог. И я говорю ученым, с которыми работаю, что до публикации может пройти много времени, но, в конце концов, ваши результаты выдержат испытание временем. Это сэкономит деньги, и, что важно, продвинет науку без блужданий по всем возможным тупикам».