05.06.2013

Нейт Силвер: больше данных не всегда лучше

Источник: Computerworld, США
«Большие Данные позволяют заглянуть глубоко, но больше – не всегда лучше», – предупреждает статистик Нейт Силвер, ставший одним из наиболее известных специалистов в США в области анализа данных, после того как в своем блоге FiveThirtyEight точно предсказал результаты президентских выборов 2012 года во всех 50 штатах.

«Чем больше у людей данных, тем выше соблазн выбрать из них подтверждение того, что они желают продемонстрировать», – подчеркнул он.

Изобилие данных – серьезная проблема в политике, где у многих прослеживается свой интерес в получении тех или иных результатов. Важна она и во многих других областях, начиная от медицины – где многие исследователи и журналы предпочитают увидеть работы, которые показывали бы интересные результаты, а не подтверждали отсутствие новостей, – и заканчивая прогнозированием землетрясений.

«В итоге вместо реальной глубины Большие Данные помогают выявить массу фиктивных связей и продемонстрировать наличие отношений, которые, по сути, являются случайным шумом», – указал Силвер в своем выступлении на недавней конференции RMS Exceedance в Бостоне.

Силвер ведет блог FiveThirtyEight, который теперь можно увидеть на страницах New York Times, а также написал книгу The Signal and the Noise: why so many predictions fail — but some don't («Сигнал и шум: почему не сбывается так много прогнозов, но некоторые все же оказываются верны»).

Известный статистик дает четыре совета, помогающие повысить эффективность анализа данных и использования полученных результатов.

1. Мыслите вероятностными категориями. Говорите о возможности, а не об абсолюте. Не бойтесь рисовать в своих прогнозах уровень неопределенности, ведь изучение общественного мнения допускает некоторую погрешность, даже если не вся ваша аудитория способна это понять.

Многие критиковали заключения, публиковавшиеся в FiveThirtyEight, отмечая уровень вероятности, о котором не уставал повторять Сильвер, но учет неопределенности очень важен и является неотъемлемой частью хорошего исследования.

Игнорирование неопределенности грозит серьезными последствиями. В 1997 году Национальная метеорологическая служба США предупредила о приближающемся наводнении. Ожидалось, что уровень воды в реке Ред-Ривер в районе города Гранд-Форкс поднимется до 15 метров. Многих жителей города это успокоило, потому что набережная была способна выдержать подъем воды до 16 метров. К сожалению, жителям Гранд-Форкса не сообщили, что точность предыдущих прогнозов составляла плюс-минус три метра. В итоге река поднялась на 17 метров и значительная часть города была затоплена.

«Сегодня Национальная метеорологическая служба к учету неопределенности относится с гораздо большим вниманием, когда составляет свои прогнозы, – отметил Силвер, указав на 'конус неопределенности', сопровождающий прогнозируемый путь урагана. – Демонстрация неопределенности визуальными способами очень важна для правильного восприятия людьми прогнозов».

Вероятностные прогнозы на полную достоверность, конечно же, не претендуют.

2. Не отрывайтесь от реальности. Не забывайте о своих предубеждениях и мотивах, побудивших сделать то или иное заключение, а также о причинах, заставивших отказаться от других выводов. «Ваше поведение определяется вашими стереотипами», – указал Силвер. В качестве примера он привел эксперимент, в котором проверялась склонность людей к дискриминации по половому признаку. Участникам эксперимента показывали два технических резюме: одно было написано от имени женщины, а другое – от имени мужчины. Те, кто утверждал, что не склонен к дискриминации по половому признаку, на практике отвергал резюме женщины. Почему? «Люди, которые знают о своих склонностях и пристрастиях, чаще принимают меры к тому, чтобы с ними бороться», – пояснил Силвер.

3. Изучайте имеющиеся у вас данные и учитывайте возможные варианты перед выдачей прогноза. (Другими словами, выдать точный прогноз погоды в солнечном Сан-Диего гораздо проще, чем в непредсказуемом Буффало.)

Аналогичным образом, прогнозировать состояние экономики в период ее стабильности легче, чем во время краткосрочных подъемов и спадов. Этим можно объяснить неготовность многих специалистов к последней рецессии. В своих прогнозах они отталкивались от данных, собранных в период с 1986-го по 2000 год, когда экономика была на редкость стабильной. «Комплексная и детализированная модель, построенная на нелепых предположениях, не принесет пользы», – отметил Силвер.

4. Метод проб и ошибок полезен. Модели обычно хорошо работают в тех случаях, когда разрабатываются постепенно, с учетом обратной связи. «Как и в обычной жизни, к поразительным результатам здесь следует относиться с подозрением», – подчеркнул Силвер.

Комментарии

  • Facebook
  • Вконтакте