Статистика и наука в целом были бы намного проще, если бы можно было непосредственно видеть все, что когда-либо измерялось. Большинство «трудных» измерений, однако, предполагают косвенные умозаключения и выводы. Это, безусловно, относится и к сфере кибербезопасности, в которой часто приходится на основе увиденного делать выводы о чем-то невидимом. Изучение совокупностей, которые слишком велики или динамичны, чтобы их можно было рассмотреть целиком, – вот в чем на самом деле суть статистики.
Кибербезопасность не является какой-то исключительной областью, не относящейся к сфере статистики. Статистика была создана именно для решения подобных проблем. Специалистам по кибербезопасности, убежденным в обратном, стоит внимательно перечитать высказывание Марка Твена, приведенное выше. Люди вроде них могут считать, что все правильно помнят и понимают достаточно в области статистики и вероятности, чтобы без применения математики с уверенностью заявлять, какие выводы можно сделать из тех или иных данных. К сожалению, их умственные вычисления часто совсем не верны. Наличие ошибочных представлений о методах измерения мешает оценивать риск во многих областях, в том числе и в кибербезопасности.
Часто можно услышать утверждение, что выборка недостаточно велика, чтобы считаться «статистически значимой». Если слышите подобное, точно знайте одно: говорящий неправильно понимает идею статистической значимости. Недавний проведенный авторами опрос, в котором принял участие 171 специалист по кибербезопасности, показал, что такие заблуждения распространены в данной сфере так же, как и в любой другой (более подробно результаты исследования описаны в главе 5). Можно заметить, что некоторые представления о статистике противоречат следующим фактам.
• Не существует единого, универсального размера выборки, необходимого, чтобы считать ее статистически значимой.
• Чтобы правильно рассчитать статистическую значимость, нужно знать, что она зависит не только от размера выборки, но и от дисперсии внутри выборки, и от самой проверяемой гипотезы. Все эти факторы используются для расчета так называемого π-значения («пи-значения»), а затем результат сравнивается с заданным уровнем значимости. Если указанные шаги пропущены, то нельзя доверять заявлениям о том, что является статистически значимым.
• Выяснив, как вычислить статистическую значимость, и поняв, что она означает, вы обнаружите, что хотели узнать совсем не это. Статистическая значимость не означает, что вы узнали что-то новое, а ее отсутствие – что вы ничего не узнали.
Данный вопрос более детально рассматривается с математической точки зрения в первой книге «Как измерить все, что угодно. Оценка стоимости нематериального в бизнесе». А пока, полагаем, вам лучше избегать употребления фразы «статистическая значимость». Что же действительно нужно знать, так это уменьшится ли неопределенность после изучения источника данных и оправдывает ли ее уменьшение определенные изменения в действиях. Статистики знают, что статистическая значимость не дает ответа на этот вопрос, и они сами постоянно поправляют тех, кто считает иначе. Для вопросов о степени снижения неопределенности существуют математические расчеты, и, отвечая на подобные вопросы, можно не ссылаться на статистическую значимость или на то, что под ней подразумевают аналитики из сферы кибербезопасности.
Экспертам по кибербезопасности, как и многим другим специалистам практически во всех областях управления, необходимо избавиться от ошибочных представлений о статистике и изучить новые концепции в ней. Позже мы обсудим, как можно использовать некоторые проверенные методы измерения для решения различных проблем при измерении того, что изначально, возможно, казалось неизмеримым. Здесь же представим несколько примеров, в которых выводы о неявных аспектах могут быть сделаны из вполне очевидных.
• Измерения очень больших совокупностей с помощью очень маленьких случайных выборок. Можно кое-что узнать из небольшой выборки случаев утечки данных и других нарушений, особенно в ситуации высокой степени неопределенности.
• Измерения в условиях со множеством переменных, в том числе неизвестных. Можно оценить, насколько эффективно новые средства контроля системы безопасности снизили риск даже при наличии множества других факторов, влияющих на то, нанесет ли кибератака урон системе.
• Измерение риска редких событий. О вероятности неудачи при запуске ракеты, которую никогда раньше не запускали, или наступления еще одного крупного финансового кризиса можно на практике узнать с помощью наблюдений и логических рассуждений. Эти проблемы не менее сложны, чем оценка риска редко случающегося крупного нарушения кибербезопасности, тем не менее их можно измерить, и измерения проводятся.