Выбрать главу

Каков же был результат эксперимента? Фишер не упоминает об этом в своей книге, но среди присутствующих находился профессор Хью Смит, который рассказал об этом случае Дэвиду Салсбергу, автору превосходной книги о бурном развитии статистики в XX веке. Книга называется The Lady Tasting Tea. В тексте подробно описывается этот эксперимент, который и дал название книге. По словам Хью Смита, леди действительно удалось точно указать все четыре чашки.

The Design of Experiments — классический труд, автор которого, Рональд Фишер, на примере дегустатора чая объясняет суть своего метода.

* * *

РОНАЛЬД ЭЙЛМЕР ФИШЕР: В НУЖНОЕ ВРЕМЯ В НУЖНОМ МЕСТЕ

Рональд Фишер родился в 1890 году. Он получил очень хорошее математическое образование и внес важный вклад в статистику и генетику. Хотя какого-либо официального рейтинга не существует, Рональд Фишер несомненно входит в число ученых, которые внесли наибольший вклад в развитие статистики в XX веке. Согласно некоторым источникам, он был болезненным ребенком, но отличался большой тягой к знаниям и очень интересовался астрономией. Также у него было очень плохое зрение, и врачи запретили ему читать при искусственном свете (не забывайте, что в те времена лампы отличались от современных). Это мешало ему заниматься, и чтобы Рональд не отставал от остальных, преподаватель обучал его математике, не используя ни бумаги, ни карандаша. Это способствовало развитию у Фишера великолепного геометрического мышления, что впоследствии позволило ему решать сложные задачи оригинальным геометрическим методом.

В возрасте 29 лет он вместе с женой, которой в то время было 20 лет и которая родила ему троих детей (обычаи того времени отличались от современных), переехал на старую ферму около опытной сельскохозяйственной станции Ротамстед к северу от Лондона. Владельцы станции, производители удобрений, заключили с ним контракт, желая, чтобы Фишер помог им упорядочить огромный объем данных, накопленный за 90 лет работы станции. Ученый показал, что при использованном способе сбора данных влияние дождей и погоды в целом нивелировало возможный эффект от применяемых удобрений. Говорить о влиянии отдельных факторов на основе имеющихся данных было нельзя. Однако Фишер не просто указал, что данные собирались неверно, но и объяснил, какие поправки следует внести. Написанная им книга The Design of Experiments полностью изменила представление о способах сбора экспериментальных данных и оказала огромное влияние на исследования в сельском хозяйстве и промышленности.

* * *

Вес, рост, коэффициент корреляции и его значение

Мы знаем, что рост и вес человека связаны и что высокие люди обычно весят больше, чем низкие (разумеется, существуют исключения, но мы говорим об общем правиле). Здесь речь не идет о строгой связи: нет математической формулы, с помощью которой можно вычислить вес человека, зная его рост. Тем не менее существует тенденция, определенная взаимосвязь.

На следующей диаграмме показана связь роста и веса в группе из 92 студентов университета (использовались данные, входящие в пакет статистических программ Minitab, о котором мы уже упоминали в главе 1).

Соотношение между весом и ростом в группе из 92 студентов.

Как вы охарактеризуете эту зависимость? Она «сильная», «заметная» или «слабая»? Как вы понимаете, в подобных ситуациях необходимо оценивать зависимость более точно. Для этого используется показатель, называемый коэффициент корреляции (иногда его называют коэффициентом корреляции Пирсона).

Формула для вычисления коэффициента корреляции несколько громоздка, но вывести ее нетрудно (не беспокойтесь, мы не будем выводить эту формулу). По сравнению с другими похожими показателями коэффициент корреляции обладает многими преимуществами: его значения всегда лежат в интервале от —1 до 1 и не зависят от единицы измерения исходных данных. В нашем случае коэффициент корреляции не изменится, если мы будем использовать сантиметры и килограммы вместо дюймов и фунтов (как в исходных примерах).

Если коэффициент корреляции равен 1, это означает, что между двумя переменными существует строгая зависимость. При увеличении значения одной переменной значение другой также увеличится. В этом случае между переменными действительно присутствует математическая зависимость, и зная значение одной переменной, можно точно вычислить значение другой. Однако в реальности подобная ситуация встречается крайне редко. Если коэффициент корреляции равен, например, 0,8, это означает наличие четкой взаимосвязи. В нашем примере коэффициент корреляции равен 0,785. Если он равен нулю, это указывает на отсутствие какой-либо взаимосвязи. Отрицательные значения означают то же, что и положительные, с единственной разницей: с ростом значения одной переменной значение другой будет не увеличиваться, а уменьшаться.