Выбрать главу

Основным инструментом статистики является так называемая гистограмма распределения оцениваемой случайной величины. Рассмотрим этот инструмент на примере такой характеристики сети, как задержка пакета.

Будем считать, что нам удалось измерить задержку доставки каждого из 2600 пакетов, переданных между двумя узлами сети, и сохранить полученные результаты. Эти результаты называются выборкой случайной величины.

Для того чтобы получить гистограмму распределения, мы должны разбить весь диапазон измеренных значений задержек на несколько интервалов и подсчитать, сколько пакетов из нашей выборки попало в каждый интервал. Пусть все значения задержек укладываются в диапазон 20-90 мс. Разобьем его на семь интервалов по 10 мс. В каждый из этих интервалов, начиная с интервала 20-30 мс и т. д., попало 100 (я1), 200 (и2), 300 (иЗ), 300 (я4), 400 (я5), 800 (яб) и 500 (и7) пакетов соответственно. Отобразив эти числа в виде горизонтальных уровней для каждого интервала, мы получим гистограмму, показанную на рис. 6.3, которая, основываясь всего на семи числах я1, я2,..., я7, дает нам компактную статистическую характеристику задержек 2600 пакетов.

Рис. 6.3. Гистограмма распределения задержек

Гистограмма задержек дает хорошее представление о производительности сети. По ней можно судить, какие уровни задержек более вероятны, а какие — менее. Чем больше период времени, в течение которого собираются данные для построения гистограммы, тем с более высокой степенью достоверности можно предсказать поведение сети в будущем. Например, пользуясь гистограммой на рис. 6.3, можно сказать, что и в будущем при измерениях задержек пакетов у 65 % пакетов задержка не превысит 60 мс. Для получения такой оценки мы сложили общее количество пакетов, задержки которых попали во все интервалы, большие 60 мс (1700 замеров), и разделили эту величину на общее количество пакетов (2600 замеров). Другими словами, мы нашли долю пакетов, задержки которых в выборке превышают 60 мс, и считаем, что наша выборка позволяет судить о поведении сети в будущем.

Насколько точен такой прогноз? Собрали ли мы достаточно экспериментальных данных, чтобы делать более-менее достоверные прогнозы? Статистика позволяет судить и об этом, однако мы не будем рассматривать здесь эту увлекательную проблему и оставим ее специальным книгам по статистике.

При увеличении количества интервалов и времени наблюдения мы в пределе получаем непрерывную функцию, которая называется плотностью распределения задержки доставки пакета (показана пунктиром). В соответствии с теорией, вероятность того, что значение случайной величины окажется в определенном диапазоне, равна интегралу плотности распределения случайной величины от нижней до верхней границ данного диапазона. Таким образом, может быть вычислено вероятностное значение задержки пакета.

Гистограмма дает хорошее детальное описание соответствующей характеристики, но чаще всего используются еще более компактные статистические оценки характеристик, которые позволяют представить характеристику одним числом на основе некоторой математической обработки имеющейся выборки.

Наиболее часто для описания характеристик производительности сети используются следующие статистические оценки.

□ Среднее значение (D) вычисляется как сумма всех значений оцениваемой величины деленная на количество всех измерений N:

D = Y^..

Для примера, приведенного на рис. 6.3, среднее значение равно: (100 х 25 + 200 х 35 + + 300 х 45 + 300 х55 + 400 х 65 + 800 х 75 + 500 х 85)/2600 - 64,6 мс (для вычисления использованы средние значения интервалов).

□ Медиана представляет такое значение оцениваемой величины, которое делит ранжированную (упорядоченную) выборку пополам, то есть таким образом, чтобы количество замеров, значения которых меньше или равны значению медианы, равнялось количеству замеров, значения которых больше или равны значению медианы. В нашем примере медианой выборки является значение 70 мс, так как число замеров, значения которых меньше или равны 70 мс, составляет 1300, а число замеров, значения которых больше или равны 70 мс, равно 1300.

□ Стандартное отклонение (J) представляет собой среднее отклонение каждого отдельного замера от среднего значения оцениваемой величины:

Очевидно, что если все задержки dj равны между собой, то вариация отсутствует, что подтверждают приведенные формулы — в этом случае D - dj и / = 0.