Выбрать главу

У випадку номінальних і порядкових величин значення виявля­ється певною функцією від показників, які також є величинами:

,

де V- номінальна чи порядкова величина; v1 ....vn - величини по­казників.

Оскільки властивості номінальних і порядкових величин не за­довольняють вимоги вимірювань, то для реалізації процесу вимі­рювання як показники, можна вважати лише адитивні величини.

Основними частинами статистичного аналізу стосовно програм­ного забезпечення можна вважати первинний статистичний аналіз, кореляційний аналіз та регресійний аналіз (рис. 5.8).

Первинний статистичний аналіз - не визначення закону розпо­ділу випадкової величини. На етапі первинного статистичного ана­лізу досліджуються вхідні статистичні дані. У ході дослідження спочатку виявляється графічний вигляд (гістограма) закону розпо­ділу. Для уточнення законів розподілу визначаються статистичні характеристики, такі як: математичне сподівання, середнє квадра­тичне відхилення, коефіцієнти асиметрії та ексцесу. На основі зна­чень математичного сподівання проводиться вилучення аномаль­них явищ (відхилень), при якому за допомогою квантилів розподі­лу Стьюдента визначаються «грубі» значення, тобто такі, що не потрапляють під заданий закон розподілу і значно віддалені від математичного сподівання. Після видалення аномальних явищ об­числюються коефіцієнти асиметрії та ексцесу.

Рис. 5.8. Схема використання статистичного аналізу

Далі всі статистичні характеристики обчислюються у зсуненому та в незсуненому виглядах. Зсунені дані являють собою обчислені результати вимірів, незсунені - теоретичні значення, що повинні приймати характеристики за «нормальності» розподілу. Потім про­водиться інтервальне оцінювання параметрів. Для всіх отриманих значень, що пройшли попередній етап, проводиться порівняння коефіцієнтів асиметрії та ексцесу із заданим теоретично. Після цьо­го на основі гістограм та висновків аналізу числових характеристик робиться висновок про закон розподілу величини.

На цьому етапі дослідник програмного забезпечення може отри­мати декілька результатів для подальшого використання.

Кореляційний аналіз пар метрик проводиться таким чином. Спочатку, за визначеними раніше законами розподілу, всі дослі­джувані значення класифікуються на ті, що мають нормальний розподіл і ті, що його не мають. Для пар метрик, що мають нормаль­ний закон розподілу, проводиться просте визначення коефіцієнта кореляції та його оцінювання. Якщо коефіцієнт кореляції дорівнює нулю, ніякого зв'язку в парі немає. У разі знаходження коефіцієнта кореляції між мінус 1 і плюс 1, наявний лінійний регресійний зв'язок. Якщо ж коефіцієнт кореляції дорівнює 1, то має місце функ­ціональний зв'язок. Далі проводиться визначення значущості кое­фіцієнта кореляції (висувається гіпотеза, що коефіцієнт кореляції дорівнює 0), при якому використовується t - тест на основі статис­тичної характеристики, яка має t розподіл Стьюдента. Якщо це значення значущості менше, ніж задане табличне, ця пара відсію­ється з подальших досліджень. У разі значущості проводиться дос­лідження на довірчі інтервали. Під час потрапляння коефіцієнта в довірчі інтервали можна зробити висновок про те, що досліджувані величини мають між собою лінійну регресійну залежність. В іншо­му випадку вони відсіюються.

Для пар досліджуваних величин, які не мають нормального за­кону розподілу, проводиться парна рангова кореляція. Суть парної рангової кореляції полягає в порівнянні не самих значень величин чи їх статистичних характеристик, а рангів, тобто номерів дослі­джуваних величин у відповідних матрицях (наборах статистичних даних). Визначається парна рангова кореляція методом обчислення коефіцієнта Спірмена чи Кендала. Якщо значення коефіцієнта ви­явилось рівним 0. то робиться висновок про відсутність кореляції і пара досліджуваних величин «відкидається». Якщо коефіцієнт кореляції набуває значення 1, чому відповідає повний збіг коефіцієн­тів, то робиться висновок про прямо пропорційну залежність (тобто лінійну), якщо мінус 1, то робиться висновок про обернено пропорційну залежність (тобто також лінійну). Якщо ж коефіцієнт коре­ляції набуває іншого значення, то далі його перевіряють на значущість, перевіряючи гіпотезу, що коефіцієнт дорівнює 0.

Отже, результатом цього етапу с відсіювання незалежних між собою пар досліджуваних величин та визначення за можливістю виду залежності для інших пар.

Регрессійний аналіз залежних величин - останній етап у дослі­дженні залежностей. Спочатку проводиться ідентифікація регресії. Вона передбачає як графічну побудову, так і аналітичні досліджен­ня. Рис. 5.9. Кореляційні поля: а - вписується в коло; б- вписується в еліпс (спадного вигляду); в - вписується в еліпс (вихідного вигляду); г- складної конфігурації