Коефіцієнт рангової кореляції кендала. Рангова кореляція та коефіцієнт рангової кореляції кендала Коефіцієнт кореляції кендала онлайн

Подання та попередня обробка оцінок експертів

У практиці використовують кілька видів оцінок:

- якісні (часто-рідко, гірше-краще, так-ні),

- шкальні оцінки (інтервали значень 50-75, 76-90, 91-120 і т.п.),

Бальні із заданого інтервалу (від 2 до 5, 1 -10), взаємно незалежні,

Рангові (об'єкти розташовуються експертом у порядку, і кожному приписується порядковий номер – ранг),

Порівняльні, отримані одним із методів порівняння

метод послідовних порівнянь

метод попарного порівняння факторів

На наступному етапі обробки думок експертів необхідно оцінити ступінь узгодженості цих думок.

Оцінки, отримані від експертів, можуть розглядатися як випадкова змінна, розподіл якої відображає думки експертів щодо ймовірності того чи іншого вибору події (чинника). Тому для аналізу розкиду та узгодженості оцінок експертів застосовуються узагальнені статистичні характеристики – середні та заходи розкиду:

Середня квадратична помилка,

Варіаційний розмах min – maх,

- коефіцієнт варіації V = порівн.квадр.вимк./ середня арифм. (Підходить для будь-якого типу оцінок)

V i = σ i / x i ср

Для оцінки заходи подібностейа думок кожної пари експертівможуть бути використані різні методи:

коефіцієнти асоціації, за допомогою яких враховується кількість відповідей, що збігаються і не збігаються,

коефіцієнти суперечливостідумок експертів,

Всі ці заходи можна використовувати або для порівняння думок двох експертів або для аналізу зв'язку між рядами оцінок за двома ознаками.

Коефіцієнт парної рангової кореляції Спірмена:

де n – кількість експертів,

c k – різниця оцінок i-го та j-го експертів з усіх T факторів

Коефіцієнт рангової кореляції Кендалла (коефіцієнт конкордації) дає загальну оцінку узгодженості думок всіх експертів з усіх чинників, але тільки випадків, коли використовувалися рангові оцінки.

Доведено, що величина S, коли всі експерти дають однакові оцінки всіх факторів, має максимальне значення, що дорівнює

де n - Число факторів,

m – кількість експертів.

Коефіцієнт конкордації дорівнює відношенню

причому якщо W близький до 1, всі експерти дали досить узгоджені оцінки, інакше їх думки не узгоджені.

Формула для розрахунку S наведена нижче:

де r ij - рангові оцінки i-го фактора j-им експертом,

r ср - середній ранг по всій матриці оцінок і дорівнює

І отже формула розрахунку S може набути вигляду:

Якщо окремі оцінки в одного експерта збігаються, і їх при обробці зробили стандартизованими, то для обчислення коефіцієнта конкордації використовується інша формула:



де Тj розраховується для кожного експерта (у тому випадку, якщо його оцінки повторювалися для різних об'єктів) з урахуванням повторень за такими правилами:

де t j - Число груп рівних рангів у j-го експерта, а

h k - Число рівних рангів в k-ої групи пов'язаних рангів j-го експерта.

ПРИКЛАД. Нехай 5 експертів з шести факторів відповіли при ранжируванні так, як показано в таблиці 3:

Таблиця 3 - Відповіді експертів

Експерти О1 О2 О3 О4 О5 О6 Сума рангів за експертом
Е1
Е2
Е3
Е4
Е5

У зв'язку з тим, що отримано не строго ранжування (оцінки в експертів повторюються, а суми рангів не рівні), зробимо перетворення оцінок і отримаємо пов'язані ранги (таблиця 4):

Таблиця 4 - Пов'язані ранги оцінок експертів

Експерти О1 О2 О3 О4 О5 О6 Сума рангів за експертом
Е1 2,5 2,5
Е2
Е3 1,5 1,5 4,5 4,5
Е4 2,5 2,5 4,5 4,5
Е5 5,5 5,5
Сума рангів по об'єкту 7,5 9,5 23,5 29,5

Тепер визначимо міру узгодженості думок експертів за допомогою коефіцієнта конкордації. Оскільки ранги пов'язані, будемо обчислювати W за формулою (**).

Тоді r ср =7 * 5/2 = 17,5

S = 10 2 +8 2 +4.5 2 +4.5 2 +6 2 +12 2 = 384.5

Перейдемо до розрахунків W. Для цього окремо обчислимо значення T j . У прикладі спеціально так підібрані оцінки, що у кожного експерта є оцінки, що повторюються: у одного їх дві, у другого - три, у третього - дві групи по дві оцінки, так само і у четвертого, у п'ятого - дві однакові оцінки. Звідси:

Т 1 = 2 3 - 2 = 6 Т 5 = 6

Т 2 = 3 3 - 3 = 24

Т 3 = 2 3 -2 + 2 3 -2 = 12 Т 4 = 12

Ми бачимо, що узгодженість думок експертів є досить високою і можна переходити до наступного етапу дослідження – обґрунтування та прийняття рекомендованої експертами альтернативи рішення.

В іншому випадку необхідно повернутися до етапів 4-8.

Для обчислення коефіцієнта рангової кореляції Кендала r kнеобхідно ранжувати дані за однією з ознак у порядку зростання та визначити відповідні ранги за другою ознакою. Потім для кожного рангу другої ознаки визначається кількість наступних рангів, більших за величиною, ніж взятий ранг, і є сума цих чисел.

Коефіцієнт рангової кореляції Кендала визначається формулою


де R i– кількість рангів другої змінної, починаючи з i+1, величина яких більша за величину i-ого рангу цієї змінної.

Існують таблиці процентних точок розподілу коефіцієнта r k, що дозволяють перевірити гіпотезу про значущість коефіцієнта кореляції

При великих обсягах вибірки критичні значення r kне табулюються, і їх доводиться обчислювати за наближеними формулами, які ґрунтуються на тому, що при нульовій гіпотезі H 0: r k=0 і більших nвипадкова величина

розподілено приблизно за стандартним нормальним законом.

40. Залежність між ознаками, виміряними у номінальній чи порядковій шкалах

Часто виникає завдання перевірки незалежності двох ознак, виміряних у номінальній чи порядковій шкалах.

Нехай у якихось об'єктів вимірюються дві ознаки Xі Yз числом рівнів rі sвідповідно. Результати таких спостережень зручно представляти як таблиці, званої таблицею спряженості ознак.

В таблиці u i(i = 1, ..., r) та v j (j= 1, ..., s) – значення, що приймаються ознаками, величина n ij– кількість об'єктів із загальної кількості об'єктів, у яких ознака Xприйняв значення u i, а ознака Y– значення v j

Введемо такі випадкові величини:

u i


- кількість об'єктів, у яких зустрілося значення v j


Крім того, мають місце очевидні рівності



Дискретні випадкові величини Xі Yнезалежні тоді і лише тоді, коли

для всіх пар i, j

Тому гіпотезу про незалежність дискретних випадкових величин Xі Yможна записати так:

Як альтернативну, як правило, використовують гіпотезу

Судити про справедливість гіпотези H 0 слід виходячи з вибіркових частот n ijтаблиці спряженості. Відповідно до закону великих чисел при n→∞ відносні частоти близькі до відповідних ймовірностей:



Для перевірки гіпотези H0 використовується статистика

яка за справедливості гіпотези має розподіл χ 2 с rs − (r + s− 1) ступенями свободи.

Критерій незалежності χ 2 відхиляє гіпотезу H 0 з рівнем значущості, якщо:


41. Регресійний аналіз. Основні поняття регресійного аналізу

Для математичного опису статистичних зв'язків між змінними величинами, що вивчаються, слід вирішити наступні завдання:

ü підібрати клас функцій, в якому доцільно шукати найкращу (у певному сенсі) апроксимацію цікавої залежності;

ü знайти оцінки невідомих значень параметрів, що входять до рівнянь шуканої залежності;

ü встановити адекватність отриманого рівняння шуканої залежності;

ü виявити найбільш інформативні вхідні змінні.

Сукупність перерахованих завдань і є предметом досліджень регресійного аналізу.

Функцією регресії (або регресією) називається залежність математичного очікування однієї випадкової величини від значення, що приймається іншою випадковою величиною, що утворює з першою двовимірну систему випадкових величин.

Нехай є система випадкових величин ( X,Y), то функція регресії Yна X

А функція регресії Xна Y

Функції регресії f(x) та φ (y), не є взаємно оборотними, якщо тільки залежність між Xі Yне є функціональною.

В разі n-мірного вектора з координатами X 1 , X 2 ,…, X nможна розглядати умовне математичне очікування будь-якої компоненти. Наприклад, для X 1


називається регресією X 1 на X 2 ,…, X n.

Для повного визначення функції регресії необхідно знати умовний розподіл вихідної змінної за фіксованих значень вхідної змінної.

Оскільки в реальній ситуації такої інформації не мають, то зазвичай обмежуються пошуком відповідної апроксимуючої функції f a(x) для f(x), ґрунтуючись на статистичних даних виду ( x i, y i), i = 1,…, n. Ці дані є результатом nнезалежних спостережень y 1 ,…, y nвипадкової величини Yпри значеннях вхідної змінної x 1 ,…, x n, причому у регресійному аналізі передбачається, що значення вхідний змінної задаються точно.

Проблема вибору найкращої апроксимуючої функції f a(x), будучи основною в регресійному аналізі, і не має формалізованих процедур для свого рішення. Іноді вибір визначається на основі аналізу експериментальних даних, найчастіше з теоретичних міркувань.

Якщо передбачається, що функція регресії є досить гладкою, то її функція апроксимує f a(x) може бути представлена ​​у вигляді лінійної комбінації деякого набору лінійно незалежних базисних функцій ψ k(x), k = 0, 1,…, m−1, тобто у вигляді


де m– кількість невідомих параметрів θ k(У загальному випадку величина невідома, уточнювана в ході побудови моделі).

Така функція є лінійною за параметрами, тому в цьому випадку говорять про модель функції регресії, лінійної за параметрами.

Тоді завдання пошуку кращої апроксимації для лінії регресії f(x) зводиться до знаходження таких значень параметрів, за яких f a(x;θ) найбільш адекватна наявним даним. Одним з методів, що дозволяє вирішити це завдання, є метод найменших квадратів.

42. Метод найменших квадратів

Нехай безліч точок ( x i, y i), i= 1,…, nрозташоване на площині вздовж деякої прямої

Тоді як функція f a(x), що апроксимує функцію регресії f(x) = M [Y|x] природно взяти лінійну функцію аргументу x:


Т. е. як базові функції тут обрані ψ 0 (x)≡1 та ψ 1 (x)≡x. Таку регресію називають простою лінійною регресією.

Якщо безліч точок ( x i, y i), i= 1,…, nрозташовано вздовж деякої кривої, то як f a(x) природно спробувати вибрати сімейство парабол

Ця функція є нелінійною за параметрами θ 0 та θ 1 , однак шляхом функціонального перетворення (в даному випадку логарифмування) її можна призвести до нової функції f’ a(x) , лінійною за параметрами:


43. Проста лінійна регресія

Найпростішою моделлю регресії є проста (одномірна, однофакторна, парна) лінійна модель, що має такий вигляд:


де ε i– некорельовані між собою випадкові величини (помилки), що мають нульові математичні очікування та однакові дисперсії σ 2 , aі b– постійні коефіцієнти (параметри), які необхідно оцінити за виміряними значеннями відгуку y i.

Для знаходження оцінок параметрів aі bлінійної регресії, що визначають пряму лінію, що найбільш задовольняє експериментальним даним:


застосовується метод найменших квадратів.

Згідно методом найменших квадратів оцінки параметрів aі bзнаходять із умови мінімізації суми квадратів відхилень значень y iпо вертикалі від "справжньої" лінії регресії:

Нехай було зроблено десять спостережень випадкової величини Yпри фіксованих значеннях змінної X

Для мінімізації Dприрівняємо до нуля приватні похідні по aі b:



В результаті отримаємо наступну систему рівнянь для знаходження оцінок aі b:


Вирішення цих двох рівнянь дає:



Вирази для оцінок параметрів aі bможна уявити також у вигляді:

Тоді емпіричне рівняння регресійної прямої Yна Xможна записати у вигляді:


Незміщена оцінка дисперсії σ 2 відхилень значень y iвід підібраної прямої лінії регресії дається виразом

Розрахуємо параметри рівняння регресії


Таким чином, пряма регресія має вигляд:


А оцінка дисперсії відхилень значень y iвід підібраної прямої лінії регресії


44. Перевірка значущості лінії регресії

Знайдена оцінка b≠ 0 може бути реалізацією випадкової величини, математичне очікування якої дорівнює нулю, тобто може виявитися, що жодної регресійної залежності насправді немає.

Щоб розібратися з цією ситуацією, слід перевірити гіпотезу Н0: b= 0 при конкуруючій гіпотезі Н 1: b ≠ 0.

Перевірку значимості лінії регресії можна з допомогою дисперсійного аналізу.

Розглянемо таку тотожність:

Величина y iŷ i = ε iназивається залишком і є різницею між двома величинами:

ü відхиленням спостережуваного значення (відгуку) від загального середнього відгуків;

ü відхиленням передбаченого значення відгуку ŷ iвід того ж середнього

Записане тотожність можна записати у вигляді


Звівши обидві його частини квадрат і просумувавши по i, Отримаємо:


Де величини отримали назву:

повною (загальною) сумою квадратів СК п, яка дорівнює сумі квадратів відхилень спостережень щодо середнього значення спостережень

сума квадратів, обумовлену регресією СК р, яка дорівнює сумі квадратів відхилень значень лінії регресії щодо середнього спостережень.

залишкова сума квадратів СК0. яка дорівнює сумі квадратів відхилень спостережень щодо значень лінії регресії

Таким чином, розкид Y-ков щодо їхнього середнього значення можна приписати до певної міри тому факту, що не всі спостереження лежать на лінії регресії. Якби це було так, то сума квадратів щодо регресії дорівнювала б нулю. Звідси випливає, що регресія буде значною, якщо сума квадратів СК р буде більшою за суму квадратів СК 0 .

Обчислення з перевірки значущості регресії проводять у таблиці дисперсійного аналізу

Якщо помилки ε iрозподілені за нормальним законом, то при справедливості гіпотези Н 0: b= 0 статистика:


розподілено за законом Фішера з числом ступенів свободи 1 та n−2.

Нульова гіпотеза буде відхилена на рівні значущості, якщо обчислене значення статистики Fбуде більше α-відсоткової точки f 1;n−2;α розподілу Фішера.

45. Перевірка адекватності моделі регресії. Метод залишків

Під адекватністю побудованої регресійної моделі розуміється те, що жодна інша модель не дає значного поліпшення у прогнозі відгуку.

Якщо всі значення відгуків отримані за різних значень x, тобто немає кількох значень відгуку, отриманих при однакових x i, можна провести лише обмежену перевірку адекватності лінійної моделі. Основою для такої перевірки є залишки:

Відхилення від встановленої закономірності:

Оскільки X- одновимірна змінна, точки ( x i, d i) можна зобразити на площині як так званого графіка залишків. Таке уявлення дозволяє іноді виявити у поведінці залишків якусь закономірність. Крім того, аналіз залишків дозволяє проаналізувати припущення щодо закону розподілу помилок.

У разі коли помилки розподілені за нормальним законом і є апріорна оцінка їхньої дисперсії σ 2 (оцінка, отримана на основі раніше виконаних вимірювань), то можлива точніша оцінка адекватності моделі.

За допомогою F-критерія Фішера можна перевірити, чи значуще залишкова дисперсія s 0 2 відрізняється від апріорної оцінки. Якщо вона значно більше, має місце неадекватність і слід переглянути модель.

Якщо апріорної оцінки σ 2 ні, але вимірювання відгуку Yповторювалися два або більше разів при однакових значеннях X, то ці повторні спостереження можна використовувати для отримання ще однієї оцінки σ 2 (першою є залишкова дисперсія). Про таку оцінку говорять, що вона є “чистою” помилкою, оскільки, якщо зробити xоднаковими для двох і більше спостережень, лише випадкові зміни можуть вплинути на результати і створювати розкид між ними.

Отримана оцінка виявляється надійнішою оцінкою дисперсії, ніж оцінка, одержувана іншими способами. Тому при плануванні експериментів має сенс ставити досліди з повтореннями.

Припустимо, що є mрізних значень X : x 1 , x 2 , ..., x m. Нехай кожному з цих значень x iє n iспостережень відгуку Y. Усього спостережень виходить:

Тоді модель простої лінійної регресії може бути записана у вигляді:


Знайдемо дисперсію "чистих" помилок. Ця дисперсія є об'єднаною оцінкою дисперсії σ 2 , якщо уявити значення відгуків y ijпри x = x iяк вибірки обсягу n i. В результаті дисперсія "чистих" помилок дорівнює:

Ця дисперсія служить оцінкою σ 2 безвідносно до того, чи коректна підібрана модель.

Покажемо, що сума квадратів “чистих помилок” є частиною залишкової суми квадратів (суми квадратів, що входить у вираз залишкової дисперсії). Залишок для j-ого спостереження при x iможна записати у вигляді:

Якщо звести обидві частини цієї рівності в квадрат, а потім підсумувати їх по jі по i, то отримаємо:

Ліворуч у цій рівності стоїть залишкова сума квадратів. Перший член правої частини – це сума квадратів “чистих” помилок, другий член можна назвати сумою квадратів неадекватності. Остання сума має m−2 ступенів свободи, отже, дисперсія неадекватності

Статистикою критерію перевірки гіпотези H 0: проста лінійна модель адекватна, проти гіпотези H 1: проста лінійна модель неадекватна, є випадкова величина

За справедливості нульової гіпотези величина Fмає розподіл Фішера зі ступенями свободи m−2 та nm. Гіпотеза лінійності лінії регресії повинна бути відкинута з рівнем значущості α, якщо отримане значення статистики більше від α-відсоткової точки розподілу Фішера з числом ступенів свободи m−2 та nm.

46. Перевірка адекватності моделі регресії (див. 45). Дисперсійний аналіз

47. Перевірка адекватності моделі регресії (див. 45). Коефіцієнт детермінації

Іноді для характеристики якості лінії регресії використовують вибірковий коефіцієнт детермінації R 2 показує, яку частину (частку) сума квадратів, обумовлена ​​регресією, СК р складає в повній сумі квадратів СК п:

Чим ближче R 2 до одиниці, тим краще регресія апроксимує експериментальні дані, тим більше спостереження примикають до лінії регресії. Якщо R 2 = 0, то зміни відгуку повністю обумовлені впливом неврахованих факторів, і лінія регресії паралельна осі x-ів. У разі простої лінійної регресії коефіцієнт детермінації R 2 дорівнює квадрату коефіцієнта кореляції r 2 .

Максимальне значення R 2 =1 може бути досягнуто лише у разі, коли спостереження проводилися за різних значеннях x-ів. Якщо ж у даних є досліди, що повторюються, то величина R 2 не може досягти одиниці, як би не була хороша модель.

48. Довірчі інтервали для параметрів простої лінійної регресії

Подібно до того, як вибіркове середнє - це оцінка справжнього середнього (середнього за сукупністю), так і вибіркові параметри рівняння регресії. aі b- лише оцінки справжніх коефіцієнтів регресії. Різні вибірки дають різні оцінки середнього - так само різні вибірки будуть давати різні оцінки коефіцієнтів регресії.

У припущенні, що закон розподілу помилок ε iописуються нормальним законом, оцінка параметра bматиме нормальний розподіл із параметрами:


Оскільки оцінка параметра aявляє собою лінійну комбінацію незалежних нормально розподілених величин, вона також матиме нормальний розподіл з математичним очікуванням та дисперсією:


При цьому (1 - α) довірчий інтервал для оцінки дисперсії σ 2 з урахуванням того, що відношення ( n−2)s 0 2 /σ 2 розподілено згідно із законом χ 2 з числом ступенів свободи n−2 визначатиметься виразом


49. Довірчі інтервали для лінії регресії. Довірчий інтервал для значень залежної змінної

Зазвичай ми не знаємо справжніх величин коефіцієнтів регресії аі b. Нам відомі лише їхні оцінки. Інакше висловлюючись, справжня пряма регресії може пройти вище чи нижче, бути крутішою чи пологою, ніж побудована за вибірковими даними. Ми вирахували довірчі інтервали для коефіцієнтів регресії. Можна обчислити довірчу область і самої лінії регресії.

Нехай для простої лінійної регресії потрібно побудувати (1- α ) довірчий інтервал для математичного очікування відгуку Yпри значенні х = х 0 . Це математичне очікування одно a+ 0 , а його оцінка

Бо, то.

Отримана оцінка математичного очікування є лінійною комбінацією некорельованих нормально розподілених величин і тому теж має нормальний розподіл із центром у точці істинного значення умовного математичного очікування та дисперсією

Тому довірчий інтервал лінії регресії при кожному значенні x 0 можна уявити у вигляді


Як видно мінімальний довірчий інтервал виходить за x 0 рівному середньому значенню і зростає в міру того, як x 0 "віддаляється" від середнього в будь-якому напрямку.

Для отримання безлічі спільних довірчих інтервалів, придатних для всієї функції регресії, на всій її протязі, у наведеному вище виразі замість t n −2,α /2 необхідно підставити

При ранжируванні експерт повинен розмістити оцінювані елементи в порядку зростання (зменшення) їхньої переваги і приписати кожному з них ранги у вигляді натуральних чисел. При прямому ранжируванні найбільш переважний елемент має ранг 1 (іноді 0), а найменш переважний ранг m.

Якщо експерт не може здійснити строго ранжування через те, що, на його думку, деякі елементи однакові за перевагою, то допускається надавати таким елементам однакові ранги. Щоб забезпечити рівність суми рангів сумі місць елементів, що ранжуються, застосовують так звані стандартизовані ранги. Стандартизований ранг є середнім арифметичним номером елементів у ранжованому ряду, що є однаковими за перевагою.

приклад 2.6.Експерт упорядкував шість елементів за перевагою наступним чином:

Тоді стандартизовані ранги цих елементів будуть

Таким чином, сума рангів, приписаних елементам, дорівнюватиме сумі чисел натурального ряду.

Точність вираження переваги шляхом ранжирування елементів суттєво залежить від потужності множини пред'явлень. Процедура ранжирування дає найбільш надійні результати (за ступенем близькості виявленої переваги і «істинного»), коли кількість елементів, що оцінюються, не більше 10. Гранична потужність безлічі пред'явлення не повинна перевищувати 20.

Обробка та аналіз ранжувань проводяться з метою побудови групового відношення переваги на основі індивідуальних переваг. У цьому можуть ставитися такі: а) визначення тісноти зв'язку між ранжуваннями двох експертів на елементах безлічі пред'явлень; б) визначення взаємозв'язку між двома елементами на індивідуальні думки членів групи щодо різних характеристик цих елементів; в) оцінка узгодженості думок експертів у групі, що містить понад два експерти.

У перших двох випадках як міру тісноти зв'язку використовується коефіцієнт рангової кореляції. Залежно від того, чи допускається лише суворе чи не суворе ранжування, використовується коефіцієнт рангової кореляції або Кендала, або Спірмена.

Коефіцієнт рангової кореляції Кендала для задачі (a)

де m− кількість елементів; r 1 i –ранг, приписаний першим експертом i−му елементу; r 2 i –те саме, другим експертом.

Для задачі (б) компоненти (2.5) мають такий зміст: т - число характеристик двох елементів, що оцінюються; r 1 i(r 2 i) - ранг i-ї характеристики ранжування першого (другого) елемента, виставлений групою експертів.

При строгому ранжируванні використовується коефіцієнт рангової кореляції. рСпірмена:


компоненти якого мають той самий зміст, що і (2.5).

Коефіцієнти кореляції (2.5), (2.6) змінюються від -1 до +1. Якщо коефіцієнт кореляції дорівнює +1, це означає, що ранжування однакові; якщо він дорівнює -1, то протилежні (ранжування зворотні один одному). Рівність коефіцієнта кореляції нулю означає, що ранжирування лінійно незалежні (некорельовані).

Оскільки за такого підходу (експерт – «вимірник» з випадковою похибкою) індивідуальні ранжування розглядаються як випадкові, виникає завдання статистичної перевірки гіпотези про значущість отриманого коефіцієнта кореляції. У цьому випадку використовують критерій Неймана-Пірсона: задаються рівнем значущості критерію α і, знаючи закони розподілу коефіцієнта кореляції, визначають граничне значення c α, З яким порівнюють отримане значення коефіцієнта кореляції. Критична область - правостороння (у практиці зазвичай спочатку розраховують значення критерію та визначають за ним рівень значущості, який порівнюють із пороговим рівнем α ).

Коефіцієнт рангової кореляції Кендала має при т > 10 розподіл, близький до нормального з параметрами:

де M [τ] - математичне очікування; D [τ] - Дисперсія.

У цьому випадку використовуються таблиці функції стандартного нормального розподілу:

а межа τ α критичної області визначається як корінь рівняння

Якщо обчислене значення коефіцієнта τ ≥ τ α, то вважається, що ранжирування дійсно добре узгоджуються. Зазвичай значення вибирають в межах 0,01-0,05. Для т ≤ 10 розподіл т наведено у табл. 2.1.

Перевірка значимості узгодженості двох ранжувань з використанням коефіцієнта Спірмена здійснюється в тому ж порядку з використанням таблиць розподілу Стьюдента при т > 10.

У цьому випадку величина

має розподіл, що добре апроксимується розподілом Стьюдента з m– 2 ступенями свободи. При m> 30 розподіл величини ρ добре узгоджується з нормальним, які мають M [ρ] = 0 і D [ρ] = .

Для т 10 перевірку значимості ρ здійснюють за допомогою табл. 2.2.

Якщо ранжування несуворі, то коефіцієнт Спірмена

де ρ – обчислюють (2.6);

де k 1 , k 2 - число різних груп нестрогих рангів у першому та другому ранжуваннях відповідно; l i − число однакових рангів у i-ї групи. При практичному використанні коефіцієнтів рангової кореляції Спірмена і Кендала слід мати на увазі, що коефіцієнт забезпечує більш точний результат у сенсі мінімуму дисперсії.

Таблиця 2.1.Розподіл коефіцієнта рангової кореляції Кендала

Коротка теорія

Коефіцієнт кореляції Кендала використовується у разі, коли змінні представлені двома порядковими шкалами за умови, що пов'язані ранги відсутні. Обчислення коефіцієнта Кендал пов'язане з підрахунком числа збігів та інверсій.

Цей коефіцієнт змінюється не більше і розраховується за такою формулою:

Для розрахунку всі одиниці ранжуються за ознакою; по ряду іншої ознаки підраховується для кожного рангу число наступних рангів, що перевищує даний (їх позначимо через), і число наступних рангів нижче за дане (їх позначимо через).

Можна показати, що

і коефіцієнт рангової кореляції Кендала можна записати як

Для того, щоб при рівні значущості перевірити нульову гіпотезу про рівність нулю генерального коефіцієнта рангової кореляції Кендалла при конкуруючій гіпотезі, треба обчислити критичну точку:

де – обсяг вибірки; – критична точка двосторонньої критичної області, яку знаходять за таблицею функції Лапласа за рівністю

Якщо – немає підстав відкинути нульову гіпотезу. Ранговий кореляційний зв'язок між ознаками незначний.

Якщо – нульову гіпотезу відкидають. Між ознаками існує значний ранговий кореляційний зв'язок.

Приклад розв'язання задачі

Умова задачі

Під час прийому на роботу семи кандидатам на вакантні посади було запропоновано два тести. Результати тестування (у балах) наведено у таблиці:

Тест Кандидат 1 2 3 4 5 6 7 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26

Обчислити ранговий коефіцієнт кореляції Кендалла між результатами тестування за двома тестами і оцінити його значимість.

Рішення завдання

Обчислимо коефіцієнт Кендала

Ранги факторного ознаки розташовуються строго порядку зростання і паралельно записуються відповідні їм ранги результативного ознаки . До кожного рангу у складі наступних його рангів підраховується кількість великих його за величиною рангів (заноситься в стовпець ) і кількість рангів, менших за значенням (заноситься в стовпець ).

1 1 6 0 2 4 3 2 3 3 3 1 4 6 1 2 5 2 2 0 6 5 1 0 7 7 0 0 Сума 16 5

Потреби економічної та соціальної практики вимагають розробки методів кількісного опису процесів, що дозволяють точно реєструвати як кількісні, а й якісні чинники. За умови, що значення якісних ознак можуть бути впорядковані, або проранжовані за ступенем зменшення (зростання) ознаки, можна оцінити тісноту зв'язку між якісними ознаками. Під якісним мається на увазі ознака, яку неможливо виміряти точно, але вона дозволяє порівнювати об'єкти між собою і, отже, розташувати їх у порядку спадання чи зростання якості. І реальним змістом вимірювань у рангових шкалах є той порядок, у якому вибудовуються об'єкти за рівнем виразності вимірюваної ознаки.

У практичних цілях використання рангової кореляції дуже корисне. Наприклад, якщо встановлена ​​висока рангова кореляція між двома якісними ознаками виробів, достатньо контролювати вироби тільки за однією з ознак, що здешевлює і прискорює контроль.

Як приклад можна розглянути наявність зв'язку між забезпеченістю товарною продукцією низки підприємств та накладними витратами на реалізацію. У ході 10 спостережень отримано таку таблицю:

Упорядкуємо значення X за зростанням, при цьому кожному значенню поставимо у відповідність його порядковий номер (ранг):

Таким чином,

Побудуємо наступну таблицю, куди записуються пари X та Y, отримані в результаті спостереження зі своїми рангами:

Позначаючи різницю рангів як, запишемо формулу обчислення вибіркового коефіцієнта кореляції Спірмена:

де n - число спостережень, воно число пар рангів.

Коефіцієнт Спірмена має такі властивості:

Якщо між якісними ознаками X та Y є повна пряма залежність у тому сенсі, що ранги об'єктів збігаються при всіх значеннях i, то вибірковий коефіцієнт кореляції Спірмена дорівнює 1. Дійсно, підставивши у формулу, отримаємо 1.

Якщо між якісними ознаками X і Y є повна зворотна залежність тому, що рангу відповідає ранг, то вибірковий коефіцієнт кореляції Спірмена дорівнює -1.

Справді, якщо

Підставивши значення формулу коефіцієнта кореляції Спірмена, отримаємо -1.

Якщо між якісними ознаками немає повної прямої, ні повної зворотний зв'язок, то вибірковий коефіцієнт кореляції Спірмена укладено між -1 і 1, причому чим ближче до його значення, тим зв'язок між ознаками менше.

За даними наведеного прикладу знайдемо значення P, для цього добудуємо таблицю значеннями і:

Вибірковий коефіцієнт кореляції Кендала. Можна оцінювати зв'язок між двома якісними ознаками, використовуючи коефіцієнт рангової кореляції Кендала.

Нехай ранги об'єктів вибірки обсягу n дорівнюють:

за ознакою X:

за ознакою Y: . Припустимо, що правіше є рангів, більших, правіше є рангів, більших, правіше є рангів, більших. Введемо позначення суми рангів

Аналогічно введемо позначення як суму кількості рангів, що лежать правіше, але менших.

Вибірковий коефіцієнт кореляції Кендала записується формулою:

Де n – обсяг вибірки.

Коефіцієнт Кендалла має ті ж властивості, що і коефіцієнт Спірмена:

Якщо між якісними ознаками X і Y є повна пряма залежність у тому сенсі, що ранги об'єктів збігаються при всіх значеннях i, то вибірковий коефіцієнт кореляції Кендалла дорівнює 1. Дійсно, правіше є n-1 рангів, більших, тому, таким же чином встановлюємо, що. Тоді. І коефіцієнт Кендалл дорівнює: .

Якщо між якісними ознаками X і Y є повна зворотна залежність тому, що рангу відповідає ранг, то вибірковий коефіцієнт кореляції Кендалла дорівнює -1. Правіше немає рангів, великих, тому. Аналогічно. Підставляючи значення R+=0 формулу коефіцієнта Кендалла, отримаємо -1.

При досить великому обсязі вибірки і значеннях коефіцієнтів рангової кореляції, не близьких до 1, має місце наближена рівність:

Коефіцієнт Кендал дає більш обережну оцінку кореляції, ніж коефіцієнт Спірмена? (числове значення? завжди менше, ніж). Хоча обчислення коефіцієнта? менш трудомістко, ніж обчислення коефіцієнта, останній легше перерахувати, якщо до ряду додається новий член.

Важлива перевага коефіцієнта полягає в тому, що за його допомогою можна визначити коефіцієнт приватної рангової кореляції, що дозволяє оцінити ступінь "чистого" взаємозв'язку двох рангових ознак, усунувши вплив третього:

Значимість коефіцієнтів рангової кореляції. При визначенні сили рангової кореляції на основі вибіркових даних необхідно розглянути наступне питання: з яким ступенем надійності можна покладатися на висновок про те, що в генеральній сукупності існує кореляція, якщо отримано певний вибірковий коефіцієнт рангової кореляції. Іншими словами, слід перевірити значущість кореляцій рангів, що спостерігалися, виходячи з гіпотези про статистичну незалежність двох аналізованих ранжувань.

При порівняно великому обсязі n вибірки перевірка значення коефіцієнтів рангової кореляції може здійснюватися за допомогою таблиці нормального розподілу (табл. 1 додатка). Чи для перевірки значущості коефіцієнта Спірмена? (при n>20) обчислюють значення

а для перевірки значущості коефіцієнта Кендалл? (при n>10) обчислюють значення

де S = R + - R-, n - обсяг вибірки.

Далі задаються рівнем значущості?, Визначають по таблиці критичних точок розподілу Стьюдента критичне значення tкр(?,k) і порівнюють з ним обчислене значення або. Число ступенів волі приймається k = n-2. Якщо > tкр, то значення або визнаються значущими.

Коефіцієнт кореляції Фехнера.

Нарешті, слід згадати коефіцієнт Фехнера, що характеризує елементарну ступінь тісноти зв'язку, який доцільно використовуватиме встановлення наявності зв'язку, коли є невеликий обсяг вихідної інформації. Основою його обчислення є облік напряму відхилень від середньої арифметичної варіанти кожного варіаційного ряду та визначення узгодженості знаків цих відхилень для двох рядів, зв'язок між якими вимірюється.

Цей коефіцієнт визначається за формулою:

де na - кількість збігів знаків відхилень індивідуальних величин від їхньої середньої арифметичної; nb – відповідно кількість розбіжностей.

Коефіцієнт Фехнера може змінюватись у межах -1,0<= Кф<= +1,0.

Прикладні аспекти рангової кореляції. Як зазначалося, коефіцієнти рангової кореляції можуть використовуватися як якісного аналізу взаємозв'язку двох рангових ознак, а й щодо сили зв'язку між ранговим і кількісним ознаками. І тут значення кількісного ознаки упорядковуються і їм приписуються відповідні ранги.

Існує ряд ситуації, коли обчислення коефіцієнтів рангової кореляції є доцільним і при визначенні сили зв'язку двох кількісних ознак. Так, при суттєвому відхиленні розподілу одного з них (або обох) від нормального розподілу визначення рівня значущості вибіркового коефіцієнта кореляції r стає некоректним, тоді як рангові коефіцієнти? і? не пов'язані з такими обмеженнями щодо рівня значимості.

Інша ситуація виникає, коли зв'язок двох кількісних ознак має нелінійний (але монотонний) характер. Якщо кількість об'єктів у вибірці невелика або якщо для дослідника суттєвим є знак зв'язку, то використання кореляційного відношення? може бути тут неадекватним. Обчислення коефіцієнта рангової кореляції дозволяє обійти зазначені труднощі.

Практична частина

Завдання 1. Кореляційно-регресійний аналіз

Постановка та формалізація задачі:

Дана емпірична вибірка, складена на основі низки спостережень за станом обладнання (на предмет відмови) та кількістю виготовлених виробів. Вибірка неявно характеризує взаємозв'язок між обсягом устаткування, що відмовило, і кількістю виготовлених виробів. За змістом вибірки видно, що виготовлені вироби виробляються на обладнанні, що залишилося в строю, оскільки чим більше % обладнання, що відмовило, тим менше виготовлених виробів. Потрібно провести дослідження вибірки на кореляційно-регресійну залежність, тобто встановити форму залежності, оцінити функцію регресії (регресійний аналіз), а також виявити зв'язок між випадковими змінними та оцінити її тісноту (кореляційний аналіз). Додатковим завданням кореляційного аналізу є оцінка рівняння регресії однією змінною іншою. Крім того, необхідно спрогнозувати кількість випущених виробів при 30% відмову обладнання.

Формалізуємо наведену вибірку в таблиці, позначивши дані «Відмова обладнання, %» як X, дані «Кількість виробів» як Y:

Вихідні дані. Таблиця 1

За фізичним змістом завдання видно, що кількість випущених виробів Y безпосередньо залежить від % відмови обладнання, тобто очевидна залежність Y від X. При проведенні регресійного аналізу потрібно знайти математичну залежність (регресію), що зв'язує величини X і Y. При цьому регресійний аналіз, На відміну від кореляційного, передбачає, що величина X виступає як незалежна змінна, або фактор, величина Y - як залежна від неї, або результативна ознака. Отже, потрібно зробити синтезування адекватної економіко-математичної моделі, тобто. визначити (знайти, підібрати) функцію Y = f(X), що характеризує залежність між величинами X і Y, використовуючи яку можна буде спрогнозувати значення Y при X = 30. Розв'язання цього завдання може бути виконане за допомогою кореляційно-регресійного аналізу.

Короткий огляд методів розв'язання кореляційно-регресійних завдань та обґрунтування методу розв'язання.

Методи регресійного аналізу за кількістю факторів, що впливають на результативну ознаку, поділяються на одно-і багатофакторні. Однофакторні – число незалежних факторів = 1, тобто. Y = F(X)

багатофакторний – число факторів > 1, тобто.

За кількістю досліджуваних залежних змінних (результативних ознак) регресійні завдання також можна розділити завдання з однією і багатьма результативними ознаками. Загалом завдання з багатьма результативними ознаками може бути записано:

Метод кореляційно-регресійного аналізу полягає у знаходженні параметрів апроксимуючої (наближуючої) залежності виду

Оскільки в наведеному завданні фігурує лише одна незалежна змінна, тобто досліджується залежність тільки від одного фактора, що впливає на результат, слід застосувати дослідження на однофакторну залежність або парну регресію.

За наявності лише одного фактора залежність визначається у вигляді:

Форма запису конкретного рівняння регресії залежить від вибору функції, що відображає статистичний зв'язок між фактором та результативною ознакою та включає наступні:

лінійна регресія, рівняння виду,

параболічна, рівняння виду

кубічна, рівняння виду

гіперболічна, рівняння виду

напівлогарифмічна, рівняння виду

показова, рівняння виду

статечна, рівняння виду.

Знаходження функції зводиться до визначення параметрів регресійного рівняння та оцінки достовірності рівняння. Для визначення параметрів можна використовувати метод найменших квадратів, і метод найменших модулів.

Перший у тому, щоб сума квадратів відхилень емпіричних значень Yi від розрахованих середніх Yi, була мінімальною.

Метод найменших модулів полягає у мінімізації суми модулів різниці емпіричних значень Yi та розрахованих середніх Yi.

Для розв'язання задачі виберемо метод найменших квадратів, як найпростіший і дає хороші за статистичними властивостями оцінки.

Технологія розв'язання задачі регресійного аналізу за допомогою методу найменших квадратів.

Визначити вид залежності (лінійна, квадратична, кубічна тощо) між змінними можна за допомогою оцінки величини відхилення фактичного значення y від розрахункового:

де - емпіричні значення, - розрахункові значення щодо апроксимуючої функції. Оцінюючи значення Si для різних функцій та вибираючи найменше з них, підбираємо апроксимуючу функцію.

Вигляд тієї чи іншої функції визначається за допомогою знаходження коефіцієнтів, що знаходяться для кожної функції як розв'язання певної системи рівнянь:

лінійна регресія, рівняння виду, система -

параболічна, рівняння виду, система -

кубічна, рівняння виду, система -

Вирішивши систему, знаходимо, за допомогою яких приходимо до конкретного виразу аналітичної функції, маючи яку знаходимо розрахункові значення. Далі є всі дані для знаходження оцінки величини відхилення S та аналізу на мінімум.

Для лінійної залежності оцінюємо тісноту зв'язку між фактором X та результативною ознакою Y у вигляді коефіцієнта кореляції r:

Середнє значення показника;

Середнє значення фактора;

y – експериментальне значення показника;

x – експериментальне значення фактора;

Середньоквадратичне відхилення по х;

Середньоквадратичне відхилення за y.

Якщо коефіцієнт кореляції r = 0, то вважають, що зв'язок між ознаками незначний або відсутній, якщо r = 1, то між ознаками існує дуже високий функціональний зв'язок.

Використовуючи таблицю Чеддока, можна провести якісну оцінку тісноти кореляційного зв'язку між ознаками:

Таблиця Чеддока Таблиця 2.

Для нелінійної залежності визначається кореляційне відношення (0 1) та індекс кореляції R, які обчислюються за такими залежностями.

де значення – значення показника, обчислене за регресійною залежністю.

Як оцінку точності обчислень використовуємо величину середньої відносної помилки апроксимації

При високій точності лежить у межах 0-12%.

Для оцінки підбору функціональної залежності використовуємо коефіцієнт детермінації

Коефіцієнт детермінації використовується як «узагальнена» міра якості підбору функціональної моделі, оскільки він висловлює співвідношення між факторною та загальною дисперсією, точніше частку факторної дисперсії у загальній.

Для оцінки значущості індексу кореляції R застосовується F-критерій Фішера. Фактичне значення критерію визначається за такою формулою:

де m – число параметрів рівняння регресії, n – число спостережень. Величина порівнюється з критичним значенням, яке визначається за таблицею F-критерію з урахуванням прийнятого рівня значущості та числа ступенів свободи. Якщо, то величина індексу кореляції R визнається суттєвою.

Для обраної форми регресії обчислюються коефіцієнти рівняння регресії. Результати обчислень для зручності включаються до таблиці наступної структури (загалом, кількість колонок та їх вид змінюються залежно від виду регресії):

Таблиця 3

Рішення завдання.

Провелися спостереження економічним явищем - залежністю випуску виробів від відсотка відмови устаткування. Отримано сукупність значень.

Вибрані значення описані у таблиці 1.

Будуємо графік емпіричної залежності за наведеною вибіркою (рис. 1)

По виду графіка визначаємо, що аналітичну залежність можна у вигляді лінійної функції:

Розрахуємо парний коефіцієнт кореляції для оцінки взаємозв'язку між X та Y:

Побудуємо допоміжну таблицю:

Таблиця 4

Вирішуємо систему рівнянь для знаходження коефіцієнтів та:

з першого рівняння, підставляючи значення

у друге рівняння, отримаємо:

Знаходимо

Отримуємо вид рівняння регресії:

9. Для оцінки тісноти знайденого зв'язку скористаємося коефіцієнтом кореляції r:

По таблиці Чеддока встановлюємо, що з r = 0.90 зв'язок між X і Y дуже висока, отже достовірність рівняння регресії також висока. Для оцінки точності обчислень використовуємо величину середньої відносної помилки апроксимації:

Вважаємо, що величина забезпечує високий рівень достовірності рівняння регресії.

Для лінійного зв'язку між X та Y індекс детермінації дорівнює квадрату коефіцієнта кореляції r: . Отже, 81% від загальної варіації пояснюється зміною факторної ознаки X.

Для оцінки значущості індексу кореляції R, який у разі прямолінійної залежності абсолютної величини дорівнює коефіцієнту кореляції r, застосовується F-критерій Фішера. Визначаємо фактичне значення за такою формулою:

де m – число параметрів рівняння регресії, n – число спостережень. Тобто n=5, m=2.

З урахуванням прийнятого рівня значущості =0,05 та числа ступенів свободи та отримуємо критичне табличне значення. Оскільки величина індексу кореляції R визнається істотною.

Обчислимо прогнозне значення Y при X = 30:

Побудуємо графік знайденої функції:

11. Визначаємо помилку коефіцієнта кореляції за величиною середньоквадратичного відхилення

а потім визначаємо значення нормованого відхилення

Зі співвідношення > 2 з ймовірністю 95% можна говорити про значущість отриманого коефіцієнта кореляції.

Завдання 2. Лінійна оптимізація

Варіант 1.

Планом розвитку регіону передбачається ввести в дію 3 нафтові родовища із сумарним обсягом видобутку рівним 9 млн.т. У першому родовищі обсяг видобутку становить щонайменше 1 млн.т, другого - 3 млн.т, третьому - 5 млн.т. Для досягнення такої продуктивності необхідно пробурити щонайменше 125 свердловин. Задля реалізації цього плану виділено 25 млн. крб. капітальних вкладень (показник К) та 80 км труб (показник L).

Потрібно визначити оптимальну (максимальну) кількість свердловин для забезпечення планової продуктивності кожного родовища. Вихідні дані із завдання наведені у таблиці.

Вихідні дані

Постановка задачі наведена вище.

Формалізуємо задані в задачі умови та обмеження. Метою вирішення даної оптимізаційної задачі є знаходження максимального значення видобутку нафти за оптимальної кількості свердловин по кожному родовищу з урахуванням існуючих обмежень щодо завдання.

Цільова функція відповідно до вимог завдання набуде вигляду:

де - кількість свердловин по кожному родовищу.

Існуючі обмеження щодо завдання на:

довжину прокладки труб:

число свердловин на кожному родовищі:

вартість будівництва 1 свердловини:

Завдання лінійної оптимізації вирішуються, наприклад, такими методами:

Графічно

Симплекс-методом

Використання графічного способу зручне лише при розв'язанні задач лінійної оптимізації з двома змінними. При більшій кількості змінних необхідне застосування апарату алгебри. Розглянемо загальний метод розв'язання задач лінійної оптимізації, що називається симплекс-методом.

Симлекс-метод - це характерний приклад ітераційних обчислень, які використовуються під час вирішення більшості оптимізаційних завдань. Розглядаються ітераційні процедури такого роду, що забезпечують вирішення задач за допомогою моделей дослідження операцій.

Для вирішення оптимізаційної задачі за допомогою симплекс-методу необхідно, щоб число невідомих Xi було більше числа рівнянь, тобто. система рівнянь

задовольняла відношенню m

A= дорівнював m.

Позначимо стовпця матриці A як, а стовпець вільних членів як

Базовим рішенням системи (1) називається набір з m невідомих які є рішенням системи (1).

Коротко алгоритм симплекс-методу описується так:

Вихідне обмеження, записане у вигляді нерівності типу<= (=>) , можна у вигляді рівності, додаючи залишкову змінну до лівої частини обмеження (віднімаючи надмірну змінну з лівої частини) .

Наприклад, у ліву частину вихідного обмеження

вводиться залишкова змінна, внаслідок чого вихідна нерівність звертається до рівності

Якщо вихідне обмеження визначає витрату труб, змінну слід інтерпретувати як залишок, або невикористану частину даного ресурсу.

Максимізація цільової функції еквівалентна мінімізації тієї ж функції, що взята з протилежним знаком. Тобто в нашому випадку

еквівалентна

Складається симплекс-таблиця для базового рішення наступного виду:

У цій таблиці позначають, що після розв'язання завдання у цих клітинах стоятиме базисне рішення. - Приватні від поділу стовпця на один із стовпців; - додаткові множники обнулення значень у клітинах таблиці, що належать до стовпця, що дозволяє. - min значення цільової функції -Z, - значення коефіцієнтів цільової функції при невідомих.

Серед значень знаходять будь-яке позитивне. Якщо такого немає, то завдання вважається вирішеним. Вибирають будь-який стовпець таблиці, в якому є, цей стовпець називається «дозвільним» стовпцем. Якщо серед елементів стовпця, що дозволяє, немає позитивних чисел, то завдання нерозв'язне внаслідок необмеженості цільової функції на безлічі її рішень. Якщо позитивні числа в стовпці, що дозволяє, присутні, переходять до пункту 5.

Стовпець заповнюється дробами, у чисельнику яких - елементи стовпця, а знаменнику - відповідні елементи вирішального стовпця. Зі всіх значень вибирається найменше. Рядок, в якому вийшло найменше називається «дозволяючим» рядком. На перетині роздільної здатності і роздільної здатності стовпця знаходять роздільний елемент, який виділяють будь-яким чином, наприклад, кольором.

На основі першої симплекс-таблиці складається наступна, в якій:

Замінюється вектор-рядок на вектор-стовпець

роздільна здатність рядок замінюється цим же рядком, поділеним на роздільну здатність

кожен з інших рядків таблиці замінюється на суму цього рядка з роздільною здатністю, помноженою на спеціально підібраний додатковий множник з метою отримання 0 в клітині роздільного стовпця.

З новою таблицею звертаємось до пункту 4.

Рішення завдання.

З постановки завдання маємо таку систему нерівностей:

та цільову функцію

Перетворимо систему нерівностей на систему рівнянь, ввівши додаткові змінні:

Цільову функцію наведемо до неї еквівалентної:

Побудуємо вихідну симплекс-таблицю:

Виберемо роздільний стовпець. Розрахуємо стовпець:

Заносимо значення таблицю. По найменшому з них = 10 визначаємо рядок: . На перетині роздільної здатності і роздільного стовпця знаходимо роздільний елемент = 1. Заповнюємо частину таблиці додатковими множниками, такими, що: помножений на них рядок, що додається, до доданих до інших рядків таблиці, утворює 0-ли в елементах роздільної здатності стовпця.

Складаємо другу симплекс-таблицю:

У ньому роздільним стовпцем беремо, обчислюємо значення, заносимо в таблицю. По мінімальному отримуємо роздільну здатність. Дозволяючим елементом буде 1. Знаходимо додаткові множники, заповнюємо стовпці.

Складаємо наступну симплекс-таблицю:

Аналогічним чином, знаходимо роздільний стовпець, роздільну здатність і роздільний елемент = 2. Будуємо наступну симплекс-таблицю:

Оскільки в рядку -Z немає позитивних значень, ця таблиця кінцевої. Перший стовпець дає шукані значення невідомих, тобто. оптимальне базисне рішення:

У цьому значення цільової функції -Z = -8000, що еквівалентно Zmax = 8000. Завдання вирішено.

Завдання 3. Кластерний аналіз

Постановка задачі:

Провести розбиття об'єктів на підставі даних, наведених у таблиці. Вибір способу рішення провести самостійно, побудувати графік залежності даних.

Варіант 1.

Вихідні дані

Огляд методів розв'язання зазначеного типу задач. Обґрунтування методу розв'язання.

Завдання кластерного аналізу вирішуються за допомогою таких методів:

Об'єднання або метод деревоподібної кластеризації використовується для формування кластерів «відмінності» або «відстань між об'єктами». Ці відстані можуть визначатися в одновимірному або багатовимірному просторі.

Двовходове об'єднання використовується (щодо рідко) в обставинах, коли дані інтерпретуються не в термінах «об'єктів» та «властивостей об'єктів», а в термінах спостережень та змінних. Очікується, що і спостереження та змінні одночасно роблять внесок у виявлення осмислених кластерів.

Метод К-середніх. Використовується, коли є гіпотеза щодо числа кластерів. Можна вказати системі утворити рівно, наприклад, три кластери так, щоб вони були настільки різними, наскільки це можливо. У загальному випадку метод K-середніх будує рівно K різних кластерів, розташованих на можливо більших відстанях один від одного.

Існують такі способи вимірювання відстаней:

Євклідова відстань. Це найбільш загальний тип відстані. Воно просто є геометричною відстанню в багатовимірному просторі і обчислюється таким чином:

Зауважимо, що евклідова відстань (і його квадрат) обчислюється за вихідними, а не за стандартизованими даними.

Відстань міських кварталів (манхеттенська відстань). Ця відстань є просто середньою різницею по координатах. У більшості випадків ця міра відстані призводить до таких же результатів, як і для звичайної відстані Евкліда. Однак зазначимо, що для цього заходу вплив окремих великих різниць (викидів) зменшується (оскільки вони не зводяться у квадрат). Манхеттенська відстань обчислюється за такою формулою:

Відстань Чебишева. Ця відстань може виявитися корисною, коли бажають визначити два об'єкти як "різні", якщо вони відрізняються за якоюсь однією координатою (якимось одним виміром). Відстань Чебишева обчислюється за такою формулою:

Ступінна відстань. Іноді бажають прогресивно збільшити або зменшити вагу, що відноситься до розмірності, на яку відповідні об'єкти сильно відрізняються. Це може бути досягнуто з використанням статечної відстані. Ступінна відстань обчислюється за формулою:

де r та p - параметри, що визначаються користувачем. Декілька прикладів обчислень можуть показати, як "працює" цей захід. Параметр p відповідає за поступове зважування різниць за окремими координатами, параметр r відповідальний за прогресивне зважування великих відстаней між об'єктами. Якщо обидва параметри - r і p, дорівнюють двом, то ця відстань збігається з відстанню Евкліда.

Відсоток незгоди. Цей захід використовується у тих випадках, коли дані є категоріальними. Ця відстань обчислюється за такою формулою:

Для вирішення поставленої задачі виберемо метод об'єднання (деревоподібної кластеризації) як відповідний умовам і постановці завдання (провести розбиття об'єктів). У свою чергу, метод об'єднання може використовувати кілька варіантів правил зв'язку:

Поодинокий зв'язок (метод найближчого сусіда). У цьому методі відстань між двома кластерами визначається відстанню між двома найближчими об'єктами (найближчими сусідами) у різних кластерах. Тобто будь-які два об'єкти у двох кластерах ближчі один до одного, ніж відповідна відстань зв'язку. Це правило має, у певному сенсі, нанизувати об'єкти разом для формування кластерів, і результуючі кластери мають тенденцію бути представленими довгими "ланцюжками".

Повний зв'язок (метод найвіддаленіших сусідів). У цьому методі відстані між кластерами визначаються найбільшою відстанню між будь-якими двома об'єктами в різних кластерах (тобто найбільш віддаленими сусідами).

Існує також безліч інших методів об'єднання кластерів, подібних до цих (наприклад, незважена попарна сполука, зважена попарна сполука та ін.).

Технологія способу розв'язання. Розрахунок показників.

На першому кроці, коли кожен об'єкт є окремим кластером, відстані між цими об'єктами визначаються обраним заходом.

Оскільки завдання не обумовлюються одиниці виміру ознак, мається на увазі, що вони збігаються. Отже, немає потреби у нормуванні вихідних даних, тому відразу переходимо до розрахунку матриці відстаней.

Рішення завдання.

Побудуємо за вихідними даними графік залежності (рис 2)

Як відстань між об'єктами приймемо звичайну евклідову відстань. Тоді згідно з формулою:

де l – ознаки; k - кількість ознак, відстань між об'єктами 1 і 2 дорівнює:

Продовжуємо розрахунок інших відстаней:

З отриманих значень збудуємо таблицю:

Найменша відстань. Значить, елементи 3,6 та 5 об'єднуємо в один кластер. Отримаємо таку таблицю:

Найменша відстань. В один кластер об'єднуються елементи 3, 6, 5 і 4. Отримуємо таблицю з двох кластерів:

Мінімальна відстань між елементами 3 та 6 дорівнює. Значить, елементи 3 та 6 об'єднуються в один кластер. Відстань між новоствореним кластером та іншими елементами вибираємо максимальним. Наприклад, відстань між кластером 1 і кластером 3,6 дорівнює max(13.34166, 13.60147)= 13.34166. Складемо таку таблицю:

У ній мінімальна відстань - це відстань між кластерами 1 та 2. Об'єднуючи 1 та 2 в один кластер, отримуємо:

Таким чином, методом «далекого сусіда» отримали два кластери: 1,2 і 3,4,5,6, відстань між якими дорівнює 13,60147.

Завдання вирішено.

Програми. Вирішення задач з використанням пакетів прикладних програм (MS Excel 7.0)

Завдання кореляційно-регресійного аналізу.

Заносимо вихідні дані до таблиці (рис. 1)

Вибираємо меню "Сервіс / Аналіз даних". У вікні вибираємо рядок «Регресія» (рис.2).

Задамо в наступному вікні вхідні інтервали X і Y, рівень надійності залишимо 95%, а вихідні дані помістимо на окремий лист «Аркуш звіту» (рис. 3)

Після проведення розрахунку отримуємо на аркуші «Аркуш звіту» підсумкові дані регресійного аналізу:

Тут виводиться точковий графік апроксимуючої функції, або «Графік підбору»:


Розрахункові значення та відхилення виведені в таблиці в колонках «Предсказане Y» та «Залишки» відповідно.

На основі вихідних даних та відхилень будується графік залишків:

Оптимізаційне завдання


Вносимо вихідні дані в такий спосіб:

Шукані невідомі X1, X2, X3 заносимо до осередків С9, D9, E9 відповідно.

Коефіцієнти цільової функції при X1, X2, X3 вносимо С7, D7, E7 відповідно.

Цільову функцію заносимо в комірку B11 як формулу: = C7 * C9 + D7 * D9 + E7 * E9.

Існуючі обмеження щодо завдання

На довжину прокладки труб:

вносимо до осередків С5, D5, E5, F5, G5

Число свердловин на кожному родовищі:

X3 Ј 100; вносимо до осередків С8, D8, E8.

Вартість будівництва 1 свердловини:

вносимо до осередків С6, D6, E6, F6, G6.

Формулу розрахунку загальної протяжності C5 * C9 + D5 * D9 + E5 * E9 поміщаємо в комірку В5, формулу розрахунку загальної вартості C6 * C9 + D6 * D9 + E6 * E9 поміщаємо в комірці B6.


Вибираємо в меню «Сервіс/Пошук рішення», вносимо параметри для пошуку рішення відповідно до заведених вихідних даних (рис. 4):

На кнопці «Параметри» задаємо наступні параметри пошуку рішення (рис. 5):


Після виконання пошуку рішення отримуємо звіт за результатами:

Microsoft Excel 8.0e Звіт за результатами

Звіт створено: 11/17/2002 1:28:30 AM

Цільовий осередок (Максимум)

Результат

Загальний видобуток

Змінювані осередки

Результат

Кількість свердловин

Кількість свердловин

Кількість свердловин

Обмеження

Значення

Протяжність

Пов'язане

Вартість проекту

не пов'язаний.

Кількість свердловин

не пов'язаний.

Кількість свердловин

Пов'язане

Кількість свердловин

Пов'язане

У першій таблиці наводиться вихідне і остаточне (оптимальне) значення цільової комірки, в яку помістили цільову функцію розв'язуваної задачі. У другій таблиці бачимо вихідні та остаточні значення оптимізованих змінних, які містяться в комірках, що змінюються. Третя таблиця звіту за результатами містить інформацію про обмеження. У стовпці «Значення» вміщено оптимальні значення потрібних ресурсів та змінних, що оптимізуються. Стовпець «Формула» містить обмеження на споживані ресурси та оптимізовані змінні, записані у формі посилань на комірки, що містять ці дані. Стовпець «Стан» визначає пов'язаними чи незв'язаними є ті чи інші обмеження. Тут «пов'язані» - це обмеження, реалізовані оптимальному рішенні як жорстких рівностей. Стовпець «Різниця» для ресурсних обмежень визначає залишок використовуваних ресурсів, тобто. різниця між необхідною кількістю ресурсів та їх наявністю.

Аналогічно, записавши результат пошуку рішення у формі «Звіт зі стійкості», отримаємо такі таблиці:

Microsoft Excel 8.0e Звіт зі стійкості

Робочий лист: [Розв'язання задачі оптимізації.xls]Розв'язання задачі з опт-ії видобутку

Звіт створено: 11/17/2002 1:35:16 AM

Змінювані осередки

Допустиме

Допустиме

значення

вартість

Коефіцієнт

Збільшення

Зменшення

Кількість свердловин

Кількість свердловин

Кількість свердловин

Обмеження

Обмеження

Допустиме

Допустиме

значення

Права частина

Збільшення

Зменшення

Протяжність

Вартість проекту

Звіт по стійкості містить інформацію про змінні (оптимізовані) змінні та обмеження моделі. Зазначена інформація пов'язана з симплекс-методом, описаним вище в частині розв'язання задачі, що використовується при оптимізації лінійних завдань. Вона дозволяє оцінити, наскільки чутливим є отримане оптимальне рішення щодо можливих змін параметрів моделі.

Перша частина звіту містить інформацію про комірки, що змінюються, що містять значення про кількість свердловин на родовищах. У стовпці «Результуюче значення» вказуються оптимальні значення змінних, що оптимізуються. У стовпці «Цільовий коефіцієнт» розміщуються вихідні дані значення коефіцієнтів цільової функції. У двох колонках ілюструється допустиме збільшення і зменшення цих коефіцієнтів без зміни знайденого оптимального рішення.

Друга частина звіту зі стійкості містить інформацію щодо обмежень, що накладаються на змінні, що оптимізуються. У першому стовпці вказуються дані про потреби ресурсів для оптимального рішення. Другий містить значення тіньових цін на види ресурсів, що використовуються. В останніх двох колонках розміщено дані про можливе збільшення або зменшення обсягів наявних ресурсів.

Завдання кластеризації.

Покроковий метод розв'язання задачі наведено вище. Наведемо тут Excel-таблиці, що ілюструють хід розв'язання задачі:

«метод найближчого сусіда»

Розв'язання задачі кластерного аналізу - "МЕТОД найближчого сусіда"

Вихідні дані

де х1 - обсяг продукції, що випускається;

х2 - середньорічна вартість основних

Промислово-виробничі фонди

«метод далекого сусіда»

Розв'язання задачі кластерного аналізу - "МЕТОД ДАЛЬНЬОГО СУСІДУ"

Вихідні дані

де х1 - обсяг продукції, що випускається;

х2 - середньорічна вартість основних

Промислово-виробничі фонди

Телевізори