Вирішення варіаційних рядів. Студентам та школярам - допомога у навчанні

Умова:

Є дані про віковий склад робітників (років): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28, 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Побудувати інтервальний ряд розподілу.
    2. Побудувати графічне зображення ряду.
    3. Графічно визначити моду та медіану.

Рішення:

1) За формулою Стерджеса сукупність треба поділити на 1 + 3,322 lg 30 = 6 груп.

Максимальний вік – 38, мінімальний – 18.

Ширина інтервалу Оскільки кінці інтервалів мають бути цілими числами, розділимо сукупність на 5 груп. Ширина інтервалу – 4.

Для полегшення підрахунків розташуємо дані у порядку зростання: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 3 30, 31, 32, 32, 33, 34, 35, 38, 38.

Розподіл вікового складу робітників

Графічно ряд можна зобразити як гістограми чи полігону. Гістограма – стовпчикова діаграма. Основа стовпчика – ширина інтервалу. Висота стовпчика дорівнює частоті.

Полігон (або багатокутник розподілу) – графік частот. Щоб побудувати його по гістограмі, з'єднуємо середини верхніх сторін прямокутників. Багатокутник замикаємо на осі Ох на відстанях, рівних половині інтервалу крайніх значень х.

Мода (Мо) - це величина досліджуваного ознаки, що у цій сукупності зустрічається найчастіше.

Щоб визначити моду по гістограмі, треба вибрати найвищий прямокутник, провести лінію від правої вершини прямокутника до правого верхнього кута попереднього прямокутника, і від лівої вершини модального прямокутника провести лінію до лівої вершини наступного прямокутника. Від точки перетину цих ліній провести перпендикуляр до осі х. Абсцис і буде модою. Мо ≈ 27,5. Отже, найпоширеніший вік у цій сукупності 27-28 років.

Медіана (Mе) - це величина ознаки, що вивчається, яка знаходиться в середині впорядкованого варіаційного ряду.

Медіану знаходимо по кумуляті. Кумулята – графік накопичених частот. Абсциси – варіанти ряду. Ординати – накопичені частоти.

Для визначення медіани по кумуляті знаходимо по осі ординат точку, що відповідає 50% накопичених частот (у нашому випадку 15), проводимо через неї пряму, паралельно осі Ох, і від точки її перетину з кумулятою проводимо перпендикуляр до осі х. Абсцис є медіаною. Ме ≈ 25,9. Це означає, що половина робітників у цій сукупності має вік менше 26 років.

Варіаційниминазивають ряди розподілу, побудовані за кількісним ознакою. Значення кількісних ознак в окремих одиниць сукупності непостійні, більш-менш різняться між собою.

Варіація- коливання, змінність величини ознаки в одиниць сукупності. Окремі числові значенняознаки, що зустрічаються в досліджуваній сукупності, називають варіантамизначень. Недостатність середньої величини для повної характеристики сукупності змушує доповнювати середні величини показниками, що дозволяють оцінити типовість цих середніх шляхом вимірювання коливання (варіації) ознаки, що вивчається.

Наявність варіації обумовлено впливом значної частини чинників формування рівня ознаки. Ці чинники діють з різною силою й у різних напрямах. Для опису міри мінливості ознак використовують показники варіації.

Завдання статистичного вивчення варіації:

  • 1) вивчення характеру та ступеня варіації ознак у окремих одиниць сукупності;
  • 2) визначення ролі окремих чинників чи його груп у варіації тих чи інших ознак сукупності.

У статистиці застосовуються спеціальні методи дослідження варіації, що ґрунтуються на використанні системи показників, здопомогою яких вимірюється варіація.

Дослідження варіацій має важливе значення. Вимірювання варіацій необхідне під час проведення вибіркового спостереження, кореляційному та дисперсійному аналізі тощо. Єрмолаєв О.Ю. Математична статистика для психологів: Підручник [Текст]/О.Ю. Єрмолаєв. – М.: Вид-во Флінта Московського психолого-соціального інституту, 2012. – 335с.

За рівнем варіації можна будувати висновки про однорідності сукупності, про стійкість окремих значень ознак і типовості середньої. На основі розробляються показники тісноти зв'язку між ознаками, показники оцінки точності вибіркового спостереження.

Розрізняють варіацію у просторі та варіацію у часі.

Під варіацією у просторі розуміють коливання значень ознаки в одиниць сукупності, що представляють окремі території. Під варіацією у часі мають на увазі зміну значень ознаки у різні періоди часу.

Для вивчення варіації у лавах розподілу проводять розташування всіх варіантів значень ознаки у зростаючому чи спадному порядку. Цей процес називають ранжуванням низки.

Найпростішими ознаками варіації є мінімум та максимум- Найменше та найбільше значення ознаки в сукупності. Число повторень окремих варіантів значень ознак називають частотою повторення (fi). Частоти зручно замінювати частостями – wi. Частина - відносний показник частоти, що може бути виражений у частках одиниці чи відсотках і дозволяє зіставляти варіаційні ряди з різним числом спостережень. Виражається формулою:

де Хmax, Хmin - максимальне та мінімальне значення ознаки в сукупності; n – число груп.

Для вимірювання варіації ознаки застосовуються різні абсолютні та відносні показники. До абсолютних показників варіації відносяться розмах варіації, середнє лінійне відхилення, дисперсія, середнє відхилення квадратичне. До відносних показників коливання відносять коефіцієнт осциляції, відносне лінійне відхилення, коефіцієнт варіації.

Приклад знаходження варіаційного ряду

Завдання.За цією вибіркою:

  • а) Знайти варіаційний ряд;
  • б) побудувати функцію розподілу;

№ = 42. Елементи вибірки:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

Рішення.

  • а) побудова ранжованого варіаційного ряду:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • б) побудова дискретного варіаційного ряду.

Обчислимо число груп у варіаційному ряді, користуючись формулою Стерджесса:

Приймемо число груп, рівним 7.

Знаючи число груп, розрахуємо величину інтервалу:

Для зручності побудови таблиці приймемо число груп рівним 8 інтервал складе 1.

Рис. 1 Обсяг продажу магазином товару за певний проміжок часу

Метод угруповань дозволяє також виміряти варіацію(мінливість, коливання) ознак. При відносно малому числі одиниць сукупності варіація вимірюється з урахуванням ранжованого низки одиниць, що утворюють сукупність. Ряд називається ранжованим,якщо одиниці розташовані за зростанням (зменшенням) ознаки.

Однак ранжировані ряди досить малопоказові тоді, коли потрібна порівняльна характеристика варіації. Крім того, в багатьох випадках доводиться мати справу зі статистичними сукупностями, що складаються з великої кількості одиниць, які важко уявити у вигляді конкретного ряду. У зв'язку з цим для первинного загального ознайомлення зі статистичними даними і особливо полегшення вивчення варіації ознак досліджувані явища і процеси зазвичай об'єднують у групи, а результати угруповання оформляють як групових таблиць.

Якщо груповий таблиці є лише дві графи - групи за виділеним ознакою (варіанти) і чисельності груп (частоти чи частоти), вона називається поряд розподілу.

Ряд розподілу -найпростіший різновид структурного угруповання за однією ознакою, відображена в груповій таблиці з двома графами, в яких містяться варіанти та частоти ознаки. У багатьох випадках з такого структурного угруповання, тобто. із складання рядів розподілу, починається вивчення вихідного статистичного матеріалу.

Структурне угруповання у вигляді ряду розподілу може бути перетворено на справжнє структурне угруповання, якщо виділені групи будуть охарактеризовані не тільки частотами, а й іншими статистичними показниками. Головне призначення рядів розподілу – вивчення варіації ознак. Теорію рядів розподілу детально розробляє математична статистика.

Ряди розподілу ділять на атрибутивні(угруповання за атрибутивними ознаками, наприклад розподіл населення за статтю, національністю, сімейним станом тощо) і варіаційні(Угруповання за кількісними ознаками).

Варіаційний рядявляє собою групову таблицю, яка містить дві графи: угруповання одиниць за однією кількісною ознакою та чисельність одиниць у кожній групі. Інтервали у варіаційному ряду утворюються зазвичай рівні та закриті. Варіаційним рядом є наступне угруповання населення Росії за величиною середньодушових грошових доходів (табл. 3.10).

Таблиця 3.10

Розподіл чисельності населення Росії за величиною середньодушових доходів у 2004-2009 роках.

Групи населення за величиною середньодушових грошових доходів, руб./міс.

Чисельність населення групи, в % до результату

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Понад 25 000,0

Все населення

Варіаційні ряди у свою чергу поділяються на дискретні та інтервальні. Дискретніваріаційні ряди поєднують варіанти дискретних ознак, що змінюються у вузьких межах. Прикладом дискретного варіаційного ряду може бути розподіл російських сімей за кількістю наявних дітей.

Інтервальніваріаційні ряди поєднують варіанти або безперервних ознак або змінюються в широких межах дискретних ознак. Інтервальним є варіаційний ряд розподілу населення Росії за величиною середньодушових грошових доходів.

Дискретні варіаційні ряди практично застосовуються не надто часто. Тим часом складання їх нескладно, оскільки склад груп визначається конкретними варіантами, якими реально мають досліджувані групувальні ознаки.

Найбільш поширені інтервальні варіаційні ряди. При їх складанні виникає складне питання про кількість груп, а також величину інтервалів, які повинні бути встановлені.

Принципи вирішення цього питання викладено у розділі про методологію побудови статистичних угруповань (див. параграф 3.3).

Варіаційні ряди являють собою засіб згортання або стиснення різноманітної інформації в компактну форму, за ними можна скласти досить чітке судження про характер варіації, вивчити відмінності ознак явищ, що входять досліджувану сукупність. Але найважливіше значення варіаційних рядів у тому, що у основі обчислюються особливі узагальнюючі характеристики варіації (див. главу 7).

  • Вступний урок безкоштовно;
  • Велика кількість досвідчених викладачів (нейтивів та російськомовних);
  • Курси НЕ визначений термін (місяць, півроку, рік), але в конкретну кількість занять (5, 10, 20, 50);
  • Понад 10 000 задоволених клієнтів.
  • Вартість одного заняття з російськомовним викладачем від 600 рублів, з носієм мови - від 1500 рублів

Концепція варіаційного ряду.Першим кроком систематизації матеріалів статистичного спостереження є підрахунок числа одиниць, що мають ту чи іншу ознаку. Розташувавши одиниці в порядку зростання або зменшення їх кількісної ознаки і підрахувавши число одиниць з конкретним значенням ознаки, отримуємо варіаційний ряд. Варіаційний ряд характеризує розподіл одиниць певної статистичної сукупності за якоюсь кількісною ознакою.

Варіаційний ряд є дві колонки, в лівій колонці наводяться значення варіюючого ознаки, іменовані варіантами і позначаються (x), а правої – абсолютні числа, що показують, скільки разів зустрічається кожен варіант. Показники цієї колонки називаються частотами та позначаються (f).

Схематично варіаційний ряд можна подати у вигляді табл.5.1:

Таблиця 5.1

Вид варіаційного ряду

Варіанти (x)

Частоти (f)

У правій колонці можуть використовуватись і відносні показники, що характеризують частку частоти окремих варіантів у загальній сумі частот. Ці відносні показники називають частостями і умовно позначають через , тобто. . Сума всіх частостей дорівнює одиниці. Частини можуть бути виражені і у відсотках, і тоді їх сума дорівнюватиме 100%.

Варіюють ознаки можуть мати різний характер. Варіанти одних ознак виражаються в цілих числах, наприклад, кількість кімнат у квартирі, кількість виданих книг і т.д. Ці ознаки називають перервними, чи дискретними. Варіанти інших ознак можуть набувати будь-яких значень у певних межах, як, наприклад, виконання планових завдань, заробітня платата ін Ці ознаки називають безперервними.

Дискретний варіаційний ряд.Якщо варіанти варіаційного ряду виражені у вигляді дискретних величин, такий варіаційний ряд називають дискретним, його зовнішній вигляд представлений в табл. 5.2:

Таблиця 5.2

Розподіл студентів за оцінками, отриманими на іспиті

Оцінки (х)

Кількість студентів (f)

% до підсумку ()

Характер розподілу в дискретних рядах зображується графічно як полігону розподілу, рис.5.1.

Рис. 5.1. Розподіл студентів за оцінками, отриманими на іспиті.

Інтервальний варіаційний ряд.Для безперервних ознак варіаційні лави будуються інтервальні, тобто. значення ознаки у яких виражаються як інтервалів «від і до». У цьому мінімальне значення ознаки у такому інтервалі називають нижньої межею інтервалу, а максимальне – верхньою межею інтервалу.

Інтервальні варіаційні ряди будують як для перервних ознак (дискретних), так і для великих у діапазоні. Інтервальні ряди можуть бути з рівними та нерівними інтервалами. В економічній практиці здебільшого застосовуються нерівні інтервали, що прогресивно зростають або спадають. Така необхідність виникає особливо у випадках, коли коливання ознаки здійснюється нерівномірно і великих межах.

Розглянемо вид інтервального ряду із рівними інтервалами, табл. 5.3:

Таблиця 5.3

Розподіл робітників з вироблення

Виробіток, т.р. (х)

Число робітників (f)

Кумулятивна частота (f')

Інтервальний ряд розподілу графічно зображується як гістограми, рис.5.2.

Рис.5.2. Розподіл робітників з вироблення

Накопичена (кумулятивна) частота.У практиці виникає потреба у перетворенні рядів розподілу на кумулятивні ряди,що будуються за накопиченими частотами. З їхньою допомогою можна визначити структурні середні, які полегшують аналіз даних низки розподілу.

Накопичені частоти визначаються шляхом послідовного додавання до частот (або частот) першої групи цих показників наступних груп ряду розподілу. Для ілюстрації рядів розподілу використовуються кумуляти та огива. Для їх побудови на осі абсцис відзначаються значення дискретного ознаки (чи кінці інтервалів), але в осі ординат – наростаючі підсумки частот (кумулята), рис.5.3.

Рис. 5.3. Кумулята розподілу робітників з вироблення

Якщо шкали частот і варіантів міняти місцями, тобто. на осі абсцис відбивати накопичені частоти, але в осі ординат – значення варіантів, то крива, характеризує зміна частот від групи до групи, носить назву огиви розподілу, рис.5.4.

Рис. 5.4. Огива розподілу робітників з вироблення

Варіаційні ряди з рівними інтервалами забезпечують одну з найважливіших вимог, що висуваються до статистичних рядів розподілу, забезпечення їх порівнянності в часі та просторі.

Щільність розподілу.Однак частоти окремих нерівних інтервалів у названих рядах безпосередньо не можна порівняти. У разі для забезпечення необхідної порівняльності обчислюють щільність розподілу, тобто. визначають, скільки одиниць у кожній групі посідає одиницю величини інтервалу.

При побудові графіка розподілу варіаційного ряду з нерівними інтервалами висоту прямокутників визначають пропорційно не частотам, а показникам щільності розподілу значень ознаки, що вивчається, у відповідних інтервалах.

Складання варіаційного ряду та його графічне зображення є першим кроком обробки вихідних даних та першим ступенем аналізу досліджуваної сукупності. p align="justify"> Наступним кроком в аналізі варіаційних рядів є визначення основних узагальнюючих показників, іменованих характеристиками ряду. Ці характеристики повинні дати уявлення про середнє значення ознаки одиниць сукупності.

Середня величина. Середня величина є узагальнену характеристику досліджуваної ознаки в досліджуваній сукупності, що відображає її типовий рівень у розрахунку на одиницю сукупності в конкретних умовах місця і часу.

Середня величина завжди іменована, має таку ж розмірність, як і ознака в окремих одиниць сукупності.

Перед обчисленням середніх величин необхідно провести угруповання одиниць досліджуваної сукупності, виділивши якісно однорідні групи.

Середня, розрахована за сукупністю загалом називається загальної середньої, а кожної групи – груповими середніми.

Існують два різновиди середніх величин: статечні (середня арифметична, середня гармонійна, середня геометрична, середня квадратична); структурні (мода, медіана, квартилі, децилі).

Вибір середньої розрахунку залежить від мети.

Види статечних середніх та методи їх розрахунку.У практиці статистичної обробки зібраного матеріалу виникають різні завдання, на вирішення яких потрібні різні середні.

Математична статистика виводить різні середні з формул статечної середньої:

де середня величина; x - окремі варіанти (значення ознак); z – показник ступеня (при z = 1 – середня арифметична, z = 0 середня геометрична, z = - 1 – середня гармонійна, z = 2 – середня квадратична).

Однак питання про те, який вид середньої необхідно застосувати у кожному окремому випадку, вирішується шляхом конкретного аналізудосліджуваної сукупності.

Найбільш часто зустрічається у статистиці видом середніх величин є середня арифметична. Вона обчислюється в тих випадках, коли обсяг ознаки, що осредняется, утворюється як сума його значень в окремих одиниць вивчається статистичної сукупності.

Залежно від характеру вихідних даних середня арифметична визначається різними способами:

Якщо дані несгруповані, то розрахунок ведеться за формулою простої середньої величини

Розрахунок середньої арифметичної в дискретному рядувідбувається за формулою 3.4.

Розрахунок середньої арифметичної в інтервальному ряду.В інтервальному варіаційному ряду, де за величину ознаки у кожній групі умовно приймається середина інтервалу, середня арифметична може відрізнятися від середньої, розрахованої за несгрупованими даними. Причому чим більше величина інтервалу в групах, тим більше можливі відхиленнясередньої, обчисленої за згрупованими даними, від середньої, розрахованої за несгрупованими даними.

При розрахунку середньої за інтервальним варіаційним рядом для виконання необхідних обчислень від інтервалів переходять до їх середин. А потім розраховують середню величину за формулою середньої арифметичної зваженої.

Властивості середньої арифметичної.Середня арифметична має деякі властивості, які дозволяють спрощувати обчислення, розглянемо їх.

1. Середня арифметична із постійних чисел дорівнює цьому постійному числу.

Якщо х = а. Тоді .

2. Якщо ваги всіх варіантів пропорційно змінити, тобто. збільшити або зменшити в те саме число разів, то середня арифметична нового ряду від цього не зміниться.

Якщо всі ваги f зменшити у k разів, то .

3. Сума позитивних і від'ємних відхилень окремих варіантів від середньої, помножених на ваги, дорівнює нулю, тобто.

Якщо то . Звідси.

Якщо всі варіанти зменшити або збільшити на якесь число, то середня арифметична нового ряду зменшиться або збільшиться на стільки ж.

Зменшимо всі варіанти xна a, тобто. x´ = xa.

Тоді

Середню арифметичну початкового ряду можна отримати, додаючи до зменшеної середньої раніше вирахуваної з варіантів числа a, тобто. .

5. Якщо всі варіанти зменшити або збільшити в kраз, то середня арифметична нового ряду зменшиться чи збільшиться у стільки ж, тобто. в kразів.

Нехай тоді .

Звідси, тобто. для отримання середньої первісного ряду середню арифметичну нового ряду (зі зменшеними варіантами) треба збільшити kразів.

Середня гармонійна.Середня гармонійна величина, що зворотна середньої арифметичної. Її використовують, коли статистична інформація не містить частот за окремими варіантами сукупності, а представлена ​​як їхнє твір (М = xf). Середня гармонійна розраховуватиметься за формулою 3.5

Практичне застосування середньої гармонійної – для розрахунку деяких індексів, зокрема індексу цін.

Середня геометрична.При застосуванні середньої геометричної індивідуальні значення ознаки є, як правило, відносні величини динаміки, побудовані у вигляді ланцюгових величин, як відношення до попереднього рівня кожного рівня в ряді динаміки. Середня характеризує, в такий спосіб, середній коефіцієнт зростання.

Середня геометрична величина використовується також визначення рівновіддаленої величини від максимального і мінімального значень ознаки. Наприклад, страхова компанія укладає договори надання послуг автострахування. Залежно від конкретного страхового випадку страхова виплата може коливатися від 10000 до 100000 дол. на рік. Середня сума виплат зі страховки становитиме дол.

Середня геометрична це величина, що використовується як середня з відносин або в рядах розподілу, представлених у вигляді геометричної прогресії, коли z = 0. Цією середньою зручно користуватися, коли приділяється увага не абсолютним різницям, а відносинам двох чисел.

Формули для розрахунку наступні

де - варіанти ознаки, що осредняется; - Добуток варіантів; f- Частота варіантів.

Середня геометрична використовується у розрахунках середньорічних темпів зростання.

Середня квадратична.Формула середньої квадратичної використовується для вимірювання ступеня коливання індивідуальних значень ознаки навколо середньої арифметичної в рядах розподілу. Так, при розрахунку показників варіації середню обчислюють із квадратів відхилень індивідуальних значень ознаки від середньої арифметичної величини.

Середня квадратична величина розраховується за формулою

В економічних дослідженнях середня квадратична у зміненому вигляді широко використовується при розрахунку показників варіації ознаки, таких як дисперсія, середнє відхилення.

Правило мажорантності.Між статечними середніми існує така залежність – що більше показник ступеня, то більше значення середньої, табл.5.4:

Таблиця 5.4

Співвідношення між середніми величинами

значення z

Співвідношення між середніми

Це співвідношення називається правилом мажорантності.

Структурні середні величини.Для характеристики структури сукупності застосовуються спеціальні показники, які можна назвати структурними середніми. До таких показників відносяться мода, медіана, квартілі та децилі.

Мода.Модою (Мо) називається найбільш часто зустрічається значення ознаки одиниць сукупності. Модою називається значення ознаки, яке відповідає максимальній точці теоретичної кривої розподілу.

Мода широко використовується в комерційній практиці щодо купівельного попиту (при визначенні розмірів одягу та взуття, які користуються широким попитом), реєстрації цін. Мод разом може бути кілька.

Розрахунок моди у дискретному ряду.У дискретному ряду мода – це варіанти із найбільшою частотою. Розглянемо знаходження моди у дискретному ряду.

Розрахунок моди в інтервальному рядку.У інтервальному варіаційному ряду модою приблизно вважають центральний варіант модального інтервалу, тобто. того інтервалу, що має найбільшу частоту (частина). У межах інтервалу треба знайти значення ознаки, яке є модою. Для інтервального ряду мода визначатиметься формулою

де – нижня межа модального інтервалу; - Величина модального інтервалу; - Частота, що відповідає модальному інтервалу; - Частота, що передує модальному інтервалу; - Частота інтервалу, наступного за модальним.

Медіана.Медіаною () називається значення ознаки у середньої одиниці ранжованого ряду. Ранжований ряд - це ряд, у якого значення ознаки записані в порядку зростання або спадання. Або медіана це величина, яка поділяє чисельність упорядкованого варіаційного ряду на дві рівні частини: одна частина має значення варіюючого ознаки менші, ніж середній варіант, а інша – більші.

Щоб знайти медіану спочатку визначається її порядковий номер. Для цього при непарному числі одиниць до суми всіх частот додається одиниця і все поділяється на два. При парному числі одиниць медіана перебуває як значення ознаки в одиниці, порядковий номер визначається за загальною сумою частот, поділеної на два. Знаючи порядковий номер медіани, легко за накопиченими частотами знайти її значення.

Розрахунок медіани у дискретному ряду.За даними вибіркового обстеження одержано дані про розподіл сімей за кількістю дітей, табл. 5.5. Для визначення медіани спочатку визначимо її порядковий номер

=

Потім побудуємо ряд накопичених частот (, порядковому номерута накопиченій частоті знайдемо медіану. Накопичена частота 33 показує, що у 33 сім'ях кількість дітей вбирається у 1 дитини, але оскільки номер медіани 50, то медіана перебуває у проміжку з 34 по 55 сім'ю.

Таблиця 5.5

Розподіл числа сімей від кількості дітей

Число дітей у сім'ї

Кількість сімей – величина медіанного інтервалу;

Усі розглянуті форми статечної середньої мають важливу властивість (на відміну структурних середніх) – у формулу визначення середньої входять все значення низки тобто. на розміри середньої впливають значення кожного варіанта.

З одного боку, це дуже позитивна властивість, т.к. в цьому випадку враховується дія всіх причин, що впливають на всі одиниці сукупності, що вивчається. З іншого боку, навіть одне спостереження, що потрапило у вихідні дані випадково, може істотно спотворити уявлення про рівень розвитку ознаки, що вивчається, в аналізованої сукупності (особливо в коротких рядах).

Квартили та децилі.За аналогією зі знаходженням медіани в варіаційних рядах можна знайти значення ознаки у будь-якій по порядку одиниці ранжованого ряду. Так, зокрема, можна визначити значення ознаки в одиниць, що ділять ряд на 4 рівні частини, на 10 і т.п.

Квартили.Варіанти, які ділять ранжований ряд на чотири рівні частини, називають квартилями.

При цьому розрізняють: нижній (або перший) квартиль (Q1) – значення ознаки у одиниці ранжованого ряду, що розділяє сукупність у співвідношенні ¼ до ¾ і верхній (або третій) квартиль (Q3) – значення ознаки у одиниці ранжованого ряду, що ділить сукупність у співвідношенні ¾ до ¼.

Другий квартиль є медіана Q2 = Ме. Нижній та верхній квартілі в інтервальному ряді розраховуються за формулою аналогічно медіані.

де – нижня межа інтервалу, що містить відповідно нижній та верхній квартиль;

– накопичена частота інтервалу, що передує інтервалу, що містить нижній або верхній квартиль;

– частоти квартильних інтервалів (нижнього та верхнього)

Інтервали, в яких містяться Q1 і Q3, визначають за накопиченими частотами (або частотами).

Децилі.Крім квартилів розраховують децилі - варіанти, що ділять ранжований ряд на 10 рівних частин.

Позначаються вони через D, перший дециль D1 ділить ряд у співвідношенні 1/10 та 9/10, другий D2 – 2/10 та 8/10 тощо. Обчислюються вони за тією ж схемою, що медіана і квартили.

І медіана, і квартілі, і децилі належать до так званих порядкових статистиків, під яким розуміють варіант, який займає певне порядкове місце у ранжованому ряду.

При обробці великих масивів інформації, що особливо актуально під час проведення сучасних наукових розробок, перед дослідником стоїть серйозне завдання правильного угруповання вихідних даних. Якщо дані мають дискретний характер, то проблем, як ми бачили, не виникає – необхідно просто підрахувати частоту кожної ознаки. Якщо ж досліджувана ознака має безперервнийхарактер (що має більшого поширення практично), то вибір оптимального числа інтервалів угруповання ознаки зовсім на тривіальної завданням.

Для угруповання безперервних випадкових величин весь варіаційний розмах ознаки розбивають на кілька інтервалів до.

Згрупованим інтервальним (безперервним) варіаційним рядомназивають ранжовані за значенням ознаки інтервали (), де вказані разом з відповідними частотами () числа спостережень, що потрапили в г-й інтервал, або відносними частотами ():

Інтервали значень ознаки

Частота mi

Гістограмаі кумулята (огива),вже докладно розглянуті нами є чудовим засобом візуалізації даних, що дозволяє отримати первинне уявлення про структуру даних. Такі графіки (рис. 1.15) будуються для безперервних даних так само, як і для дискретних, тільки з урахуванням того, що безперервні дані часто заповнюють область своїх можливих значень, приймаючи будь-які значення.

Рис. 1.15.

Тому стовпці на гістограмі та кумуляті повинні стикатися, не мати ділянок, куди не потрапляють значення ознаки в межах усіх можливих(тобто гістограма і кумулята не повинні мати "дірок" по осі абсцис, в які не потрапляють значення змінної, що вивчається, як на рис. 1.16). Висота стовпчика відповідає частоті-числу спостережень, що потрапили в даний інтервал, або відносної частоті-частці спостережень. Інтервали не повинні перетинатисяі мають, як правило, однакову ширину.

Рис. 1.16.

Гістограма та полігон є апроксимаціями кривої щільності ймовірності (диференціальної функції) f(x)теоретичного розподілу, що розглядається в курсі теорії ймовірностей. Тому їхня побудова має таке важливе значення при первинній статистичній обробці кількісних безперервних даних – на їхній вигляд можна судити про гіпотетичний закон розподілу.

Кумулята - крива накопичених частот (частин) інтервального варіаційного ряду. З кумулятою зіставляється графік інтегральної функції розподілу F(x), що також розглядається в курсі теорії ймовірностей.

В основному поняття гістограми та кумуляти пов'язують саме з безперервними даними та їх інтервальними варіаційними рядами, тому що їх графіки є емпіричними оцінками функції ймовірності щільності і функції розподілу відповідно.

Побудова інтервального варіаційного ряду починають із визначення кількості інтервалів k.І це завдання, мабуть, є найскладнішим, важливішим і неоднозначним у досліджуваному питанні.

Число інтервалів не повинно бути занадто малим, тому що при цьому гістограма виходить занадто згладженою ( oversmoothed),втрачає всі особливості мінливості вихідних даних - на рис. 1.17 можна побачити, як самі дані, якими побудовані графіки рис. 1.15 використані для побудови гістограми з меншим числом інтервалів (лівий графік).

У той же час кількість інтервалів не повинна бути занадто великою – інакше ми не зможемо оцінити щільність розподілу даних по числовій осі: гістограма вийде недозгладжена (undersmoothed),із незаповненими інтервалами, нерівномірна (див. рис. 1.17, правий графік).

Рис. 1.17.

Як же визначити найкраще число інтервалів?

Ще 1926 р. Герберт Стерджес (Herbert Sturges) запропонував формулу обчислення кількості інтервалів, куди необхідно розбити вихідне безліч значень досліджуваного ознаки . Ця формула справді стала надпопулярною – більшість статистичних підручників пропонують саме її, за умовчанням її використовують і безліч статистичних пакетів. Наскільки це виправдано і в усіх випадках – є дуже серйозним питанням.

Отже, на чому ґрунтується формула Стерджеса?

Розглянемо біномний розподіл }