Учебные материалы по математике | Статистическое распределение выборки | Matematiku5
Вузы по математике Готовые работы по математике Как писать работы по математике Примеры решения задач по математике Решить задачу по математике online

Статистическое распределение выборки


Статистическое распределение выборки

Пусть из генеральной совокупности объема N произведена выборка объема n и пусть изучаемый признак X принял значения x1, x2, …, xn. Наблюдаемые значения xi (i=) признака X называют вариантами, а последовательность упорядоченных вариант, записанных в неубывающем порядке, называют вариационным рядом. Варианты и вариационный ряд дают одну и ту же информацию об изучаемой случайной величине X, но вариационный ряд упорядочен и по нему легче производить обработку экспериментального материала. Может оказаться, что варианты встречаются по несколько раз: x1 – n1 раз; x2 – n2 раз; …; xk – nk раз. Числа n1, n2, …, nk называют частотами.

Статистическим распределением выборки называется перечень вариант с указанием соответствующих им частот. Статистическое распределение частот выборки записывается в виде таблицы, первая строка которой содержит элементы xi, а вторая – их частоты:

xi

x1

x2

xk

ni

n1

n2

nk

Отношение частоты ni к объему выборки называется относительной частотой или частостью . Частоты и частости называются весами.

Для наглядного представления статистического распределения пользуются графическим изображением (полигоном). Полигоном частот называется ломаная линия, отрезки которой соединяют точки с координатами (xi, ni). Полигоном относительных частот называется ломаная линия, отрезки которой соединяют точки с координатами (xi, wi).

Вариационный ряд называется дискретным, если любые его варианты отличаются на постоянную величину, и – непрерывным (интервальным), если его варианты могут отличаться одна от другой на сколь угодно малую величину. Если объем выборки велик или изучается непрерывный признак X, то интервал, содержащий все варианты выборки, разбивается на k частичных непересекающихся интервалов. Вычисления значительно упрощаются, если частичные интервалы имеют одинаковую длину h (во всем дальнейшем изложении рассматривается именно этот случай). В этом случае статистическое распределение выборки представляется в виде последовательности интервалов и соответствующих им частот

интервалы

x1 – x2

x2 – x3

xk – xk-1

частоты

n1

n2

nk

где niсумма частот вариант попавших в i-й частичный интервал. Число частичных интервалов m нельзя брать большим, т. к. это значительно усложняет вычисления и нельзя брать малым, т. к. при этом могут быть потеряны индивидуальные свойства изучаемого признака X. Оптимальное число интервалов определяется по формуле Серджеса:

m = 1 + 3.322 lg n ,

где n – объем выборки.

Длина интервала определяется по формуле:

,

где R = xmaxxminразмах вариации.

За начало первого интервала рекомендуется брать величину

xнач = xminh.

Гистограммой частот (относительных частот) называется ступенчатая фигура состоящая из прямоугольников, основаниями которых служат частичные интервалы длиной h, а высоты равны отношению плотность частоты ( плотность относительной частоты).

Площадь гистограммы частот равна объему выборки. Площадь гистограммы относительных частот равна единице.

Часто для характеристики вариационного ряда используют накопленные частоты: υi = n1 + n2 + … + ni. Накопленные частоты показывают, сколько единиц совокупности не превышают заданного значения xi признака X. Отношение накопленной частоты к общему числу наблюдений (объему выборки) называется относительной накопленной частотой или накопленной частостью.

Кумулятивной кривой (кумулятой) называется ломаная линия, отрезки которой соединяют точки с координатами (xi, ). Кумулятивной кривой относительных накопленных частот называется ломаная линия, отрезки которой соединяют точки с координатами (xi,).

Огивой называется ломаная линия, отрезки которой соединяют точки с координатами (, xi).

Выборочной квантилью порядка p называется абсцисса xp точки, лежащей на кумулятивной кривой и имеющей ординату p. Порядок квантили p определяет долю общего числа наблюдений в выборке, результаты которых не превосходят xp. Значения порядка часто задают в процентах.

Эмпирической функцией распределения (функцией распределения выборки) называется функция F*(x), которая для каждого значения x признака X определяет относительную частоту события X < x:

F*(x) = ,

где nx – число вариант, меньших x; n – объем выборки.

В отличие от эмпирической функции распределения выборки F*(x) функция распределения F(x) генеральной совокупности называется теоретической функцией распределения.

При большом объеме выборки числа F*(x) и F(x) принимают близкие значения. Эмпирическая функция распределения обладает всеми свойствами функции F(x):

1)  Значения эмпирической функции распределения принадлежат отрезку [0;1];

2)  F*(x) – неубывающая функция;

3)  Если x1 – наименьшая варианта, а xk — наибольшая, то:

при х x1, F*(x)=0,

при х > xk, F*(x)=1.

Эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.

Пример 1.

Записать в виде вариационного и статистического рядов выборку:

5, 3, 7, 10, 5, 5, 2, 10, 7, 2, 7, 7, 4, 2, 4.

Определить размах вариации. Построить полигон частот, полигон относительных частот.

Решение.

Объем выборки n = 15. Составим вариационный ряд:

2, 2, 2, 3, 4, 4, 5, 5, 5, 7, 7, 7, 7, 10, 10

Запишем статистическое распределение выборки (статистический ряд):

xi

2

3

4

5

7

10

ni

3

1

2

3

4

2

Контроль: Σ ni = 15.

Размах вариации: R = xmaxxmin = 10 – 2 = 8. Построим полигон частот:

 

Для построения полигона относительных частот составим статистическое распределение относительных частот выборки

xi

2

3

4

5

7

10

Wi

Построим полигон относительных частот:

 

Пример 2.

Измерение емкости затвор – сток 80 полевых транзисторов дали следующие результаты:

1,9 3,1 1,3 0,7 3,2 1,1 2,9 2,7 2,7 4,0

1,7 3,2 0,9 0,8 3,1 1,2 2,6 1,9 2,3 3,2

4,1 1,3 2,4 4,5 2,5 0,9 1,4 1,6 2,2 3,1

1,5 1,1 2,3 4,3 2,1 0,7 1,2 1,5 1,8 2,9

0,8 0,9 1,7 4,1 4,3 2,6 0,9 0,8 1,2 2,1

3,2 2,9 1,1 3,2 4,5 2,1 3,1 5,1 1,1 1,9

0,9 3,1 0,9 3,1 3,3 2,8 2,5 4,0 4,3 1,1

2,1 3,8 4,6 3,8 2,3 3,9 2,4 4,1 4,2 0,9

Построить:

1)  интервальное распределение частот признака Х;

2)  гистограмму частот и относительных частот;

3)  полигон частот;

4)  кумуляту и огиву;

5)  график F*(x).

Решение.

Найдем оптимальное число интервалов:

m = 1 + 3.322∙ lg n = 1 + 3.322∙lg 80 ≈ 1 + 3.322 ‫∙ 1, 90308 = 7, 31 ≈ 7

Найдем длину частичного интервала:

= ≈ 0,6 (h = 0.6)

Найдем начальную варианту первого частичного интервала:

xнач = xmin – 0,5∙h = 0.7 – 0.5∙0.6 = 0.4.

Составим интервальное статистическое распределение частот выборки, определив предварительную сумму частот вариант в каждом частичном интервале (условимся частоты вариант, расположенные на правом конце частичных интервалов относить в левый интервал). Составим расчетную таблицу, поместив туда плотность частоты , относительную частоту , плотность относительной частоты :

Частичные интервалы

0,4 – 1,0

1,0 – 1,6

1,6 – 2,2

2,2 – 2,8

2,8 – 3,4

3,4 – 4,0

4,0 –4,6

Сумма частот

12

14

12

12

14

5

11

Плотность частоты

Относительная частота

Плотность относительной частоты

Построим гистограмму частот и гистограмму относительных частот (ось справа):

 

Для построения полигона частот (относительных частот) запишем статистическое распределение частот (относительных частот) выборки, для чего возьмем середины частичных интервалов

xi

0,7

1,3

1,9

2,5

3,1

3,7

4,3

ni

12

14

12

12

14

5

11

Полигон частот и полигон относительных частот (ось справа)

Запишем статистическое распределение накопленных частот υi и относительных накопленных частот (кумулятивный ряд):

xi

0,7

1,3

1,9

2,5

3,1

3,7

4,3

υi

12

26

38

50

64

69

80

1,9

Кумулята и кумулятивная кривая накопленных относительных частот (ось справа)

Найдем по кумулятивной кривой относительных накопленных частот квантиль порядка 0,5 и 0,75:

x0.5 ≈ 1,92; x0,75 ≈ 2,85.

Найдем эмпирическую функцию распределения F*(x):

1.  x ≤ 0,7; F*(x) = = = 0;

2.  0,7 < x ≤1,3; F*(x) = = ;

3.  1,3 < x ≤1,9; F*(x) = = ;

4.  1,9 < x ≤ 2,5; F*(x) = = ;

5.  2,5 < x ≤ 3,1; F*(x) = = ;

6.  3,1 < x ≤ 3,7; F*(x) = = ;

7.  3,7 < x ≤ 4,3; F*(x) = = ;

8.  x > 4,3; F*(x) = = 1

F*(x)=

 

График эмпирической функции распределения

Числовые выборочные характеристики

Пусть изучается дискретная генеральная совокупность относительно количественного признака X объема N.

Если все значения признака генеральной совокупности объема N различны, то

Определение 1. Генеральной средней называется среднее арифметическое значений признака генеральной совокупности .

Если значение признака встречается с некоторой частотой Ni, то , где N – объем генеральной совокупности.

Определение 2. Выборочной средней называется среднее арифметическое значений признака X выборочной совокупности (если все значения n различны) или (если значение признака встречается с частотой ni), где n – объем выборочной совокупности.

При увеличении n выборочная средняя сходится по вероятности к генеральной средней: .

Определение 3. Групповой средней называется среднее арифметическое значений признака, принадлежащих группе j.

Определение 4. Общей средней называется среднее арифметическое значений признака, принадлежащих всей совокупности, или общая средняя, равная средней арифметической групповых средних, взвешенной по объемам групп.

Определение 5. Генеральной дисперсией называется среднее арифметическое квадратов отклонений значений признака генеральной совокупности от среднего значения (генеральной средней):

или .

Определение 6. Генеральным средним квадратическим отклонением (стандартным) называется корень квадратный из генеральной дисперсии .

Определение 7. Выборочной дисперсией называется среднее арифметическое квадратов отклонений наблюдаемых значений признака от их среднего выборочного значения .

Наташа

Автор

Наташа — контент-маркетолог и блогер, но все это не мешает ей оставаться адекватным человеком. Верит во все цвета радуги и не верит в теорию всемирного заговора. Увлекается «нефрохиромантией» и тайно мечтает воссоздать дома Александрийскую библиотеку.

Распродажа дипломных

 Скидка 30% по промокоду Diplom2020