Основные показатели вариации в статистике. Статистическое изучение вариации

Вариация - это различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени.

Например, работники фирмы различаются по доходам, затратам времени на работу, росту, весу, любимому занятию в свободное время и т.д.

Вариация возникает в результате того, что индивидуальные значения признака складываются под совокупным влиянием разнообразных факторов (условий), которые по-разному сочетаются в каждом отдельном случае. Таким образом, величина каждого варианта объективна.

Исследование вариации в статистике имеет большое значение, помогает познать сущность изучаемого явления. Особенно актуально оно в период формирования многоукладной экономики. Измерение вариации, выяснение его причины, выявление влияния отдельных факторов дает важную информацию (например, о продолжительности жизни людей, доходах и расходах населения, финансовом положении предприятия и т.п.) для принятия научно обоснованных управленческих решений.

Средняя величина дает обобщенную характеристику признака изучаемой совокупности,но она не раскрывает строения совокупности, которое весьма существенно для ее познания. Средняя не показывает, как располагается около нее варианты осредняемого признака, сосредоточены ли они вблизи средней или значительно отклоняются от нее. Средняя величина признака в двух совокупностях может быть одинаковой, но в одном случае все индивидуальные значения отличаются от нее мало, а в другом - эти отличия велики, т.е. в одном случае вариация признака мала, а в другом велика, это весьма важное значение для характеристики надежности средней величины.

Чем больше варианты отдельных единиц совокупности различаются между собой, тем больше они отличаются от своей средней, и наоборот, - тем меньше они отличаются от средней, которая в таком случае будет более реально представлять всю совокупность. Вот почему ограничиваться вычислением одной средней в ряде случаев нельзя. Нужны и другие показатели, характеризующие отклонения отдельных значений от общей средней.

Это можно показать на таком примере. Предположим, что одинаковую работу выполняют две бригады, каждая из трех человек. Пусть количество деталей, шт., изготовленных за смену отдельными рабочими, составляло:

В первой бригаде 95, 100, 105 (???????х1=100 шт.);

Во второй бригаде - 75, 100, 125 (?х2=100 шт.)

Средняя выработка на одного рабочего в обеих бригадах одинакова и составляет 1=2=100 шт., однако колеблемость выработки отдельных рабочих в первой бригаде гораздо меньше, чем во второй.

Поэтому возникает необходимость измерять вариацию признака в совокупностях. Для этой цели в статистике применяют ряд обобщающих показателей:

Самым элементарным показателем вариации признака является размах вариацииR, представляющим собой разность максимальным и минимальным значениями признака:

R = хmax- хmin.

В нашем примере размах вариации сменной выработки деталей составляет: в первой бригаде - R1= 10 шт. (т.е.105-95); во второй бригаде - R2=50 шт. (т.е 125-75), что в 5 раз больше.

Это свидетельствует о том, что при численном равенстве средняя выработка первой бригады более «устойчива». Размах вариации может служить базой расчета возможных резервов роста выработки. Таких резервов больше у второй бригады, поскольку в случае достижения всеми рабочими максимальной для этой бригады выработки деталей, ею может быть изготовлено 375 шт., т.е. (3Ч125), а в первой - только 315 шт., т.е. (3Ч105).

Однако размах вариации показывает лишь крайние отклонения признака и не отражает отклонений всех вариантов в ряду. При изучении вариации нельзя ограничиваться только определением ее размаха. Для анализа вариации необходим показатель, который отражает все колебания варьирующего признака и дает обобщенную характеристику. Простейший показатель такого типа - среднее линейное отклонение.

>Cреднее линейное отклонение представляет собой среднюю арифметическую абсолютных значений отклонений отдельных вариантов от их средней арифметической (при этом всегда предполагают, что среднюю вычитают из варианта: (x -).

Среднее линейное отклонение:

* для несгруппированных данных

где n - число членов ряда;

*для сгруппированных данных

где?f - сумма частот вариационного ряда.

В формулах (2.1) и (2.2) разности в числителе взяты по модулю, (иначе в числителе всегда будет ноль - алгебраическая сумма отклонений вариантов отих средней арифметической). Поэтому среднее линейное отклонение как меру вариации признака применяют в статистической практике редко (только в тех случаях, когда суммирование показателей без учета знаков имеет экономический смысл). С его помощью, например, анализируется состав работающих, ритмичность производства, оборот внешней торговли.

> Дисперсия признака представляет собой средний квадрат отклонений вариантов от их средней величины, она вычисляется поформула простой и взвешенной дисперсий (в зависимости от исходных данных):

*простая дисперсия для несгруппированных данных

*взвешенная дисперсия для вариационного ряда

Техника вычисления дисперсии по формулам (2.3) и (2.4) достаточно сложна, а при больших значениях вариантов и частот может быть громоздкой.

Расчет можно упростить, используя свойства дисперсии (доказываемые в математической статистике). Приведем два из них:

  • 1) если все значения признака уменьшить или увеличить на одну и ту же постоянную величину А, то дисперсия от этого не изменится;
  • 2) если все значения признака уменьшить или увеличить в одно и тоже число раз (iраз), то дисперсия соответственно уменьшится или увеличится в i2раз.

Дисперсия имеет большое значение в экономическом анализе. В математической статистике важную роль для характеристики качества статистических оценок играет их дисперсия. Ниже, в частности, будет показано разложение дисперсии на соответствующие элементы, позволяющие оценить влияние различных факторов, обуславливающих вариацию признака.

  • >Среднее квадратическое отклонение у равно корню квадратному из дисперсии:
  • *для несгруппированных данных

*для вариационного ряда

Среднее квадратическое отклонение - это обобщающая характеристика размеров вариации признака в совокупности; оно показывает, на сколько в среднем отклоняются конкретные варианты от их среднего значения; является абсолютной мерой колеблемости признака и выражается в тех же единицах, что и варианты, поэтому экономически хорошо интерпретируется.

>Коэффициент вариации представляет собой выраженное в процентах отношение среднего квадратического отклонения к средней арифметической:

Коэффициент вариации используют не только для сравнительной оценки вариации единиц совокупности, но и как характеристику однородности совокупности. Совокупность считается количественно однородной, если коэффициент вариации не превышает 33%.

Решение задач

Задача 3.6

Пользуясь формулой Стерджесса, определите интервал группировки сотрудников фирмы по уровню доходов, если общая численность составляет 20 человек, а минимальный и максимальный доход соответственно равен 5000 и 30000 рублей.

Согласно формуле Стерджессаn = 1 + 3,322 - lgN,

где n - число групп;

N - число единиц совокупности, определим число групп в коллективе фирмы.

n = 1 + 3,322 - lg 20 = 1 + 3,322 -1,3?3.

Вариация признака (уровень дохода сотрудников) проявляется в сравнительно узких границах и распределение будет носить равномерный характер. Совокупность сотрудников разделится на 3 группировки с равными интервалами. Величина равного интервала определяется по следующей формуле:

h = R/n = (xmax-xmin)/n,

где xmax и xmin- максимальное и минимальное значение признака в совокупности;

n - число групп.

h = (30000 - 5000)/3 = 8333,33.

Итак, величина интервала определена, теперь можно определить границы групп:

  • 5000 - 13333,33 1-я группа
  • 13333,33 - 21666,66 2-я группа
  • 21666,66 - 30000 3-я группа.

Задача 7.4

По результатам зимней экзаменационной сессии одного курса студентов:

Определите:

  • а) средний балл оценки знаний студентов;
  • б) модальный балл успеваемости и медианное значение балла;
  • в) сделайте выводы о характере данногораспределении.

Средний балл найдем по формуле

ар= (2х6 + 3х75 + 4х120 + 5х99)/300 = 1212/300 = 4,04. Средний балл по итогам сессии достаточно высокий и равен 4.

Мода (Mo) - значение признака наиболее часто встречающееся в исследуемой совокупности, т.е., это один из вариантов признака, который в ряду распределения имеет наибольшую частоту (частость).

В дискретном ряду модальное значение определяется визуальнопо максимальной частоте. Соответственно, Mo= 4,т.к в данной совокупности именно эту оценку получило самое большое число студентов в группе.

Медиана (Ме) - значение признака (варианта), приходящееся на середину ранжированной (упорядоченной) совокупности, т.е. это вариант, который делит ряд распределения на две равные по объему части.

Медиана, как и мода, не зависит от крайних значений вариантов, поэтому применяется для характеристики центра в ряду распределения.

Для определения медианы в ранжированном ряду необходимо вначале найти номер медианы по формуле:

N = (300+1)/2 = 150,5

Затем используют кумулятивные частоты Sfили частость Sd.

Зная, чтоN = 150,5, накапливаем частоты до тех пор, пока кумулятивная частотаSfне будет равна этому номеру или превысит его. Следовательно, на 2 балла сдали 6 человек + 75 человек, сдавшие на 3 балла - это 81человек, + 120 человек, сдавшие на 4, равно 201 человек. Таким образом, медиана данного ряда распределения равна 4 баллам, т.е. половина студентов сдали на 2, 3 и 4,а половина на 4 и 5.

Вывод: средний балл,модальное значение и медиана совпадают и равняются 4 баллам. Это говорит о симметричном распределении частот множества.

Вариация определяет различия в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период (момент времени). Причиной вариации бывают разные условия существования разных единиц совокупности. Например, даже близнецы в процессе жизни приобретают различия в росте, весе, а также в таких признаках, как уровень образования, доход, количество детей и т.д.

Вариация возникает в результате того, что сами значения признака складываются под суммарным влиянием разнообразных условий, которые разным образом сочетаются в каждом отдельном случае. Таким образом, величина любого варианта объективна.

Вариация характерна всем без исключения явлениям природы и общества, кроме законодательно закрепленных нормативных значений отдельных социальных признаков. Исследования вариации в статистике имеют огромное значение, помогают познать сущность изучаемого явления. Нахождение вариации, выяснение ее причин, выявление влияния отдельных факторов дают важную информацию для внедрения научно обоснованных управленческих решений.

Средняя величина дает обобщенную характеристику признака совокупности, но она не раскрывает её строения. Среднее значение не показывает, как располагаются вокруг нее варианты осредненного признака, распределены ли они вблизи средней или отклоняются от нее. Средняя в двух совокупностях может быть одинаковой, но в одном варианте все индивидуальные значения отличаются от нее незначительно, а в другом - эти отличия велики, т.е. в первом случае вариация признака мала, а во втором - велика, это имеет очень важное значение для характеристики значимости средней величины.

Для того, чтобы руководитель организации, управляющий, научный работник могли изучать вариацию и управлять ей, статистикой разработаны специальные методы исследования вариации (система показателей). С их помощью вариация находится, характеризуются ее свойства. К показателям вариации относятся : размах вариации, среднее линейное отклонение, коэффициент вариации.

Вариационный ряд и его формы

Вариационный ряд - это упорядоченное распределение единиц совокупности чаще по возрастающим (реже убывающим) значениям признака и подсчет числа единиц с тем или иным значением признака. Когда численность единиц совокупности большая, ранжированный ряд становится громоздким, его построение занимает длительное время. В такой ситуации вариационный ряд строится с помощью группировки единиц совокупности по значениям изучаемого признака.

Существуют следующие формы вариационного ряда :

  1. Ранжированный ряд представляет собой, перечень отдельных единиц совокупности в порядке возрастания (убывания) изучаемого признака.
  2. Дискретный вариационный ряд - это таблица, состоящая из двух строк или граф: конкретных значений варьирующего признака х и числа единиц совокупности с данным значение f - признака частот. Он строится тогда, когда признак принимает наибольшее число значений.
  3. Интервальный ряд .

Размах вариации определяется как абсолютная величина разности между максимальными и минимальными значениями (вариантами) признака:

Размах вариации показывает только крайние отклонения признака и не отражает отдельных отклонений всех вариантов в ряду. Он характеризует пределы изменения варьирующего признака и зависим от колебаний двух крайних вариантов и абсолютно не связан с частотами в вариационном ряду, т. е. с характером распределения, что придает этой величине, случайный характер. Для анализа вариации нужен показатель, который отражает все колебания вариационного признака и даёт общую характеристику. Простейший показатель такого вида — среднее линейное отклонение.

Тема 5

Основные вопросы: 1. Понятие вариации.

2. Показатели вариации.

3. Относительные показатели вариации.

4. Виды дисперсии.

1. Понятие вариации. При изучении совокупности явления нельзя ограничиваться только нахождением средней величины. Средние величины дают обобщенную характеристику варьирующего признака, показывают типичные характеристики для изучаемой совокупности. Однако в средней величине не проявляется степень колеблемости отдельных значений признаков вокруг среднего уровня. В зависимости от однородности в совокупности колеблемость признаков может быть большой или малой. Поэтому возникает необходимость в измерении вариации отдельных вариантов по отношению к средней величине.

Определение : Вариация – это различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени.

Вариация в переводе с латинского означает «колеблемость», «изменчивость», «непостоянство». Предполагая, что большинство социально-экономических явлений и процессов варьируют в некотором масштабе, статистика разработала методологию расчета показателей вариации, которые, в свою очередь, могут быть абсолютными, относительными и средними.

Величины признаков колеблются, варьируют под действием различных причин и условий, которые в статистике называют факторами. Нередко эти факторы действуют в противоположных направлениях и сами, в свою очередь, варьируют. Среди них есть существенные факторы, определяющие величину вариантов данного признака у всех единиц совокупности. Но есть и несущественные, которые на одни единицы совокупности могут оказывать влияние, на другие нет.

Например, вариация оценок студентов на экзамене в вузе вызывается, в частности, различными способностями студентов; временем, затраченным ими на самостоятельную работу; посещаемостью занятий; различием социально-бытовых условий и т.д. Но на оценку могут влиять и какие-либо привходящие, чисто случайные причины, например, временное недомогание.

Вариация, порождаемая существенными факторами, носит систематический характер, то есть наблюдается последовательное изменение вариантов признака в определенном направлении. Такая вариация называется систематической. В систематической вариации проявляются взаимосвязи между явлениями, их признаками, в такой связи – один как причина, другой как следствие его действия.

Вариация, обусловленная случайными факторами, называется случайной вариацией. Здесь не наблюдается систематического изменения вариантов зависимого признака от случайных факторов; все изменения носят хаотический характер, поскольку нет устойчивой связи этих факторов с единицами изучаемой совокупности.


Вариация зависимого признака, образовавшаяся под действием всех без исключения влияющих на него факторов, называется общей вариацией. Следовательно, общая вариация слагается из систематической и случайной вариации.

2. Показатели вариации. К показателям вариации относятся: размах вариации, среднее линейное (абсолютное) отклонение (с.л.о.), дисперсия, среднее квадратическое отклонение (с.к.о.), коэффициент вариации.

1) Размах вариации – разность между максимальным и минимальным значением признака:

Он характеризует пределы изменения признака.

Средний размах: – это есть средняя арифметическая из ряда размахов, полученных из серии равных по объему наблюдений. Используется в контроле качества.

Однако размах вариации показывает лишь крайние отклонения признака и не отражает отклонений всех вариантов в ряду. При изучении вариации нельзя ограничиваться только определением размаха. Для анализа вариации необходим показатель, который отражает все колебания варьирующего признака и дает обобщенную характеристику.

Простейший показатель такого типа СЛО.

2). Среднее линейное отклонение (СЛО) – представляет собой среднюю арифметическую абсолютных значений отклонений отдельных вариантов от их средней арифметической (учитывает только крайние значения признака и не учитывает все промежуточные).

– СЛО для несгруппированных данных: ,

где – число членов ряда.

Т.е. – СЛО равно средней арифметической из абсолютных отклонений (модулей) признака всех единиц совокупности от средней арифметической.

– СЛО для сгруппированных данных: ,

где – сумма частот вариационного ряда.

В формулах разности в числителе взяты по модулю, иначе в числителе всегда будет ноль – алгебраическая сумма отклонений вариантов от их средней арифметической.

Поэтому СЛО применяют редко, только в случаях, когда суммирование показателей без учета знаков имеет экономический смысл. Например, анализ состава рабочих, ритмичность производства, оборот внешней торговли.

3) Дисперсия – это средний квадрат отклонений индивидуальных значений от средней арифметической (не имеет единиц измерения).

В общем виде взвешенная дисперсия исчисляется по формуле:

или простая дисперсия:

.

Дисперсия альтернативного признака:

4) Среднее квадратическое отклонение (СКО) ‑ это есть квадратный корень из среднего квадрата отклонений отдельных значений признака от средней арифметической:

– для несгруппированных данных;

– для сгруппированных данных (для вариационного ряда).

3. Относительные показатели вариации (коэффициент вариации). В статистической практике часто возникает необходимость сравнения вариаций различных признаков. Например, большой интерес представляет сравнение вариаций возраста рабочих и их квалификации, стажа работы и размера заработной платы, себестоимости и прибыли, стажа работы и производительности труда и т.д. для подобных сопоставлений показатели абсолютной колеблемости признаков непригодны: нельзя сравнивать колеблемость стажа работы, выраженного в годах, с вариацией зарплаты, выраженной в рублях.

Для осуществления такого сравнения, а также сравнения колеблемости одного и того же признака в нескольких совокупностях с различным средним арифметическим используют относительный показатель вариации – коэффициент вариации (КВ).

КВ – представляет собой выраженное в процентах отношение СКО к средней арифметической.

,

это и есть коэффициент вариации. Это относительная мера вариации и позволяет сравнивать степень варьирования в разных вариационных рядах.

4. Виды дисперсии.

Определение : Дисперсия – это средний квадрат отклонений всех значений признака ряда распределения от средней арифметической.

Свойства дисперсии:

1) Дисперсия постоянной величины равна нулю ();

2) Дисперсия не меняется, если все варианты увеличить или уменьшить на одно и то же число ();

3) Если все варианты умножить на число , дисперсия увеличится в раз ;

4) Дисперсия от средней меньше, чем средний квадрат отклонений от любого числа на – свойство минимальности дисперсии от средней ().

Использование свойств дисперсии позволяет упрощать ее расчеты, особенно в случаях, когда вариационный ряд составляет арифметическую прогрессию или имеет равные интервалы. В этих случаях сначала находят дисперсию от условного нуля, а затем используют 4-е свойство, переходят к дисперсии от средней.

Виды дисперсий для сгруппированных данных, условия их применения в статистических исследованиях.

Если совокупность данных сгруппирована на группы по какому-то признаку, то в этом случае выделяются 3 вида дисперсий:

Общая дисперсия

Показатели вариации

Средняя величина не позволяет судить о тех колебаниях (вариациях), которым подвергается изучаемый признак в данной совокупности. Одних средних величин для анализа недостаточно. Совершенно разные по своему разбросу вокруг среднего совокупности могут иметь одну и то же среднюю арифметическую. Для нахождения величин вариации в статистике применяют специальные показатели, которые называют показателями вариации. Исследование вариации в статистике имеет большое значение, так как помогает понять сущность изучаемого явления.

Перечислим основные показатели вариации и приведем формулы для их вычисления.

Для характеристики размера вариации в статистике применяют абсолютные показатели вариации: размах вариации, среднее линейное отклонение, средне квадратическое отклонение, дисперсию.

Размах вариации -- разность между максимальными и минимальными значениями признака в изучаемой совокупности, т. е.

Размах вариации легко находится по рангам ранжированного ряда распределения.

Более точно характеризует вариацию среднее линейное отклонение, которое находится как среднее арифметическое отклонений индивидуальных значений от средней без учета знака этих отклонений, т. е.

Если исходные данные сгруппированы, то мы можем находить взвешенное среднее линейное отклонение, причем в качестве веса можно применять и частоту (ц), и относительную частоту (/).

Более объективно на практике меру вариации отражает дисперсия (средний квадрат отклонений). О ней говорилось в главе 2. В данном случае речь идет об оценки дисперсии, так как значения вероятностей не известны.

Если мы имеем несгруппированный ряд распределения, то дисперсия определяется формулой

Заметим, что оценка дисперсии, получаемая по формуле (6.28) является смещенной. Пользуясь ей, мы будем совершать некоторую систематическую ошибку в меньшую сторону. Несмещенная оценка для дисперсии находится по формуле

Как правило, формула (6.30) применяется в тех случаях, когда изучаемая совокупность невелика, не более 40 единиц. В тех случаях, когда п > 40, используют формулу (6.29).

Когда исходные данные сгруппированы, вычисляют взвешенные оценки дисперсии

Извлекая из дисперсии арифметический квадратный корень, получаем еще одну характеристику (о ней тоже говорилось в главе 2) -- среднее квадратичное отклонение, или стандарт (точнее его оценку).

Если изучаемая совокупность достаточно велика, то ее, как правило, разбивают на группы по какому-либо признаку. Поэтому наряду с изучением вариации признака по всей совокупности в целом можно изучать вариации для каждой составляющей ее группы, а также между самими группами. Если совокупность расчленяется по какому-то одному фактору, то изучение вариации достигается путем нахождения и анализа трех видов дисперсий: общей, межгрупповой, внутригрупповой.

Общая дисперсия (D x) определяет вариацию по всей совокупности под влиянием всех факторов, которые обусловили эту вариацию. Она равна среднему квадрату отклонений отдельных значений признака х (х ар) и вычисляется по формулам (6.29), (6.31), (6.32).

Межгрупповая дисперсия Ф Хмг) характеризует систематическую вариацию результативного порядка, который обусловлен влиянием признака, положенного в основу группировки. Она равна среднему квадрату отклонений групповых средних х аргр от общей средней арифметической х ар, т. е.

где, к - количество групп;

ц. - частота (количество единиц) в группе г;

/. - относительная частота группы г.

Внутригрупповая дисперсия D Xez отражает случайную вариацию (часть вариации), обусловленную влиянием неучтенных факторов и не зависимую от признака, положенного в основание группировки. Она равна среднему квадрату отклонений отдельных значений признака внутри группы х. от средней арифметической этой группы х аргр и находится по формулам:

если группа содержит не более 40 наблюдений;

если группа содержит более 40 наблюдений - количество единиц в конкретной группе).

Применяются и формулы для взвешенной дисперсии:

Найдя внутригрупповые дисперсии по каждой группе можно вычислить среднюю из внутригрупповых дисперсий по формулам:

или используя соотношение (6.13).

По правилу сложения дисперсий общая дисперсия должна быть равна сумме межгрупповой и средней из внутригрупповых дисперсий, т. е.

Вариация качественного (альтернативного) признака (признак, которым каждая единица совокупности может обладать или не обладать) находится с помощью дисперсии:

где S - доля единиц совокупности, обладающая качественным признаком;

v - доля единиц совокупности, не обладающая качественным признаком.

Заметим, что S + v = 1.

Среднее квадратическое отклонение качественного признака находится по формуле

Например, если на 10000 населения районного центра 3500 имеют высшее образование, а 6500 не имеют, то

Дисперсия качественного признака равна

Максимальное значение дисперсии качественного признака получается в том случае, если S = v = 0,5. Оно будет равно 0,25.

Для характеристики меры разброса изучаемого признака находятся показатели вариации в относительных единицах. Некоторые из них мы приведем.

Коэффициент осцилляции отражает относительный разброс крайних значений вокруг средней арифметической

Относительное линейное отклонение характеризует долю усредненного значения абсолютных отклонений от средней арифметической, т. е.

Коэффициент вариации, представляющей собой относительное квадратическое отклонение, т. е.

По величине коэффициента вариации можно судить об интенсивности вариации признака, а поэтому и об однородности состава изучаемой совокупности. Чем больше величина коэффициента вариации, тем больше разброс значений признака вокруг средней арифметической, а соответственно, тем больше неоднородность совокупности. Имеется шкала определения степени однородности совокупности в зависимости от значения коэффициента вариации:

  • - если V x
  • - если 30%
  • - если V x > 60%, то совокупность считается неоднородной.

Заметим, что приведенная шкала достаточна условна.

Основными характеристиками формы распределения являются асимметрия и эксцесс. О них достаточно подробно говорилось в главе 2. Здесь речь пойдет об их оценках, так как количество измерений конечно и вероятности неизвестны. Обозначать асимметрию (скос) и эксцесс будем теми же буквами, что и в главе 2, но сверху будем добавлять тильду (~).

Для оценки степени асимметричности распределения обычно применяют моментный коэффициент асимметрии, который находится по формуле

где Дз - оценка третьего центрального момента, которую можно определить по формулам:

Степень существенности коэффициента асимметрии оценивается с помощью средней квадратической ошибки коэффициента асимметрии, который зависит от объема изучаемой совокупности (п) и находится по следующей формуле:

Если отношение , то асимметрия считается существенной, а если , то асимметрию можно признать несущественной, вызванной влиянием случайных причин.

Главный недостаток моментного коэффициента асимметрии А х состоит в том, что его величина зависит от нахождения в совокупности резко выделяющихся вариант. Для таких совокупностей этот коэффициент пригоден мало, так как его большая (абсолютная) величина объясняется преобладающим вкладом в величину оценки третьего центрального момента нетипичных значений, а не асимметричностью распределения основной части вариант.

Структурные коэффициенты асимметрии характеризуют асимметричность только в центральной части распределения, т. е. основной массы вариант и в отличие от моментного коэффициента асимметрии не зависят от крайних значений признака.

Как правило, применяют структурный коэффициент асимметрии, предложенный К. Пирсоном:

Другая характеристика формы распределения - это эксцесс. Его оценку в статистике можно получить по формуле

где Д 4 - оценка четвертого центрального момента, которую можно найти по формулам

Для оценки существенности эксцесса распределения находят среднюю квадратическую ошибку эксцесса:

Если отклонение то отклонение от нормального

распределения считается существенным, в противном случае оно признается незначительным и объясняется случайными причинами.

Теперь приведем конкретный расчетный пример, в котором определим ряд характеристик, приведенных выше, а также затронем вопросы, не разобранные в этой главе. В этом случае наряду с вычислениями рассмотрим кратко и некоторые необходимые теоретические вопросы.

Заметим, что приводимый пример является чисто учебным, данные для него взяты, как говорится, “с потолка”. Кроме того, рассматриваемый ряд наблюдений содержит всего 20 наблюдений для простоты счета, потому что у многих студентов появляются сложности даже при расчете средних величин. В настоящее время имеется большое количество пакетов программ для определения статистических характеристик, так что вручную уже никто не считает. Необходимо помнить, что большое значение имеет качество исходных данных: если они некачественные то и результат будет таким же, статистика и математика в этом случае не помогут.

Пример 6.2

Предположим, что в наше распоряжение поступил статистический материал о количестве зарегистрированных ДТП в районном центре N. Он оформлен в виде таблицы (табл. 6.3), данные в ней приводятся на числа текущего года.

Таблица 6.3

Количество ДТП (х,)

Количество ДТП (х.)

В данном случае количество ДТП - это случайная величина X, а результаты наблюдений, приведенные в табл. 6.3 - совокупность значений, принятых этой случайной величиной, т. е. X = {Xj, х 2 ..., х 20 }. Данные, приведенные в табл. 6.3, надо упорядочить, например расположить их по возрастанию значений изучаемого признака х. (г = 1,20). Если одно и то же значение повторяется несколько раз, то его повторим. В результате получаем статистический ряд распределения (см. табл. 6.4).

По ранжированному ряду (см. табл. 6.4) можно построить, например, статистическую функцию распределения F(x), рассмотренную нами в главе 2.

F(x) - разрывная ступенчатая функция, непрерывная слева и имеющая п скачков, (п - количество наблюдений), причем величина каждого скачка равна 1 /п. Так как некоторые наблюдения совпадают, то скачки сливаются и их число будет равно числу наблюдаемых значений случайной величины X. В нашем случае F(x) будет иметь 15 скачков, откуда следует, что строить ее по ранжированному ряду нерационально, а делать это надо по группированному ряду, что будет рассмотрено несколько позднее.

Таблица 6.4

По ранжированному ряду (табл. 6.4) можно определить оценки числовых характеристик наблюдаемой случайной величины X (количество ДТП), например среднюю арифметическую, дисперсию, среднее квадратическое отклонение, размах вариации и др.

Вычислим, например, размах вариации и среднее арифметическое:

Все числовые характеристики будем определять до целых, так как не бывает десятых и сотых долей ДТП. Можно вычислить и другие числовые характеристики по данным табл. 6.4, но мы это сделаем по группированному ряду.

По статистическому ряду распределения построим группированный ряд, о котором говорилось в главе 4. Заметим, что длины интервалов в нем необязательно должны быть одинаковы, но в каждом из них должны быть наблюдения, т. е. не должно быть пустых интервалов. В том случае если значение случайной величины X попадает ни границу между разрядами, мы будем делить его поровну между соседними разрядами, т. е. к значению каждого их них добавлять по 1/2.

Приближенно найти оптимальное количество групп (разрядов) с равными интервалами можно по формуле Стерджесса:

где к - количество разрядов;

п - количество наблюдений.

Но данная формула применима в том случае, если распределение изучаемой случайной величины X приближается к нормальному, а мы этого не знаем. Поэтому формулой Стерджесса пользоваться не будем (в нашем случае она дает следующий результат к « 5,3 « 5).

Полученный группированный ряд приведен в табл. 6.5. В ней кроме разрядов, частот, относительных частот, приведены плотности частоты и теоретические вероятности, которые понадобятся в дальнейшем.

Таблица 6.5

Заметим, что

где f* - плотность относительной частоты, т. е. отношение относительной частоты к длине интервала(в на

шем случае она для всех разрядов одинакова).

Имея группированный ряд (см. табл. 6.5), можно приближенно построить статистическую функцию распределения F(x) В качестве значений X, для которых определяется F(x), возьмем границы разрядов. Статистическая функция распределения для нашего примера приведена на рис. 6.1.


Теперь по группированному ряду (см. табл. 6.5) построим гистограмму, откладывая по оси абсцисс разряды, а по оси ординат соответствующие плотности относительных частот f v В результате получим совокупность прямоугольников, площадь каждого из которых равна соответствующей относительной частоте (рис. 6.2.).

Заметим, что гистограмму можно строить, используя и частоты ц..

Теперь используя группированный статистический ряд, получим искомые числовые характеристики изучаемой случайной величины X (количество ДТП), т. е. среднюю арифметическую и некоторые показатели вариации. В качестве веса будем использовать относительную частоту / (частость) (можно использовать, как мы уже говорили, в качестве веса относительную частоту (а.).

Вычислим среднеарифметическое весовое:

В качестве х. берем середину соответствующего интервала. Заметим, что х ар получилось таким же, что и по ранжированному ряду.

Находим дисперсию:

Определяем среднее квадратическое отклонение:

Среднее квадратическое отклонение округлим до десятых.

Находим среднее линейное отклонение:

Вычисляем коэффициент вариации: т. е. нашу совокупность можно считать однородной.

Определяем коэффициент осцилляции:

По формулам (6.21) и (6.23) вычисляем моду и медиану. При вычислении этих характеристик используем частоты ц..

Находим моментный коэффициент асимметрии:

Для этого сначала определяем оценку третьего центрального момента:

Поэтому, А х ~ -0,031, т. е. имеем очень небольшую отрицательную асимметрию.

Степень существенности асимметрии оценим с помощью средней квадратической ошибки коэффициента асимметрии по формуле

Так как , то асимметрия несущественна и вызвана влиянием случайных причин.

Теперь вычисляем эксцесс по формуле Для это

го сначала находим оценку четвертого центрального момента:

Поэтому эксцесс равент. е. наше распределение

немного прижато к оси абсцисс.

Для определения существенности эксцесса распределения вычислим его среднюю квадратическую ошибку, используя формулу (6.55). Получим

Так как отношение меньше 3, то отклонение от

Заметим, что среднее квадратическое отклонение по величине всегда больше среднего линейного отклонения. В нашем случае

Соотношение зависит от наличия в совокупности резких отклонений и может быть индикатором “засоренности” ее нетипичными, выделяющимися из основной массы единицами. Для нормального распределения отношение

Для нашего примера имеем

Заменяя числовые характеристики случайной величины их оценками, мы совершаем некоторую ошибку. Желательно оценить эту ошибку и найти вероятность (надежность) того, что она не превзойдет некоторого малого положительного s (точность).

В рассматриваемом нами примере заменили М[Х] на ос ар, а D[X] на D x . Оценим точность и надежность этих оценок по результатам нашего примера.

Чтобы оценить точность и надежность оценки, надо знать ее закон распределения. Во многих случаях этот закон оказывается близок к нормальному. Так как среднее статистическое значение случайной величины X - это сумма достаточно большого числа независимых случайных величин, то по центральной предельной теореме распределения близко к нормальному с математическим ожиданием

и дисперсией а значит со стандартом

Для того чтобы определить параметры нормального распределения по которому находится оценка х ар, заменяем в формулах (6.57)-(6.59) истинные параметры М[Х ], D и а(х) их оценками x ap , D x , д х и получаем

Допуская, что случайная величина х ар имеет нормальное распределение с параметрами М[х ар ] и D, находим приближенно вероятность того, что оценка х ар отклоняется от своего математического ожидания менее чем на s.

где Ф 0 (х) - нормированная функция Лапласа, о которой уже говорилось в главе 2. Для нее составлены таблицы (см. приложение 5).

Используем данные рассматриваемого нами примера и оценим точность и надежность х ар. Для нашего примера имеем: х ар = 90; D x = 57,5; д х = 7,6. Найдем вероятность того, что, полагая М[Х] * х ар, не совершим ошибки более чем е - 3.

По формулам (6.60)-(6.62) получили:

По таблице приложения 5 находим Ф о (1,765) = 0,46164, т. е. вероятность того, что ошибки от замены М[Х] на х ар не превысит 3 приближенно равна 0,92 (92%). Эту вероятность можно считать достаточной.

Доказывается, что при п > 20 оценка D x независимо от распределения случайной величины X приближенно распределена по нормальному закону с параметрами:

Заменяя в формулах (6.64)-(6.66) D[X] ее статистической оценкой D x получим:

Используя данные примера, по формулам (6.67)и (6.69) получим:

Теперь по формуле (6.63) находим вероятность того, что оценка D x отклонится от своего истинного значения D[X] меньше чем на е = 3.


По таблице приложения 5 находим ФД0Д6) = 0,06356, т. е. вероятность того что оценка от замены D[X] на D x будет менее 3 равна 0,13 (13%), что явно недостаточно. У нас всего 20 наблюдений, а формулы (6.64)-(6.66) работают при п > 20.

Мы уже говорили, что наш пример учебный. В реальных задачах данных значительно больше, поэтому и вероятность, полученная по формуле (6.63), будет значительно выше.

Полученная нами гистограмма (см. рис. 6.2.) - это графическое изображение нашего распределения. Но пользоваться гистограммой при дальнейших исследованиях неудобно. Поэтому ставиться вопрос о том, как подобрать для данного конкретного распределения аналитическую зависимость (формулу), которая выражала бы лишь существенные черты нашего распределения. Данную задачу называют, выравниваем статистических распределений. Обычно выравнивают гистограммы, т. е. заменяют ее некоторой теоретической кривой, имеющей определенное аналитическое выражение. А затем это выражение принимают за плотность распределения /(х).

В рассматриваемом примере мы выравниваем построенную нами гистограмму по нормальному закону с параметрами х ар = 90; а х = 7,6, т. е. в выражении для плотности нормального распределения

Заменяем М[Х] и а[Х] их оценками и получаем

В качестве значений х берем границы интервалов в нашем группированном ряду, подставляем их в формулу (6.70) и получаем:

Полученные данные наносим на рис 6.2 и получаем плавную кривую.

Теперь проверим гипотезу Н о о нормальном законе распределения с плотностью f(x). Гипотезе Н о противопоставляется альтернативная гипотеза Н 1 которая говорит о том, что случайная величина X не подчиняется нормальному закону с параметрами х ар = 90; а х = 7,6.

Для того чтобы сделать вывод о том, согласуются ли данные наблюдений с выдвинутой нами гипотезой, применяют критерий согласия. Критерием согласия называется критерий проверки гипотезы о законе распределения. Он применяется для проверки согласия предполагаемого вида закона распределения с опытными данными.

Существуют различные критерии согласия: Пирсона, Фишера, Колмогорова и др.

При проверке гипотез могут допускаться ошибки двух видов. Ошибка первого рода состоит в том, что отвергается верная нулевая гипотеза Н о; ошибка второго рода - в том, что отвергается верная альтернативная гипотеза Н г

Вероятность ошибки первого рода (а) называется уровнем значимости критерия. Чем меньше а, тем меньше вероятность отклонить верную гипотезу Н о Допустимую а обычно задают заранее. Как правило, применяют стандартные значения а = 0,01; 0,05; 0,1.

Вероятность ошибки второго рода обозначают через р. Величину (1 - р) - вероятность недопущения ошибки второго рода (принять верную гипотезу и отвергнуть неверную гипотезу Н 0) - называют мощностью критерия.

Сначала используем для проверки гипотезы о нормальном распределении критерий Пирсона (х 2)- Приведем краткие теоретические сведения. Предположим, что проведено п опытов в каждом из которых случайная величина X приняла определенное значение, т. е. х 1 х 2 ....., х к - число возможных значений

случайной величины X). В результате получаем статистический ряд распределения (табл. 6.6).

Таблица 6.6

где - соответствующие вероятности.

Считаем, что отклонения / от Р имеют случайные причины. Для проверки правдоподобия выдвинутой гипотезы надо выбрать какую-то меру расхождения между статистическими и теоретическими распределениями.

В качестве такой меры расхождения при использовании критерия Пирсона берется сумма квадратов отклонений (/. - Р.), взятых с некоторыми весами С { , т. е.

Веса С. вводят, так как отклонения, относящиеся к разным значениям Р., нельзя считать равноправными по значимости.

Пирсон доказал, что если взять

то при большом числе опытов п закон распределения величины R a обладает следующими свойствами: он практически не зависит от закона распределения случайной величины X, мало зависит от числа опытов п, зависит только от количества значений случайной величины Х(к) и при п -> оо приближается к распределению х 2 Поэтому меру расхождения в данном случае обозначают % 2 , т. е.

Вводим п под знак суммы, учитывая, что, и после

преобразований получаем

Распределение х 2 зависит от параметра называемого числом степеней свободы (г с), который определяется следующим образом:

где S e -- количество независимых условий, которые наложены на относительные частоты. Для нашего примера S e = 3. Мы потребовали, чтобы выполнялись условия:

Для распределения % 2 составлены таблицы (см. приложение 6). Для нашего примера проверим гипотезу о нормальном распределении с помощью критерия Пирсона.

Вернемся к табл. 6.5, где осталась одна незаполненная графа (Р.) - это теоретические вероятности попадания в интервал случайной величины X, имеющей нормальное распределение с параметрами х ар = 90; а х = 7,6.

Для их нахождения используем формулу (2.44). Получаем:

где Ф о (х) - нормированная функция Лапласа, для которой, как мы уже говорили, составлены таблицы (см. приложение 5).

Полученные значения вероятностей занесем в табл. 6.5. Далее по формуле (6.74) получим:

Число степеней свободы в нашем случае равно г, = 6 - 3 = 3. Уровень значимости принимаем равным 0,1, т. е. а = 0,1. По таблице распределения х 2 (см. приложение 6) по уровню значимости а = 0,1 и по числу степеней свободы г = 3 находим %т = 6,25.

Так как Хт > Х Р, то гипотеза о нормальном распределении не противоречит данным наблюдений и ее можно принять с уровнем значимости 0,1. Если под рукой нет таблицы распределения х 2 , для оценки случайности расхождения /. от Р. можно использовать критерий Романовского

Если соотношение (6.76) меньше трех, то расхождение между фактическим и теоретическим распределениями носит случайный характер, а в противном случае они существенны.

Для данных примера имеем , поэтому гипотезу о нормальном распределении тоже можно принять.

Теперь применим для проверки гипотезы о нормальном распределении критерий согласия Колмогорова.

Критерий Колмогорова основан на нахождении максимального расхождения между накопленными частотами или относительными частотами экспериментального распределения и вероятностями теоретического распределения. Он определяется по формулам:

если пользоваться накопленными относительными частотами;

если пользоваться накопленными частотами, где d M - максимальная величина расхождений между накопленными относительными частотами и вероятностями;

D M - максимальная разность между реальными и теоретическими частотами.

Будем использовать формулу (6.77), и необходимые данные разместим в табл. 6.8.

Из табл. 6.8 следует, что, поэтому по формуле

(6.75) получаем

Таблица 6.8

Накопленные f и Р

Затем по таблицам Р() (см. приложение 8) находим Р(Х к) = 1. Поэтому можно полагать, что расхождения между относительными частотами и теоретическими вероятностями носят случайный характер, а, следовательно, гипотеза о нормальном распределении не противоречит данным наблюдений.

В заключение еще раз повторим, что наш пример носит учебный характер. Надо иметь в виду, что при использовании критерия Пирсона количество наблюдений должно быть не менее нескольких десятков, в каждом разряде должно быть не менее пяти наблюдений, а количество разрядов должно быть примерно 10-15.

Вопросы для самопроверки

  • 1. Какие виды средних величин применяют в статистике?
  • 2. Как определяются средняя гармоническая простая и взвешенная?
  • 3. Как определяются средняя геометрическая простая и взвешенная?
  • 4. Как определяется средняя арифметическая простая и взвешенная?
  • 5. Как вычисляются средняя квадратическая и средняя кубическая?
  • 6. Какие показатели вариации вы знаете?
  • 7. Что представляют собой размах вариации и среднее линейное отклонение? По каким формулам они вычисляются?
  • 8. Что такое дисперсия и среднее квадратическое отклонение? По каким формулам они вычисляются?
  • 9. По какой формуле находится дисперсия качественного признака?
  • 10. Что представляет собой коэффициент вариации? Каково его значение для экономического анализа?
  • 11. Что представляет собой правило сложения дисперсии?
  • 12. Что представляют собой асимметрия и эксцесс, и по каким формулам они находятся?

2. Вариация альтернативного признака

3. Виды дисперсий. Правило сложения дисперсий

4. Правило сложения дисперсий для альтернативного признака

Зарегистрированные в процессе статистического наблюдения различия величины признака уотдельных единиц совокупности называются вариацией признака. По степенивариации признака можно судить о процессах развития изучаемых явлений, о типичности средних величин. Дело в том, что средняя величина дает обобщающую характеристику признака изучаемой совокупности, но она не раскрывая строения совокупности.

Она не показывает, как относительно нее располагаются варианты осредняемого признака — сосредоточены ли они вблизи средней или значительно отклоняются от нее. Средняя величина признака в двух совокупностях может быть одинаковой, но водном случае все индивидуальные значения могут мало отличаться от нее, а в другом - эти отличия могут быть велики, т. е. в одном случае вариация признака мала, а в другом - велика, что имеет большое значение для характеристики надежности средней величины.

Для определения меры вариации признака в статистике исполь-зуются абсолютные и относительные показатели вариации .

К абсолютным показателям вариации относятся: размах вариации, среднее линейное отклонение, дисперсия, среднее квадрата чес кое отклонение.

Размах вариации (R) является самым простым из абсолютных показателей вариации и представляет собой разность между максимальным и минимальным значениями признака:

где X max - максимальное значение признака в совокупности;

X min - минимальное значение признака в совокупности.

Величина размаха вариации зависит только от крайних значений учитывает всех изменений варьирующего признака в пределах изучаемой совокупности. Поэтому при изучении вариации нельзя ограничиваться расчетом только этого показателя. Для анализа вариации необходимы показатели, дающие обобщенную характер всех колебаний варьирующего признака.

Среднее линейное отклонение является простейшим показате-лем такого типа и представляет собой среднюю величину абсолютных отклонений индивидуальных значений признака от их средней ариф-метической величины.

Среднее линейное отклонение для несгруппированных дан-ных определяется по формуле (5.2):

Среднее линейное отклонение для сгруппированных данных рассчитывается так (5.3):

Следует отметить, что среднее линейное отклонение не всегда улавливает степень вариации значений признака. Поэтому в статисти-ке применяется более чувствительный обобщающий показатель - дисперсия . Дисперсия представляет собой средний квадрат отклоне-ний индивидуальных значений признака от их средней величины. Возведение в квадрат позволяет резко усилить различия в величинах отклонений.


Дисперсия для несгруппированных данных вычисляется по формуле (5.4):

Дисперсия для сгруппированных данных рассчитывается так (5.5):

Для расчета дисперсии применяется также следующая формула (5.6):

Среднее квадратическое отклонение представляет собой ко-рень квадратный из дисперсии (5.7) или (5.8):

Среднее квадратическое отклонение также как и среднее линейное отклонение показывает, на сколько в среднем отличаются индивидуальные значения признака от их среднего значения. Однако величине среднеквадратическое отклонение во всех случаях превыша-ет среднее линейное, так как более чутко реагирует на вариацию. Для симметричных и умеренно асимметричных распределений имеет ме-сто следующее соотношение (5.9):

Размах вариации, среднее линейное отклонение и среднееквад-ратическое отклонение выражаются в именованных числах, т. е. име-ют единицу измерения (такую же, как и значения признака). Поэтому их нельзя непосредственно использовать для сравнения степени ва-риации по одному и тому же признаку в двух группах с разным уров-нем средних, а также для сравнения вариации двух различных призна-ков в одной группе. В этих случаях применяются следующие относи-тельные показатели вариации.

Коэффициент осцилляции (5.10)

Относительное линейное отклонение (линейный коэффициент вариации) (5.11):

Коэффициент вариация (5.12):

Коэффициент вариации позволяет не только получить обоб-щающую характеристику вариации признака в совокупности, но и дает возможность сделать выводы об однородности совокупности.Со-вокупность считается однородной, если коэффициент вариации не превышает 33%.Средние величины, рассчитанные по однородной совокупности, являются ее достаточно надежными характеристиками.

Вариация альтернативного признака

В статистике помимо показателей вариации количественных признаков широко используются показатели вариации качественных признаков (в частности, при проектировании выборочного наблюдения). Вариация альтернативного признака количественно проявляется в значении 0 (нуля) у единиц, которые этим признаком не обладают, или 1 (единицы) у тех, которые данный признак имеют. Пусть р — до-ля единиц в совокупности, обладающих данным признаком, q — доля единиц, не обладающих данным признаком, причем p + q = 1.

Среднее значение альтернативного признака определим по формуле средней арифметической (5.13):

Дисперсия альтернативного признака определяется по формуле (5.14):

Таким образом, средняя величина альтернативного признака равна его доле в данной совокупности, а дисперсия — произведению доли его наличия и доли его отсутствия. Максимальное значение дис-персии альтернативного признака, означающее максимальную неод-нородность совокупности, равно 0,25 при p = q = 0,5.



Понравилась статья? Поделиться с друзьями: