Cредние величины в статистике.

В процессе вычисления средней арифметической и использования ее в анализе социально-экономических процессов может оказаться полезным знание ряда ее математических свойств, которые мы приведем без развернутых доказательств.

Свойство 1. Средняя арифметическая постоянной величины равна этой постоянной: при

Свойство 2. Алгебраическая сумма отклонений индивидуальных значений признака от средней арифметической равна нулю: для несгруппированных данных и для рядов распределения.

Это свойство означает, что сумма положительных отклонений равна сумме отрицательных отклонений, т.е. все отклонения, обусловленные случайными причинами взаимно погашаются.

Свойство 3. Сумма квадратов отклонений индивидуальных значений признака от средней арифметической есть число минимальное: для несгруппировочных данных и для рядов распределения. Это свойство означает, что сумма квадратов отклонений индивидуальных значений признака от средней арифметической всегда меньше суммы отклонений вариантов признака от любого другого значения, даже мало отличающегося от средней.

Второе и третье свойство средней арифметической применяются для проверки правильности расчета средней величины; при изучении закономерностей изменения уровней ряда динамики; для нахождения параметров уравнения регрессии при изучении корреляционной связи между признаками.

Все три первых свойства выражают сущностные черты средней как статистической категории.

Следующие свойства средней рассматриваются как вычислительные, поскольку они имеют некоторое прикладное значение.

Свойство 4. Если все веса (частоты) разделить на какое-либо постоянное число d, то средняя арифметическая не изменится, поскольку это сокращение в равной степени коснется и числителя и знаменателя формулы расчета средней.

Из этого свойства вытекают два важных следствия.

Следствие 1. Если все веса равны между собой, то вычисление средней арифметической взвешенной можно заменить вычислением средней арифметической простой.

Следствие 2. Абсолютные значения частот (весов) можно заменять их удельными весами.

Свойство 5. Если все варианты разделить или умножить на какое-либо постоянное число d, то средняя арифметическая уменьшиться или увеличиться в d раз.

Свойство 6. Если все варианты уменьшить или увеличить на постоянной число A, то и со средней произойдут аналогичные изменения.

Прикладные свойства средней арифметической можно проиллюстрировать, применив способ расчета средней от условного начала (способ моментов).

Средняя арифметическая способом моментов вычисляется по формуле:

где А – середина какого-либо интервала (предпочтение отдается центральному);



d – величина равновеликого интервала, или наибольший кратный делитель интервалов;

m 1 – момент первого порядка.

Момент первого порядка определяется следующим образом:

.

Технику применения этого способа расчета проиллюстрируем по данным предшествующего примера.

Таблица 5.6

Стаж работы, лет Число рабочих Середина интервала x
до 5 2,5 -10 -2 -28
5-10 7,5 -5 -1 -22
10-15 12,5
15-20 17,5 +5 +1 +25
20 и выше 22,5 +10 +2 +22
Итого Х Х Х -3

Как видно из расчетов, приведенных в табл. 5.6 из всех вариантов вычитается одно из их значений 12,5, которое приравнивается нулю и служит условным началом отсчета. В результате деления разностей на величину интервала – 5 получают новые варианты.

Согласно итогу табл. 5.6 имеем: .

Результат вычислений по способу моментов аналогичен результату, который был получен применением основного способа расчета по средней арифметической взвешенной.

С какой оценки начинать? Одним из наиболее известных и простых в употреблении методов является метод моментов. Название связано с тем, что этот метод опирается на использование выборочных моментов

где x1, x2,…, xn - выборка, т.е. набор независимых одинаково распределенных случайных величин с числовыми значениями.

В прикладной статистике метод анализа данных называется методом моментов , если он использует статистику

где g : R q > R k - некоторая функция (здесь k - число неизвестных числовых параметров). Чаще всего термин «метод моментов» используют, когда речь идет об оценивании параметров. В этом случае обычно предполагают, что плотность вероятности распределения элементов выборки f (x ) входит в заранее известное статистику параметрическое семейство {f (x ;и), иєИ}, т.е. f (x ) = f (x ;и 0) при некотором и 0 . Здесь И - заранее заданное k -мерное пространство параметров, являющееся подмножеством евклидова пространства R k , а конкретное значение параметра и 0 статистику неизвестно, его и следует оценить. Известно также, что неизвестный параметр определяется с помощью известной статистику функции через начальные моменты элементов выборки:

В методе моментов в качестве оценки и 0 используют статистику Y n вида (1), которая отличается от формулы (1) тем, что теоретические моменты заменены выборочными.

Статистики Y n вида (1) применяются не только для оценивания параметров, но и для непараметрического оценивания характеристик случайной величины, таких, как коэффициент вариации, и для проверки гипотез. Во всех случаях применения статистики Y n вида (1) говорят о методе моментов.

Распределение вектора Y n во всех практически важных случаях является асимптотически нормальным. Это утверждение опирается на следующий общий факт.

Пусть случайный вектор Z n є R q асимптотически нормален с математическим ожиданием z ? и ковариационной матрицей ||c ij ||/n , а функция h : R q > R 1 достаточно гладкая. Тогда случайная величина h (Z n ) асимптотически нормальна с математическим ожиданием h (z ?) и дисперсией

Для получения асимптотического распределения статистики Y n вида (1) можно применить метод линеаризации к асимптотически нормальному вектору выборочных моментов (M n 1 , M n 2 , …, M n q) и функции g из формулы (1).

Для применения формулы (3) необходимо использовать асимптотические дисперсии и ковариации выборочных моментов, т.е. величины, обозначенные в формуле (3) как c rs . Эти величины имеют вид:

Здесь м r - теоретический центральный момент порядка r , т.е.

Таким образом, для получения асимптотического распределения случайной величины Y n вида (1) достаточно знать теоретические центральные моменты результатов наблюдений и вид функции g .

Однако моменты неизвестны. Их приходится оценивать. В соответствии с теоремами о наследовании сходимости для нахождения асимптотического распределения функции от выборочных моментов можно воспользоваться не теоретическими моментами, а их состоятельными оценками. Эти оценки можно получить разными способами. Можно непосредственно применить формулы (4), заменив теоретические моменты выборочными. Можно выразить моменты через параметры рассматриваемого распределения.

Для оценивания параметров гамма-распределения воспользуемся известной формулой, согласно которой для случайной величины Х , имеющей гамма-распределение с параметрами формы а , масштаба b =1 и сдвига c=0,

Следовательно, M (X ) = a , M (X 2) = a (a +1), D (X ) = M (X 2) - (M (X )) 2 = a (a +1) - a 2 = a . Найдем третий центральный момент M (X - M (X )) 3 . Справедливо равенство

M (X - M (X )) 3 = M (X 3) - 3 M (X 2) M (X ) + 3 M (X) (M (X )) 2 - (M (X )) 3

Из равенства (6) вытекает, что

M (X - M (X )) 3 = a (a +1)(a +2) - 3 a (a +1) a + 3 a a 2 - a 3 = 2a .

Если Y - случайная величина, имеющая гамма-распределение с произвольными параметрами формы a , масштаба b и сдвига c , то Y = bX + c . Следовательно, M (Y ) = ab +c , D (Y ) = ab 2 , M (Y - M (Y )) 3 = 2 a b 3 .

Метод моментов является универсальным. Однако получаемые с его помощью оценки лишь в редких случаях обладают оптимальными свойствами. Поэтому в прикладной статистике применяют и другие виды оценок.


Вариационные ряды распределения состоят их двух элементов вариантов и частот.

Вариантами называются числовые значения колличественного признака в ряду распределения, они могут быть положительными и отрицательными, абсолютными и относительными. Частоты – это численности отдельных вариантов или каждой группы вариационного ряда. Сумма всех частот называется объемом совокупности и определяет число элементов всей совокупности.

Ряды распр-я могут быть образованы по качественному(атрибутивному) и колич-му пр-ку. В первом случае они наз. атрибутивными,а во втором- вариационными.

Вариационные ряды распр-ия по сп-бу постр-ия бывают дискретные и интервальные:

Дискр. вариац. ряд распр-я - группы сост-ны по признаку, изменяющемуся дискретно и приним-му только целые значения. Интервальный вариац. ряд распр-ия - группировачный признак, сост-ий групп-ки, может принимать в опред-ом интервале любые знач-ия. Число ед-ц частоты, приходящиеся на ед-цу инт-ла наз. плотностью распред-я . Ряд накопл-ых частот (кумулятивный)-показ-т число случаев ниже или выше опред-го уровня. Графич изображения ряда распред.: линейные, плоскостные диаграммы, гистограммы, куммулятивная кривая (изображ-ет ряд накопл-х частот)

9. Средняя арифметическая взвешенная.

При расчете средних величин отдельные значения признака, который осредняется, могут повторяться, поэтому расчет средней величины производится по сгруппированным данным. В этом случае речь идет об использовании средней арифметической взвешенной, которая имеет вид: X средн = (EXi*fi)/ Efi

При расчете средней по интервальному вариационному ряду для выполнения необходимых вычислений от интервалов переходят к их серединам.

Расчет средней по способу моментов. Основан на свойствах средней арифметической. В качестве условного ноля – X0 выбирают середину одного из центральных интервалов, обладающего наибольшей частотой.Этот способ используется только в рядах с равными интервалами.

10. Средняя гармоническая простая и взвеш.

Средняя гармоническая. Эту среднюю называют обратной средней арифметической, поскольку эта величина используется при k = -1. Простая средняя гармоническая используется тогда, когда веса значений признака одинаковы. Ее формулу можно вывести из базовой формулы, подставив k = -1:

К примеру, нам нужно вычислить среднюю скорость двух автомашин, прошедших один и тот же путь, но с разной скоростью: первая - со скоростью 100 км/ч, вторая - 90 км/ч. Применяя метод средней гармонической, мы вычисляем среднюю скорость:

В статист практике чаще исп гармонич взвеш , формула кот имеет вид:

Данная формула используется в тех случаях, когда веса (или объемы явлений) по каждому признаку не равны. В исходном соотношении для расчета средней известен числитель, но неизвестен знаменатель.

Например, при расчете средней цены мы должны пользоваться отношением суммы реализации к количеству реализованных единиц. Нам не известно количество реализованных единиц (речь идет о разных товарах), но известны суммы реализаций этих различных товаров. Допустим, необходимо узнать среднюю цену реализованных товаров: Вид товара Цена за единицу, руб.Сумма реализаций, руб.

Получаем

Если здесь использовать формулу средней арифметической, то можно получить среднюю цену, которая будет нереальна:

11. Упрощенный расчет средней арифм. (ср. ар.) (способ моментов).

Пользуясь св-ми ср. ар., ее можно рассчитать след. образом: 1) вычесть из всех вариант постоянное число (лучше значение серединной варианты); 2) разделить варианты на постоянное число – на величину интервала; 3) частоты выразить в %. Вычисление ср. ар. первыми двумя способами называется способом отсчета от условного начала (способом моментов). Этот способ применяется в рядах с разными интервалами. Ср. ар. в этом случае опред. по ф-ле:

Где m – момент первого порядка; х 0 – начало отсчета; К – величина интервала.

12. Мода и медиана.

Для определения структуры совокупности используют особые средние показатели, к которым относятся медиана и мода, или так называемые структурные средние. Медиана (Ме) - это величина, которая соответствует варианту, находящемуся в середине ранжированного ряда. Для ранжированного ряда с нечетным числом индивидуальных величин (например, 1, 2, 3, 3, 6, 7, 9, 9, 10) медианой будет величина, которая расположена в центре ряда, т.е. пятая величина. Для ранжированного ряда с четным числом индивидуальных величин (например, 1, 5, 7, 10, 11, 14) медианой будет средняя арифметическая величина, которая рассчитывается из двух смежных величин. Для нашего случая медиана равна (7+10) : 2= 8,5. То есть для нахождения медианы сначала необходимо определить ее порядковый номер (ее положение в ранжированном ряду) по формуле Nme=(n+1)/2, где n - число единиц в совокупности. Численное значение медианы определяют по накопленным частотам в дискретном вариационном ряду. Для этого сначала следует указать интервал нахождения медианы в интервальном ряду распределения. Медианным называют первый интервал, где сумма накопленных частот превышает половину наблюдений от общего числа всех наблюдений. Численное значение медианы обычно определяют по формуле----- где xМе - нижняя граница медианного интервала; i - величина интервала; S-1 - накопленная частота интервала, которая предшествует медианному; f - частота медианного интервала.

Модой (Мо) называют значение признака, которое встречается наиболее часто у единиц совокупности. Для дискретного ряда модой будет являться вариант с наибольшей частотой. Для определения моды интервального ряда сначала определяют модальный интервал (интервал, имеющий наибольшую частоту). Затем в пределах этого интервала находят то значение признака, которое может являться модой. Чтобы найти конкретное значение моды, необходимо использовать формулу

где xМо - нижняя граница модального интервала; iМо - величина модального интервала; fМо - частота модального интервала; fМо-1 - частота интервала, предшествующего модальному; fМо+1 - частота интервала, следующего за модальным.

Мода имеет широкое распространение в маркетинговой деятельности при изучении покупательского спроса, особенно при определении пользующихся наибольшим спросом размеров одежды и обуви, при регулировании ценовой политики.

13. Свойства средней ариф. (ср. ар.)

1.Если из всех вариантов ряда (-) или ко всем вариантам (+) постоянное число, то ср. ар. соответственно уменьшится или увеличится на это число.
.2.Если все варианты ряда умножить или разделить на постоянное число, то ср. ар. соответственно увеличится или уменьшится в это число раз.
3.Если все частоты увеличить или уменьшить в постоянное число раз, то средняя от этого не изменится.
.

4.Сумма отклонений всех вариантов ряда от ср. ар. = 0. (Нулевое свойство средней). . 5.Σf i =Σfix i . Произведение средней на сумму частот всегда равно сумме произведений вариант на частоты.

6
.Сумма квадратов отклонений всех вариантов ряда от ср. ар.

Данное св-во положено в основу метода наименьших квадратов, кот. широко применяется в исследовании стат. взаимосвязей.

14. Виды дисперсий. Правило их сложения .

Различают три вида дисперсий: общая; средняя внутригрупповая; межгрупповая. Общая дисперсия ( 2 о ) характеризует вариацию признака всей совокупности под влиянием всех тех факторов, которые обусловили данную вариацию. Эта величина определяется по формуле  2 о =  (X – Xо средн) 2 *f / f, где Xо средн - общая средняя арифметическая всей исследуемой совокупности. Средняя внутригрупп дисперс ( 2 средн ) свидетельствует о случайной вариации, которая может возникнуть под влиянием каких-либо неучтенных факторов и которая не зависит от признака-фактора, положенного в основу группировки. Данная дисперсия рассчитывается следующим образом: сначала рассчитываются дисперсии по отдельным группам ( 2 i ), затем рассчитывается средняя внутригрупповая дисперсия ( 2 i cредн): где ni - число единиц в группе. Межгрупповая дисперсия характеризует систематическую вариацию, т.е. различия в величине исследуемого признака, возникающие под влиянием признака-фактора, который положен в основу группировки. Эта дисперсия рассчитывается по формуле

где - средняя величина по отдельной группе. Все три вида дисперсии связаны между собой: общая дисперсия равна сумме средней внутригрупповой дисперсии и межгрупповой дисперсии:

Данное соотношение отражает закон, который называют правилом сложения дисперсий. Согласно этому закону (правилу), общая дисперсия, которая возникает под влиянием всех факторов, равна сумме дисперсий, которые появляются как под влиянием признака-фактора, положенного в основу группировки, так и под влиянием других факторов. Благодаря правилу сложения дисперсий можно определить, какая часть общей дисперсии находится под влиянием признака-фактора, положенного в основу группировки.

15 . Виды средних. Их исчисление .

16. Показатели вариации, применяемые в статистике.

Вариация, т.е. несовпадение уровней одного и того же показателя у разных объектов, имеет объективный характер и помогает познать сущность изучаемого явления. Для измерения вариации в статистике применяют несколько способов. Наиболее простым явл расчет показателя размаха вариации Н как разницы между Xmax и Xmin: H=Xmax - Xmin. Но размах вариации показывает лишь крайние значения признака. Повторяемость промежуточных значений здесь не учитывается. Среднее линейное отклонение d - среднее арифметическое значение абсолютных отклонений признака от его среднего уровня: d =  (Xi – X средн) / n. При повторяемости отдельных значений Х используют формулу средней арифметической взвешенной. В статистических научных исследованиях для измерения вариации чаще всего применяют показатель дисперсии: δ =  (Xi – X средн) 2 / n. Показатель s, равный √δ 2 , называется средним квадратическим отклонением. Величина Mx = √(δ 2 /n)-средняя ошибка выборки и явля хар-кой отклонения выборочного среднего значения призн от его истинной средней величины. Показатель средней ошибки использ при оценке достоверности результатов выборочн наблюд. Коэфф осцилляции отражает относит колеблемость крайних значений признака вокруг средней: Ko = (R/X средн)*100%. Относительное линейное отключение характеризует долю усредненного значения признака абсолютных отклонений от средней величины Kd = (d средн/ X средн)*100%. Коэффициент вариации: V = (δ/X средн)*100%

17. Простейшие приёмы обработки рядов динамики.

Простейшими видами обработки рядов динамики являются: укрупнение интервалов, метод скользящей средней, аналитическое выравнивание, экстраполяция и интерполяция.

Укрупнение интервалов. Ряд динамики разделяют на достаточно большое число равных интервалов. Если средн уровни по интервалам не позволяют увидеть тенденцию разв, переходят к расчету уровней за большие промежутки времени, увеличивая длину каждого интервала (уменьшая количество интервалов). Скользящая средняя. В этом методе исходные уровни ряда заменяются средними величинами, которые получают из данного уровня и нескольких симметрично его окружающих. Целое число уровней, по которым рассчитывается среднее значение, называют интервалом сглаживания. Для того чтобы создать модель, выражающую основную тенденцию изменения уровней динамического ряда во вре­мени, используется аналитическое выравнивание ряда динамики. Простейшими моделями, выражаю­щими тенденцию развития, являются: линейная функция прямой, показательная функция, парабола, парабола n-порядка, гипербола, экспонента. Иногда возникает необходимость предвидеть будущий уровень ряда динамики. В таких случаях прибегают к приему обработки рядов динамики, называемому экстраполяцией : y n +1 = y n + ∆y n +∆∆y n , где y n +1 - неизвестный уровень ряда, y n - последний известный уровень ряда, ∆y n - цепной абсолютный прирост последнего уровня ряда (∆y n = y n - y n -1), ∆∆y n - изменение прироста последнего уровня ряда. Наряду с экстраполяцией иногда применяется такой прием обработки рядов динамики, как интерполяция - искусственное нахождение отсутствующих членов внутри динамического ряда. Неизвестный уровень ряда находится по формуле: y i = (y i +1 + y i -1) / 2. Где: y i - неизвестный уровень ряда, y i +1 - последующий за неизвестным уровень ряда, y i -1 - предыдущий уровень ряда.

Ключевые вопросы: определение, предпосылки модели, понятие и формулы моментов, алгоритм расчёта оценок, применение в нормальном распределении, дискуссия о типе и количестве моментов, достоинства и недостатки подхода .

Метод моментов – один из наиболее известных и популярных методов статистического оценивания параметров вероятностных распределений.

Основные предпосылки модели метода моментов следующие:

Суть метода моментов заключается в вычислении того количества теоретических и выборочных моментов случайной величины, которое равно числу исследуемых нами параметров. После вычисления соответствующие друг другу теоретические и выборочные моменты приравниваются, и исходя из получившегося уравнения осуществляется вычисление оценки параметра.

Формула теоретических моментов выглядит так: где μ’ k – есть k-й теоретический момент величины Y.

Формула выборочных моментов выглядит так: где m’ k – есть k-й выборочный момент величины Y.

После этого приравниванием μ’ k = m’ k добиваемся вычисления значений параметров.

Рассмотрим в качестве примера нормальное распределение. Нахождение оценок параметров по методу моментов выглядит следующим образом.

Следует заметить, что в уравнения также допустимо включать и такие экзотические виды моментов, как асимметрию и эксцесс, но это необходимо только в специализированных исследованиях. Статистическая практика чаще всего не выходит за рамки обозначенного выше алгоритма, поскольку число подлежащих исследованию параметров обыкновенно не превышает 4.

В качестве достоинств метода моментов следует обозначить, во-первых, то, что его вычислительная реализация сравнительно проста, а, во-вторых, то, что оценки, полученные в качестве решений системы, являются функциями от выборочных моментов, что упрощает исследование статистических свойств оценок данного метода. При больших n распределение оценки такого рода асимптотически нормально, среднее значение отличается от истинного на величину, приблизительно равную n -1 , а стандартное отклонение асимптотически равно cn (-1/2) , где c – определённая числовая константа. Фишер в своё время доказал, однако, что асимптотическая эффективность оценок по методу моментов всегда оказывается меньше 1, и поэтому данный метод уступает, например, методу максимального правдоподобия. Впрочем, иногда в статистических исследованиях оценки, полученные по методу моментов, принимаются в качестве первого приближения, по которым можно определять другими методами оценки более высокой эффективности.

В другом изложении:

Введём сначала следующие определения:

Определение 9 . Начальный момент порядка k случайной величины x определяется равенством: m k = M(x k).

В частности, m 1 = M(x) – обычное мат. ожидание, m 2 = M(x 2).

Определение 10 . Центральный момент порядка k случайной величины x определяется равенством: a k = M((x–Mx) k).

В частности, a 2 = D(x) – дисперсия случайной величины.

Эти моменты называют теоретическими . По данным наблюдений можно вычислить соответствующие эмпирические моменты:

Определение 11 . Начальный эмпирический момент порядка k случайной величины x определяется равенством

В частности, – выборочное среднее.

Определение 12 . Центральный эмпирический момент порядка k случайной величины x определяется равенством:

В частности, – выборочная дисперсия.

Метод моментов построения точечных оценок неизвестных параметров состоит в приравнивании теоретических моментов рассматриваемого распределения соответствующим эмпирическим моментам того же распределения.

Пусть даны: случайная величина ξ, выборка объема n x 1 , x 2 ,…, x n . Необходимо построить оценки неизвестных параметров q * 1, q * 2 ,…,q * k . Описание метода моментов (ММ) разобьём на этапы:

1. Выписываем первые к моментов μ 1, μ 2, … μ n

2. Вычисляем по выборке соответствующие им эмпирические (выборочные) моменты.

3. С оставляем систему уравнений μ i = m i и решаем ее относительно неизвестных параметров.

Замечание 1. Иногда вместо начальных моментов μ i , m i удобно использовать центральные моменты α i , a i .

Замечание 2 . Если на третьем этапе получилась неразрешимая система, то на первом шаге надо добавить новые моменты.

Найдем методом моментов оценки параметров нескольких важнейших распределений.



Понравилась статья? Поделиться с друзьями: