Автоматизированный априорный анализ статистической совокупности

При проведении статистического наблюдения за деятельностью предприятий корпорации получены выборочные данные по 32-м предприятиям, выпускающим однородную продукцию (выборка 10%-ная, механическая), о среднегодовой стоимости основных производственных фондов и о выпуске продукции за год.

ВНИМАНИЕ! Работа на этой странице представлена для Вашего ознакомления в текстовом (сокращенном) виде. Для того, чтобы получить полностью оформленную работу в формате Word, со всеми сносками, таблицами, рисунками (вместо pic), графиками, приложениями, списком литературы и т.д., необходимо скачать работу.

Постановка задачи
При проведении статистического наблюдения за деятельностью предприятий корпорации получены выборочные данные по 32-м предприятиям, выпускающим однородную продукцию (выборка 10%-ная, механическая), о среднегодовой стоимости основных производственных фондов и о выпуске продукции за год.
В проводимом статистическом исследовании обследованные предприятия выступают как единицы выборочной совокупности, а показатели Среднегодовая стоимость основных производственных фондов и Выпуск продукции – как изучаемые признаки единиц.

Таблица 1
Исходные данные
Номер предприятия Среднегодовая стоимость основных производственных фондов, млн.руб. Выпуск продукции, млн. руб.
1 476,00 463,50
2 561,50 508,50
3 579,50 567,00
4 611,00 630,00
5 395,00 315,00
6 642,50 540,00
7 660,50 729,00
8 494,00 495,00
9 606,50 580,50
10 701,00 724,50
11 260,00 675,00
12 768,50 765,00
13 584,00 603,00
14 642,50 657,00
15 737,00 796,50
16 845,00 855,00
17 629,00 576,00
18 696,50 684,00
19 552,50 427,50
20 705,50 585,00
21 786,50 787,50
22 539,00 445,50
23 426,50 418,50
24 719,00 670,50
25 642,50 585,00
26 597,50 553,50
27 462,50 360,00
28 624,50 562,50
29 723,50 616,50
30 845,00 225,00
31 687,50 585,00
32 503,00 522,00

В процессе исследования совокупности необходимо решить ряд статистических задач для выборочной и генеральной совокупностей.
Статистический анализ выборочной совокупности
1. Выявить наличие среди исходных данных резко выделяющихся значений признаков («выбросов» данных) с целью исключения из выборки аномальных единиц наблюдения.
Решение:
В качестве исходных данных, нам предоставлены выборочные значения двух признаков – «Среднегодовая стоимость основных производственных фондов» и «Выпуск продукции». Для выявления аномальных значений этих признаков используем диаграмму. С помощью мастера диаграмм построим диаграмму рассеяния изучаемых признаков и визуально определим аномальные точки. Их у нас две: первая с координатами (260,00;675,00) и вторая – (845,00;225,00).
Отразим значения этих точек в таблице 2:

Таблица 2
Аномальные единицы наблюдения
Номер предприятия Среднегодовая стоимость основных производственных фондов, млн.руб. Выпуск продукции, млн. руб.
11 260,00 675,00
30 845,00 225,00

Затем удалим из исходных данных таблицы 1 строки с аномальными данными и построим новую диаграмму, которая будет уже без аномальных точек:

Рис. 1.1

Таким образом, мы исключили аномальные единицы наблюдения, которые теряют статистическую точность. Выявили, что предприятия 11 и 30 резко выделяются характеристиками, и исключили их из проводимого статистического исследования.

2. Рассчитать обобщающие статистические показатели совокупности по изучаемым признакам: среднюю арифметическую ( ), моду (Мо), медиану (Ме), размах вариации (R), дисперсию( ), средние отклонения – линейное ( ) и квадратическое (σn), коэффициент вариации (Vσ), структурный коэффициент асимметрии К.Пирсона (Asп).
Решение:
Обобщающие статистические показатели совокупности исчисляются на основе анализа вариационных рядов распределения. С помощью пакета Excel мы можем рассчитать нужные нам статистические показатели, используя инструмент Описательная статистика надстройки Пакет анализа, а также статистические функции инструмента Мастер функций.
Рассчитав описательные параметры выборочной и генеральной совокупностей, мы получим таблицу 3:

Таблица 3
Описательные статистики
По столбцу "Среднегодовая стоимость основных производственных фондов, млн.руб." По столбцу "Выпуск продукции, млн.руб"
Столбец1 Столбец2

Среднее 620 Среднее 586,95
Стандартная ошибка 19,8720476 Стандартная ошибка 23,70564642
Медиана 626,75 Медиана 582,75
Мода 642,5 Мода 585
Стандартное отклонение 108,8436873 Стандартное отклонение 129,8411729
Дисперсия выборки 11846,94828 Дисперсия выборки 16858,73017
Эксцесс -0,344943844 Эксцесс -0,205332365
Асимметричность -0,152503649 Асимметричность 0,042954448
Интервал 450 Интервал 540
Минимум 395 Минимум 315
Максимум 845 Максимум 855
Сумма 18600 Сумма 17608,5
Счет 30 Счет 30
Уровень надежности(95,4%) 41,42948266 Уровень надежности(95,4%) 49,42181536

Теперь в режиме Описательная статистика произведем оценку предельных ошибок выборки Δ для различных уровней надежности. Таблица 4(а) показывает расчет предельной ошибки выборки при Р=0,683:

Таблица 4а
Предельные ошибки выборки
По столбцу "Среднегодовая стоимость основных производственных фондов, млн.руб." По столбцу "Выпуск продукции, млн.руб"
Столбец1 Столбец2

Уровень надежности(68,3%) 20,2338275 Уровень надежности(68,3%) 24,13721878

Таблица 4(б) демонстрирует расчет предельной ошибки выборки Δ при Р=0,997:

Таблица 4б
Предельные ошибки выборки
По столбцу "Среднегодовая стоимость основных производственных фондов, млн.руб." По столбцу "Выпуск продукции, млн.руб"
Столбец1 Столбец2

Уровень надежности(99,7%) 64,37354774 Уровень надежности(99,7%) 76,79211486

Для анализа статистических свойств изучаемой совокупности необходимы и ряд других выборочных показателей, которые вычисляются с помощью инструмента Мастер функций.:
Таблица 5
Выборочные показатели вариации и асимметрии
По столбцу "Среднегодовая стоимость основных производственных фондов, млн.руб." По столбцу "Выпуск продукции, млн.руб"
Стандартное отклонение 107,0142514 Стандартное отклонение 127,6588129
Дисперсия 11452,05 Дисперсия 16296,7725
Среднее линейное отклонение 86,1 Среднее линейное отклонение 98,34
Коэффициент вариации, % 17,26036313 Коэффициент вариации, % 21,74952089
Коэффициент асимметрии Asп -0,21025237 Коэффициент асимметрии Asп 0,015275091

На основе таблиц 3 и 5 сформируем единую таблицу значений выборочных показателей

Таблица 8
Описательные статистики выборочной совокупности
По столбцу "Среднегодовая стоимость основных производственных фондов, млн.руб." По столбцу "Выпуск продукции, млн.руб"
Столбец1 Столбец2

Среднее 620 Среднее 586,95
Стандартная ошибка 19,8720476 Стандартная ошибка 23,70564642
Медиана 626,75 Медиана 582,75
Мода 642,5 Мода 585
Стандартное отклонение 108,8436873 Стандартное отклонение 129,8411729
Дисперсия выборки 11846,94828 Дисперсия выборки 16858,73017
Эксцесс -0,344943844 Эксцесс -0,205332365
Асимметричность -0,152503649 Асимметричность 0,042954448
Интервал 450 Интервал 540
Минимум 395 Минимум 315
Максимум 845 Максимум 855
Сумма 18600 Сумма 17608,5
Счет 30 Счет 30
Уровень надежности(95,4%) 41,42948266 Уровень надежности(95,4%) 49,42181536
Стандартное отклонение 107,0142514 Стандартное отклонение 127,6588129
Дисперсия 11452,05 Дисперсия 16296,7725
Среднее линейное отклонение 86,1 Среднее линейное отклонение 98,34
Коэффициент вариации, % 17,26036313 Коэффициент вариации, % 21,74952089
Коэффициент асимметрии Asп -0,21025237 Коэффициент асимметрии Asп 0,015275091

3. На основе рассчитанных показателей в предположении, что распределения единиц по обоим признакам близки к нормальному, оценить:
а) степень колеблемости значений признаков в совокупности;
б) степень однородности совокупности по изучаемым признакам;
в) устойчивость индивидуальных значений признаков;
г) количество попаданий индивидуальных значений признаков в диапазоны ( ), ( ), ( ).

Решение:

а) Степень колеблемости признака определяется по значению коэффициента вариации Vσ. Величина Vσ оценивает интенсивность колебаний вариантов относительно их средней величины. В нашей задаче Vσ для признака «среднегодовая стоимость» равно 86,10% (см. таб. 5). Это значение больше 60%, а следовательно колебоемость признака значительная. Для признака «выпуск продукции» Vσ≈21,74% что тоже больше 60%, а значит колеблемость данного признака является значительной.

б) Для нормальных и близких к нормальному распределений показатель Vσ служит индикатором однородности совокупности: принято считать, что при выполнении неравенства Vσ≤33% совокупность является количественно однородной по данному признаку.
Из таблицы 5 мы видим, что по обоим признакам совокупность является количественно неоднородной, а средние величины исследуемых признаков могут считаться типичной, надежной характеристикой статистической совокупности.

в) Сопоставление средних отклонений – квадратического σ и линейного d позволяет сделать вывод об устойчивости индивидуальных значений признака, т.е. об отсутствии среди них «аномальных» вариантов значений. Для симметричного и нормального, а также близких к нему распределений между показателями σ и d имеют место равенства:
σ≈1,25d и d≈0,8 σ.
Поэтому отношение показателей σ и d может служить индикатором устойчивости данных:
если d/ σ>0,8, то значения признака неустойчивы, в них имеются «аномальные» выбросы.
Для признака «среднегодовая стоимость» отношение показателей σ и d приблизительно равно 0,79, это не превышает 0,8, но очень близко к этой цифре. Следовательно, можно сделать вывод, что несмотря на визуальное обнаружение и исключение нетипичных единиц наблюдений, некоторые аномалии в первичных данных продолжают сохраняться.
Возможных «кандидатов» можно найти путем поиска значений, выходящих за границы ( ):
620-217,68≤Хi≤620+217,68
402,32≤Хi≤837,68

Таким образом, мы определили, что возможными кандидатами на удаление в качестве аномальных единиц могут быть:
1) Предприятие №5
2) Предприятие №16

Аналогично выявим отношение показателей σ и d для признака «выпуск продукции»: d/ σ≈0,75, а значит значения признака устойчивы.

г) В нормально распределенных и близких к ним рядах вероятностные оценки диапазонов рассеяния значений признака таковы:
- в диапазон ( ) войдет 68,3%
- в диапазон ( ) войдет 95,4%
- в диапазон ( ) войдет 99,7%
Для выборочной совокупности, опираясь на таблицы 3 и 5 и на правило «трех сигм» оценим границы всех трех диапазонов рассеяния признака и определим сколько значений Хi попадает в каждый из диапазонов:

Таблица 9
Распределение значений признака по диапазонам рассеяния признака относительно х
Граница диапазонов Количество значений хi находящихся в диапазоне
Первый признак Второй признак Первый признак Второй признак
х-σn≤х+ σn (511,16;728,84) (457,11;716,8) 21 21
х-2σn≤х+2σn (837,68;402,32) (327,27;846,63) 28 29
х-3σn≤х+ 3σn (946,52;293,48) (197,43;976,47) 32 30

Для наглядности данные таблицы отобразим в процентном соотношении

Таблица 9а
Процентное соотношение рассеяния значений признака

Ожидаемое по правилу «трех сигм» На основе данных таблицы 9
Первый признак Второй признак Первый признак Второй признак
х-σn≤х+ σn 68.30% 68.30% 66.66% 63.33%
х-2σn≤х+2σn 95.40% 95.40% 93.33% 96.66%
х-3σn≤х+ 3σn 99.70% 99.70% 100% 100%

Т.к. для генеральной совокупности известна только величина σ, а для средней рассчитаны только предельные ошибки выборки, поэтому для генеральной совокупности оценки рассеяния значений признака по трем диапазонам являются прогнозными:

Таблица 9б
Вероятностные оценки диапазонов рассеяния значений признака для генеральной совокупности
Процент значений признака Первый признак Второй признак
68.3% войдет в диапазон (х±108,84) (х±129,84)
95.4% войдет в диапазон (х±217,68) (х±259,68)
99.7% войдет в диапазон (х±326,52) (х±389,52)

4. Дать сравнительную характеристику распределений единиц совокупности по двум изучаемым признакам на основе анализа:
а) вариации признаков;
б) количественной однородности единиц;
в) надежности (типичности) средних значений признаков;
г) симметричности распределений в центральной части ряда.

Решение:
а) В п. 3а) мы установили, что колеблемость обоих признаков значительна, т.к. коэффициенты вариации Vσ по обоим признакам превышают 60%. Однако, Vσ по признаку «Среднегодовая стоимость» равен 17,26, а Vσ по признаку «Выпуск продукции» равен 21,74. Мы можем сделать вывод, что колеблемость первого признака меньше чем колеблемость второго признака.

б) Данная совокупность по обоим признакам является количественно неоднородной, т.к. коэффициенты вариации Vσ по обоим признакам превышают 60%: (см. п. 3б).
Сравнив коэффициенты вариации обоих признаков, мы можем сделать вывод, что совокупность по признаку «Среднегодовая стоимость» является более количественно неоднородной, нежели по признаку «Выпуск продукции».

в) Опираясь на п.п. 4а) и 4б), можно сделать вывод о том, что средняя арифметическая величина по признаку «Среднегодовая стоимость» является более надежной характеристикой данной совокупности, чем средняя арифметическая по признаку «Выпуск продукции».

г) Рассмотрим значения средней арифметической ( ), Моды (Мо) и Медианы (Ме) из таблицы 8.

Для признака «Среднегодовая стоимость»:
=620,00 Ме = 626,75 Мо = 642,5
Для этих значений выполняется неравенство: <Ме<Мо Из этого можно сделать вывод, что вершина такого распределения сдвинута вправо, а левая часть кривой длиннее правой, следовательно имеет место быть левосторонняя асимметрия. Показатель асимметрии для этого признака (As) равен -0,15. Чем больше величина IAsΙ, тем более асимметрично распределение. Т.к. в нашем случае IAsΙ≤0,25 , то мы можем сделать вывод, что асимметрия незначительная. Для признака «Выпуск продукции»: =586,95 Ме = 582,75 Мо = 585 Об этих значениях можно сказать, что они незначительно отличаются друг от друга, а показатель асимметрии (As) равен 0,04, что указывает на то, что асимметрия столь мала, что мы считаем ее равной нулю, а распределение близким к нормальному. Сравнивая показатели асимметрии по обоим признакам, делаем вывод, что кривая распределения признака «Выпуск продукции» более близко располагается к кривой нормального распределения, т.к. величина асимметрии признака «Среднегодовая стоимость» по модулю больше величины асимметрии признака «Выпуск продукции». 5. Построить интервальный вариационный ряд и гистограмму распределения единиц совокупности по признаку Среднегодовая стоимость основных производственных фондов и установить характер (тип) этого распределения. Рассчитать моду Мо полученного интервального ряда и сравнить ее с показателем Мо несгруппированного ряда данных. Таблица 7 Интервальный ряд распределения предприятий по стоимости основных производственных фондов Группы предприятий по стоимости основных фондов Число предприятий в группе Накопленная частость группы 395 - 485 4 13,33% 485 - 575 5 30,00% 575 - 665 11 66,67% 665 - 755 7 90,00% 755 - 845 3 100,00% 0 100,00% Итого 30 Рис. 1.2 Для полученного интервального ряда значения моды Мо рассчитывается по формуле: Мо=ХМо+h•(fМо-fМо-1) + (fМо- fМо+1), где ХМо – нижняя граница модального интервала; h – величина модального интервала; fМо – частота модального интервала; fМо-1 – частота интервала, предшествующего модальному; fМо+1 – частота интервала, следующего за модальным. Согласно этой формуле значение Мо для данного интервального ряда будет: Мо=620+110•(11-5)/(11-7)=730 Статистический анализ генеральной совокупности 1. Рассчитать генеральную дисперсию , генеральное среднее квадратическое отклонение и ожидаемый размах вариации признаков RN. Сопоставить значения этих показателей для генеральной и выборочной дисперсий. Решение: Таблица 10 Описательные статистики генеральной совокупности По столбцу "Среднегодовая стоимость основных производственных фондов, млн.руб." По столбцу "Выпуск продукции, млн.руб" Столбец1 Столбец2 Стандартное отклонение 108,8436873 Стандартное отклонение 129,8411729 Эксцесс -0,344943844 Эксцесс -0,205332365 Асимметричность -0,152503649 Асимметричность 0,042954448 Генеральное среднее квадратическое отклонение σN нам уже известно из таблицы 10. Так как объем выборки у нас не велик n=30≤40-50, то при расчете генеральной дисперсии σІN мы можем использовать формулу: σІN =n/n-1• σ²n Для признака «Среднегодовая стоимость»: σІN =30/29•11846,94828≈12255,46 σІN - σІn=12255,46-11846,94828=408,51 Для признака «Выпуск продукции»: σІN =30/29•16858,73017≈17440,06 σІN - σІn=17440,06-16858,73017=581,32 Таблица 10а Описательные статистики генеральной совокупности По столбцу "Среднегодовая стоимость основных производственных фондов, млн.руб." По столбцу "Выпуск продукции, млн.руб" Столбец1 Столбец2 Стандартное отклонение 108,8436873 Стандартное отклонение 129,8411729 Эксцесс -0,344943844 Эксцесс -0,205332365 Асимметричность -0,152503649 Асимметричность 0,042954448 Дисперсия 12255,46 Дисперсия 17440,06 Прогнозное значение размах вариации признаков в генеральной совокупности рассчитывается по формуле: R=6σ Для признака «Среднегодовая стоимость»: RN=6•108,84≈653,04 RN- Rn=653,04-450,00=203,04 Для признака «Выпуск продукции»: RN=6•129,84≈779,04 RN- Rn=779,04-540,00=239,04 2. Для изучаемых признаков рассчитать: а) среднюю ошибку выборки; б) предельные ошибки выборки для уровней надежности P=0,683, P=0,954, P=0,997 и границы, в которых будут находиться средние значения признака генеральной совокупности при заданных уровнях надежности. Решение: а) Выберем из таблицы 3 средние ошибки выборки и разместим в таблицу 11. Таблица 11 Средние ошибки выборки По столбцу "Среднегодовая стоимость основных производственных фондов, млн.руб." По столбцу "Выпуск продукции, млн.руб" Столбец1 Столбец2 19,8720476 23,70564642 б) На основе таблиц 11,4а,4б и формул: х= ±Δ ; - Δ ≤х≤ +Δ сформируем таблицу 11а: Таблица 11а Предельные ошибки выборки и ожидаемые границы для генеральных средних Доверительнаявероятность Р Коэфф-т доверия t Предельные ошибки выборки Ожидаемые границы для средних х Для первого признака Для второго признака Для первого признака Для второго признака 0.683 1 20,2338275 24,13721878 599,77≤х≤ 640,23 562.82≤х≤611,08 0.954 2 41,42948266 49,42181536 578,58≤х≤661,42 537,53≤х≤ 636,37 0.997 3 64,37354774 76,79211486 555,63≤х≤ 684,37 510,16≤х≤663,74 3. Рассчитать коэффициенты асимметрии As и эксцесса Ek. На основе полученных оценок сделать вывод о степени близости распределения единиц генеральной совокупности к нормальному распределению. Решение: Таблица 11б По столбцу "Среднегодовая стоимость основных производственных фондов, млн.руб." По столбцу "Выпуск продукции, млн.руб" Столбец1 Столбец2 Эксцесс -0,344943844 Эксцесс -0,205332365 Асимметричность -0,152503649 Асимметричность 0,042954448 Т.к. данная выборка является репрезентативной и коэффициенты AsN и EkN (см. таблицу 11б) указывают на небольшую величину асимметрии и эксцесса, т.е. основание полагать, что распределение единиц генеральной совокупности по изучаемым признакам будет близко к нормальному. -


Скачиваний: 1
Просмотров: 1
Скачать реферат Заказать реферат