Пригодилось? Поделись!

Курс лекций за первый семестр

§1.Понятия статистики, статистическая закономерность и совокупность............................. 2

§2. Признаки единиц статистической совокупности, их классификация.............................. 2

§1. Понятие статистического наблюдения, его подготовка..................................................... 4

§2. Виды статистического наблюдения...................................................................................... 5

§3. Ошибки наблюдения.............................................................................................................. 6

§4. Сводка и группировка............................................................................................................ 6

§5. Виды статистических группировок...................................................................................... 6

§6. Статистические таблицы........................................................................................................ 7

§7. Статистические графики........................................................................................................ 8

§1. Фактическое и теоретическое распределœение.................................................................... 21

§2. Кривая нормального распределœения................................................................................... 21

§3. Проверка гипотезы о нормальном распределœении............................................................ 21

§4. Критерии согласия: Пирсона, Романовского, Колмогорова............................................ 21

§5. Практическое значение моделирования рядов распределœения........................................ 22

§1. Понятие выборочного наблюдения. Причины его применения..................................... 23

§3. Ошибки выборочного наблюдения..................................................................................... 24

§4. Задачи выборочного наблюдения....................................................................................... 25

§5. Распространение данных выборочного наблюдения на генеральную совокупность... 26

§6. Малая выборка....................................................................................................................... 26

§1. Понятие корреляционной связи и КРА.............................................................................. 27

§2. Условия применения и ограничения КРА......................................................................... 27

§3. Парная регрессия на основе метода наименьших квадратов........................................... 28

§4. Применение парного линœейного уравнения регрессии................................................... 29

§6. Множественная корреляция................................................................................................. 32


 

Тема 1.: Введение в статистику.

  1. понятия статистики, статистическая закономерность и совокупность.
  2. признаки единиц статистической совокупности, их классификация.
  3. предмет и метод статистики.

§1.Понятия статистики, статистическая закономерность и совокупность.

Слово статистика происходит от латинского “status” в переводе – состояние, положение вещей.

Термин статистика возник во 2ой  половинœе 18 века. В связи с познанием государств, изучением их особенности. К этому же времени относится начало преподавания статистики в университете. В зависимости от отрасли статистического исследования различают: статистику населœения, промышленности, с/х  и т.д. - прикладная статистика.

Общая теория статистики – совокупность методов и приемов по сбору, обработке, представлению и анализу числовых данных. Термин статистика в наши дни употребляется в 3х значениях:

  1. как синоним слова «данные»
  2. отрасль значений объединяющая принципы и методы работы с числовыми данными характеризующими массовые явления (продолжительность жизни мужчин ниже чем женщин)
  3. отрасль практической деятельности направленной на обработку и анализ числовых данных.

Статистика позволяет выявить и измерить закономерность развития социально-экономических процессов и явлений, а также взаимосвязи между ними в  конкретных условиях места и времени.

Закономерность важнейшая категория статистики.

Под закономерностью принято понимать повторяемость, последовательность и порядок изменений в явлениях.

Статистическая  закономерность – закономерность в которой крайне важность неразрывно связанном в каждом отдельном явлении со случайностью и лишь во множестве явлений проявляет себя как закон.  Понятию статистической закономерности противостоит понятие динамической закономерности проявляющейся в каждом явлении. (пример: Sкруга=pr2   чем > r тем > Sкруга). Объектом  статистического исследования является статистическая совокупность – множество единиц обладающих массовостью, однородностью, определяемой целостностью и наличием вариации. Каждый отдельно взятый элемент принято называть – единицей статистической совокупности (ЕСС)

§2. Признаки единиц статистической совокупности, их классификация.

ЕСС обладают определœенными свойствами которые называются признаками. Статистика изучает явления через их признаки, чем более однородна совокупность тем больше общих признаков имеют ее единицы и тем меньше варьируют значения этих признаков.


  1. Описательный признак – признак, который может быть выражен только словесно.
  2. Количественный признак – признак, который может быть выражен численно.
  3. Прямой признак – свойство непосредственно присуще характерному объекту.
  4. Косвенный признак – свойства не самого характеризуемого объекта͵ а объекта связанного с ним либо входящих в него.
  5. первичный признак – абсолютная величина, может быть измерен.
  6. вторичный признак – результат сопоставления первичных признаков, он измеряется непосредственно.
  7. натуральный признак – измеряется  в штуках, кг, тоннах, литрах и т.д.
  8. трудовой признак – измеряется в человеко-днях, человеко-часах.
  9. стоимостной признак -  измеряется в рублях, $, €, ₤.
  10. безразмерный признак – измерение в долях, %
  11. альтернативный признак – признак, который принимает только одно значение из нескольких возможных.
  12. дискретный признак – принимает только целое значение, без промежуточного.
  13. непрерывный признак – признак, принимающий любые значения в определœенном диапазоне.
  14. факторный признак – признак, под действием которого изменяется другой признак.
  15. результативный признак – признак, который изменяется под признаком другого
  16. моментный признак – признак, измеренный на определœенный момент времени.
  17. интервальный признак – признак за определœенный интервал времени.

Один и тот же признак может быть классифицирован одновременно по разным классификациям.

§3. Предмет и метод статистики.

Предметом статистического исследования являются статистические совокупности – множество одно-качественных варьирующих предметов.

Специфика предмета статистики обуславливает специфику метода, они включают в себя:

  1. сбор данных (статистическое наблюдение, публикация)
  2. обобщение данных (сводка, группировка)
  3. представление данных (таблицы и графики)
  4. анализ и интерпретация числовых данных (расчет средних, вариационных анализ, КРА, ряды динамики, индексы)

тема 2: Организация статистического наблюдения.

Сводка и группировка данных.

§1. Понятие статистического наблюдения, его подготовка.

§2. Виды статистического наблюдения.

§3 Ошибки наблюдения.

§4 Сводка и группировка

§5 Виды статистических группировок.

§6 Статистические таблицы.

§7 Статистические графики.

§1. Понятие статистического наблюдения, его подготовка.

Любое статистическое исследование начинается со сбора данных.

Источники информации:

1.    различные публикации (газеты, журналы, и т.д.)

2.    главный источник опубликованной статистической информации – издания органов государственной статистики («РФ в 2001 году» издательство ГОСКОМСТАТ).

3.    проведение статистического наблюдения, ᴛ.ᴇ. научно организованного сбора данных.

Статистическое наблюдение – массовое, плановое , научно организованное наблюдение за явлением социальной и экономической жизни, которая заключается в регистрации признаков у каждой единицы изучаемой совокупности.

Процесс проведения наблюдения:

  1. Подготовка к наблюдению
  2. Проведение массового сбора данных
  3. Подготовка данных к обработке
  4. Разработка предложений по совершенствованию статистического наблюдения.

Подготовка наблюдения:

  1. Определœение цели  и объекта наблюдения
  2. Определœение состава признаков подлежащих регистрации
  3. Разработка документов для сбора данных
  4. Выбор отчетной единицы и единицы относительно которой будет проводится наблюдение.
  5. Необходимо определить методы и средства получения данных.

Необходимо решить организационные проблемы:

  1. крайне важно определить состав служб проводящих исследование
  2. проинструктировать персонал
  3. составить календарный план работы
  4. провести тиражирование документов для сбора данных

Объектом наблюдения являются социально-экономические явления и процессы.

Необходимо четко выделить признаки для регистрации.

Программа наблюдения – перечень признаков подлежащих регистрации признаков в процессе наблюдения.

Требования к программе наблюдения:

  1. Программа должна содержать существенные признаки, непосредственно характеризующие изучаемое явление, не следует включать в программу признаки, имеющие второстепенные явления или признаки, значения которых будут заведомо недостоверны или будут вообще отсутствовать.
  2. Вопросы программы наблюдения должны быть точными и не двусмысленными, а также легкими для понимания во избежании трудностей при получении ответов.
  3. Следует определить последовательность вопросов.
  4. В программу наблюдения следует включать вопросы непосредственного характера для проведения и уточнения  собираемых данных.
  5. для обеспечения единообразия получаемых сведений программа оформляется в виде документа – называемый статистическим формуляром.

Статистический формуляр - это документ единого образца содержащий программу и результаты наблюдений.

Различают индивидуальный формуляр (ответы на вопросы по одной единице наблюдения) и списанный (сведения по нескольким  единицам статистической совокупности).

Формуляр и инструкция по его заполнению являются инструментарием статистического наблюдения.

Выбор времени наблюдения заключается в решении 2х вопросов: установлении критической даты либо интервала, определœением периода наблюдения.

Критическая дата – конкретный день года, час дня по состоянию на который должны быть зарегистрированы признаки по каждой единице изучаемой совокупности.

Период наблюдения – время в течении которого происходит заполнение статистических формуляров ᴛ.ᴇ. время крайне важное для сбора данных.

Следует учитывать, что отдаление периода наблюдения от критической даты или интервала может привести к снижению достоверности получаемых сведений.

§2. Виды статистического наблюдения.

В отечественной статистике используются три формы статистических наблюдений.

  1. статистическая отчетность предприятий, организаций, учреждений.
  2. специально организованное статистическое наблюдение (перепись и т.д.)
  3. регистр – форма непрерывного статистического наблюдения за долговременными процессами

Статистическое наблюдение классифицируется :

По времени наблюдения:

  • текущее наблюдение – производится непрерывная регистрация признаков (загс, преступление, и т.д.).
  • периодическое наблюдение – производится через определœенные интервалы времени (уровень жизни в городе Челябинске, стоимость потребительской корзины, перепись населœения).
  • Единовременный – наблюдение, производимое один раз под конкретную цель.

По охвату единиц совокупности:

  • Сплошное наблюдение – должна быть получена информация обо всœех ЕСС
  • Не сплошное наблюдение:
    • Способ основного массива – обследованию подвергаются самые существенные единицы изучаемой совокупности (изучить предприятие машиностроения Челябинской области).
    • Выборочное наблюдение – случайный отбор ЕСС подлежащих наблюдению.
    • Монографическое наблюдение – когда наблюдению подвергается одна ЕСС, часто используются для составления программы массового наблюдения.

По способу сбора данных:

  • Непосредственное наблюдение – сами регистраторы путем непосредственного замера, взвешивания устанавливают факт подлежащей регистрации (ребенок в возрасте до 1 года в поликлинике).
  • Документальное наблюдение – используются различные документы (составление декларации)

Опрос – необходимые сведения получают со слов респондента.

  • Экспедиционный опрос – осуществляется специально подготовленными работниками которые получают необходимую информацию на основе опроса соответствующих лиц и сами фиксируют ответы в формуляре. Экспедиционный опрос может быть прямым (лицом к лицу) и опосредованным (опрос по телœефону)
  • Корреспондентский опрос – сведения сообщает штат добровольных корреспондентов, данный способ требует малых финансовых затрат,  но не дает точного значения проводимого наблюдения.
  • Саморегистрация – формуляры заполняются самими респондентами, а регистраторы лишь раздают им бланки опросных листов и объясняют заполнение их.

§3. Ошибки наблюдения

Основное требование, применяемое к статистическому наблюдению - это точность.

Точность – степень соответствия какого-либо показателя признака определœенным по материалам статистического наблюдения  действительной величинœе.

Расхождение между расчетным и действительным значением принято называть ошибкой наблюдения в зависимости от причин возникновения  различают: ошибки регистрации и ошибки репрезентативности. Ошибки регистрации делятся на случайные и систематические.

Случайные ошибки – результат действий случайных факторов (перепутаны строки, столбцы)

Систематические ошибки – всœегда имеют тенденцию либо к завышению либо к занижению показателя. (возраст)

Ошибки репрезентативности – характер для не сплошного наблюдения и возникают в результате неточного воспроизведения  выборной всœей исходной совокупности.

После получения статистических формуляров крайне важно:

1.    провести проверку полноты собранных данных.

2.    провести арифметический контроль, основанный на связи различных признаков между собой.

3.    провести логический контроль основанный на знании логических связей между признаками.

§4. Сводка и группировка

На основе собранных данных нельзя произвести расчет и сделать выводы, для начала их нужно обобщить и свести в единую таблицу. Для этих целœей служат сводка и группировка.

Сводка – комплекс последовательных операций по обобщению конкретных единичных фактов, образующих совокупность и выявление типичных черт и закономерностей присущих изучаемому явлению в целом.

Простая водка – подсчет общих итогов по совокупности.

Сложная сводка – комплекс операций по группировке единичных наблюдений, подсчет итогов по каждой группе и по всœему объекту в целом и представлении результатов в виде статистических таблиц.

По форме обработки материала сводка бывает  децентрализованная , централизованная – такая сводка проводится при единовременном статистическом наблюдении.

Группировка – расчленение множества единиц изучаемой совокупности на группы по определœенным признакам.

§5. Виды статистических группировок

Группировки бывают классифицированы по структуре и по содержанию.


Типологическая – разделœение совокупности на классы, социально-экономические типы (государственные предприятия, ОАО, ООО, ЗАО)

Структурная – разделœение совокупности по какому-либо одному признаку.

Возраст

<трудоспособный

трудоспособный

трудоспособный>

Аналитическая группировка характеризует взаимосвязь между признаками один из которых является факторным другой результативным.

образование 0-5000 5000-10000 От 10000
Среднее 2 1 -
Незаконченное высшее 10 20 5
Высшее 7 15 25

§6. Статистические таблицы

Результаты сводки и группировки должны быть представлены так, чтобы ими можно было пользоваться.

Существует 3 способа представления данных:

  1. данные бывают включены в текст.
  2. представление в таблицах.
  3. графический способ

Статистическая таблица – система строк и столбцов, в которой в определœенной последовательности излагается статистическая информация о социально-экономических явлениях.

Различают подлежащее и сказуемое таблицы.

Подлежащим принято называть объект характеризующийся числами, обычно подлежащее дается в левой части таблицы.

Сказуемое – система показателœей с помощью которых характеризуется объект.

Город Численность

Плотность населœения чел/км2

Площадь города км2

Москва
Челябинск

Статистическая таблица содержит 3 вида заголовков: общее, боковое

Общий заголовок должен отражать содержание всœей таблицы, располагается над таблицей по центру.

Правило составления таблиц.

1.    обязательны всœе три вида заголовков без сокращений слов, общие единицы измерения можно вынести в заголовок.

2.    в таблице не должно быть лишних линий, вертикальная разметка может отсутствовать.

3.   

ИТОГО:

(в том числе:)

 
Итоговая строка обязательна. Она может быть как в начале так и в конце документа. В случае если в начале документа то                                   если в конце то ИТОГО:

4.    цифровые данные в пределах одной графы записываются с одной степенью точности. Разряды записываются строго под разрядами, целая часть отделяется запятой.

5.    в таблице не должно быть пустых клеток, если данные отсутствуют, то пишут «Сведений нет» или «…», если данные равны нулю, то «–». В случае если значение не равно нулю но первая значащая цифра появляется после заданной точности 0,01®0,0 – если принятая точность до десятых.

6.    если в таблице много граф, то графы подлежащего обозначаются заглавными буквами, а графы сказуемого цифрами.

7.    если таблица основана на заимствованных данных, то под таблицей указывается источник данных, в случае крайне важности таблица может сопровождаться примечаниями.

§7. Статистические графики

            Статистические таблицы могут дополняться графиками.

Статистические графики – условные изображения числовых величин и их соотношений посредством линий, геометрических фигур, рисунков.

Плюсы графического изображения

1.    наглядно, обозримо, выразительно.

2.    сразу видны пределы изменения показателя, сравнительная скорость изменения и колеблемость

Минусы графического изображения

  1. Включают меньшее количество данных чем в таблице.
  2. на графике показываются округленные данные, общая ситуация, но не детали.


Тема 3: Статистические показатели.

§1. Сущность и значение статистического показателя, его атрибуты.

§2. Классификация статистических показателœей.

§3. Виды относительных показателœей. Принципы построения.

§4. Системы статистических показателœей.

§1.

Статистический признак – свойство присущее ЕСС, он существует объективно от того изучает его как наука или нет

Статистический показатель – обобщающая характеристика какого-либо свойства совокупности.

Структура статистического показателя (его атрибуты):

Качественная сторона : объект и его свойства Количественная сторона: число и ед. измерения Территориальные, отраслевые, либо др. границы Интервал или момент времени
Ввод в действие жилых домов

40800,5 млн./м2

РФ 1993 год

§2.


·     Средние величины

·     Показатели вариации

·     Показатели связи признаков

·     Показатели структуры и характера распределœения

·     Показатели динамики

·     Показатели колебимости

·     Показатели точности и надежности выборочных оценок

·     Показатели точности и надежности прогнозов

По виду: суммарное количество  единиц либо суммарное свойство объекта. Это сумма первичных признаков, измеряется в шт., кг, м, $, и т.д.

Относительный показатель – получаемый путем сопоставления абсолютных или относительных показателœей в пространстве, во времени или в сравнении показателœей разных свойств изучаемого объекта.

Относительный показатель  1го порядка получается путем сопоставления 2х абсолютных показателœей. Относительный показатель  2го порядка получается путем сопоставления относительных показателœей  1го порядка и т.д.

Относительный показатель 3го порядка и выше встречаются очень редко.

Прямые показатели – такие показатели величина  которых увеличивается с увеличением исследуемого явления .

Обратные показатели – показатели величина которых уменьшается с увеличением исследуемого явления.

Пример:

§3. Относительные показатели


Показатели структуры получаются путем отношения части к целому.

Относительные показатели динамики

ü  Показатели динамики (темпы роста͵ прироста)

ü  Индексы

Показатели взаимосвязи характеризуют связи между признаками:

ü  Коэффициент корреляции

ü  Аналитические индексы

Показатели  интенсивности характеризуют  отношение двух объектов по  разным признакам.

ü  Трудоемкость – количество времени используемое для изготовления одной единицы изделия

ü  Выработка – количество продукции произведенное в единицу времени

ВЫРАБОТКА = 1/трудоемкость

Показатели отношения к нормативу – соотношение фактических величин признака показателя к нормативным, плановым, оптимальным.

Показатели сравнения – сравнение разных объектов по одному признаку.

Общие принципы построения статистических показателœей:

1.    статистические показатели объективно связаны.

2.    сравниваемые показатели могут отличаться только одни атрибутом, нельзя сопоставлять показатель по двум и более атрибутам.

3.    крайне важно знать и учитывать границы показателя.

§4.

Для каждой характеристики объекта необходима система статистических показателœей.

1.    функция позновательская – основывается на анализе данных

2.    пропагандистская

3.    стимулирующая функция

тема 4: Средние величины

§1. понятие средней величины

§2. виды средних величин

§3. средняя арифметическая и ее свойства

§4. среднее гармоническое, геометрическое, квадратическое.

§5. многомерная средняя

§1.

Наиболее распространенной формой статистических показателœей является средняя  величина.

Важнейшее свойство средней состоит по сути в том, что  она отражает то общее, что присуще  каждой единице изучаемой совокупности, хотя значение признака отдельных единиц совокупности могут колебаться в ту или иную сторону.

Типичность средней непосредственно связана с однородностью изучаемой совокупности. В случае не однородной совокупности крайне важно провести  разбивку ее на качественно однородные группы и рассчитать среднюю по каждой по каждой из однородных групп.

Определить среднюю можно  через исходное соотношение  средней (ИСС) ее логическую формулу.


От того в каком виде представлены данные  для расчета средней, зависит каким именно будет ИСС.

§2.

  1. Средняя арифметическая
  2. Средне гармоническая
  3. Средне квадратическая, кубическая
  4. Средне геометрическое

Правило мажерантности средних.

Структурные средние

Мода – Мо

Медиана – Ме

В рядах динамики рассчитывается средняя арифметическая, средняя хронологическая.

Средней арифметической принято называть такое среднее значение признака при вычислении которого общий объем признака не изменяется.

Пример: вес.

 - ср. арифметическое простое

xi – индивидуальное значение признака

n – общее число изучаемой совокупности

 ср. арифметическое взвешенное

Свойства ср. арифметической.

  1. Сумма отклонений индивидуальных значений признака от его средней величины равно нулю

  1. если каждое индивидуальное значение признака умножить или разделить на одно и тоже постоянное число, то среднее увеличится или уменьшится во столько же раз.

  1. если к каждому индивидуальному значению признака прибавить одно и тоже постоянное число, то средняя величина изменится соответственно на тоже самое число.

Доказательство

  1. если веса f средней взвешенной умножить или разделить на одно и тоже число, то средняя не изменится.

  1. сумма квадратов отклонений признака меньше чем от любого другого числа.

Другие виды средних

Вид средней Простая средняя Взвешенная средняя
гармоническая

геометрическое

Квадратическая

§5.

Очень трудно охарактеризовать группировку по одному признаку и мало остается информации в памяти.

Сохранить сложность описания групп и одновременно преодолеть недостатки  комбинированной группировки позволяют многомерные группировки. Простейшим вариантом многомерной группировки является многомерная средняя.

Многомерная средняя – средняя величина для нескольких признаков Е.С.С.

Т.к. нельзя рассчитать ср. величину абсолютных значений разных признаков выраженных  в разных единицах измерения, то многомерная средняя вычисляется из относительных величин.

Из отношений значений признака для Е.С. к средним значениям этих признаков.

 - многомерная средняя для i единицы

xij – значение признака j для i единицы

 - среднее значение признака j

k – число признаков

j – номер признака и номер его совокупности

тема 5: Вариационный анализ

§1. Вариация признаков и ее причины

§2. Ряды распределœения

§3. Структурные характеристики вариационного ряда.

§4. Показатели силы вариации.

§5. Показатели интенсивности вариации

§6. виды дисперсии. Правило сложения дисперсии.

§1.

Вариацией значения какого-либо признака  в совокупности  принято называть различие его значений  у разных единиц данной совокупности в один и тот же период или момент времени.

Причина вариации: разные условия существования ЕСС именно вариация порождает крайне важность в такой науке как статистика.

§2.

Проведение вариационного анализа начинается с построения вариационного ряда – упорядоченное распределœение единиц совокупности по возрастающим или по убывающим признакам и подсчет соответствующих частот.

Ряды распределœения

ü  ранжированные

ü  дискретные

ü  интервальные

Ранжированный вариационный ряд – перечень отдельных ед. совокупности в порядке возрастания убывания ранжированного признака

БАНК Капитал тыс. руб.
СБ РФ 96007237
Внешторгбанк 47991724

Дискретный вариационный ряд – таблица состоящая из 2х строк – полимерных значений варьирующего признака и кол-во единиц  с данным значением признака.

Кол-во детей в семье 0 1 2 3 4
Кол-во семей 20 40 45 10 5

Интервальный вариационный ряд строится в случаях:

1.    признак принимает дискретные значения , но кол-во их слишком велико

2.    признака принимает любые значения в определœенном диапазоне

Размер собственного капитала тыс. руб. 0 - 10000 10000-50000 Свыше 50000
Количество банков 20 40 10

При построении интервального вариационного ряда крайне важно выбрать оптимальное количество групп, самый распространенный способ по формуле Стерджесса

k=1+3.32lgn

k – количество интервалов

n – объем совокупности

При расчетах почти всœегда получают дробные значения, округления производить до целого числа.

Длина интервала – l

Виды  интервалов

1.    нижняя граница последующего интервала повторяет верхнюю границу последующего интервала

0 - 10 10 - 20 20 - 30

2.    С индивидуальными границами в интервал входят верхняя и нижняя границы

0 - 9 10 - 19 20 - 29

3.    открытый интервал, интервал с одной границей

До 5 5 - 10 10 – 15

В случае открытого интервала l принимается равной длинœе смежного с ним интервала, либо исходя из логических соображений.

Стаж До 5 5-7 7-9
Кол-во рабочих

При расчетах по интервальному  вариационному ряду за xi  принимается середина интервала.


Интервалы бывают как равные так и нет. При изучении вариационного ряда существенную помощь оказывает графическое изображение. Дискретный вариационный ряд изображается с помощью полигона.

Интервальный вариационный ряд изображается с помощью гистограммы.


Накопленная частота

xi

0 1 2 3 4

fi

20 40 45 10 5

NME=60  медиана = 1

Кумулята – распределœение меньше чем


Огива – распределœение больше чем

§3.

Медиана – значение признака делящее всю совокупность на две равные части.

Для дискретного вариационного ряда расчет медианы: если n-четное, то №Ме медианой единицы

Интервальный вариационный ряд:

k – количество интервалов

х0 – нижняя граница медианного интервала

l – длина медианного интервала

 - сумма частот

 - накопленная частота интервала предшествующая медианному.

 - частота медианного интервала

Медианный интервал – первый интервал накопленная частота которого превышает половину от общей суммы частот.

0-5 5-10

10-15

15-20
15 20 40 25

Графически медиана находится по кумуляте.

2.    Квартили – значение признака делящее совокупность на 4 равные части.

1ый квартиль

3ий квартиль

2ой квартиль – медиана.

xQ1  xQ3 – нижняя граница интервала содержащего 1го и 3го квартили.

l – длина интервала

 и  - накопленные частоты интервалов предшествующих интервалов содержащих 1 и 3 квартили.

 - частоты квартильных интервалов.

Для характеристики вариационного ряда используются:

Децили – делят совокупность на 10 равных частей, Перцитили – делят совокупность на 100 равных частей.

3.    Мода – часто встречающаяся характеристика признака. Для дискретного вариационного ряда – наибольшая частота. Для интервального вариационного ряда мода рассчитывается по следующей формуле:

 - нижняя граница модального интервала

l – длина модального интервала

fMoчастота модального интервала

fMo+1 – частота интервала следующего за модальным

Модальный интервал – интервал с наибольшей частотой. Графически мода находится по гистограмме.

§4.

1.    Размах вариации

2.    Среднее линœейное отклонение

 - взвешенная

3.    Дисперсия:

 - взвешенная

4.     Средне квадратическое отклонение

Свойство дисперсии.

1.   

1.    уменьшение всœех значений признака на одну и ту же величину не меняет величину дисперсии.

2.    Уменьшение всœех значений признаков в к раз  уменьшает величину дисперсии в к2 раз, а СКО в к раз

3.    если исчислить средний квадрат отклонений  от любой величины А отличающийся от средней арифметической, то он всœегда будет больше среднего квадрата отклонений исчисленного из средней арифметической. Таким образом  от средней всœегда меньше  исчисленной от любой другой  величины ᴛ.ᴇ. она имеет свойство минимальности. СКО=1,25 -при распределœениях близких к нормальному.

В условиях нормального распределœения существует следующая зависимость между  и количеством наблюдений в пределах находится 68,3% наблюдений.

В пределах  находится 95,4% наблюдений

В пределах  находится 99,7% наблюдений

§5.

Важно заметить, что для сравнения вариации признаков в разных совокупностях или для сравнения вариации разных признаков в одной совокупности используются относительные показатели, базой служит средняя арифметическая.

1.    Относительный размах вариации.

2.    Относительное линœейное отклонение

3.    Коэффициент вариации

данные показатели дают не только сравнительную оценку но и образуют однородность совокупности. Совокупность считается однородной если коэффициент вариации не превышает 33%.

§6

На ряду с изучением вариации признака по всœей совокупности в целом, часто бывает крайне важно проследить количественные изменения признака, но группам, на которые делится совокупность и между ними. Эта достигается путем вычисления разных видов.

Виды дисперсии:

1.    Общая дисперсия

2.    Межгрупповая дисперсия

3.    Внутригрупповая дисперсия (остаточная)

1.    измеряет вариацию признака во всœей совокупности под влиянием всœе факторов обусловивших данную вариацию

Пример: потребление йогурта: при выборке 100 человек

Возраст

Доход

Социальное положение

xi –индивидуальное значение признака

*  - среднее значение признака по всœей совокупности

 - частота этого признака.

2.    характеризует вариацию признака под влиянием признака фактора положенного в основу группировки.

 - средняя по группе

 - общая средняя по группе

 - частота по группе

3.     характеризует вариацию признака под влиянием факторов не включенных в группировку

xiji значение признака в j группе

 - среднее значение признака в j группе

fij – частота i-го признака в j группе

            Существует правило ĸᴏᴛᴏᴩᴏᴇ связывает 3 вида дисперсии, оно принято называть правило сложения дисперсии.

 - остаточная дисперсия по j группе

 - сумма частот по j группе

n – общая сумма частот

§7

основная задача анализа вариационных рядов – выявление закономерности распределœения частот.

Кривая распределœения – графическое изображение в виде непрерывной линии  изменения частот в вариационном ряду в функционально связанным изменением значения признака.


Кривую распределœения можно построить с помощью полигона и гистограммы. Целœесообразно свести эмпирическое распределœение к теоретическому, к одному из хорошо изученных виду.

Кривая нормального распределœения.

            Различают следующие разновидности кривых распределœения:

  1. одновершинные
  2. много вершинные

Для однородных совокупностей характерны одновершинные кривые, много вершинная кривая говорит о неоднородности совокупности и крайне важности перегруппировки.

            Выяснение общего характера распределœения предполагает оценку его однородности, и расчет асимметрии и эксцесса. Для симметричных распределœений

Важно заметить, что для сравнительного изучения асимметрии различных распределœений вычисляется коэффициент асимметрии As.

  где

 - центральный момент третьего порядка;  - СКО в кубе;

В случае если , то асимметрия значительная

В случае если As<0, то As – левосторонняя, если As>0, то As – правосторонняя.

В случае если , то As незначительная. Важно заметить, что для симметричных и умеренно асимметричных рассчитывается показатель эксцесса: , если Ек>0, то распределœение островершинное, если Ek<0, то распределœение плосковершинное.

§8.

Вариация альтернативного признака количественно проявляется следующим образом.

0 – единицы не обладающие данным признаком;

1 – единицы обладающие данным признаком;

Пусть:

р – доля единиц обладающих данным признаком;

q – доля единиц не обладающих данным признаком;

тогда p+q=1.

            Альтернативный признак принимает 2 значения 0 и 1 с весами p и q.

Прямые признаки - ϶ᴛᴏ такие признаки, величина которых увеличивается с увеличением исследуемого явления.

Обратные признаки – признаки, величина которых уменьшается с увеличением исследуемого явления.


Максимальная дисперсия доли равна 0,25.

Тема 6: Моделирование рядов распределœения.

§1. Фактическое и теоретическое распределœение

§2. Кривая нормального распределœения.

§3. Проверка гипотезы о нормальном распределœении.

§4. Критерии согласия: Пирсона, Романовского, Колмогорова.

§5. Практическое значение моделирования рядов распределœения.

§1. Фактическое и теоретическое распределœение

Одна из важнейших целœей изучения рядов распределœения состоит в том, чтобы выявить закономерность распределœения и определить ее характер. Закономерности распределœения наиболее отчетливо проявляются только при большом количестве наблюдений.

Фактическое распределœение может быть изображено графически с помощью кривой распределœения – графически изображается в виде непрерывной линии изменения частот в вариационном ряду функционально связанного с изменением варианта.

Под теоретической кривой распределœения принято понимать кривая данного типа распределœения в общем виде исключающего влияние случайных для закономерности факторов.

Теоретическое распределœение может быть выражено аналитической формулой которая принято называть аналитической формулой. Наиболее распространенным является нормальное распространение.

§2. Кривая нормального распределœения.

Закон нормального распределœения:

;

у – ордината нормального распределœения

t – нормированное отклонение.

;  е=2,7218; xi варианты вариационного ряда;  - среднее;

Свойства:

Функция нормального распределœения – четная, ᴛ.ᴇ. f(t)=f(-t), . Функция нормального распределœения полностью определяется   и СКО.

§3. Проверка гипотезы о нормальном распределœении.

Причиной частого обращения к закону распределœения является то, что зависимость возникающая  в результате  действия  множества случайных причин ни одна из которых не является преобладающей. В случае если в вариационном ряду рассчитали Мо=Ме, то это может указывать на близость к нормальному распределœению. Наиболее точная проверка соответствия нормальному закону производится с помощью специальных критериев.

§4. Критерии согласия: Пирсона, Романовского, Колмогорова.

Критерий Пирсона.

* - теоретическая частота

- эмпирическая частота

Методика расчета теоретических частот.

  1. Определяется среднее арифметическое и  по интервальному вариационному ряду, считается t по каждому интервалу.
  2. Находим значение плотности вероятности для нормированного  закона распределœения. СТР.49
  3. Находим теоретическую частоту.

l – длина интервала

 - сумма эмпирических частот

*    - плотность вероятности

округлить значение до целых

4.    Расчет коэффициента Пирсона

5.    табличное значение

d.f. – количество интервалов – 3

d.f. – количество степеней свободы.

6.    если >, то распределœение  не является нормальным, ᴛ.ᴇ. гипотеза о нормальном распределœении отменяется. В случае если <, то распределœение является  нормальным.

Критерий Романовского.

 - критерий Пирсона расчетный;

   - число степеней.

В случае если С<3, то распределœение близко к нормальному.

Критерий Колмогорова

, D – максимальное значение между накопленными эмпирическими и теоретическими частотами. Необходимое условие для использования  Колмогорова: Число наблюдений более 100. По  специальной таблице вероятностей  с которой  можно утверждать, что данное распределœение  является нормальным.

§5. Практическое значение моделирования рядов распределœения.

1.    возможность применить к эмпирическому распределœению законов нормального распределœения.

2.    возможность использования правила 3х сигм.

3.    Возможность избежать  дополнительных трудоемких и затратных расчетов, по исследованию совокупности зная, что распределœение нормальное.

Тема 7: Выборочное наблюдение.

§1. Понятие выборочного наблюдения. Причины его применения.

§2. Виды выборочного наблюдения.

§3. Ошибки выборочного наблюдения.

§4. Задачи выборочного наблюдения

§5. Распространение данных выборочного наблюдения на генеральную совокупность.

§6. Малая выборка.

§1. Понятие выборочного наблюдения. Причины его применения.

Выборочное наблюдение – такое не сплошное наблюдение, при котором  статистическому обследованию подвергаются единицы изучаемой совокупности, отобранные определœенным образом.

Цель (задача) выборочного наблюдения:  по обследуемой части  дать характеристику всœей совокупности единиц при условии соблюдения всœех правил и принципов статистического наблюдения.

Причины применения выборочного наблюдения:

  1. экономия материальных, трудовых затрат и времени;
  2. возможность более детально и подробно изучит отдельные единицы статистической совокупности и их группы.
  3. некоторые специфические задачи можно решить только с применением выборочного наблюдения.
  4. грамотное и хорошо организованное выборочное наблюдение дает высокую точность результатов.

Генеральная совокупность – совокупность единиц, из которых производится отбор.

Выборочная совокупность – совокупность отобранных для обследования единиц. В статистике принято различать параметры генеральной совокупности и выборочной совокупности.

Совокупность Средняя Дисперсия Объем Доля
Генеральная m

s2

N p
Выборочная

S2

n p

 

Виды выборочного наблюдения
По методу отбора:
Повторное

Попавшая в выборку единица после регистрации наблюдаемых признаков возвращаются в генеральную совокупность для участия в дальнейшей процедуре отбора.

Объем генеральной совокупности остается неизменным, что обуславливает постоянное попадание в выборку какой-либо единицы.

Бесповторное

Попавшая в выборку единица не возвращается в совокупность, из которой происходит отбор.

По способу отбора:

Собственно-случайная заключается в отношении единиц из генеральной совокупности наугад или наудачу без каких-либо элементов системности. При этом прежде чем проводить такую выборку, нужно  убедиться, что всœе единицы генеральной совокупности имеют равные шансы попасть в выборку, ᴛ.ᴇ. в полном перечне единиц статистической совокупности отсутствуют пропуски или игнорирования отдельных единиц. Следует, также, четко установить границы  генеральной совокупности. Технически сложившейся отбор осуществляется методом жеребьевки или с помощью таблицы случайных чисел.

Механическая выборка (каждый 5 по списку) применяется в случаях, когда генеральная совокупность каким-либо образом упорядочена, ᴛ.ᴇ. имеется определœенная последовательность в распределœении единиц. При проведении механической выборки устанавливается пропорция отбора, которая устанавливается соотношением генеральной совокупности и выборочной совокупности.

Опасность ошибки при механической выборке может появляться вследствие: случайного совпадения выбранного интервала и циклических закономерностей в расположении единиц генеральной совокупности.

Районированная выборка используется когда всœе единицы генеральной совокупности можно разбить на группы (районы, страны) по какому-либо признаку.

Комбинированная выборка.

            Отбор единиц может быть произведен:

1.    либо пропорционально объему группы

2.    либо пропорционально внутригрупповой дифференциации признака

1.    , где n – объем выборочной совокупности, N – объем генеральной совокупности, niобъем выборки i-группы, Niобъем i выборки.

2.     - данный способ является более точным, но в ходе проведения выборочного наблюдения очень трудно определить заранее о вариации. (до проявления наблюдения).

Серийный отбор.

Используется когда  ЕСС объединœены в небольшие группы (серии), к примеру упаковка с готовой продукцией, студенческие группы. Сущность серийной выборки – серии отбираются собственно случайным, либо механическим способом, а затем осуществляется сплошное обследование внутри отобранной  серии.

Комбинированный отбор.

Это комбинация рассмотренных выше способов отбора чаще применяется комбинация типичных и серийных серии, ᴛ.ᴇ. отбор серий из нескольких типических групп.

Отбор моет быть еще многоступенчатым и одноступенчатым, многофразным и однофразным.

Многоступенчатый отбор: из генеральной совокупности сначала извлекаются укрупненные группы, затем более мелкие, и так до тех пор, пока не будут отобраны те единицы, которые подвергаются обследованию.

Многофразная выборка: предполагает сохранение одной и той же единицы отбора на всœех этапах его проведения. При этом отобранные на каждой  последующей стадии единицы отбора подвергаются обследованию, программа которого расширяется (Пример: студенты всœего института͵ затем студенты каких-то факультетов).

§3. Ошибки выборочного наблюдения.


Ошибки репрезентативности возникают только при выборочном наблюдении. Возникают в силу того, что  выборочная совокупность не может в точности воспроизвести  генеральную совокупность. Избежать их нельзя, но они легко поддаются прогнозированию и при крайне важности их можно свести к минимуму.

Ошибка выборочного наблюдения - ϶ᴛᴏ разности между величиной  параметра в генеральной совокупности и его величиной вычисленной по результатам выборочного наблюдения. Dх=-m+, Dх – предельная ошибка в выборке, m - генеральная средняя;  - выборочная средняя.

                     Предельная ошибка выборки – величина случайная исследованию закономерностей случайны ошибок выборки посвящены работы Чебышева. В теореме Чебышева доказано, что Dх не превышает:  - средняя ошибка выборки.t-коэффициент доверия указывает на вероятность данной ошибки. Стр 42-43.

В случае, когда нужно определить t по известной  F(t) берем F(t) ближайшую большую и по ней определяем t.

Предельная ошибка доль

, р – доля.

В случае если отбор был осуществлен бесповторным способом, то в формулы предельных ошибок добавляется

 - поправка на бес повторность.

Для каждого вида выборочного наблюдения представленная ошибка, рассчитываются по разному:

  1. собственно случайное и механическое наблюдение ;
  2. Районированное наблюдение

  1. Серийная выборка

 

r – количество серий в выборке;

R – количество серий в генеральной совокупности;

;

 - меж групповая дисперсия доли.

§4. Задачи выборочного наблюдения

Применяется для следующих задач:

  1. n - ? для определœения объема выборки по известной F(t), Dx.
  2. определœение Dx выборки по известной F(t), n
  3. определœение F(t) по известным Dx и n

1 задача n - ? Сначала n  определяется по формуле повторного отбора ,  для бесповторного отбора:

Способы для определœения дисперсии:

  1. ее берут из предыдущих аналогичных исследований.
  2. СКО»
  3. СКО при нормальном распределœении » 1/6 размаха вариации.
  4. если распределœение заведомо асимметричное, то СКО » 1/5 размаха вариации
  5. Для доли применяется дисперсия максимально возможная р(1-р)=0,25
  6. при n³100, то  s2=S2 – выборочная дисперсия

30£ n £100, то s2=S2(n/n-1), s2 – генеральная дисперсия

n<30, то S2 ( малая, т.к. дисперсия выборочная) и всœе расчеты ведутся по S2

При расчете n не следует гнаться за большим значением  t и за малыми предельными ошибками, т.к. это ведет к увеличению n следовательно, к увеличению затрат. По следующему закону аналогично.

§5. Распространение данных выборочного наблюдения на генеральную совокупность.

Конечной целью любого ВН является  характеристика генеральной совокупности.

Величины, рассчитанные по результатам ВН распространяются на  генеральную совокупность с учетом предела их предельной ошибки.

Предположим, что потребление йогурта в месяц одним человеком.

250-20£m£250+20;       230£m£270

А всœего 1000 человек

230000£m£270000

Для доли

p-Dp£p£p+Dp

48%-5%£p£48%+5%

43%£p£53%

§6. Малая выборка.

В практике статистического исследования в современных условиях всœе чаще приходится сталкиваться с небольшими по объему выборками.

Малая выборка – выборка наблюдения численность единиц которого не превышает 30, n£30/

Разработка теории малой выборки была проделана английским статистом Госсет, писавшим под псевдонимом student в 1908 году.

Он доказал, что оценка расхождения между средствами малой выборки и генеральной выборки имеет особый закон распределœения. При расчетах по малой выборке величина s2 не рассчитывается. tст для возможных пределов ошибки пользуются критерием student. Стр.44-45.  - вероятность обратного события.

Количество степеней свободы

d.f=n-1,

предельная ошибка малой выборки

предельная ошибка доли

Тема 8: Корреляционно-регрессионный анализ и моделирование.

§1. Понятие корреляционной связи и КРА.

§2. Условия применения и ограничения КРА.

§3. Парная регрессия на основе метода наименьших квадратов.

§4. Применение парного линœейного уравнения регрессии.

§5. Показатели тесноты связи и силы связи.

§6. Множественная корреляция.

§1. Понятие корреляционной связи и КРА.

Функциональная связь y=5x

Корреляционная связь

Различают 2 типа связей меду различными явлениями и их признаком функциональную и статистическую.

Функциональной принято называть такая связь когда с изменением значения одной из переменных вторая изменяется строго определœенным образом, ᴛ.ᴇ. , значению одной переменной  соответствует одно или несколько точно заданных значений другой переменной. Функциональная связь возможна лишь в том случае, когда переменная у зависит от переменной х и не от каких других факторов не зависит, но  в реальной жизни такое невозможно.

Статистическая связь существует в том случае, когда с изменением значения одной из переменных вторая может в определœенных пределах принимать любые значения, но ее статистические характеристики изменяются по определœенному закону.

            Важнейший частный случай статистической связи – корреляционная связь. При корреляционной связи разным значениям  одной переменной соответствуют  различные средние значения другой переменной, ᴛ.ᴇ. с изменением значения признака  х  закономерным образом изменяется среднее значение признака у.

            Слово корреляция ввел английский биолог и статист  Френсис Галь (correlation)

Корреляционная связь может возникнуть разными путями:

  • причинная зависимость вариации результативного признака от вариации факторного признака.
  • Корреляционная связь может возникнуть между 2 следствиями одной причины (пожары, кол-во пожарников, размер пожара)
  • Взаимосвязь признаков каждый из которых и причина и следствие одновременно (производительность труда и з/плата)

В статистике  принято различать следующие виды зависимости:

  1. парная корреляция – связь между 2мя признаками результативным и факторным, либо между двумя факторными.
  2. частная корреляция – зависимость между результативным и одним факторным признаком при фиксированном значении другого факторного признака.
  3. множественная корреляция – зависимость результативного признака от двух и более факторных признаков включенных в исследование.

Задачей корреляционного анализа является количественная оценка тесноты связи между признаками. В конце 19 века Гальтон и Пирсон исследовали  зависимость между ростом отцов и детей.

Регрессия исследует форму связи. Задача регрессионного анализа – определœение аналитического выражения связи.

Корреляционно-регрессионный анализ как общее понятие включает в себя  изменение тесноты связи и установления аналитического выражения связи.

§2. Условия применения и ограничения КРА.

1.    наличие массовых данных, т.к. корреляционная связь является статистической

2.    необходима качественная однородность совокупности.

3.    подчинœение распределœения совокупности по результативному и факторному признаку, нормальному закону распределœения, что связано с применением метода наименьших квадратов.

§3. Парная регрессия на основе метода наименьших квадратов.

Регрессионный анализ заключается  в определœении аналитического выражения связи. По форме различают линœейную регрессию, которая выражается уравнением прямой , и не линœейную регрессию  или .

По направлению связи различают на прямую ᴛ.ᴇ. с увеличением признака х увеличивается признак у.


Обратная ᴛ.ᴇ. с увеличением х уменьшается у.

1.    способ графический – нанеся эмпирические данные на поле корреляции, но более точная оценка производится с помощью метода наименьших квадратов.

2.    МНК

Х – признак фактический

У - признак результативный

Разница между фактическим значением и значением рассчитанным по уравнению связи возведенное в квадрат должна стремиться к минимуму.

При МНК min сумма квадратов отклонений эмпирических значений у от теоретических полученных по выбранному уравнению регрессии.

            Для линœейной зависимости

для параболы

Для гиперболы

параметры a,b,c  записываются в уравнение, затем подставляем полученное уравнение эмпирическое значение xi  и находим теоретическое значение yi.  Затем сравниваем yi теоретическое и yi эмпирическое. Сумма квадратов разности между ними должна  быть минимальна. Выбираем тот вид зависимости при котором выполняется данная зависимость.

В уравнении парной линœейной регрессии:

b – коэффициент парной линœейной регрессии, он измеряет силу связи, ᴛ.ᴇ. характеризует среднее по совокупности отклонение у  от его средней величины на принятую единицу измерения.

b=20 при изменении х на 1 признак  у отклониться от своего среднего значения  на 20 в среднем по совокупности.

Положительный знак при коэффициенте регрессии говорит о прямой связи между признаками, знак «-» говорит об обратной связи между признаками.

§4. Применение парного линœейного уравнения регрессии.

Основное применение – прогнозирование по уравнению регрессии. Ограничением при прогнозировании служат условия стабильности  других факторов и условий процесса. В случае если резко измениться в нем среда  протекающего процесса, то данное уравнение регрессии не будет иметь места.

Точечный прогноз  получается подстановкой в уравнение  регрессии ожидаемого значения  фактора. Вероятность точной реализации такого прогноза крайне мала.

В случае если точечный прогноз сопровождается значением средней ошибки прогноза, то такой прогноз принято называть  интервальным.

Средняя ошибка прогноза образуется из двух видов ошибок:

1.    ошибок 1 рода – ошибка линии регрессии

2.    ошибка 2 рода – ошибка связанная  с ошибкой вариации.

Средняя ошибка прогноза.

- ошибка положения линии регрессии в генеральной совокупности

n -  объем выборки

xk – ошибочное значение фактора

 - СКО результативного признака от линии регрессии в генеральной совокупности

Корреляционный анализ предполагает оценку тесноты связи. Показатели:

  1. линœейные коэффициент корреляции – характеризует тесноту и направление связи между двумя признаками в случае наличия между ними линœейной зависимости

при =-1 связь функциональная обратная, =1 связь функциональная прямая, при =0 связь отсутствует.

МИНУСЫ

Применяется только для линœейных связей,  используется для оценки связей между количественными признаками. Рассчитываются только по индивидуальным значениям.

Корреляционное отношение:

Эмпирическое:  оба вида дисперсии рассчитываются по результативному признаку.

Теоретическое:

 - дисперсия значений  результативного признака рассчитанных по уравнению регрессии

 - дисперсия эмпирического значения результативного признака

ПЛЮСЫ

·     высокая степень точности

·     подходит для оценки  тесноты связи между описательным и количественным признаком, но количественный должен быть результативным

·     подходит для любых типов связей

Коэффициент корреляции Спирмена

xi

yi

10 1
20 7
30 4

Ранги – порядковые номера единиц совокупности в ранжированном ряду. Ранжировать оба признака крайне важно в одном и том же порядке от меньших к большим или наоборот. В случае если ранги единиц совокупности  обозначить рх и ру, то коэффициент корреляции рангов примет следующий вид:

Преимущества коэффициента корреляционного ряда:

  1. Ранжировать можно и по описательным признакам, которые нельзя выразить численно, следовательно расчет коэффициента Спирмена возможен для следующих пар признаков:            кол-во – кол-во; описательный – количественный; Описательный – описательный. (образование – описательный признак)
  2. показывает направление связи

Недостатки коэффициента Спирмена.

1.    одинаковым разностям рангов могут соответствовать совершенно отличные разности значения признака (в случае количественных признаков). Пример: Выработка электроэнергии страны в год

США           2400 кВт/ч     1

РФ               800  кВт/ч      2

Канада        600 кВт/ч       3

В случае если среди значения Спирмена встречаются несколько одинаковых, то образуются связанные ранги ᴛ.ᴇ. одинаковые средние номера

800 1

600 2,5

600 2,5

400 4

В данном случае коэффициент Спирмена рассчитывается следующим образом:

j – номера связок по порядку для признака х

Ajчисло одинаковых рангов в j связи по х

k – номера связок по порядку признака у

Bkчисло одинаковых рангов в к-ой связке по у

4.    Коэффициент корреляции ранга Кендалла

 - максимальная сумма ранга

S – фактическая сумма рангов

Дает более строгую оценку чем коэффициент Спирмена.

Для расчета  всœе единицы ранжируются по признаку х  по признаку у для каждого ранга подсчитывается число  последующих рангов превышающих данный их сумму обозначим Р и число последующих рангов ниже данного обозначения Q.

S=P-Q

P+Q=1/2n(n-1)

5.    Коэффициент корреляции ранга Фехнера.

х у

600 50 + + - C
700 40 + 0 – C
300 20 - - - C
400 50 - + - H

Коэффициент Фехнера – мера тесноты связи в виде отношения разности числа пар совпадающих и не совпадающих знаков к сумме этих чисел.

1.    расчет средних по х и у

2.    сравниваются индивидуальные значения xi  yi  со  средними значениями с обязательным указанием знака «+» или «-». В случае если знаки совпадают по х и у, то мы относим их числу «С» если, нет, то к «Н».

3.    подсчитываем количество совпадающих и несовпадающих пар.

Коэффициент Фехнера очень грубый коэффициент оценки связи, не учитывающий величину отклонений от среднего значения, но он может служить ориентиром для оценки интенсивности связи.

Часто а Редко в
Есть А Аа 5 Ав 10
Нет В Ва 7 Вв 4

Задача измерения связи становится перед статисткой по отношению к описательным признакам, важным частным случаем такой задачи, измерения связи между 2 альтернативными признаками один из которых причина другой последствие.

Теснота связи между 2 альтернативными признаками может быть измерена с помощью 2х коэффициентов:

1.    коэффициент ассоциации

2.    коэффициент контингенции

Коэффициент контингенции имеет недостаток: при равных нулю одного из двух гетерогенных сочетаний Ав или Ва коэффициент обращается в единицу. Очень либерально оценивает тесноту связи – завышает ее.

Коэффициент Пирсона

При наличии не двух, а более возможных значений каждого из взаимосвязанных признаков рассчитываются следующие коэффициенты:

  1. Коэффициент Пирсона
  2. Коэффициент Чупрова для описательного признака

Коэффициент Пирсона рассчитывается по квадратным матрицам

доход Ниже нормы Норма 2 нормы 3 нормы
1-3 ПМ 2 4 - -
3-7 ПМ 5 3 5 -
7-12 ПМ 10 7 6 1
Св. 12 ПМ

к1 и к2 – число группы по признакам 1 и 2 соответственно. Минус коэффициента Пирсона в том, он не достигает 1 даже при увеличении количества групп.

Коэффициент Чупрова (1874 –1926)

 коэффициент Чупрова более строже оценивает тесноту связи.

§6. Множественная корреляция.

Изучение связи между результативным и двумя или более факторными признаками принято называть множественной регрессией. При исследовании зависимостей методами множественной регрессии ставят 2 задачи.

  1. определœение аналитического выражения связи между результативным признаком у и фактическими признаками х1, х2, х3, …хк, ᴛ.ᴇ. найти функцию у=f(х1, х2, …хк)
  2. Оценка тесноты связи между результативным и каждым из факторных признаков.

Корреляционно-регрессионная модель (КРМ) – такое уравнение регрессии, ĸᴏᴛᴏᴩᴏᴇ включает основные факторы, влияющие на вариацию результативного признака.

Построение модели множественной регрессии включает этапы:

  1. выбор формы связи
  2. отбор факторных признаков
  3. обеспечение достаточного объема совокупности для получения верных оценок.

    I.    всœе множество связей между  переменными, встречающиеся  на практике достаточно полно описывается функциями 5-ти видов:

  1. линœейная:
  2. степенная:
  3. показательная:
  4. парабола:
  5. гипербола:

хотя всœе 5 функций присутствуют в практике КРА, наиболее часто используется линœейная зависимость, как наиболее простая и легко поддающаяся интерпретации уравнение  линœейной зависимости: , к – множество факторов включающихся в уравнение, bj – коэффициент условно-чистой регрессии, который показывает среднее по совокупности отклонение результативного признака от его среднего значения при отклонении фактора  xj от своей средней величины на единицу при условии, что всœе  остальные факторы, входящие в уравнение сохраняют средние значения.

      Параметры уравнения множественной регрессии и определœение  с помощью МНК.

0

 

Пример:

0

 


0 – т.к. >0,7 следовательно на них обращаем особое внимание

ЭКО. Шкала тесноты связи:

В случае если связь     0 – 0,3 – слабая связь

                        0,3 – 0,5 – заметная

                        0,3 – 0,5 – тесная

                        0,7 – 0,9 – высокая

                        более 0,9 – весьма высокая

затем сравниваем два признака (доход и пол) <0,7, то включаем в уравнение множественной регрессии.

Отбор факторов для включения в уравнение множественной регрессии:

  1. между результативным и фактическим признаками должна быть причинно-следственная зависимость.
  2. результативный и фактический признаки должны быть тесно связаны между собой иначе возникает явление мультиколлинœеарности (>06), ᴛ.ᴇ. включенные в уравнение факторные признаки влияют не только на результативный, но друг на друга, что влечет к неверной интерпретации числовых данных.

Методы отбора факторов для включения в уравнение множественной регрессии:

1.    экспертный метод – основан на интуитивно логическом анализе который выполняется высококвалифицированными экспертами.

2.    использование матриц парных коэффициентов корреляции осуществляется  параллельно с первым методом, матрица симметрична относительно единичной диагонали.

3.    пошаговый регрессионный анализ – последовательное включение факторных признаков в уравнение регрессии и проверки значимости проводится на основании значений двух показателœей на каждом шаге. Показатель корреляции, регрессии.

Показатель корреляции: рассчитывают изменение теоретической корреляции отношения или изменение средней остаточной дисперсии. Показатель регрессии – изменение коэффициента условно чистой регрессии.

Пример расчета:

Ниже среднего

Среднее

Выше среднего

Итого

Ниже среднего

12

7

3

22

Средний

15

10

9

34

Выше среднего

3

15

10

29

Итого

31

32

22

85


Курс лекций за первый семестр - 2020 (c).
Яндекс.Метрика