• Основы линейной регрессии. Методы математической статистики. Регрессионный анализ

    ВЫВОД ИТОГОВ

    Таблица 8.3а. Регрессионная статистика
    Регрессионная статистика
    Множественный R 0,998364
    R-квадрат 0,99673
    Нормированный R-квадрат 0,996321
    Стандартная ошибка 0,42405
    Наблюдения 10

    Сначала рассмотрим верхнюю часть расчетов, представленную в таблице 8.3а , - регрессионную статистику.

    Величина R-квадрат , называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала .

    В большинстве случаев значение R-квадрат находится между этими значениями, называемыми экстремальными, т.е. между нулем и единицей.

    Если значение R-квадрата близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение R-квадрата , близкое к нулю, означает плохое качество построенной модели.

    В нашем примере мера определенности равна 0,99673, что говорит об очень хорошей подгонке регрессионной прямой к исходным данным.

    Множественный R - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных (X) и зависимой переменной (Y).

    Множественный R равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы.

    В простом линейном регрессионном анализе множественный R равен коэффициенту корреляции Пирсона. Действительно, множественный R в нашем случае равен коэффициенту корреляции Пирсона из предыдущего примера (0,998364).

    Таблица 8.3б. Коэффициенты регрессии
    Коэффициенты Стандартная ошибка t-статистика
    Y-пересечение 2,694545455 0,33176878 8,121757129
    Переменная X 1 2,305454545 0,04668634 49,38177965
    * Приведен усеченный вариант расчетов

    Теперь рассмотрим среднюю часть расчетов, представленную в таблице 8.3б . Здесь даны коэффициент регрессии b (2,305454545) и смещение по оси ординат, т.е. константа a (2,694545455).

    Исходя из расчетов, можем записать уравнение регрессии таким образом:

    Y= x*2,305454545+2,694545455

    Направление связи между переменными определяется на основании знаков (отрицательный или положительный) коэффициентов регрессии (коэффициента b).

    Если знак при коэффициенте регрессии - положительный, связь зависимой переменной с независимой будет положительной. В нашем случае знак коэффициента регрессии положительный, следовательно, связь также является положительной.

    Если знак при коэффициенте регрессии - отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).

    В таблице 8.3в . представлены результаты вывода остатков . Для того чтобы эти результаты появились в отчете, необходимо при запуске инструмента "Регрессия" активировать чекбокс "Остатки".

    ВЫВОД ОСТАТКА

    Таблица 8.3в. Остатки
    Наблюдение Предсказанное Y Остатки Стандартные остатки
    1 9,610909091 -0,610909091 -1,528044662
    2 7,305454545 -0,305454545 -0,764022331
    3 11,91636364 0,083636364 0,209196591
    4 14,22181818 0,778181818 1,946437843
    5 16,52727273 0,472727273 1,182415512
    6 18,83272727 0,167272727 0,418393181
    7 21,13818182 -0,138181818 -0,34562915
    8 23,44363636 -0,043636364 -0,109146047
    9 25,74909091 -0,149090909 -0,372915662
    10 28,05454545 -0,254545455 -0,636685276

    При помощи этой части отчета мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее абсолютное значение

    Оценка качества уравнения регрессии при помощи коэффициентов детерминации. Проверка нулевой гипотезы о значимости уравнения и показателей тесноты связи с помощью F-критерия Фишера.

    Стандартные ошибки коэффициентов.

    Уравнение регрессии имеет вид:

    Y =3378,41 -494,59X 1 -35,00X 2 +75,74X 3 -15,81X 4 +80,10X 5 +59,84X 6 +
    (1304,48) (226,77) (10,31) (277,57) (287,54) (35,31) (150,93)
    +127,98X 7 -78,10X 8 -437,57X 9 +451,26X 10 -299,91X 11 -14,93X 12 -369,65X 13 (9)
    (22,35) (31,19) (97,68) (331,79) (127,84) 86,06 (105,08)

    Для заполнения таблицы «Регрессионная статистика» (Таблица 9) находим:

    1. Множественный R – r-коэффициент корреляции между у и ŷ.

    Для этого следует воспользоваться функцией КОРРЕЛ, введя массивы у и ŷ.

    Полученное в результате число 0,99 близко к 1, что показывает очень сильную связь между опытными данными и расчетными.

    2. Для расчета R-квадрат находим:

    Объясняемая ошибка 17455259,48,

    Необъясняемая ошибка .

    Следовательно, R-квадрат равен .

    Соответственно 97% опытных данных объяснимы полученным уравнением регрессии.

    3. Нормированный R-квадрат находим по формуле

    Этот показатель служит для сравнения разных моделей регрессии при изменении состава объясняющих переменных.

    4. Стандартная ошибка – квадратный корень из выборочной остаточной дисперсии:

    В результате получаем следующую таблицу.

    Таблица 9.

    Заполнение таблицы «Дисперсионный анализ»

    Большая часть данных уже получена выше. (Объясняемая и необъясняемая ошибка).

    Рассчитаем t wx:val="Cambria Math"/>13 = 1342712,27"> .



    Оценку статистической значимости уравнения регрессии в целом проведем с помощью F -критерия Фишера. Уравнение множественной регрессии значимо (иначе – гипотеза H 0 о равенстве нулю параметров регрессионной модели, т.е. отвергается), если

    , (10)

    где - табличное значение F-критерия Фишера.

    Фактическое значение F - критерия по формуле составит:

    Для расчета табличного значения критерия Фишера используется функция FРАСПОБР (Рисунок 4).

    Степень свободы 1: p=13

    Степень свободы 2: n-p-1 = 20-13-1=6

    Рисунок 4. Использование функции FРАСПОБР в Excel.

    F табл = 3,976 < 16,88, следовательно, модель адекватна опытным данным.

    Значимость F рассчитывается с помощью функции FРАСП. Эта функция возвращает F-распределение вероятности (распределение Фишера) и позволяет определить, имеют ли два множества данных различные степени разброса результатов.

    Рисунок 5. Использование функции FРАСП в Excel.

    Значимость F = 0,001.

    ОТЧЕТ

    Задание: рассмотреть процедуру регрессионного анализа на основе данных (цена продажи и жилая площадь) о 23 объектах недвижимости.

    Режим работы "Регрессия" служит для расчета параметров уравнения линейной регрессии и проверки его адекватности исследуемому процессу.

    Для решения задачи регрессионного анализа в MS Excel выбираем в меню Сервис команду Анализ данных и инструмент анализа "Регрессия ".

    В появившемся диалоговом окне задаем следующие параметры:

    1. Входной интервал Y - это диапазон данных по результативному признаку. Он должен состоять из одного столбца.

    2. Входной интервал X - это диапазон ячеек, содержащих значения факторов (независимых переменных). Число входных диапазонов (столбцов) должно быть не больше 16.

    3. Флажок Метки , устанавливается втом случае, если в первой строке диапазона стоит заголовок.

    4. Флажок Уровень надежности активизируется, если в поле, находящееся рядом с ним необходимо ввести уровень надежности, отличный от установленного по умолчанию. Используется для проверки значимости коэффициента детерминации R 2 и коэффициентов регрессии.

    5. Константа ноль. Данный флажок необходимо установить, если линия регрессии должна пройти через начало координат (а 0 =0).

    6. Выходной интервал/ Новый рабочий лист/ Новая рабочая книга - указать адрес верхней левой ячейки выходного диапазона.

    7. Флажки в группе Остатки устанавливаются, если необходимо включить в выходной диапазон соответствующие столбцы или графики.

    8. Флажок График нормальной вероятности необходимо сделать активным, если требуется вывести на лист точечный график зависимости наблюдаемых значений Y от автоматически формируемых интервалов персентилей.

    После нажатия кнопки ОК в выходном диапазоне получаем отчет.

    С помощью набора средств анализа данных выполним регрессионный анализ исходных данных.

    Инструмент анализа "Регрессия" применяется для подбора параметров уравнения регрессии с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или нескольких независимых переменных.

    ТАБЛИЦА РЕГРЕССИОННАЯ СТАТИСТИКА

    Величина множественный R - это корень из коэффициента детерминации (R-квадрат). Также его называют индексом корреляции или множественным коэффициентом корреляции. Выражает степень зависимости независимых переменных (X1, X2) и зависимой переменной (Y) и равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы. В нашем случае он равен 0,7, что говорит о существенной связи между переменными.

    Величина R-квадрат (коэффициент детерминации) , называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала .

    В нашем случае величина R-квадрат равна 0,48 , т.е. почти 50%, что говорит о слабой подгонке регрессионной прямой к исходным данным.Т.к. найденная величина R-квадрат = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

    Нормированный R-квадрат - это тот же коэффициент детерминации, но скорректированный на величину выборки.

    Норм.R-квадрат=1-(1-R-квадрат)*((n-1)/(n-k)),

    регрессионный анализ линейный уравнение

    где n - число наблюдений; k - число параметров. Нормированный R-квадрат предпочтительнее использовать в случае добавления новых регрессоров (факторов), т.к. при их увеличении будет также увеличиваться значение R-квадрат, однако это не будет свидетельствовать об улучшении модели. Так как в нашем случае полученная величина равна 0,43 (что отличается от R-квадрат всего на 0,05), то можно говорить о высоком доверии коэффициенту R-квадрат.

    Стандартная ошибка показывает качество аппроксимации (приближения) результатов наблюдений. В нашем случае ошибка равна 5,1. Рассчитаем в процентах: 5,1/(57,4-40,1)=0,294 ? 29% (Модель считается лучше, когда стандартная ошибка составляет <30%)

    Наблюдения - указывается число наблюдаемых значений (23).

    ТАБЛИЦА ДИСПЕРСИОННЫЙ АНАЛИЗ

    Для получения уравнения регрессии определяется -статистика - характеристика точности уравнения регрессии, представляющая собой отношение той части дисперсии зависимой переменной которая объяснена уравнением регрессии к необъясненной (остаточной) части дисперсии.

    В столбце df - приводится число степеней свободы k.

    Для регрессии это число регрессоров (факторов) - X1 (площадь) и X2 (оценка), т.е. k=2.

    Для остатка это величина, равная n-(m+1), т.е. число исходных точек (23) минус число коэффициентов (2) и минус свободный член (1).

    В столбце SS - суммы квадратов отклонений от среднего значения результирующего признака. В нем представлены:

    Регрессионная сумма квадратов отклонений от среднего значения результирующего признака теоретических значений, рассчитанных по регрессионному уравнению.

    Остаточная сумма отклонений исходных значений от теоретических значений.

    Общая сумма квадратов отклонений исходных значений от результирующего признака.

    Чем больше регрессионная сумма квадратов отклонений (или чем меньше остаточная сумма), тем лучше регрессионное уравнение аппроксимирует облако исходных точек. В нашем случае остаточная сумма составляет около 50%. Следовательно, уравнение регрессии очень слабо аппроксимирует облако исходных точек.

    В столбце MS - несмещенные выборочные дисперсии, регрессионная и остаточная.

    В столбце F вычислено значение критериальной статистики для проверки значимости уравнения регрессии.

    Для осуществления статистической проверки значимости уравнения регрессии формулируется нулевая гипотеза об отсутствии связи между переменными (все коэффициенты при переменных равны нулю) и выбирается уровень значимости.

    Уровень значимости - это допустимая вероятность совершить ошибку первого рода - отвергнуть в результате проверки верную нулевую гипотезу. В рассматриваемом случае совершить ошибку первого рода означает признать по выборке наличие связи между переменными в генеральной совокупности, когда на самом деле ее там нет. Обычно уровень значимости принимается равным 5%. Сравнивая полученное значение = 9,4 с табличным значением = 3,5 (число степеней свободы 2 и 20 соответственно) можно говорить о том, что уравнение регрессии значимо (F>Fкр).

    В столбце значимость F вычисляется вероятность полученного значения критериальной статистике. Так как в нашем случае это значение = 0,00123, что меньше 0,05 то можно говорить о том, что уравнение регрессии (зависимость) значимо с вероятностью 95%.

    Два выше описанных столба показывают надежность модели в целом.

    Следующая таблица содержит коэффициенты для регрессоров и их оценки.

    Строка Y-пересечение не связана ни с каким регрессором, это свободный коэффициент.

    В столбце коэффициенты записаны значения коэффициентов уравнения регрессии. Таким образом, получилось уравнение:

    Y=25,6+0,009X1+0,346X2

    Регрессионное уравнение должно проходить через центр облака исходных точек: 13,02?M(b)?38,26

    Далее сравниваем попарно значения столбцов Коэффициенты и Стандартная ошибка. Видно, что в нашем случае, все абсолютные значения коэффициентов превосходят значения стандартных ошибок. Это может свидетельствовать о значимости регрессоров, однако, это грубый анализ. Столбец t-статистика содержит более точную оценку значимости коэффициентов.

    В столбце t-статистика содержатся значения t-критерия, рассчитанные по формуле:

    t=(Коэффициент)/(Стандартная ошибка)

    Этот критерий имеет распределение Стьюдента с числом степеней свободы

    n-(k+1)=23-(2+1)=20

    По таблице Стьюдента находим значение tтабл=2,086. Сравнивая

    t с tтабл получаем, что коэффициент регрессора X2 незначим.

    Столбец p-значение представляет вероятность того, что критическое значение статистики используемого критерия (статистики Стьюдента) превысит значение, вычисленное по выборке. В данном случае сравниваем p-значения с выбранным уровнем значимости (0.05). Видно, что незначимым можно считать только коэффициент регрессора X2=0.08>0,05

    В столбцах нижние 95% и верхние 95% приводятся границы доверительных интервалов с надежностью 95%. Для каждого коэффициента свои границы: Коэффициентtтабл*Стандартная ошибка

    Доверительные интервалы строятся только для статистически значимых величин.

    В своих работах, датированных ещё 1908 годом. Он описал его на примере работы агента, осуществляющего продажу недвижимости. В своих записях специалист по торговле домами вёл учёт широкого спектра исходных данных каждого конкретного строения. По результатам торгов определялось, какой фактор имел наибольшее влияние на цену сделки.

    Анализ большого количества сделок дал интересные результаты. На конечную стоимость оказывали влияние множество факторов, иногда приводя к парадоксальным выводам и даже к явным «выбросам», когда дом с высоким изначальным потенциалом продавался по заниженному ценовому показателю.

    Вторым примером применения подобного анализа приведена работа которому было доверено определение вознаграждения сотрудникам. Сложность задачи заключалась в том, что требовалась не раздача фиксированной суммы каждому, а строгое соответствие её величины конкретно выполненной работе. Появление множества задач, имеющих практически сходный вариант решения, потребовало более детального их изучения на математическом уровне.

    В существенное место было отведено под раздел «регрессионный анализ», в нём объединились практические методы, используемые для исследования зависимостей, подпадающих под понятие регрессионных. Эти взаимосвязи наблюдаются между данными, полученными в ходе статистических исследований.

    Среди множества решаемых задач основными ставит перед собой три цели: определение для уравнения регрессии общего вида; построение оценок параметров, являющихся неизвестными, которые входят в состав уравнения регрессии; проверка статистических регрессионных гипотез. В ходе изучения связи, возникающей между парой величин, полученных в результате экспериментальных наблюдений и составляющих ряд (множество) типа (x1, y1), ..., (xn, yn), опираются на положения теории регрессии и предполагают, что для одной величины Y наблюдается определённое вероятностное распределение, при том, что другое X остаётся фиксированным.

    Результат Y зависит от значения переменной X, зависимость эта может определяться различными закономерностями, при этом на точность полученных результатов оказывает влияние характер наблюдений и цель анализа. Экспериментальная модель основывается на определённых допущениях, которые являются упрощёнными, но правдоподобными. Основным условием является то, что параметр X является величиной контролируемой. Его значения задаются до начала эксперимента.

    Если в ходе эксперимента используется пара неконтролируемых величин XY, то регрессионный анализ осуществляется одним и тем же способом, но для интерпретации результатов, в ходе которой изучается связь исследуемых случайных величин, применяются методы Методы математической статистики не являются отвлеченной темой. Они находят себе применение в жизни в самых различных сферах деятельности человека.

    В научной литературе для определения выше указанного метода нашёл широкое использование термин линейный регрессионный анализ. Для переменной X применяют термин регрессор или предиктор, а зависимые Y-переменные ещё называют критериальными. В данной терминологии отражается лишь математическая зависимость переменных, но никак не следственно-причинные отношения.

    Регрессионный анализ служит наиболее распространённым методом, который используется в ходе обработки результатов самых различных наблюдений. Физические и биологические зависимости изучаются по средствам данного метода, он реализован и в экономике, и в технике. Масса других областей используют модели регрессионного анализа. Дисперсионный анализ, статистический анализ многомерный тесно сотрудничают с данным способом изучения.

    Лекция 4

    1. Элементы статистического анализа модели
    2. Проверка статистической значимости параметров уравнения регрессии
    3. Анализ дисперсии
    4. Проверка общего качества уравнения регрессии
    5. F-статистика. Распределение Фишера в регрессионном анализе.

    Оценивая зависимость между эндогенными и экзогенными переменными (y и x) по выборочным данным не всегда удается на первом этапе получить удачную модель регрессии. При этом каждый раз следует оценивать качество полученной модели. Качество модели оценивается по 2м направлениям:

    · Статистическая оценка качества модели

    Статистический анализ модели включает следующие элементы:

    • Проверку статистической значимости параметров уравнения регрессии
    • Проверку общего качества уравнения регрессии
    • Проверку свойств данных, выполнение которых предполагалось при оценивании уравнения

    Статистическая значимость параметров уравнения регрессии определяется по t-статистике или статистике Стьюдента. Так:

    tb – t-статистика для коэффициента регрессии b

    mb – стандартная ошибка коэффициента регрессии.

    Так же рассчитывают t-статистику для коэффициентов корреляции R:

    Таким образом tb^2=t r ^2=F. То есть проверка статистической значимости коэффициента регрессии b равносильна проверке статистической значимости коэффициента корреляции

    Коэффициент корреляции показывает тесноту корреляционной связи(между х и у).

    Для линейной регрессии коэффициент корреляции:

    Для определения тесноты связи используют обычно таблицу Чеглока

    R 0,1 – 0,3 слабая

    R 0,3 – 0,5 умеренная

    R 0,5-,07 заметная

    R 0,7-0,9 высокая

    R 0,9 до 0,99 весьма высокая связь между х и у

    Коэффициент корреляции -1

    Часто для практических целей рассчитывают коэффициент эластичности, бета-коэффициент:

    Эластичностью функции у=f(x) называется предел отношения относительных переменных у и х

    Эластичность показывает на сколько %-в изменится у при изменении х на 1 %.

    Для парной линейной регрессии коэффициент эластичности вычисляется по формуле:

    Он показывает на сколько %-в изменится у в среднем при изменении х в среднем на 1 %.

    Бетта-коэффициент равен:

    – среднее квадрат отклонение x

    – Среднее квадрат отклонение у

    Бетта-коэффициент показывает на какую величину от своего среднего квадратического отклонения изменится у при изменении х на величину своего среднего квадратического отклонения.


    Анализ дисперсии

    В анализе дисперсии особое место занимает разложение общей суммы квадратов отклонений переменой у от у среднего на две части: на сумму объясненную регрессией и сумму, не объясненную регрессией.

    Общая сумма квадратов отклонений равна сумме квадратов отклонений объясненной регрессией плюс остаточной сумме квадратов отклонений.

    Эти суммы связаны с числом степеней свободы df – это число свободы независимого варьирования признаков.

    Так общая сумма квадратов отклонений имеет общее число степеней свободы (n – 1).

    Сумма квадратов отклонений объясненная регрессией имеет степень свободы 1, так как переменная зависит от одной величины – коэффициента регрессии b.

    Между числом степеней свободы существует равенство, из которого:

    N – 1 = 1 + n – 2

    Разделим каждую сумму на соответствующее число степеней свободы, получим средний квадрат отклонений или дисперсию:

    D общ = D факт + D ост

    Оценить общее качество уравнения регрессии означает, установить соответствует ли математическая модель, выражающая зависимость между переменными экспериментальным данным и достаточно ли включенных в модель переменных, объясняющих у.

    Оценить общие качества модели = оценить надежность модели = оценить достоверность уравнения регрессии.

    Оценка общего качества модели регрессии осуществляется на основе дисперсионного анализа. Для оценки качества модели рассчитывают коэффициент детерминации:

    В числителе выборочная оценка остаточной дисперсии, в знаменателе выборочная оценка общей дисперсии.

    Коэффициент детерминации характеризует долю вариации зависимой переменной, объясненной с помощью уравнения регрессии.

    Так, если R квадрат равен 0,97 это значит что на 97% изменений у обусловлено изменением х.

    Чем ближе R квадрат к единице, тем сильнее статистически значимая линейная связь между х и у.

    Для получения не смещенных оценок дисперсии(коэффициента детерминации) и числитель, и знаменатель в формуле делят на соответствующее число степеней свободы:

    Для определения статистической значимости коэффициента детерминации R квадрат проверяется нулевая гипотеза для F-статистики, рассчитываемой по формуле:

    Для парной линейной:

    F-расчетная сравнивается со значением статистики в таблице. F-табличная рассматривается с числом степеней свободы m, n-m-1, при уровне значимости альфа.

    Если F расч> F табл то нулевая гипотеза отвергается, принимается гипотеза о статистической значимости коэффициента детерминации R квадрат.

    F-критерий Фишера = факторная дисперсия / на остаточную дисперсию:

    Лекция №5

    Проверка свойств данных, выполнение которых предполагалось при оценивании уравнения регрессии

    1. Автокорреляция в остатках

    2. Статистика Дарбина-Уотсона

    3. Примеры

    При оценивании параметров модели регрессии предполагается, что отклонении

    1. В случае, если взаимосвязь между х и у не линейна.

    2. Связь между переменными х и у линейна, но на исследуемый показатель воздействует фактор, не включенный в модель. Величина такого фактора может менять свою динамику за рассматриваемый период. Особенно это характерно для лаговых переменных.

    Обе причины свидетельствуют о том, что полученное уравнение регрессии можно улучшить, оценив нелинейную зависимость или добавив в исходную модель дополнительный фактор.

    Четвертая предпосылка метода наименьших квадратов говорит о том, что отклонения являются независимыми между собой, однако при исследовании и анализе исходных данных на практике встречаются ситуации, когда эти отклонения содержат тенденцию или циклические колебания.