• Понятие мультиколлинеарности. Методы обнаружения и устранения мультиколлинеарности. Проблема мультиколлинеарности факторов в регрессионных моделях Говорит об отсутствии мультиколлинеарности более

    Основные положения

    Если регрессоры в модели связаны строгой функциональной зависимостью, то имеет место полная (совершенная) мультиколлинеарность . Данный вид мультиколлинеарности может возникнуть, например, в задаче линейной регрессии, решаемой методом наименьших квадратов , если определитель матрицы будет равен нулю. Полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели и разделить вклады регрессоров в выходную переменную по результатм наблюдений.

    В задачах с реальными данными случай полной мультиколлинеарности встречается крайне редко. Вместо этого в прикладной области часто приходится иметь дело с частичной мультиколлинеарностью , которая характеризуется коэффициентами парной корреляции между регрессорами. В случае частичной мультиколлинеарности матрица будет иметь полный ранг, но ее определитель будет близок к нулю. В этом случае формально можно получить оценки параметров модели и их точностные показатели, но все они будут неустойчивыми.

    Среди последствий частичной мультиколлинеарности можно выделить следующие:

    • увеличение дисперсий оценок параметров
    • уменьшение значений t-статистик для параметров, что приводит к неправильному выводу об их статистической значимости
    • получение неустойчивых оценок параметров модели и их дисперсий
    • возможность получения неверного с точки зрения теории знака у оценки параметра

    Точные количественные критерии для обнаружения частичной мультиколлинеарности отсутствуют. В качестве признаков ее наличия чаще всего используют следующие:

    Методы устранения мультиколлинеарности

    Существует два основных подхода к решению этой задачи.

    Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы , а, следовательно, и к повышению качества оценок параметров модели.

    Помимо перечисленных методов существует ещё один, более простой, дающий достаточно хорошие результаты - это метод предварительного центрирования . Суть метода сводится к тому, что перед нахождением параметров математической модели проводится центрирование исходных данных: из каждого значения в ряде данных вычитается среднее по ряду: . Эта процедура позволяет так развести гиперплоскости условий МНК, чтобы углы между ними были перпендикулярны. В результате этого оценки модели становятся устойчивыми (Построение многофакторных моделей в условиях мультиколлинеарности).

    Мультиколлинеарность означает, что в множественной регрессионной модели две или большее число независимых переменных (факторов) связаны между собой тесной линейной зависимостью или, другими словами, имеют высокую степень корреляции ().

    Последствия мультиколлинеарности:

    1. Первым практическим последствием мультиколлинеарности является большая дисперсия и ковариация оценок параметров, вычисленных методом наименьших квадратов.

    2. Вторым практическим последствием мультиколлинеарности является увеличение доверительных интервалов теоретических коэффициентов уравнения линейной регрессии.

    3. Уменьшается статистика коэффициентов, поэтому возможен вывод о статистической незначимости коэффициента.

    4. Коэффициенты уравнения регрессии становятся очень чувствительными к малейшим изменениям данных.

    5. Затрудняется определение вклада каждой из переменных в объясняемую уравнением дисперсию признака.

    К сожалению, нет единого подхода для определения мультиколлинеарности. Приведем несколько методов тестирования наличия мультиколлинеарности.

    1) Высокое значение коэффициента детерминации и низкие статистики некоторых переменных.

    2) Высокие значения частных коэффициентов корреляции. Однако это условие является достаточным, но не является необходимым условием наличия мультиколлинеарности. Она может иметь место даже при относительно небольших значениях коэффициентов корреляции, когда число факторов больше двух.

    3) тест Фаррара–Глобера.

    Этот тест имеет и другое название: построение вспомогательной регрессии.

    Коэффициент детерминации является коэффициентом детерминации в уравнении регрессии, которое связывает фактор с остальными факторами Например, .является коэффициентом детерминации такой регрессии:

    Для каждого коэффициента детерминации рассчитываем отношение:

    Тест проверяет гипотезу

    при конкурирующей гипотезе

    Вычисленное значение сравниваем с критическим значением , найденным по таблицам распределения Фишера с и степеням свободы и заданным уровнем значимости. Если то отвергаем нулевую гипотезу и считаем, что фактор является мультиколлинеарным; если то нулевую гипотезу принимаем и убеждаемся, что фактор не является мультиколлинеарным.

    Для устранения мультиколлинеарности существует несколько способов.

    Первый способ. Если между двумя факторами и существует мультиколлинеарность, то один из факторов исключается из рассмотрения.

    Явление мультиколлинеарности в случае линейной модели регрессии – это нарушение одной из ее предпосылок, т.е. наличие линейной зависимости между факторами.

    Мультиколлинеарность – это высокая взаимная коррелированность объясняющих переменных.

    _______________________________________________________________________

    Мультиколлинеарность может проявляться в двух формах:

    1) при функциональной / явной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными являются линейной функциональной зависимостью.

    2) стохастическая / скрытая форма в экономических исследованиях проявляется чаще, когда между двумя объясняющими переменными существует тесная корреляционная связь.

    Для того, чтобы регрессионный анализ, основанный на МНК, давал наилучшие результаты, предполагается, что значения х не являются случайными величинами и что не коррелированы, т.е. каждая переменная содержит уникальную информацию о у, которая не содержит в других . Когда такая идеальная ситуация существует, то мультиколлинеарность отсутствует. Полная коллинеарность появляется в случае, если одна из может быть точно выражена в терминах другой переменной для всех элементов набора данных.

    Причины мультиколлинеарности:

    1) способ сбора данных и отбора переменных в модель без учета их смысла и природы (учета возможных взаимосвязей между ними). Например, при оценке влияния на размер жилья доходов семьи и размера семьи если мы соберем данные только среди семей большого размера и с высокими доходами и не включим в модель семьи малого размера и с небольшими доходами, то в результате получится модель с эффектом мультиколлинеарности. Решение проблемы – улучшение схемы выборки. В случае, если переменные взаимодополняют друг друга, подгонка выборки не поможет. Решением будет исключение одной из переменных;

    2) высокая мощность переменной. Например, для изменения вида модели может быть введен дополнительный термин в модель, уже содержащую $

    3) регрессоры, измеряющие примерно одно и то же: валютный курс на начало и на конец дня;

    4) естественные соотношения между регрессорами: возраст, стаж и количество лет обучения.

    Последствия мультиколлинеарности:

    1) при проверке нулевой гипотезы о незначимости коэффициентов регрессии с помощью t-критерия в большинстве случаев она принимается, однако само уравнение регрессии по проверке с помощью F-критерия оказывается значимым, что говорит о завышенной оценке коэффициента регрессии; доверительные интервалы имеют слишком широкие границы;



    2) полученные оценки параметров уравнения в основном неоправданно завышены или имеют неправильные знаки;

    3) добавление или исключение из исходных данных 1-2 наблюдений оказывает сильное влияние на оценки коэффициентов;

    4) наличие мультиколлинеарности в модели может сделать ее непригодной для дальнейшего применения.

    Основная проблема мультиколлинеарности – обесценение дисперсии оценок коэффициентов регрессии. Для измерения эффекта мультиколлинеарности используется показатель VIF (variation inflation factor) – коэффициент вздутия дисперсии по сравнению с той дисперсией, которая была бы, если бы не имел коллинеарности с другими независимыми переменными в регрессии:

    где – значение коэффициента множественной детерминации для регрессора на все остальные.

    Например, значение VIF=6 означает, что дисперсия коэффициентов в 6 раз больше той, что должна была бы быть при полном отсутствии коллинеарности. Считается, что критическое значение составляет VIF=10 – слишком большая корреляция между факторами.

    Пример .

    Для регрессии на остальные регрессоры

    Для регрессии

    Для регрессии

    Есть ли мультиколлинеарность?

    Довольно плохо объясняется остальными переменными, переменная линейно независима.

    Переменные линейно зависимы, высокий.


    Отметим, что в ряде случаев мультиколлинеарность не является таким уж серьезным «злом», чтобы прилагать существенные усилия по ее выявлению и устранению. В основном, все зависит от целей исследования.
    Если основная задача модели - прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации R2(gt; 0,9) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели (если в будущем между коррелированными переменными будут сохраняться те же отношения, что и ранее).
    Если необходимо определить степень влияния каждой из объясняющих переменных на зависимую переменную, то мультиколлинеарность, приводящая к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность является серьезной проблемой.
    Единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.
    Исключение переменной(ых) из модели
    Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных. При применении данного метода необходима определенная осмотрительность. В данной ситуации возможны ошибки спецификации, поэтому в прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока мультиколлинеарность не станет серьезной проблемой.
    Получение дополнительных данных или новой выборки
    Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет либо она не будет столь серьезной. Иногда для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано с серьезными издержками. Кроме того, такой подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.
    Изменение спецификации модели
    В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются объясняющие переменные, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную. Если данный метод имеет основания, то его использование уменьшает сумму квадратов отклонений, тем самым сокращая стандартную ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.
    Использование предварительной информации о некоторых параметрах
    Иногда при построении модели множественной регрессии можно воспользоваться предварительной информацией, в частности известными значениями некоторых коэффициентов регрессии.
    Вполне вероятно, что значения коэффициентов, рассчитанные для каких-либо предварительных (обычно более простых) моделей либо для аналогичной модели по ранее полученной выборке, могут быть использованы для разрабатываемой в данный момент модели.
    Отбор наиболее существенных объясняющих переменных. Процедура последовательного присоединения элементов
    Переход к меньшему числу объясняющих переменных может уменьшить дублирование информации, доставляемой сильно взаимозависимыми признаками. Именно с этим мы сталкиваемся в случае мультиколлинеарности объясняющих переменных.
    Пусть

    Множественный коэффициент
    корреляции между зависимой переменной Y и набором объясняющих переменных X 1,X 2,...,Xm. Он определяется как обычный парный коэффициент корреляции между Y и линейной функцией
    регрессии Y = b0 + KX1 + b2X2+... + bmXm. Пусть amp; = R-1 - матрица, обратная к матрице R:


    Тогда квадрат коэффициента Ry.X = Rr(xi,x2,..,x) может быть вычислен по формуле:


    Подправленная на несмещенность оценка R*2.X коэффициента детерминации R2y.X имеет вид:

    (Если поформуле (6.7) получают отрицательное число, то полагают


    Нижняя доверительная граница для

    определяется
    по формуле:

    На практике, при решении вопроса о том, какие объясняющие переменные следует включать в модель, часто используют процедуру последовательного присоединения элементов.
    (j = 1, 2,..., m) . При этом

    совпадает с квадратом обычного
    парного коэффициента корреляции

    Пусть


    тогда наиболее информативной будет переменная xp. Затем рассчитывают подправленный на несмещенность коэффициент
    (при m = 1) и его нижнюю доверительную границу R2min (1) .


    более информативной будет пара jxp,xq). Затемрассчитывают подправленный на несмещенность коэффициент(при m = 2)
    и его нижнюю доверительную границу R2min (2) .

    Процедуру продолжают до тех пор, когда на шаге (к +1) выполнится условие:
    Тогда в модель включают наиболее информативные переменные, полученные на первых к шагах. Отметим, что в расчетах используют формулы (6.7) и (6.8), в которых вместо т берут соответствующее значение номера шага к.
    На самом деле этот метод не гарантирует, что мы избавимся от мультиколлинеарности.
    Используют и другие методы устранения мультиколлинеарности.
    Пример 6.1. Имеются следующие условные данные (табл. 6.1):
    Таблица 6.1
    Данные для метода последовательного включения


    Х1

    Х2

    Х3

    У

    1

    1,5

    0,7

    12

    2

    2,5

    1,2

    20

    3

    1

    1,4

    15

    4

    5,5

    1,9

    41

    5

    3

    2,5

    33

    6

    3

    3,1

    35

    7

    2,8

    3,5

    38

    8

    0,5

    4

    28

    9

    4

    3,8

    47

    10

    2

    5,3

    40

    Рассмотрим влияние на зависимую переменную каждой из объясняющих переменных в отдельности. Вычисляя парные коэффициенты корреляции, получим, что наибольшее значение имеет коэффициент

    Тогда:


    Рассмотрим влияние на зависимую переменную пар переменных (x1, x2) и (x1, x3). Сначала рассмотрим влияние пары переменных (x1, x2).



    icuvum uvjpcuuivi, ыхсдул рсьимслдсіцшім мсіида ііи^ісдиьсіїсльпи-
    го присоединения переменных, в уравнение следует включить две объясняющие переменные. Следовательно, теоретическое уравнение примет вид:
    Гребневой метод
    Рассмотрим «гребневой метод» («ридж-регрессия») устранения мультиколлинеарности. Метод был предложен А. Э. Хоэрлом в 1962 г. и применяется, когда матрица (xtX) близка к вырожденной. К диагональным элементам матрицы (xtX) добавляют некоторое небольшое число (от 0,1 до 0,4). При этом получают смещенные оценки параметров уравнения. Но стандартные ошибки таких оценок в случае мультиколлинеарности ниже ошибок даваемых обычным методом наименьших квадратов.
    Пример 6.2. Исходные данные представлены « табл6 2 Коэффициент корреляции объясняющих переменных

    что
    свидетельствует о сильной мультиколлинеарности.
    Таблица 6.2
    Данные для исследования мультиколлинеарности гребневым методом


    x1

    x2

    У

    1

    1,4

    7

    2

    3,1

    12


    Тогда получим уравнение у = 2,63 +1,37x1 + 1,95x2. Диагональные элементы обратной матрицы значительно снизятся и будут равны z00 = 0,45264, z11 = 1,57796, z00 = 0,70842, что приводит к снижению стандартных ошибок коэффициентов.
    Резюме
    Среди основных последствий, к которым может привести мультиколлинеарность, можно выделить следующие:
    1. при проверке основной гипотезы о незначимости коэффициентов множественной регрессии с помощью t-критерия в большинстве случаев она принимается, однако само уравнение регрессии при проверке с помощью A-критерия оказывается значимым, что говорит о завышенной величине коэффициента множественной корреляции;
    2. полученные оценки коэффициентов уравнения множественной регрессии в основном неоправданно завышены или имеют неправильные знаки;
    3. добавление или исключение из исходных данных одного- двух наблюдений оказывает сильное влияние на оценки коэффициентов модели;
    4. наличие мультиколлинеарности в модели множественной регрессии может сделать ее непригодной для дальнейшего применения (например, для построения прогнозов).
    Вопросы для самопроверки
    1. Что такое мультиколлинеарность?
    2. Какие показатели свидетельствуют о наличии мультиколлинеарности?
    3. Чему равен определитель матрицы XTX в случае совершенной мультиколлинеарности?
    4. Что можно сказать о смысле коэффициентов при объясняющих переменных в случае мультиколлинеарности?
    5. Какое преобразование производят в гребневом методе, к чему оно приводит?
    6. Каков порядок действий в методе последовательного увеличения числа объясняющих переменных?
    7. Что показывает коэффициент корреляции?
    8. Что показывает частный коэффициент корреляции?

    ВОПРОСЫ НА ЭКЗАМЕН ПО КУРСУ

    «ЭКОНОМЕТРИКА (продвинутый уровень)»

    1. Модель множественной регрессии. Виды моделей множественной регрессии.

    2. Матричная форма записи и матричная формула оценки параметров множественной регрессии.

    3. Оценка качества уравнения регрессии. Объясненная и необъясненная составляющие уравнения регрессии.

    4. Коэффициент детерминации и коэффициент корреляции, их расчет в модели парной регрессии.

    5. Выборочный множественный коэффициент детерминации и проверка его значимости по -критерию Фишера.

    6. Проверка значимости множественного уравнения регрессии с помощью -критерия Фишера.

    Значимость уравнения регрессии, т.е. соответствие эконометрической модели Y = a ˆ0 + a ˆ 1X + e фактическим (эмпирическим) данным, позволяет ус-

    тановить, пригодно ли уравнение регрессии для практического использования (для анализа и прогноза), или нет.

    Для проверки значимости уравнения используется F - критерий Фишера. Он вычисляется по фактическим данным как отношение несмещенной

    дисперсии остаточной компоненты к дисперсии исходного ряда. Проверка значимости коэффициента детерминации осуществляется с помощью -критерия Фишера, расчетное значение которого находится по формуле:

    ,

    где коэффициент множественной корреляции, – количество наблюдений, - количество переменных, – диагональный элемент матрицы .

    Для проверки гипотезы по таблице определяют табличное значение

    критерия Фишера F .

    F(α ν1 ν2) – это максимально возможное значение критерия в зависимости от влияния случайных факторов при данных степенях свободы

    ν = m1 , ν2 = n m −1, и уровне значимости α . Здесь m – количество аргументов в модели.

    Уровень значимости α – вероятность отвергнуть правильную гипотезу, но при условии, что она верна (ошибка первого рода). Обычно α принимается равной 0,05 или 0,01.

    Если F ф> F табл, то H0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если наоборт, то гипотеза H0 не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.

    7. Оценка значимости линейных коэффициентов корреляции. -критерий Стьюдента.

    Для оценки статистической значимости коэффициентов регрессии и коэффициента корреляции рассчитывается t-критерий Стьюдента. Выдвигается гипотеза H 0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Наблюдаемые значения t-критерия рассчитываются по формулам:

    , , ,

    где – случайные ошибки параметров линейной регрессии и коэффициента корреляции.


    Для линейной парной регрессии выполняется равенство , поэтому проверки гипотез о значимости коэффициента регрессии при факторе и коэффициента корреляции равносильны проверке гипотезы о статистической значимости уравнения регрессии в целом.

    Вообще, случайные ошибки рассчитываются по формулам:

    , , .

    где – остаточная дисперсия на одну степень свободы:

    .

    Табличное (критическое) значение t-статистики находят по таблицам распределения t-Стьюдента при уровне значимости α = 0,05 и числе степеней свободы . Если t табл < t факт, то H 0 отклоняется, т.е. коэффициенты регрессии не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора.

    8. Анализ влияния факторов на основе многофакторных регрессионных моделей: коэффициент эластичности ; бета-коэффициент и дельта-коэффициент .

    9. Способы расчета параметров , , производственной функции Кобба-Дугласа.

    10. Регрессионные уравнения с переменной структурой. Фиктивные переменные. Виды фиктивных переменных. Преимущества использования фиктивных переменных при построении регрессионных моделей.

    11. Использование фиктивных переменных для исследования структурных изменений. Моделирование сезонности. Количество бинарных переменных при k градациях.

    Понятие мультиколлинеарности. Методы обнаружения и устранения мультиколлинеарности.

    Количественная оценка параметров уравнения регрессии предполагает выполнение условия линейной независимости между независимыми переменными. Однако на практике объясняющие переменные часто имеют высокую степень взаимосвязи между собой, что является нарушением указанного условия. Данное явление носит название мультиколлинеарности.

    Термин коллинеарность (collinear ) обозначает линейную корреляцию между двумя независимыми переменными, а Мультиколлинеарность (multi-collinear ) – между более чем двумя независимыми переменными. Обыкновенно под мультиколлинеарностью понимают оба случая.

    Таким образом, мультиколлинеарность означает наличие тесной линейной зависимости или сильной корреляции между двумя или более объясняющими (независимыми) переменными. Одной из задач эконометрии является выявление мультиколлинеарности между независимыми переменными.

    Различают совершенную и несовершенную мультиколлинеарность. Совершенная мультиколлинеарность означает, что вариация одной из независимых переменных может быть полностью объяснена изменением другой (других) переменной.

    Иначе, взаимосвязь между ними выражается линейной функцией

    Графическая интерпретация данного случая:

    Несовершенная мультиколлинеарность может быть определена как линейная функциональная связь между двумя или более независимыми переменными, которая настолько сильна, что может существенно затронуть оценки коэффициентов при переменных в модели.

    Несовершенная мультиколлинеарность возникает тогда, когда две (или более) независимые переменные находятся между собой в линейной функциональной зависимости, описываемой уравнением

    В отличие от ранее рассмотренного уравнения, данное включает величину стохастической ошибки . Это предполагает, что несмотря на то, что взаимосвязь между и может быть весьма сильной, она не настолько сильна, чтобы полностью объяснить изменение переменной изменением , т.е. существует некоторая необъяснимая вариация.

    Графически данный случай представлен следующим образом:


    В каких же случаях может возникнуть мультиколлинеарность? Их, по крайней мере, два.

    1. Имеет место глобальная тенденция одновременного изменения экономических показателей. В качестве примера можно привести такие показатели как объем производства, доход, потребление, накопление, занятость, инвестиции и т.п., значения которых возрастают в период экономического роста и снижаются в период спада.

    Одной из причин мультиколлинеарности является наличие тренда (тенденции) в динамике экономических показателей.

    2. Использование лаговых значений переменных в экономических моделях.

    В качестве примера можно рассматривать модели, в которых используются как величины дохода текущего периода, так и затраты на потребление предыдущего.

    В целом при исследовании экономических процессов и явлений методами эконометрии очень трудно избежать зависимости между показателями.

    Последствия мультиколлинеарности сводятся к

    1. снижению точности оценивания, которая проявляется через

    a. слишком большие ошибки некоторых оценок,

    b. высокую степень корреляции между ошибками,

    c. Резкое увеличение дисперсии оценок параметров. Данное проявление мультиколлинеарности может также отразиться на получении неожиданного знака при оценках параметров;

    2. незначимости оценок параметров некоторых переменных модели благодаря, в первую очередь, наличию их взаимосвязи с другими переменными, а не из-за того, что они не влияют на зависимую переменную. То есть -статистика параметров модели не отвечает уровню значимости ( -критерий Стьюдента не выдерживает проверки на адекватность);

    3. сильному повышению чувствительности оценок параметров к размерам совокупности наблюдений. То есть увеличение числа наблюдений существенно может повлиять на величины оценок параметров модели;

    4. увеличению доверительных интервалов;

    5. повышению чувствительности оценок к изменению спецификации модели (например, к добавлению в модель или исключению из модели переменных, даже несущественно влияющих).

    Признаки мультиколлинеарности:

    1. когда среди парных коэффициентов корреляции

    между объясняющими (независимыми) переменными есть такие, уровень которых либо приближается, либо равен коэффициенту множественной корреляции.

    Если в модели более двух независимых переменных, то необходимо более детальное исследование взаимосвязей между переменными. Данная процедура может быть осуществлена с помощью алгоритма Фаррара-Глобера;

    2. когда определитель матрицы коэффициентов парной корреляции между независимыми переменными приближается к нулю:

    если , то имеет место полная мультиколлинеарность,

    если , то мультиколлинеарность отсутствует;

    3. если в модели найдено маленькое значение параметра при высоком уровне коэффициента частной детерминации и при этом -критерий существенно отличается от нуля;