Основы регрессионного анализа
Основы регрессионного анализа
Астрономы могут предсказать, во сколько именно взойдет солнце за окном моей спальни через шесть месяцев. У экономистов нет такой возможности. Чтобы увидеть будущее, мы обращаемся к истории, выделяем «движущие силы» прошлых экономических событий и считаем, что они продолжат действие и в будущем. Другими словами, мы стремимся понять, что определяло поток капиталовложений в прошлом и куда они пойдут, если те же силы продолжат действовать в будущем. Чтобы облегчить решение этой сложной задачи, экономисты обращаются к такой дисциплине, как регрессионный анализ19 — статистическому методу, в основе которого лежит анализ вероятности, хорошо знакомый любителям азартных игр.
Исходные данные для прогнозирования деловой активности — это большие массивы временных рядов, которые относятся, например, к розничным продажам, промышленному производству или к объему строительства новых домов. Мы стараемся понять экономические факторы, которые определяют, скажем, месячный объем строительства односемейных домов, и пытаемся спрогнозировать его. В результате общения со строителями я могу для начала взять цены на дома и число создаваемых домохозяйств в качестве объясняющих переменных. Мы называем анализируемые временные ряды зависимыми переменными, а факторы, объясняющие их, — цены на дома и число создаваемых домохозяйств — независимыми переменными. Регрессионный анализ статистически показывает, как изменение любой независимой переменной влияет на объем строительства новых домов. Смысл такого фильтрования состоит в том, что он позволяет получить относительные статистические веса — коэффициенты, — которые в случае применения к ценам на дома и числу создаваемых домохозяйств дают «аппроксимированные» временные ряды, максимально близкие к историческим данным по объему строительства новых домов.
Обладая этими данными, мы можем измерить долю отклонений (дисперсию) зависимой переменной, которая «объясняется» флуктуациями независимых переменных в модели. Эту долю мы называем коэффициентом множественной регрессии (R2). Чем выше R2, тем ближе аппроксимированные временные ряды к историческим рядам. При значении 1,0 модель точно предсказывает реальные ряды данных и полностью объясняет дисперсию зависимой переменной.
Однако надежность результатов зависит от ряда математических условий, предъявляемых к регрессионным переменным. Например, независимые переменные не должны коррелировать друг с другом, т. е. цена дома не должна коррелировать с числом создаваемых домохозяйств. Плюс к этому регрессионные остатки, т. е. разница между фактическим объемом строительства новых домов и его аппроксимированным (расчетным) значением в каждом периоде, не могут быть «сериально коррелированными», другими словами, остатки одного периода не могут влиять на остатки следующего.
В реальности эти условия практически никогда не выполняются. Специалисты по статистике изобрели способы измерять и частично устранять эффект невыполнения необходимых допущений. Например, статистика Дарбина — Уотсона (D — W) характеризует степень сериальной корреляции остатков. D — W варьирует от 0 до 4,0. D — W, равная 2,0, означает, что остатки не коррелируют, а D — W менее 2,0 указывает на положительную сериальную корреляцию, которая приводит к завышению статистической значимости независимых переменных (см. обсуждение t-статистики и статистической значимости ниже)20. Сериальная корреляция характерна практически для всех экономических временных рядов, так как остаток предыдущего квартала в реальности оказывают влияние на остаток текущего квартала. Преобразование уровня временных рядов в абсолютное изменение снижает сериальную корреляцию регрессии, однако при этом теряется важная информация. Лично я при анализе предпочитаю иметь дело с сериальной корреляцией.
T-статистика — это характеристика «статистической значимости» независимой переменной, т. е. вероятности, что ее коэффициент отличен от нуля21. Чем выше t-статистика, тем выше вероятность того, что взаимосвязь между независимой и зависимой переменными реальна, а не случайна. Чтобы экономисты приняли независимую переменную в качестве «причины» изменения зависимой переменной, t-статистика, положительная или отрицательная, должна быть выше 2,0. Оценочная функция Ньюи — Уэста характеризует смещение t-статистики в результате сериальной корреляции и корректирует ее значения так, чтобы они более точно отражали реальные вероятности.
Еще одно заметное смещение во многих экономических корреляциях возникает, когда два временных ряда, связанных очень слабо либо не связанных вовсе, демонстрируют высокий R2 при определении регрессионной зависимости относительно друг друга, поскольку оба ряда отражают рост населения. Это смещение в значительной мере устраняется, если представить зависимую и независимую переменные в расчете на душу населения.
В примере 7.3 представлен типичный образец регрессионного анализа. Зависимая переменная — капиталовложения как доля денежного потока в нефинансовых организациях. Мы собираем квартальные данные не только по зависимым переменным, но и по трем независимым22 с 1970 г. по сей день. Регрессия зависимой переменной строится по трем независимым переменным, и в результате мы получаем аппроксимированную оценку доли капиталовложений от денежного потока. При R2, равном 0,76, мы фактически «объясняем» три четверти разброса этой доли. Как видно на графике в этом примере, аппроксимированный ряд близок к реальной доле. С учетом корректировки Ньюи — Уэста значения t-статистики значительно превышают 2,0, а значит вероятность того, что эта взаимосвязь случайна, можно исключить. D — W составляет всего 0,94, показывая, что сериальная корреляция умеренна. Но как следует из графика, это не мешает независимым переменным следовать за зависимыми во время взлетов и падений. Более того, если мы разделим 43-летний период регрессии на две равные части, результаты для более коротких периодов будут идентичны результатам полной регрессии. Это полезный тест, позволяющий понять, изменилось ли за 43 года влияние независимых переменных на зависимые. Результаты этого теста показывают, что не изменилось.
Кроме того, в примере B.1 я разделяю вклад независимых переменных в прогнозное значение. Это наглядно демонстрирует, что в разные моменты 40-летнего периода вклад каждой независимой переменной неодинаков. Так, коэффициент загрузки был преобладающим фактором в 2008 г., а в последующие кварталы наибольший вклад вносили дефицит бюджета с учетом цикличности и спред доходностей, а также, если взять шире, капиталовложения как доля денежного потока в нефинансовых организациях.
Деформации вероятностных распределений в поведенческой экономике не влияют на принципы эконометрики. Экономические действия руководителей компаний и потребителей определяются вероятностными распределениями, которые я привожу в приложении А. Они, являясь результатом взаимодействия рационального и иррационального начал, представляют собой зависимую переменную, и подходить к ним надо соответствующим образом. В конце концов, вероятностный анализ в равной мере применим и к объективным техническим данным, и к необъективным действиям людей.
Данный текст является ознакомительным фрагментом.