Простейшая связь между двумя случайными величинами
и
— это линейная зависимость
. В общем случае может существовать третья случайная величина
, которую мы интерпретируем, как "внешний" случайный шум. Результирующая модель с константами
и
имеет вид:

С этого уравнения обычно начинается поиск связей между эмпирическими величинами.
Обычно считают, что среднее шума равно нулю
. В противном случае его можно включить в параметр
. Потребуем, чтобы дисперсия "шума"
(ошибка модели) была минимальной:

Взяв производные по
и
, можно найти уравнение регрессионной прямой. Её наклон
равен:

Итоговое уравнение мы запишем в симметричном виде пропорциональности безразмерных отклонений величин от своих средних:

Коэффициент этой пропорциональности называется корреляцией:

В его числителе находится ковариационный коэффициент ().
Корреляция
между двумя величинами
,
не всегда означает наличие причинной связи
или
. Например, может существовать третья величина
, влияющая и на
, и на
, синхронизируя их поведение. Так, спад мировой экономики оказывает одинаковое воздействие на две не связанные друг с другом экспортно-ориентированные отрасли экономики. "Ложная" корреляция возникает также, если две величины имеют явно выраженный восходящий или нисходящий тренд (систематический рост или спад). В этом случае между ними будет появляться заметная корреляция. Эта корреляция характеризует наличие детерминированной составляющей роста (
C).
Корреляционный коэффициент определяет наклон регрессионной прямой. Однако важнее то, что он служит мерой прогностических возможностей линейной модели. Покажем это, подставив в значение наклона () исходное уравнение (). Учтём, что
и
:

Поэтому
, что позволяет нам вычислить дисперсию
:

Так как
, получаем выражение для относительной ошибки модели:

Значение волатильности шума
можно рассматривать как ошибку линейной модели
. Полезно сравнивать её с волатильностью
, которая является типичной ошибкой тривиальной модели
. Мы видим, что такая относительная ошибка
зависит от корреляционного коэффициента. Чем ближе к единице его квадрат, тем меньше ошибка. При нулевом
относительная ошибка равна единице, и, следовательно, линейная модель имеет такую же предсказательную силу, как и тривиальное утверждение о том, что лучшим прогнозом
будет его среднее значение. Часто говорят о коэффициенте детерминации
. Заметим также, что коэффициент корреляции по модулю всегда меньше единицы
.
Уравнение линейной модели () может интерпретироваться по-разному.
1) Прежде всего, это модель прогнозирования
, если стало известно
(в духе
). В этом случае
— это внешний шум или ошибка модели, когда "истинная" зависимость между
и
не такая простая. В результате шума
всегда оказывается случайной величиной. В отношении
возможны различные ситуации. Например, при изучении кривой спроса
может быть контролируемой и задаваемой исследователем ценой товара (например, с равным шагом). В этом случае она детерминирована. Однако разброс в её значениях позволяет формально определить среднее
и волатильность
.
2) Часто бывает, что и
, и
выступают в качестве равноправных случайных величин. Например, на фондовом рынке ежедневные изменения цен акций двух компаний
и
стохастически связаны друг с другом. Обе величины случайны и не зависят от исследователя.
Стохастический мир - простое введение в стохастические дифференциальные уравнения