Простой линейный регрессионный анализ

Автор работы: f*********@gmail.com, 27 Ноября 2011 в 13:27, контрольная работа

Описание

Зависимость условной средней M(Y /X=x) от значения x величины X, случайной или не случайной, называют регрессией Y по X, равенство y= M(Y/X= x), связывающее x и y, – уравнением регрессии, а соответствующий график – линией регрессии Y по X. Статистическая оценка параметров зависимости условной средней y = M(Y/X=x) от x в основном осуществляется методом наименьших квадратов.

Содержание

Оглавление 2
Введение 3
Выполнение работы 9
Выводы 12

Работа состоит из  1 файл

ГОСУДАРСТВЕННЫЙ КОМИТЕТ ПО РЫБОЛОВСТВУ.doc

— 150.50 Кб (Скачать документ)
 

ГОСУДАРСТВЕННЫЙ КОМИТЕТ ПО РЫБОЛОВСТВУ 

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ  УЧРЕЖДЕНИЕ

«МУРМАНСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ» 
 
 
 

Кафедра ИС и ПМ 
 
 
 
 
 

РГЗ № 2

по  дисциплине «Прикладная статистика и планирование эксперимента» 

Простой линейный

регрессионный анализ 

№ 10 
 
 

                  Выполнила студентка              экономического факультета, группы Мар-371:

                  Мельник И.С. 

                      Проверил:

                      Пантелеев В.П.  
                     
                     
                     
                     
                     
                     

Мурманск

2009

Оглавление

 

Введение

 
 

Цель  работы: Освоить элементы корреляционного  и простого линейного регрессионного анализа. 

Стохастическая  зависимость случайной величины Y от величины X, случайной или не случайной, в отличие от функциональной не предполагает однозначности. Каждому значению xÎX отвечает, в целом, множество значений yÎY с условным распределением вероятностей Fx(y) =P(Y<y /X=x). Меж тем стохастическая зависимость не всегда нужна во всей её полноте. Нас могут интересовать частные её проявления, например, как сильно влияет изменение величины X на величину Y (корреляционный анализ), или какова зависимость условной средней M(Y /X = x) от значений xÎX (регрессионный анализ). Будет ли эта зависимость линейной y=a+bx, параболической y=a+bx+ cx2, гиперболической y=a/(x+b), экспоненциальной y=aebx и т. п.? Те же вопросы возникают и в том случае, когда X – вектор.

      Зависимость условной средней M(Y /X=x) от значения x величины X, случайной или не случайной, называют регрессией Y по X, равенство y= M(Y/X= x), связывающее x и y, – уравнением регрессии, а соответствующий график – линией регрессии Y по X. Статистическая оценка параметров зависимости условной средней y = M(Y/X=x) от x в основном осуществляется методом наименьших квадратов. В отличие от функциональной (однозначной), стохастическая зависимость имеет ту особенность, что регрессия x=M(X /Y=y) величины X по Y в общем случае отлична от y=M(Y /X=x), имеет, в целом, другой график и другое уравнение. Слово регрессия впервые появилось в 1889 г. в статье английского статистика Ф. Гальтона (Francis Galton) и означало отступление в детях от экстремальных свойств родителей, например рост детей, в целом, отступает к среднему статическому. Этот исходный смысл слова регрессия сохраняется и ныне, предполагается снятие крайних отклонений, выделяется по возможности характерная для исследуемых величин устойчивая связь.

      Регрессионный анализ во многом близок другой дисциплине – корреляционному анализу. Последний исследует силу линейной связи случайных величин Y и X посредством статистических оценок коэффициента корреляции r = М[(X- MX)(Y-MY)] /(sxsy), а также силу нелинейной связи посредством корреляционного отношения s/sy, составляемого для дисперсии уловных средних M(Y/X=x) по значениям величины X. Если же коэффициент корреляции r =±1, то величины X и Y связаны линейной функциональной зависимостью

.                                              (1)

При r =1 величина Y возрастает по X, а при r =–1 убывает. При значениях |r|, близких к 1, линейное уравнение (1) выражает приближенную зависимость Y от X. В целом большим значениям X отвечают большие значения величины Y, если r близко к 1, и меньшие, если r близко к -1. Когда корреляционное отношение sf/sy = 1, величины X и Y связаны функциональной зависимостью.

      Если  ковариация C(X,Y) = М[(X-MX)(Y-MY)] = 0, величины X и Y называются некоррелированными. В противном случае, когда C(X,Y) ¹ 0, величины X и Y называются коррелированными. Независимые величины X и Y заведомо не коррелированны, поскольку для них M(XY) = MXMY и C(X,Y) = М[(X-MX)(Y-MY)] = М(XY) – МX MY=0. Для нормальных величин верно и обратное, если X и Y не коррелированны, то они и независимы.

      Чтобы получить представление о параметрах – числовых характеристиках случайного вектора (X,Y), производится их статистическое оценивание по двумерной выборке (Xi,Yi) – результатам n независимых измерений одновременно обеих составляющих X и Y вектора (X,Y), i=1, 2,…, n. Сопоставление данных выборки (Xi,Yi) с теоретически возможной регрессионной зависимостью Y от X осуществляется обычно методом наименьших квадратов. Например, предполагается, что регрессия Y по X выражена функцией y = f(x,a,b) аргумента x, но истинные числовые значения параметров a и b нам не известны. Метод наименьших квадратов подбирает для a, b такие приближенные значения a, b, которые минимизируют расхождение Q между значениями функции f(xi,a,b) и выборочными значениями yi, выраженное функцией

2.

Отсюда  происходит и название метода наименьших квадратов – по виду функции Q и способу получения оценок a, b для неизвестных a и b, определяющих истинную регрессионную зависимость y = f(x,a,b). Как известно, минимум функции Q достигается при значениях a, b, когда частные производные равны нулю:

                        (2)

Если  имеются основания полагать, что  Y и X связаны линейной регрессией y=a+bx, то эта зависимость ищется в классе линейных функций y=a+bx. В этом случае равенства (2) принимают вид линейных уравнений относительно a и b:

Решая эту систему линейных уравнений, например, по формулам Крамера, получаем . Здесь , , и – статистические оценки ожиданий и дисперсий, составленные соответственно для X и Y, а r – эмпирический (выборочный) коэффициент корреляции,

, .

Коэффициент b перед аргументом x уравнении линейной регрессии y=a+bx, называют её коэффициентом, а его статистическую оценку rsy/sx, найденную методом наименьших квадратов, эмпирическим коэффициентом регрессии. Аналогично выводится уравнение линейной регрессии случайной величины X по аргументу Y. Уравнения линейной регрессии Y по X и X по Y при |r| ¹ 1 существенно отличны один от другого, имеют разные графики.

      Некоррелированность означает равенство нулю коэффициента корреляции r = 0, равно как и регрессии rsy/sx= 0. В то же время для непрерывных величин X и Y их эмпирический коэффициент регрессии = rsy/sx в силу чистой случайности непременно отличен от нуля, ¹ 0. Поэтому случайное отклонение r от нуля в сторону положительных или отрицательных значений не даёт оснований предполагать, что Y в целом возрастает при возрастании X. В этом смысле эмпирические уравнения регрессии

   и                                         (3)

с не равными  нулю коэффициентами =rsy/sx ¹ 0 и bxy rsx/sy¹ 0 сомнительны. Необходимо избежать ошибки, предсказывая рост или убывание величины Y, когда к этому нет достаточных оснований, поскольку коэффициент регрессии b ненадежен или, как говорят, незначимый. В этом случае из двух альтернатив, зависит Y от X или не зависит, лучше выбрать второе – независимость Y от X. Пользуясь эмпирическим уравнением (3) регрессии Y по X, надо помнить, что имеющийся статистический материал не позволяет сделать вывод, что истинный коэффициент регрессии rsy/sx отличен от 0, являясь строго положительным или строго отрицательным.

      Вопрос  о некоррелированности величин  X, Y решается статистикой

,

составляемой  по n наблюдениям вектора (X, Y). Для нормально распределенных независимых величин X, Y коэффициент корреляции равен нулю (r = 0 –величины не коррелированны) статистика T распределена по закону Стьюдента с n-2 степенями свободы. Поэтому проверка гипотезы H0:r = 0 о равенстве нулю коэффициента корреляции r состоит в следующем. Выбираем уровень значимости a, то есть малую вероятность риска совершить ошибку первого рода, отвергнув основную гипотезу H0, когда она верна. Для распределения Стьюдента с n-2 степенями свободы находим верхний квантиль ta уровня a/2, решая уравнение P(>ta) = a/2 или равнозначное ему P(|| > ta) = a. Для альтернативной гипотезы H1r ¹ 0 критическую область выбираемся двустороннюю (-¥,-taÈ (ta,+¥). Если вычисленная по выборке статистика T попадает в критическую область, что происходит, когда | |>ta, основная гипотеза H0 отвергается, принимается альтернативная ей гипотеза H1. В противном случае, когда || < ta, принимается гипотеза H0:= 0 о некоррелированности и независимости величин X и Y. Последнее надо понимать так, что X и Y не имеют заметной или, как говорят, значимой корреляционной связи.

      Для величины Z, связанной с X линейной регрессионной зависимостью z =a+bzxx, возникает необходимость в надежной интервальной оценке коэффициента bzx rzxsz/sx регрессии Z по X. В этом случае величины Y=Z-bzxX и X не коррелированны. Действительно, условное ожидание величины Y=Z-bzxX при условии X=x равно M(Y/X=x) = M((Z-bzxX)/X=x) = a+bzxx–bzxx=a. Величина Y не зависит от x, byx= ryxsy/sx= 0, и следовательно, коэффициент корреляции ryx= 0 – величины Y и X не коррелированны. Поэтому статистика

или, что то же самое, ,

составленная  для величин X и Y, распределена по Стьюденту с n-2 степенями свободы. Ранее рассмотренная статистика , вычисленная для X и Z, при rzx¹0, конечно же, не распределена по Стьюденту, но если её использовать, Tb можно записать в более простом виде Tb=T(bzxbzx)/bzx.

      Зададимся надежностью g и для распределения Стьюдента с n-2 степенями свободы выберем квантиль ta уровня = (1+g)/2 так, чтобы P(|Tb| < ta) = g. Неравенство |Tb| < ta равнозначно |bzx  bzx| < tabzx/T и двойному неравенству bzx(1– ta/T)< bzx< bzx(1+ ta/T). Тем самым определился доверительный интервал (bzx(1– ta/T), bzx(1+ ta/T)) надежности g для коэффициента bzx регрессии. Надежность g выражает вероятность P(bzx(1–ta/) < bzx bzx(1+ta/)) = g попадания коэффициента bzx= rsz/sx линейной регрессии в доверительный интервал. Статистика T позволяет также наиболее просто записать доверительный интервал надежности g для линейной регрессии z = a+bx случайной величины Z по X.

Информация о работе Простой линейный регрессионный анализ