مبانی رگرسیون خطی روش های آمار ریاضی. تجزیه و تحلیل رگرسیون

نتایج

آمار رگرسیون
چندگانه R	0,998364
R-square	0,99673
مربع R نرمال شده	0,996321
خطای استاندارد	0,42405
مشاهدات	10

ابتدا در نظر بگیرید قسمت بالاییمحاسبات ارائه شده در جدول 8.3a - آمار رگرسیون.

مقدار R-square که معیار قطعیت نیز نامیده می شود، کیفیت خط رگرسیون حاصل را مشخص می کند. این کیفیت با درجه مطابقت بین داده های اصلی و مدل رگرسیون(داده های محاسبه شده). معیار اطمینان همیشه در بازه زمانی است.

در اکثر موارد، مقدار R-squared بین این مقادیر است که به آن افراط می گویند. بین صفر و یک

اگر مقدار R-square نزدیک به یک باشد، به این معنی است که مدل ساخته شده تقریباً تمام متغیرهای متغیرهای مربوطه را توضیح می دهد. برعکس، یک مقدار R-squared نزدیک به صفر به معنای است کیفیت پایینمدل ساخته شده

در مثال ما، اندازه گیری قطعیت 0.99673 است که نشان دهنده تناسب بسیار خوب خط رگرسیون با داده های اصلی است.

چندگانه R- ضریب همبستگی چندگانه R - میزان وابستگی متغیرهای مستقل (X) و متغیر وابسته (Y) را بیان می کند.

چند R برابر است ریشه دوماز ضریب تعیین، این مقدار مقادیری در محدوده صفر تا یک می گیرد.

در یک تحلیل رگرسیون خطی ساده، R مضربی برابر با ضریب همبستگی پیرسون است. در واقع، R مضاعف در مورد ما برابر است با ضریب همبستگی پیرسون از مثال قبلی (0.998364).

جدول 8.3b. ضرایب رگرسیون

	شانس	خطای استاندارد	آمار t
تقاطع Y	2,694545455	0,33176878	8,121757129
متغیر X 1	2,305454545	0,04668634	49,38177965
* یک نسخه کوتاه از محاسبات داده شده است

اکنون قسمت میانی محاسبات ارائه شده در جدول 8.3b را در نظر بگیرید. در اینجا، ضریب رگرسیون b (2.305454545) و افست در امتداد محور y داده می شود، یعنی. ثابت a (2.694545455).

بر اساس محاسبات، می توانیم معادله رگرسیون را به صورت زیر بنویسیم:

Y= x*2.305454545+2.694545455

جهت رابطه بین متغیرها بر اساس علائم (منفی یا مثبت) تعیین می شود. ضرایب رگرسیون(ضریب ب).

اگر علامت در ضریب رگرسیون- مثبت، رابطه متغیر وابسته با مستقل مثبت خواهد بود. در مورد ما، علامت ضریب رگرسیون مثبت است، بنابراین، رابطه نیز مثبت است.

اگر علامت در ضریب رگرسیون- منفی، رابطه بین متغیر وابسته و متغیر مستقل منفی (معکوس) است.

در جدول 8.3c. نتایج حاصل از خروجی باقیمانده ارائه شده است. برای اینکه این نتایج در گزارش نمایش داده شوند، لازم است هنگام راه اندازی ابزار "Regression" تیک "Residuals" را فعال کنید.

انصراف باقی مانده

جدول 8.3c. باقی

مشاهده	Y را پیش بینی کرد	باقی	ترازهای استاندارد
1	9,610909091	-0,610909091	-1,528044662
2	7,305454545	-0,305454545	-0,764022331
3	11,91636364	0,083636364	0,209196591
4	14,22181818	0,778181818	1,946437843
5	16,52727273	0,472727273	1,182415512
6	18,83272727	0,167272727	0,418393181
7	21,13818182	-0,138181818	-0,34562915
8	23,44363636	-0,043636364	-0,109146047
9	25,74909091	-0,149090909	-0,372915662
10	28,05454545	-0,254545455	-0,636685276

با استفاده از این قسمت گزارش می توان انحراف هر نقطه از خط رگرسیون ساخته شده را مشاهده کرد. بزرگترین ارزش مطلق

ارزیابی کیفیت معادله رگرسیون با استفاده از ضرایب تعیین. آزمون فرضیه صفر در مورد اهمیت معادله و شاخص های تنگی اتصال با استفاده از آزمون F فیشر.

خطاهای استاندارد ضرایب.

معادله رگرسیون به صورت زیر است:

Y	=3378,41	-494.59X 1	-35.00X2	+75.74X 3	-15.81X4	+80.10X5	+59.84X6+
	(1304,48)	(226,77)	(10,31)	(277,57)	(287,54)	(35,31)	(150,93)

+127.98X7	-78.10X8	-437.57X9	+451.26X 10	-299.91X 11	-14.93X 12	-369.65X 13	(9)
(22,35)	(31,19)	(97,68)	(331,79)	(127,84)	86,06	(105,08)

برای پر کردن جدول "آمار رگرسیون" (جدول 9) متوجه می شویم:

1. چندگانه R– ضریب همبستگی r بین y و ŷ.

برای این کار با وارد کردن آرایه های y و ŷ از تابع CORREL استفاده کنید.

عدد 0.99 به دست آمده نزدیک به 1 است که نشان دهنده رابطه بسیار قوی بین داده های تجربی و محاسبه شده است.

2. برای محاسبه R-squareما پیدا می کنیم:

خطای توضیح داده شده 17455259,48,

خطای غیر قابل توضیح .

بنابراین، R-squared است.

بر این اساس، 97 درصد از داده های تجربی را می توان با معادله رگرسیون به دست آمده توضیح داد.

3. مربع R نرمال شدهبا فرمول پیدا کنید

این شاخص برای مقایسه استفاده می شود مدل های مختلفرگرسیون با تغییر در ترکیب متغیرهای توضیحی.

4. خطای استانداردجذر واریانس باقیمانده نمونه است:

در نتیجه جدول زیر را بدست می آوریم.

جدول 9

پر کردن جدول "تحلیل واریانس"

بیشتر داده ها قبلاً در بالا دریافت شده است. (خطای توضیحی و غیر قابل توضیح).

t wx:val="Cambria Math"/> را محاسبه کنید 13 = 1342712,27"> .

ما اهمیت آماری معادله رگرسیون را با استفاده از کل تخمین خواهیم زد اف- معیار فیشر. معادله رگرسیون چندگانهمعنی دار (در غیر این صورت، فرضیه H 0 در مورد برابری پارامترهای مدل رگرسیون به صفر، یعنی رد می شود)، اگر

, (10)

مقدار جدولی آزمون F فیشر کجاست.

ارزش واقعی اف- معیار طبق فرمول به صورت زیر خواهد بود:

برای محاسبه ارزش جدولمعیار فیشر، تابع FDISP استفاده شده است (شکل 4).

درجه آزادی 1: p=13

درجه آزادی 2: n-p-1 = 20-13-1=6

شکل 4. استفاده از تابع FDISP در اکسل.

جدول F = 3.976< 16,88, следовательно, модель адекватна опытным данным.

اهمیت Fبا استفاده از تابع FDIST محاسبه می شود. این تابع توزیع احتمال F (توزیع فیشر) را برمی گرداند و به شما امکان می دهد تعیین کنید که آیا دو مجموعه داده درجات پراکندگی متفاوتی در نتایج دارند یا خیر.

شکل 5. استفاده از تابع FRIST در اکسل.

معناداری F = 0.001.

گزارش

وظیفه: یک روش تحلیل رگرسیون را بر اساس داده ها (قیمت فروش و منطقه زندگی) در 23 ملک در نظر بگیرید.

حالت عملیات "رگرسیون" برای محاسبه پارامترهای معادله استفاده می شود رگرسیون خطیو بررسی کفایت آن با فرآیند مورد مطالعه.

برای حل مشکل تحلیل رگرسیون در MS Excel از منو انتخاب کنید سرویسفرمان تحلیل داده هاو ابزار تحلیل" پسرفت".

در کادر محاوره ای که ظاهر می شود، پارامترهای زیر را تنظیم کنید:

1. فاصله ورودی Y- این محدوده ای از داده ها در مورد ویژگی موثر است. باید یک ستون باشد.

2. فاصله ورودی Xمحدوده ای از سلول ها حاوی مقادیر فاکتورها (متغیرهای مستقل) است. تعداد محدوده های ورودی (ستون ها) نباید از 16 تجاوز کند.

3. چک باکس برچسب ها، در صورتی تنظیم می شود که خط اول محدوده حاوی عنوان باشد.

4. چک باکس سطح قابلیت اطمیناندر صورتی فعال می شود که لازم باشد سطحی از قابلیت اطمینان غیر از سطح پیش فرض را در فیلد کنار آن وارد کنید. برای آزمایش اهمیت ضریب تعیین R2 و ضرایب رگرسیون استفاده می شود.

5. صفر ثابت.اگر خط رگرسیون باید از مبدأ عبور کند (و 0 = 0) این چک باکس باید تنظیم شود.

6. فاصله خروجی / کاربرگ جدید / جدید کتاب کار - آدرس سلول بالای سمت چپ محدوده خروجی را مشخص کنید.

7. چک باکس ها در گروه باقیاگر می‌خواهید ستون‌ها یا نمودارهای مربوطه را در محدوده خروجی قرار دهید، تنظیم می‌شوند.

8. اگر می‌خواهید نمودار پراکندگی مقادیر Y مشاهده‌شده در مقابل فواصل صدک‌های تولید شده به‌طور خودکار روی برگه نمایش داده شود، باید چک باکس Normal Probability Plot فعال شود.

پس از زدن دکمه OK در محدوده خروجی، گزارشی دریافت می کنیم.

با استفاده از مجموعه ای از ابزارهای تجزیه و تحلیل داده ها، تحلیل رگرسیونی داده های اصلی را انجام خواهیم داد.

ابزار تحلیل رگرسیون برای برازش پارامترهای معادله رگرسیون با استفاده از روش حداقل مربعات استفاده می شود. رگرسیون برای تجزیه و تحلیل تأثیر بر یک وابسته خاص استفاده می شود متغیر ارزشیک یا چند متغیر مستقل

آمار رگرسیون جدولی

ارزش R جمعریشه ضریب تعیین (R-square) است. به آن شاخص همبستگی یا ضریب همبستگی چندگانه نیز می گویند. میزان وابستگی متغیرهای مستقل (X1، X2) و متغیر وابسته (Y) را بیان می کند و برابر با جذر ضریب تعیین است، این مقدار مقادیری در بازه صفر تا یک می گیرد. در مورد ما برابر با 0.7 است که نشان دهنده وجود رابطه معنادار بین متغیرها است.

ارزش R-squared (ضریب تعیین)که معیار قطعیت نیز نامیده می شود، کیفیت خط رگرسیون حاصل را مشخص می کند. این کیفیت با درجه مطابقت بین داده های اصلی و مدل رگرسیون (داده های محاسبه شده) بیان می شود. معیار اطمینان همیشه در بازه زمانی است.

در مورد ما، مقدار R-squared 0.48 است، یعنی. تقریباً 50٪ که نشان دهنده تناسب ضعیف خط رگرسیون با داده های اصلی است. مقدار پیدا شده R-square = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

مربع R نرمال شدههمان ضریب تعیین است، اما برای اندازه نمونه تنظیم شده است.

هنجار R-square=1-(1-R-square)*((n-1)/(n-k))،

معادله خطی تحلیل رگرسیون

که در آن n تعداد مشاهدات است. k - تعداد پارامترها. ترجیحاً در صورت افزودن رگرسیورها (عوامل) جدید از R-square نرمال شده استفاده شود، زیرا افزایش آنها مقدار R-squared را نیز افزایش می دهد، اما این نشان دهنده بهبود مدل نیست. از آنجایی که در مورد ما مقدار به دست آمده 0.43 است (که با R-square تنها 0.05 تفاوت دارد)، می توانیم در مورد اطمینان بالا در ضریب R-square صحبت کنیم.

خطای استانداردکیفیت تقریب (تقریبی) نتایج مشاهدات را نشان می دهد. در مورد ما، خطا 5.1 است. به صورت درصد محاسبه کنید: 5.1 / (57.4-40.1) = 0.294؟ 29٪ (مدل زمانی بهتر در نظر گرفته می شود خطای استاندارداست<30%)

مشاهدات- تعداد مقادیر مشاهده شده را نشان می دهد (23).

تجزیه و تحلیل جدولی ANOVA

برای به دست آوردن معادله رگرسیون، - آمار تعیین می شود - مشخصه ای از دقت معادله رگرسیون، که نسبت آن قسمت از واریانس متغیر وابسته است که توسط معادله رگرسیون توضیح داده می شود به قسمت غیر قابل توضیح (باقیمانده) واریانس

در ستون df- تعداد درجات آزادی k داده شده است.

برای رگرسیون، این تعداد رگرسیورها (عوامل) است - X1 (مساحت) و X2 (تخمین)، یعنی. k=2.

برای بقیه، این مقدار برابر با n-(m + 1)، یعنی. تعداد نقاط اولیه (23) منهای تعداد ضرایب (2) و منهای جمله آزاد (1).

در ستون SS- مجموع انحرافات مجذور از مقدار میانگین ویژگی حاصل. ارائه می دهد:

مجموع رگرسیون مجذور انحرافات از مقدار میانگین ویژگی حاصل از مقادیر نظری محاسبه شده توسط معادله رگرسیون.

مجموع باقیمانده انحراف مقادیر اولیه از مقادیر نظری.

مجموع مجذور انحرافات مقادیر اصلی از ویژگی حاصل.

هر چه مجموع رگرسیون مجذور انحرافات بزرگتر باشد (یا مجموع باقیمانده کوچکتر)، معادله رگرسیون بهتر به ابر نقطه مبدا نزدیک می شود. در مورد ما، مقدار باقیمانده حدود 50٪ است. بنابراین، معادله رگرسیون ابر نقطه منبع را بسیار ضعیف تقریب می‌کند.

در ستون MS- واریانس نمونه بی طرفانه، رگرسیون و باقیمانده.

در ستون Fبرای آزمون معناداری معادله رگرسیون، ارزش آمار ملاک محاسبه شد.

برای انجام آزمون آماری معناداری معادله رگرسیون، فرضیه صفر مبنی بر عدم وجود رابطه بین متغیرها (همه ضرایب برای متغیرها برابر با صفر هستند) فرموله شده و سطح معناداری انتخاب می شود.

سطح معنی داری احتمال قابل قبول ایجاد خطای نوع I - رد فرضیه صفر صحیح در نتیجه آزمایش است. در این مورد، ایجاد یک خطای نوع I به معنای تشخیص وجود رابطه بین متغیرها در جامعه عمومی از نمونه است، در حالی که در واقع وجود ندارد. سطح معنی داری معمولاً 5 درصد در نظر گرفته می شود. با مقایسه مقدار بدست آمده 9.4 با مقدار جدولی = 3.5 (تعداد درجه آزادی به ترتیب 2 و 20 است) می توان گفت که معادله رگرسیون معنی دار است (F>Fcr).

در ستون، اهمیت Fاحتمال مقدار به دست آمده از آمار معیار محاسبه می شود. از آنجایی که در مورد ما این مقدار = 0.00123 است که کمتر از 0.05 است، می توان گفت که معادله رگرسیون (وابستگی) با احتمال 95٪ معنی دار است.

دو ستون توضیح داده شده در بالا قابلیت اطمینان مدل را به عنوان یک کل نشان می دهد.

جدول زیر شامل ضرایب رگرسیون ها و برآورد آنها می باشد.

سطر تقاطع Y با هیچ رگرسیونی مرتبط نیست، یک ضریب آزاد است.

در ستون شانسمقادیر ضرایب معادله رگرسیون ثبت می شود. بنابراین، معادله معلوم شد:

Y=25.6+0.009X1+0.346X2

معادله رگرسیون باید از مرکز ابر نقطه اولیه عبور کند: 13.02?M(b)?38.26

سپس مقادیر ستون ها را به صورت جفت با هم مقایسه می کنیم ضرایب و خطای استانداردمشاهده می شود که در مورد ما، تمام مقادیر مطلق ضرایب از مقادیر خطاهای استاندارد بیشتر است. این ممکن است نشان دهنده اهمیت رگرسیون ها باشد، با این حال، این یک تحلیل تقریبی است. ستون آمار t شامل ارزیابی دقیق تری از اهمیت ضرایب است.

در ستون آمار tحاوی مقادیر آزمون t است که با فرمول محاسبه می شود:

t=(ضریب)/(خطای استاندارد)

این معیار دارای توزیع دانشجویی با تعداد درجات آزادی است

n-(k+1)=23-(2+1)=20

با توجه به جدول Student، مقدار ttable = 2.086 را پیدا می کنیم. مقایسه کردن

t با جدول دریافت می کنیم که ضریب رگرسیون X2 ناچیز است.

ستون مقدار pنشان دهنده این احتمال است که مقدار بحرانی آمار آزمون مورد استفاده (آمار دانشجویی) از مقدار محاسبه شده از نمونه تجاوز کند. در این مورد مقایسه می کنیم مقادیر pبا سطح معناداری انتخابی (0.05). مشاهده می شود که تنها ضریب رگرسیون X2=0.08>0.05 را می توان ناچیز در نظر گرفت.

ستون‌های 95 درصد پایین و 95 درصد بالا مرزهای فواصل اطمینان را با اطمینان 95 درصد نشان می‌دهند. هر ضریب محدودیت های خاص خود را دارد: جدول ضرایب *خطای استاندارد

فواصل اطمینان فقط برای مقادیر معنی دار آماری ساخته می شوند.

در آثار او به سال 1908 برمی گردد. او آن را با استفاده از مثال کار یک عامل فروش املاک توصیف کرد. در یادداشت های خود، متخصص فروش خانه رکوردی از طیف گسترده ای از داده های ورودی برای هر ساختمان خاص را نگه داشته است. بر اساس نتایج مزایده مشخص شد که کدام عامل بیشترین تاثیر را بر قیمت معامله داشته است.

تحلیل و بررسی تعداد زیادیمعاملات داد نتایج جالب. عوامل زیادی بر قیمت نهایی تأثیر می‌گذارند، که گاهی منجر به نتیجه‌گیری‌های متناقض می‌شود و حتی زمانی که خانه‌ای با پتانسیل اولیه بالا با شاخص قیمت پایین‌تری فروخته می‌شود، منجر به نتایج متناقض و حتی «غیرطبیعی» می‌شود.

دومین نمونه از کاربرد چنین تحلیلی، کاری است که تعیین دستمزد کارکنان به آن سپرده شده بود. پیچیدگی کار این بود که لازم بود مبلغ ثابتی بین همه توزیع نشود، بلکه ارزش آن به شدت با کار خاص انجام شده مطابقت داده شود. ظهور بسیاری از مسائل با راه حل های عملا مشابه مستلزم مطالعه دقیق تر آنها در سطح ریاضی بود.

جایگاه قابل توجهی به بخش "تحلیل رگرسیون" داده شد که ترکیب شد روش های عملیبرای مطالعه وابستگی هایی که تحت مفهوم رگرسیون قرار می گیرند استفاده می شود. این روابط بین داده های به دست آمده در جریان مطالعات آماری مشاهده می شود.

در میان بسیاری از وظایفی که باید حل شوند، او سه هدف اصلی را برای خود تعیین می کند: تعریف معادله رگرسیون. نمای کلی; تخمین ساختمان پارامترهای ناشناخته، که بخشی از معادله رگرسیون هستند. آزمون فرضیه های رگرسیون آماری. در جریان بررسی رابطه ای که بین یک جفت کمیت به دست آمده در نتیجه مشاهدات تجربی و تشکیل یک سری (مجموعه) از نوع (x1, y1), ..., (xn, yn) به وجود می آید. مفاد نظریه رگرسیون و فرض کنید که برای یک کمیت Y مقدار معینی وجود دارد توزیع احتمال، در حالی که X دیگر ثابت می ماند.

نتیجه Y به مقدار متغیر X بستگی دارد، این وابستگی را می توان با الگوهای مختلف تعیین کرد، در حالی که دقت نتایج به دست آمده تحت تأثیر ماهیت مشاهدات و هدف تجزیه و تحلیل است. مدل تجربی مبتنی بر مفروضات خاصی است که ساده اما قابل قبول هستند. شرط اصلی این است که پارامتر X یک مقدار کنترل شده باشد. مقادیر آن قبل از شروع آزمایش تنظیم می شود.

اگر در طول آزمایش از یک جفت مقادیر XY کنترل نشده استفاده شود، تجزیه و تحلیل رگرسیون به همان روش انجام می شود، اما برای تفسیر نتایج، که در طی آن رابطه مورد مطالعه قرار می گیرد. متغیرهای تصادفیروش ها اعمال می شوند روش های آمار ریاضی موضوعی انتزاعی نیست. آنها کاربرد خود را در زندگی در زمینه های مختلف فعالیت انسانی پیدا می کنند.

در ادبیات علمی، اصطلاح تحلیل رگرسیون خطی برای تعریف روش فوق کاربرد وسیعی یافته است. برای متغیر X از اصطلاح رگرسیون یا پیش بینی کننده استفاده می شود و متغیرهای وابسته Y نیز متغیرهای معیار نامیده می شوند. این اصطلاح فقط وابستگی ریاضی متغیرها را منعکس می کند، اما نه روابط علی-علی.

تحلیل رگرسیون رایج ترین روشی است که در پردازش نتایج طیف گسترده ای از مشاهدات استفاده می شود. اعتیادهای فیزیکی و بیولوژیکی به وسیله وسایل مورد مطالعه قرار می گیرند این روش، هم در اقتصاد و هم در فناوری اجرا می شود. بسیاری از زمینه های دیگر از مدل های تحلیل رگرسیون استفاده می کنند. تجزیه و تحلیل واریانس، تجزیه و تحلیل آماری چند متغیره با این روش مطالعه همکاری نزدیکی دارد.

سخنرانی 4

عناصر تجزیه و تحلیل آماری مدل
بررسی اهمیت آماری پارامترهای معادله رگرسیون
تحلیل واریانس
معاینه کیفیت کلیمعادلات رگرسیون
آمار F. توزیع فیشر در تحلیل رگرسیون.

با برآورد رابطه بین متغیرهای درون زا و برون زا (y و x) با استفاده از داده های نمونه، همیشه نمی توان یک مدل رگرسیون موفق در مرحله اول به دست آورد. در عین حال، کیفیت مدل حاصل باید هر بار ارزیابی شود. کیفیت مدل در 2 حوزه ارزیابی می شود:

· ارزیابی آماریکیفیت مدل

تحلیل آماریمدل شامل عناصر زیر است:

بررسی اهمیت آماری پارامترهای معادله رگرسیون
بررسی کیفیت کلی معادله رگرسیون
بررسی ویژگی‌های داده‌هایی که قرار بود هنگام ارزیابی معادله برآورده شوند

اهمیت آماری پارامترهای معادله رگرسیون توسط آماره t یا آمار دانشجویی تعیین می شود. بنابراین:

tb آماره t برای ضریب رگرسیون b است

mb خطای استاندارد ضریب رگرسیون است.

آمار t برای ضرایب همبستگی R نیز محاسبه می شود:

بنابراین tb^2=t r ^2=F. یعنی آزمون معناداری آماری ضریب رگرسیون b معادل آزمون معناداری آماری ضریب همبستگی است.

ضریب همبستگی تنگی همبستگی (بین x و y) را نشان می دهد.

برای رگرسیون خطی، ضریب همبستگی:

برای تعیین تنگی اتصال معمولا از جدول چگلوک استفاده می شود.

R 0.1 - 0.3 ضعیف

R 0.3 - 0.5 متوسط

R 0.5-.07 قابل توجه است

R 0.7-0.9 بالا

R 0.9 تا 0.99 رابطه بسیار بالایی بین x و y

ضریب همبستگی -1

اغلب، برای اهداف عملی، ضریب کشش، ضریب بتا، محاسبه می شود:

کشش تابع y \u003d f (x) حد نسبت متغیرهای نسبی y و x است.

الاستیسیته نشان می‌دهد که وقتی x ۱ درصد تغییر کند، y چقدر تغییر می‌کند.

برای رگرسیون خطی زوجی، ضریب کشش با فرمول محاسبه می شود:

این نشان می دهد که وقتی x به طور متوسط 1٪ تغییر می کند، به طور متوسط چه مقدار % در y تغییر می کند.

ضریب بتا:

– میانگین انحراف مربع x

- میانگین انحراف مربع y

ضریب بتا نشان می دهد که وقتی x با مقدار انحراف معیار تغییر می کند، چه مقدار از انحراف معیار y تغییر می کند.

تحلیل واریانس

در تجزیه و تحلیل واریانس، جایگاه ویژه ای با تجزیه مجموع مجذور انحرافات متغیر y از میانگین به دو بخش: مجموع توضیح داده شده با رگرسیون و مجموع توضیح داده نشده با رگرسیون اشغال می شود.

مجموع مجذور انحرافات برابر است با مجموع مجذور انحرافات رگرسیون توضیح داده شده به اضافه مجموع باقیمانده مجذور انحرافات.

این مبالغ به تعداد درجات آزادی df مربوط می شود - این تعداد آزادی تغییرات مستقل ویژگی ها است.

بنابراین مجموع مجذور انحرافات دارای تعداد کل درجه آزادی است (n - 1).

مجموع انحرافات مجذور توضیح داده شده توسط رگرسیون دارای درجه آزادی 1 است، زیرا متغیر به یک مقدار بستگی دارد - ضریب رگرسیون b.

یک برابری بین تعداد درجات آزادی وجود دارد که از آن:

N - 1 \u003d 1 + n - 2

هر مجموع را بر تعداد درجات آزادی مربوطه تقسیم می کنیم، میانگین مجذور انحرافات یا واریانس را بدست می آوریم:

D کل = D واقعیت + D استراحت

ارزیابی کیفیت کلی معادله رگرسیون به معنای تعیین اینکه آیا مدل ریاضی که رابطه بین متغیرها را بیان می‌کند با داده‌های تجربی مطابقت دارد و آیا متغیرهای کافی برای توضیح y در مدل گنجانده شده است یا خیر.

ارزیابی کیفیت های کلی مدل = ارزیابی پایایی مدل = ارزیابی پایایی معادله رگرسیون.

ارزیابی کیفیت کلی مدل رگرسیون بر اساس تحلیل واریانس انجام می شود. برای ارزیابی کیفیت مدل، ضریب تعیین محاسبه می شود:

در عدد، تخمین نمونه واریانس باقیمانده، در مخرج، تخمین نمونه از واریانس کل.

ضریب تعیین، نسبت تغییرات در متغیر وابسته را مشخص می کند که با استفاده از معادله رگرسیون توضیح داده شده است.

بنابراین، اگر مجذور R 0.97 باشد، به این معنی است که 97 درصد از تغییر در y به دلیل تغییر در x است.

هر چه R مجذور یک نزدیکتر باشد، رابطه خطی معنی دار آماری بین x و y قوی تر است.

برای به دست آوردن تخمین های بی طرفانه از پراکندگی (ضریب تعیین)، هم صورت و هم مخرج در فرمول بر تعداد متناظر درجه آزادی تقسیم می شوند:

برای تعیین اهمیت آماری ضریب تعیین R مجذور، فرضیه صفر برای آماره F که با فرمول محاسبه می شود آزمایش می شود:

برای بخار خطی:

F-calculated با مقدار آمار در جدول مقایسه می شود. جدول F با تعداد درجات آزادی m، n-m-1، در سطح معناداری آلفا در نظر گرفته می شود.

اگر F calc> F جدول باشد، فرضیه صفر رد شود، فرضیه معنی دار بودن آماری ضریب تعیین مربع R پذیرفته می شود.

آزمون F فیشر = واریانس فاکتوریل / در هر واریانس باقیمانده:

سخنرانی شماره 5

بررسی ویژگی‌های داده‌ای که انتظار می‌رفت هنگام ارزیابی معادله رگرسیون برآورده شوند

1. خودهمبستگی در باقیمانده ها

2. آمار دوربین واتسون

3. مثال ها

هنگام تخمین پارامترهای مدل رگرسیون، فرض می شود که انحراف

1. اگر رابطه بین x و y خطی نباشد.

2. رابطه بین متغیرهای x و y خطی است، اما شاخص مورد مطالعه تحت تأثیر عاملی است که در مدل لحاظ نشده است. مقدار چنین عاملی می تواند پویایی آن را در طول دوره مورد بررسی تغییر دهد. این به ویژه برای متغیرهای تاخیر صادق است.

هر دو دلیل نشان می دهد که معادله رگرسیون حاصل را می توان با تخمین وابستگی غیرخطی یا با افزودن یک عامل اضافی به مدل اصلی بهبود بخشید.

فرض چهارم روش حداقل مربعات می گوید که انحرافات مستقل از یکدیگر هستند، اما در مطالعه و تحلیل داده های اولیه در عمل، شرایطی وجود دارد که این انحرافات حاوی یک روند یا نوسانات چرخه ای باشد.