• خطای استاندارد رگرسیون در اکسل. ساخت یک معادله رگرسیون چندگانه در اکسل

    روش رگرسیون خطیبه ما اجازه می دهد تا یک خط مستقیم را توصیف کنیم که تا حد امکان با یک سری از جفت های مرتب شده (x، y) مطابقت دارد. معادله یک خط مستقیم که به نام معادله خطی، در زیر ارائه می شود:

    ŷ مقدار مورد انتظار y در است مقدار را تنظیم کنیدایکس،

    x یک متغیر مستقل است،

    a - بخش در محور y برای یک خط مستقیم،

    b شیب خط مستقیم است.

    در شکل زیر این مفهوم به صورت گرافیکی نشان داده شده است:

    شکل بالا خطی را نشان می دهد که با معادله ŷ =2+0.5x توصیف شده است. پاره خط روی محور y نقطه ای است که خط با محور y قطع می کند. در مورد ما، a = 2. شیب خط، b، نسبت افزایش خط به طول خط، مقدار 0.5 دارد. شیب مثبت به این معنی است که خط از چپ به راست بالا می رود. اگر b = 0، خط افقی است، به این معنی که هیچ رابطه ای بین متغیرهای وابسته و مستقل وجود ندارد. به عبارت دیگر تغییر مقدار x تاثیری بر مقدار y ندارد.

    ŷ و y اغلب اشتباه گرفته می شوند. نمودار مطابق معادله داده شده 6 جفت نقطه مرتب و یک خط را نشان می دهد

    این شکل نقطه مربوط به جفت مرتب شده x = 2 و y = 4 را نشان می دهد. توجه داشته باشید که مقدار مورد انتظار y با توجه به خط در ایکس= 2 برابر ŷ است. ما می توانیم این را با معادله زیر تأیید کنیم:

    ŷ = 2 + 0.5x = 2 + 0.5 (2) = 3.

    مقدار y نقطه واقعی است و مقدار ŷ مقدار y مورد انتظار با استفاده از یک معادله خطی برای مقدار x معین است.

    مرحله بعدی تعیین معادله خطی است که حداکثر با مجموعه جفت های مرتب شده مطابقت دارد، در مقاله قبلی در این مورد صحبت کردیم، جایی که شکل معادله را با .

    استفاده از اکسل برای تعریف رگرسیون خطی

    برای استفاده از ابزار تجزیه و تحلیل رگرسیونتعبیه شده در اکسل، باید افزونه را فعال کنید بسته تحلیلی. با کلیک بر روی برگه می توانید آن را پیدا کنید فایل –> گزینه ها(2007+)، در گفتگوی ظاهر شده گزینه هابرتری داشتنبه برگه بروید افزونه هادر زمینه کنترلانتخاب کنید افزونه هابرتری داشتنو کلیک کنید برودر پنجره ای که ظاهر می شود، کادر کناری را علامت بزنید بسته تحلیلی،کلیک خوب.

    در برگه داده هادر گروه تحلیل و بررسیپدیدار خواهد شد دکمه جدید تحلیل داده ها.

    برای نشان دادن نحوه عملکرد این افزونه، از داده‌ها استفاده می‌کنیم، جایی که یک پسر و یک دختر در یک میز در حمام مشترک هستند. داده های مثال حمام ما را در ستون های A و B یک صفحه خالی وارد کنید.

    به برگه بروید داده ها،در گروه تحلیل و بررسیکلیک تحلیل داده ها.در پنجره ای که ظاهر می شود تحلیل داده هاانتخاب کنید پسرفتهمانطور که در شکل نشان داده شده است و روی OK کلیک کنید.

    پارامترهای رگرسیون مورد نیاز را در پنجره تنظیم کنید پسرفت، همانطور که در تصویر نشان داده شده است:

    کلیک خوب.شکل زیر نتایج به دست آمده را نشان می دهد:

    این نتایج با نتایج محاسبات مستقل در .

    خط رگرسیون بازتابی گرافیکی از رابطه بین پدیده هاست. شما به راحتی می توانید یک خط رگرسیون در اکسل بسازید.

    برای این شما نیاز دارید:

    1.برنامه اکسل را باز کنید

    2. ستون هایی با داده ایجاد کنید. در مثال خود، ما یک خط رگرسیون یا رابطه بین پرخاشگری و شک به خود در دانش آموزان کلاس اول ایجاد می کنیم. این آزمایش شامل 30 کودک بود که داده ها در جدول اکسل ارائه شده است:

    1 ستون - شماره موضوع

    2 ستون - پرخاشگریدر امتیاز

    3 ستون - اختلاف نظردر امتیاز

    3. سپس باید هر دو ستون را انتخاب کنید (بدون نام ستون)، زبانه را فشار دهید درج کنید , انتخاب کنید نقطه و از بین طرح‌بندی‌های پیشنهادی، اولین مورد را انتخاب کنید نقطه با نشانگر .

    4. بنابراین ما یک خالی برای خط رگرسیون گرفتیم - به اصطلاح - طرح پراکنده. برای رفتن به خط رگرسیون، باید روی شکل حاصل کلیک کنید، روی تب کلیک کنید سازنده، در پانل پیدا کنید طرح بندی نمودار و انتخاب کنید م آ ket9 ، همچنین می گوید f(x)

    5. بنابراین، ما یک خط رگرسیون داریم. نمودار نیز معادله آن و مجذور ضریب همبستگی را نشان می دهد

    6. باقی مانده است که نام نمودار، نام محورها را اضافه کنید. همچنین، در صورت تمایل، می توانید افسانه را حذف کنید، تعداد را کاهش دهید خطوط افقیشبکه ها (برگه چیدمان ، سپس خالص ). تغییرات و تنظیمات اصلی در تب انجام می شود چیدمان

    خط رگرسیون در MS Excel ساخته شده است. حال می توان آن را به متن اثر اضافه کرد.

    رگرسیون و تحلیل همبستگی - روشهای تحقیق آماری. اینها رایج ترین راه ها برای نشان دادن وابستگی یک پارامتر به یک یا چند متغیر مستقل هستند.

    در زیر، با استفاده از مثال‌های عملی عینی، این دو تحلیل بسیار محبوب در میان اقتصاددانان را بررسی خواهیم کرد. ما همچنین مثالی از به دست آوردن نتایج در هنگام ترکیب آنها خواهیم داد.

    تجزیه و تحلیل رگرسیون در اکسل

    تأثیر برخی از مقادیر (مستقل، مستقل) را بر روی متغیر وابسته نشان می دهد. به عنوان مثال، چگونگی تعداد جمعیت فعال اقتصادی به تعداد شرکت ها، دستمزدها و سایر پارامترها بستگی دارد. یا: سرمایه گذاری های خارجی، قیمت انرژی و غیره چگونه بر سطح تولید ناخالص داخلی تأثیر می گذارد.

    نتیجه تجزیه و تحلیل به شما امکان می دهد اولویت بندی کنید. و بر اساس عوامل اصلی، پیش بینی، برنامه ریزی توسعه حوزه های اولویت دار، تصمیم گیری های مدیریتی.

    رگرسیون اتفاق می افتد:

    • خطی (y = a + bx)؛
    • سهمی (y = a + bx + cx 2)؛
    • نمایی (y = a * exp(bx));
    • توان (y = a*x^b)؛
    • هذلولی (y = b/x + a)؛
    • لگاریتمی (y = b * 1n(x) + a)؛
    • نمایی (y = a * b^x).

    مثال ساخت یک مدل رگرسیون در اکسل و تفسیر نتایج را در نظر بگیرید. بیایید یک نوع رگرسیون خطی در نظر بگیریم.

    وظیفه. در 6 شرکت، میانگین حقوق ماهانه و تعداد کارکنانی که ترک کردند، تجزیه و تحلیل شد. تعیین وابستگی تعداد کارکنان بازنشسته به میانگین حقوق ضروری است.

    مدل رگرسیون خطی به شکل زیر است:

    Y \u003d a 0 + a 1 x 1 + ... + a k x k.

    جایی که a ضرایب رگرسیون، x متغیرهای تاثیرگذار و k تعداد عوامل است.

    در مثال ما، Y نشانگر ترک کار است. عامل تأثیرگذار دستمزد (x) است.

    اکسل دارای توابع داخلی است که می توان از آنها برای محاسبه پارامترهای یک مدل رگرسیون خطی استفاده کرد. اما افزونه Analysis ToolPak این کار را سریعتر انجام می دهد.

    یک ابزار تحلیلی قدرتمند را فعال کنید:

    پس از فعال شدن، افزونه در تب Data در دسترس خواهد بود.

    حال به طور مستقیم به تحلیل رگرسیون می پردازیم.



    اول از همه به مربع R و ضرایب توجه می کنیم.

    R-square ضریب تعیین است. در مثال ما، 0.755 یا 75.5٪ است. این بدان معناست که پارامترهای محاسبه شده مدل، رابطه بین پارامترهای مورد مطالعه را 75.5 درصد توضیح می دهد. هر چه ضریب تعیین بالاتر باشد، مدل بهتر است. خوب - بالای 0.8. ضعیف - کمتر از 0.5 (چنین تجزیه و تحلیل به سختی می تواند معقول در نظر گرفته شود). در مثال ما - "بد نیست".

    ضریب 64.1428 نشان می دهد که اگر همه متغیرهای مدل مورد نظر برابر با 0 باشند Y چقدر خواهد بود. یعنی عوامل دیگری که در مدل توضیح داده نشده اند نیز بر مقدار پارامتر تحلیل شده تأثیر می گذارند.

    ضریب -0.16285 وزن متغیر X را بر Y نشان می دهد. یعنی میانگین حقوق ماهانه در این مدل بر تعداد افراد ترک با وزن 0.16285- تأثیر می گذارد (این درجه تأثیر کمی است). علامت "-" نشان دهنده تأثیر منفی است: هر چه حقوق و دستمزد بالاتر باشد، ترک کار کمتر است. که منصفانه است.

    

    تجزیه و تحلیل همبستگی در اکسل

    تجزیه و تحلیل همبستگی به تعیین اینکه آیا رابطه ای بین شاخص ها در یک یا دو نمونه وجود دارد کمک می کند. به عنوان مثال بین زمان کارکرد دستگاه و هزینه تعمیرات، قیمت تجهیزات و مدت زمان کارکرد، قد و وزن کودکان و غیره.

    اگر یک رابطه وجود داشته باشد، پس آیا افزایش در یک پارامتر منجر به افزایش (همبستگی مثبت) یا کاهش (منفی) در پارامتر دیگر می شود. تحلیل همبستگی به تحلیلگر کمک می کند تا تعیین کند که آیا مقدار یک شاخص می تواند ارزش احتمالی شاخص دیگر را پیش بینی کند یا خیر.

    ضریب همبستگی r نشان داده می شود. از +1 تا -1 متغیر است. طبقه بندی همبستگی ها برای حوزه های مختلف متفاوت خواهد بود. وقتی مقدار ضریب 0 باشد، هیچ رابطه خطی بین نمونه ها وجود ندارد.

    بیایید نحوه استفاده را ببینیم ابزارهای اکسلضریب همبستگی را پیدا کنید.

    تابع CORREL برای یافتن ضرایب جفت شده استفاده می شود.

    وظیفه: تعیین کنید که آیا رابطه ای بین زمان کار وجود دارد یا خیر ماشین تراشو هزینه نگهداری آن

    مکان نما را در هر سلولی قرار دهید و دکمه fx را فشار دهید.

    1. در دسته «آماری»، تابع CORREL را انتخاب کنید.
    2. آرگومان "آرایه 1" - اولین محدوده مقادیر - زمان ماشین: A2: A14.
    3. آرگومان "آرایه 2" - دومین محدوده مقادیر - هزینه تعمیرات: B2:B14. روی OK کلیک کنید.

    برای تعیین نوع اتصال، باید به عدد مطلق ضریب نگاه کنید (هر زمینه فعالیت مقیاس خاص خود را دارد).

    برای تجزیه و تحلیل همبستگیچندین پارامتر (بیش از 2)، استفاده از "تحلیل داده" (افزونه "بسته تجزیه و تحلیل") راحت تر است. در لیست، شما باید یک همبستگی را انتخاب کنید و یک آرایه را تعیین کنید. همه.

    ضرایب حاصل در ماتریس همبستگی نمایش داده می شود. شبیه این یکی:

    تحلیل همبستگی-رگرسیون

    در عمل، این دو تکنیک اغلب با هم استفاده می شوند.

    مثال:


    اکنون داده های تحلیل رگرسیون قابل مشاهده است.

    در یادداشت های قبلی، تمرکز اغلب بر روی یک متغیر عددی واحد بوده است، مانند بازده صندوق سرمایه گذاری مشترک، زمان بارگذاری صفحه وب یا مصرف نوشابه. در این یادداشت و نکات بعدی، روش هایی را برای پیش بینی مقادیر یک متغیر عددی بسته به مقادیر یک یا چند متغیر عددی دیگر در نظر خواهیم گرفت.

    مطالب با یک مثال از طریق نشان داده خواهد شد. پیش بینی حجم فروش در یک فروشگاه پوشاک 25 سال است که فروشگاه های زنجیره ای لباس های تخفیف دار Sunflowers به ​​طور مداوم در حال گسترش است. با این حال، این شرکت در حال حاضر یک رویکرد سیستماتیک برای انتخاب فروشگاه های جدید ندارد. مکانی که شرکت قرار است افتتاح شود مغازه جدید، بر اساس ملاحظات ذهنی تعیین می شود. معیار انتخاب شرایط اجاره مطلوب یا ایده مدیر از مکان ایده آل فروشگاه است. تصور کنید که شما رئیس بخش پروژه های ویژه و برنامه ریزی هستید. شما وظیفه دارید یک برنامه استراتژیک برای افتتاح فروشگاه های جدید تهیه کنید. این طرح باید شامل پیش بینی فروش سالانه در فروشگاه های تازه افتتاح شده باشد. شما معتقدید که فروش فضا به طور مستقیم با درآمد مرتبط است و می خواهید این واقعیت را در فرآیند تصمیم گیری خود لحاظ کنید. چگونه یک مدل آماری ایجاد می کنید که فروش سالانه را بر اساس اندازه فروشگاه جدید پیش بینی می کند؟

    معمولاً از تحلیل رگرسیون برای پیش‌بینی مقادیر یک متغیر استفاده می‌شود. هدف آن توسعه یک مدل آماری است که مقادیر متغیر وابسته یا پاسخ را از روی مقادیر حداقل یک متغیر مستقل یا توضیحی پیش بینی کند. در این یادداشت، یک رگرسیون خطی ساده را در نظر خواهیم گرفت - روش آماری، امکان پیش بینی مقادیر متغیر وابسته را فراهم می کند Yتوسط مقادیر متغیر مستقل ایکس. یادداشت های زیر مدل را شرح می دهند رگرسیون چندگانه، برای پیش بینی مقادیر متغیر مستقل طراحی شده است Yبا مقادیر چندین متغیر وابسته ( X 1، X 2، …، X k).

    دانلود یادداشت به صورت یا فرمت، نمونه ها در قالب

    انواع مدل های رگرسیون

    جایی که ρ 1 ضریب همبستگی است. اگر ρ 1 = 0 (بدون خود همبستگی)، D≈ 2; اگر ρ 1 ≈ 1 (خودهمبستگی مثبت)، D≈ 0; اگر ρ 1 = -1 (خودهمبستگی منفی)، D ≈ 4.

    در عمل، استفاده از معیار دوربین واتسون مبتنی بر مقایسه مقدار است Dبا ارزش های نظری انتقادی دسی لیترو d Uبرای تعداد معینی از مشاهدات nتعداد متغیرهای مستقل مدل ک(برای رگرسیون خطی ساده ک= 1) و سطح معنی داری α. اگر D< d L ، فرضیه استقلال انحرافات تصادفی رد می شود (از این رو، یک خودهمبستگی مثبت وجود دارد). اگر D > d U، فرضیه رد نمی شود (یعنی خود همبستگی وجود ندارد). اگر d L< D < d U دلیل کافی برای تصمیم گیری وجود ندارد. زمانی که مقدار محاسبه شده است Dپس از 2 تجاوز کند دسی لیترو d Uاین خود ضریب نیست که مقایسه می شود Dو عبارت (4- D).

    برای محاسبه آمار دوربین واتسون در اکسل، به جدول پایین در شکل 1 می رویم. 14 برداشت موجودی. عدد در عبارت (10) با استفاده از تابع = SUMMQDIFF(array1, array2) و مخرج = SUMMQ(آرایه) محاسبه می شود (شکل 16).

    برنج. 16. فرمول های محاسبه آمار دوربین واتسون

    در مثال ما D= 0.883. سوال اصلی این است: چه مقداری از آمار دوربین واتسون را باید به اندازه کافی کوچک در نظر گرفت تا نتیجه گیری شود که یک خودهمبستگی مثبت وجود دارد؟ لازم است که مقدار D را با مقادیر بحرانی مرتبط کنیم ( دسی لیترو d U) بسته به تعداد مشاهدات nو سطح اهمیت α (شکل 17).

    برنج. 17. مقادیر بحرانی آمار دوربین واتسون (قطعه جدول)

    بنابراین، در مشکل حجم فروش در فروشگاهی که کالا را به منزل شما تحویل می دهد، یک متغیر مستقل وجود دارد ( ک= 1)، 15 مشاهده ( n= 15) و سطح معنی داری α = 0.05. از این رو، دسی لیتر= 1.08 و دU= 1.36. از آنجا که D = 0,883 < دسی لیتر 08/1 =، بین باقیمانده ها همبستگی مثبت وجود دارد، روش حداقل مربعات را نمی توان اعمال کرد.

    آزمون فرضیه های شیب و ضریب همبستگی

    رگرسیون فوق صرفاً برای پیش بینی اعمال شد. برای تعیین ضرایب رگرسیون و پیش بینی مقدار یک متغیر Yبرای یک مقدار متغیر معین ایکساز روش حداقل مربعات استفاده شد. علاوه بر این، خطای استاندارد برآورد و ضریب همبستگی مختلط را در نظر گرفتیم. اگر تجزیه و تحلیل باقیمانده تأیید کند که شرایط اعمال روش حداقل مربعات نقض نشده است و مدل رگرسیون خطی ساده کافی است، بر اساس داده های نمونه می توان استدلال کرد که بین متغیرهای جامعه وجود دارد. وابستگی خطی.

    کاربردتی - معیارهای شیببا بررسی اینکه آیا شیب جمعیت β 1 برابر با صفر است، می توان تعیین کرد که آیا رابطه آماری معنی داری بین متغیرها وجود دارد یا خیر. ایکسو Y. اگر این فرضیه رد شود، می توان استدلال کرد که بین متغیرها ایکسو Yیک رابطه خطی وجود دارد فرضیه های صفر و جایگزین به صورت زیر فرموله می شوند: H 0: β 1 = 0 (بدون رابطه خطی)، H1: β 1 ≠ 0 (رابطه خطی وجود دارد). الف- مقدماتی تی- آمار برابر است با تفاوت بین شیب نمونه و شیب فرضی جمعیت، تقسیم بر خطای استاندارد برآورد شیب:

    (11) تی = (ب 1 β 1 ) / Sb 1

    جایی که ب 1 شیب رگرسیون مستقیم بر اساس داده های نمونه است، β1 شیب فرضی جمعیت عمومی مستقیم است، ، و آمار تست تیاین دارد تی- توزیع با n - 2درجه آزادی.

    بیایید بررسی کنیم که آیا رابطه آماری معناداری بین اندازه فروشگاه و فروش سالانه در α = 0.05 وجود دارد یا خیر. تیهنگام استفاده، معیارها همراه با سایر پارامترها نمایش داده می شود بسته تحلیلی(گزینه پسرفت). نتایج کامل بسته تحلیلی در شکل نشان داده شده است. 4، یک قطعه مربوط به آمار t - در شکل. 18.

    برنج. 18. نتایج برنامه تی

    چون تعداد فروشگاه ها n= 14 (نگاه کنید به شکل 3)، مقدار بحرانی تی-آمار در سطح معناداری α = 0.05 را می توان با فرمول پیدا کرد: تی ال=STUDENT.INV(0.025;12) = -2.1788 که در آن 0.025 نیمی از سطح معنی داری و 12 = است. n – 2; t U\u003d STUDENT.INR (0.975، 12) \u003d +2.1788.

    از آنجا که تی-statistics = 10.64 > t U= 2.1788 (شکل 19)، فرضیه صفر H 0رد می شود. از طرف دیگر، آر-ارزش برای ایکس\u003d 10.6411، محاسبه شده با فرمول \u003d 1-STUDENT.DIST (D3, 12, TRUE) تقریباً برابر با صفر است، بنابراین فرضیه H 0دوباره رد می شود این حقیقت که آر- ارزش تقریباً صفر است، به این معنی که اگر هیچ رابطه خطی واقعی بین اندازه فروشگاه و فروش سالانه وجود نداشت، یافتن آن با استفاده از رگرسیون خطی تقریباً غیرممکن بود. بنابراین بین میانگین فروش سالانه فروشگاه و اندازه فروشگاه رابطه خطی معناداری از نظر آماری وجود دارد.

    برنج. 19. آزمون فرضیه شیب جمعیت عمومی در سطح معنی داری 05/0 و 12 درجه آزادی.

    کاربرداف - معیارهای شیبیک رویکرد جایگزین برای آزمایش فرضیه‌های مربوط به شیب رگرسیون خطی ساده استفاده از آن است اف-شاخص. به یاد بیاورید که اف- معیار برای آزمایش رابطه بین دو واریانس استفاده می شود (به جزئیات مراجعه کنید). هنگام آزمایش فرضیه شیب، معیار خطاهای تصادفی واریانس خطا (مجموع مجذور خطاها تقسیم بر تعداد درجه آزادی) است. اف-تست از نسبت واریانس توضیح داده شده توسط رگرسیون استفاده می کند (یعنی مقادیر SSRتقسیم بر تعداد متغیرهای مستقل ک، به واریانس خطا ( MSE=SYایکس 2 ).

    الف- مقدماتی اف-آمار برابر است با میانگین مجذور انحرافات ناشی از رگرسیون (MSR) تقسیم بر واریانس خطا (MSE): اف = MSR/ MSE، جایی که MSR=SSR / کMSE =SSE/(n– k – 1)، kتعداد متغیرهای مستقل در مدل رگرسیونی است. آمار تست افاین دارد اف- توزیع با کو n– k – 1درجه آزادی.

    برای سطح اهمیت معین α، قاعده تصمیم به صورت زیر فرموله می شود: اگر F > FU، فرضیه صفر رد می شود. در غیر این صورت رد نمی شود. نتایج به صورت قالب بندی شده است جدول محوریتجزیه و تحلیل واریانس در شکل نشان داده شده است. 20.

    برنج. 20. جدول تحلیل واریانس برای آزمون فرضیه معنی دار بودن آماری ضریب رگرسیون.

    به همین ترتیب تی-معیار اف-معیار هنگام استفاده در جدول نمایش داده می شود بسته تحلیلی(گزینه پسرفت). نتایج کامل کار بسته تحلیلیدر شکل نشان داده شده است. 4، قطعه مربوط به اف-statistics - در شکل. 21.

    برنج. 21. نتایج برنامه اف- معیارهای به دست آمده با استفاده از بسته ابزار تجزیه و تحلیل اکسل

    آماره F 113.23 است و آر-مقدار نزدیک به صفر (سلول اهمیتاف). اگر سطح معناداری α 0.05 باشد، مقدار بحرانی را تعیین کنید اف-توزیعات با یک و 12 درجه آزادی را می توان از فرمول بدست آورد F U\u003d F. OBR (1-0.05؛ 1؛ 12) \u003d 4.7472 (شکل 22). از آنجا که اف = 113,23 > F U= 4.7472 و آر-مقدار نزدیک به 0< 0,05, нулевая гипотеза H 0منحرف می شود، یعنی اندازه یک فروشگاه ارتباط نزدیکی با حجم فروش سالانه آن دارد.

    برنج. 22. آزمون فرضیه شیب جمعیت عمومی در سطح معنی داری 05/0، با یک و 12 درجه آزادی.

    فاصله اطمینان حاوی شیب β 1 .برای آزمایش فرضیه وجود رابطه خطی بین متغیرها، می توانید یک فاصله اطمینان حاوی شیب β 1 بسازید و مطمئن شوید که مقدار فرضی β 1 = 0 به این بازه تعلق دارد. مرکز فاصله اطمینان حاوی شیب β 1 شیب نمونه است ب 1 ، و مرزهای آن کمیت ها هستند b 1 ±t n –2 Sb 1

    همانطور که در شکل نشان داده شده است. 18، ب 1 = +1,670, n = 14, Sb 1 = 0,157. تی 12 \u003d STUDENT.OBR (0.975، 12) \u003d 2.1788. از این رو، b 1 ±t n –2 Sb 1 = 2.1788 ± 1.670 * 0.157 = 0.342 ± 1.670، یا + 1.328 ≤ β 1 ≤ +2.012. بنابراین، شیب جمعیت با احتمال 0.95 در محدوده 1.328 + تا 2.012 + قرار دارد (یعنی از 1،328،000 تا 2،012،000 دلار). از آنجایی که این مقادیر بزرگتر از صفر هستند، رابطه خطی آماری معناداری بین فروش سالانه و منطقه فروشگاه وجود دارد. اگر فاصله اطمینان حاوی صفر باشد، هیچ رابطه ای بین متغیرها وجود نخواهد داشت. علاوه بر این، فاصله اطمینان به این معنی است که هر 1000 متر مربع. فوت منجر به افزایش میانگین فروش 1,328,000 تا 2,012,000 دلار می شود.

    استفادهتی - معیارهای ضریب همبستگی.ضریب همبستگی معرفی شد r، که معیاری از رابطه بین دو متغیر عددی است. می توان از آن برای تعیین اینکه آیا تفاوت آماری معنی داری بین دو متغیر وجود دارد استفاده کرد. اتصال قابل توجه. اجازه دهید ضریب همبستگی بین جمعیت های هر دو متغیر را با نماد ρ نشان دهیم. فرضیه های صفر و جایگزین به صورت زیر فرموله می شوند: H 0: ρ = 0 (بدون همبستگی)، H 1: ρ ≠ 0 (همبستگی وجود دارد). بررسی وجود همبستگی:

    جایی که r = + ، اگر ب 1 > 0, r = – ، اگر ب 1 < 0. Тестовая статистика تیاین دارد تی- توزیع با n - 2درجه آزادی.

    در مشکل فروشگاه های زنجیره ای آفتابگردان r2= 0.904 و ب 1- 1.670+ (شکل 4 را ببینید). از آنجا که ب 1> 0، ضریب همبستگی بین فروش سالانه و اندازه فروشگاه است r= +√0.904 = +0.951. بیایید این فرضیه صفر را آزمایش کنیم که بین این متغیرها همبستگی وجود ندارد تی- آمار:

    در سطح معناداری 0.05 = α، فرضیه صفر باید رد شود زیرا تی= 10.64 > 2.1788. بنابراین می توان ادعا کرد که از نظر آماری رابطه معناداری بین فروش سالانه و اندازه فروشگاه وجود دارد.

    هنگام بحث در مورد استنباط در مورد شیب جمعیت، فواصل اطمینان و معیارهای آزمون فرضیه ها ابزارهای قابل تعویض هستند. با این حال، محاسبه فاصله اطمینان حاوی ضریب همبستگی دشوارتر است، زیرا شکل توزیع نمونه آماری rبستگی به ضریب همبستگی واقعی دارد.

    برآورد انتظارات ریاضی و پیش بینی مقادیر فردی

    در این بخش روش هایی برای تخمین پاسخ مورد انتظار بحث می شود Yو پیش بینی ارزش های فردی Yبرای مقادیر داده شده متغیر ایکس.

    ایجاد فاصله اطمینان.در مثال 2 (به بخش بالا مراجعه کنید روش حداقل مربعات) معادله رگرسیوناجازه پیش بینی مقدار متغیر را دارد Y ایکس. در مشکل انتخاب مکان برای یک فروشگاه خرده فروشی، میانگین فروش سالانه در یک فروشگاه با مساحت 4000 متر مربع است. فوت معادل 7.644 میلیون دلار بوده است، اما این برآورد از انتظارات ریاضی عموم مردم یک نقطه است. برای برآورد انتظارات ریاضی جمعیت عمومی، مفهوم فاصله اطمینان پیشنهاد شد. به همین ترتیب، می توان مفهوم را معرفی کرد فاصله اطمینان برای انتظار ریاضی از پاسخبرای مقدار معینی از یک متغیر ایکس:

    جایی که , = ب 0 + ب 1 X i– متغیر مقدار پیش بینی شده Yدر ایکس = X i, S YXمیانگین مربعات خطا است، nحجم نمونه است، ایکسمن- مقدار داده شده متغیر ایکس, µ Y|ایکس = ایکسمن- انتظارات ریاضی از یک متغیر Yدر ایکس = Х i,SSX=

    تجزیه و تحلیل فرمول (13) نشان می دهد که عرض فاصله اطمینان به عوامل متعددی بستگی دارد. در سطح معینی از اهمیت، افزایش دامنه نوسانات در اطراف خط رگرسیون، که با استفاده از میانگین مربعات خطا اندازه‌گیری می‌شود، منجر به افزایش عرض بازه می‌شود. از سوی دیگر، همانطور که انتظار می رود، افزایش حجم نمونه با کاهش فاصله زمانی همراه است. علاوه بر این، عرض فاصله بسته به مقادیر تغییر می کند ایکسمن. اگر مقدار متغیر Yبرای مقادیر پیش بینی شده است ایکس، نزدیک به مقدار متوسط ، معلوم می شود که فاصله اطمینان از زمانی که پاسخ برای مقادیر دور از میانگین پیش بینی می شود باریک تر است.

    فرض کنید هنگام انتخاب مکان برای یک فروشگاه، می‌خواهیم یک فاصله اطمینان 95% برای میانگین فروش سالانه در تمام فروشگاه‌های با مساحت 4000 متر مربع ایجاد کنیم. پا:

    بنابراین میانگین حجم فروش سالیانه در تمامی فروشگاه های با مساحت 4000 متر مربع می باشد. فوت، با احتمال 95 درصد در محدوده 6.971 تا 8.317 میلیون دلار قرار دارد.

    فاصله اطمینان را برای مقدار پیش بینی شده محاسبه کنید.علاوه بر فاصله اطمینان برای انتظار ریاضی از پاسخ برای مقدار معینی از متغیر ایکس، اغلب لازم است که فاصله اطمینان برای مقدار پیش بینی شده را بدانیم. اگرچه فرمول محاسبه چنین فاصله اطمینانی بسیار شبیه فرمول (13) است، اما این بازه حاوی یک مقدار پیش بینی شده است و نه تخمینی از پارامتر. فاصله زمانی برای پاسخ پیش بینی شده Yایکس = شیبرای مقدار خاصی از متغیر ایکسمنبا فرمول تعیین می شود:

    بیایید فرض کنیم که هنگام انتخاب مکان برای یک فروشگاه خرده فروشی، می خواهیم یک فاصله اطمینان 95٪ برای حجم فروش سالانه پیش بینی شده در فروشگاهی با مساحت 4000 متر مربع ایجاد کنیم. پا:

    بنابراین، حجم فروش سالانه پیش بینی شده برای 4000 متر مربع. فوت، با احتمال 95% در محدوده 5.433 تا 9.854 میلیون دلار قرار دارد.همانطور که می بینید، فاصله اطمینان برای مقدار پاسخ پیش بینی شده بسیار گسترده تر از فاصله اطمینان برای انتظارات ریاضی آن است. این به این دلیل است که تنوع در پیش‌بینی مقادیر فردی بسیار بیشتر از تخمین مقدار مورد انتظار است.

    مشکلات و مسائل اخلاقی مرتبط با استفاده از رگرسیون

    مشکلات مرتبط با تحلیل رگرسیون:

    • نادیده گرفتن شرایط کاربرد روش حداقل مربعات.
    • برآورد اشتباه از شرایط برای کاربرد روش حداقل مربعات.
    • انتخاب اشتباه روش های جایگزین بر خلاف شرایط کاربرد روش حداقل مربعات.
    • کاربرد تحلیل رگرسیون بدون شناخت عمیق موضوع مورد مطالعه.
    • برون یابی رگرسیون فراتر از محدوده متغیر توضیحی.
    • سردرگمی بین روابط آماری و علی.

    گسترش صفحات گسترده و نرم افزاربرای محاسبات آماری مشکلات محاسباتی را که مانع استفاده از تحلیل رگرسیون می‌شد، حذف کرد. با این حال، این منجر به این واقعیت شد که تجزیه و تحلیل رگرسیون توسط کاربرانی که صلاحیت و دانش کافی ندارند مورد استفاده قرار گرفت. اگر بسیاری از آنها اصلاً از شرایط کاربرد روش حداقل مربعات اطلاعی ندارند و نمی دانند چگونه اجرای آنها را بررسی کنند، چگونه کاربران از روش های جایگزین مطلع می شوند؟

    محقق نباید با خرد کردن اعداد - محاسبه شیب، شیب و ضریب همبستگی مختلط غافل شود. او به دانش عمیق تری نیاز دارد. بیایید این را با یک مثال کلاسیک برگرفته از کتاب های درسی نشان دهیم. Anscombe نشان داد که هر چهار مجموعه داده نشان داده شده در شکل. 23 پارامترهای رگرسیون یکسانی دارند (شکل 24).

    برنج. 23. چهار مجموعه داده مصنوعی

    برنج. 24. تحلیل رگرسیون چهار مجموعه داده مصنوعی. تمام شده با بسته تحلیلی(برای بزرگنمایی تصویر روی تصویر کلیک کنید)

    بنابراین، از نقطه نظر تحلیل رگرسیون، همه این مجموعه داده ها کاملاً یکسان هستند. اگر تحلیل در این مورد تمام می شد، خیلی ضرر می کردیم اطلاعات مفید. این توسط نمودارهای پراکندگی (شکل 25) و نمودارهای باقیمانده (شکل 26) ساخته شده برای این مجموعه داده ها مشهود است.

    برنج. 25. نمودارهای پراکنده برای چهار مجموعه داده

    نمودارهای پراکنده و نمودارهای باقیمانده نشان می دهد که این داده ها با یکدیگر متفاوت هستند. تنها مجموعه ای که در امتداد یک خط مستقیم توزیع می شود مجموعه A است. نمودار باقیمانده های محاسبه شده از مجموعه A هیچ الگوی ندارد. این را نمی توان برای مجموعه های B، C، و D گفت. نمودار پراکندگی ترسیم شده برای مجموعه B یک الگوی درجه دوم را نشان می دهد. این نتیجه با نمودار باقیمانده ها که شکل سهمی دارد تأیید می شود. نمودار پراکندگی و نمودار باقیمانده نشان می دهد که مجموعه داده B حاوی یک نقطه پرت است. در این شرایط، لازم است که اطلاعات پرت را از مجموعه داده ها حذف کرده و تجزیه و تحلیل را تکرار کنید. تکنیک تشخیص و حذف موارد پرت از مشاهدات، تحلیل تأثیر نامیده می شود. پس از حذف موارد پرت، نتیجه ارزیابی مجدد مدل ممکن است کاملاً متفاوت باشد. نمودار پراکندگی ترسیم شده از مجموعه داده D وضعیت غیرعادی را نشان می دهد که در آن مدل تجربی به شدت به یک پاسخ وابسته است ( X 8 = 19, Y 8 = 12.5). چنین مدل‌های رگرسیونی باید به‌ویژه با دقت محاسبه شوند. بنابراین، قطعات پراکنده و باقیمانده بسیار زیاد هستند ابزار ضروریتجزیه و تحلیل رگرسیون و باید بخشی جدایی ناپذیر از آن باشد. بدون آنها، تحلیل رگرسیون معتبر نیست.

    برنج. 26. قطعه های باقیمانده برای چهار مجموعه داده

    نحوه اجتناب دامدر تحلیل رگرسیون:

    • تحلیل رابطه احتمالی بین متغیرها ایکسو Yهمیشه با یک نمودار پراکنده شروع کنید.
    • قبل از تفسیر نتایج تحلیل رگرسیون، شرایط کاربردی بودن آن را بررسی کنید.
    • باقیمانده ها را در مقابل متغیر مستقل رسم کنید. این امر به تعیین چگونگی مطابقت مدل تجربی با نتایج مشاهدات و تشخیص نقض ثبات واریانس کمک می‌کند.
    • برای آزمایش فرضیه در مورد توزیع نرمالخطاها، از هیستوگرام ها، نمودارهای ساقه و برگ، نمودارهای جعبه ای و نمودارهای توزیع نرمال استفاده کنید.
    • اگر شرایط کاربردی روش حداقل مربعات برآورده نشد، استفاده کنید روش های جایگزین(به عنوان مثال، مدل های رگرسیون درجه دوم یا چندگانه).
    • اگر شرایط کاربرد روش حداقل مربعات برآورده شود، لازم است فرضیه مربوط به معنادار بودن آماری ضرایب رگرسیون را آزمایش کرد و فواصل اطمینان حاوی انتظارات ریاضی و مقدار پاسخ پیش‌بینی‌شده را ساخت.
    • از پیش بینی مقادیر متغیر وابسته خارج از محدوده متغیر مستقل خودداری کنید.
    • به خاطر داشته باشید که وابستگی های آماری همیشه علی نیستند. به یاد داشته باشید که همبستگی بین متغیرها به معنای وجود رابطه علی بین آنها نیست.

    خلاصه.همانطور که در بلوک دیاگرام (شکل 27) نشان داده شده است، یادداشت یک مدل رگرسیون خطی ساده، شرایط کاربردی بودن آن و راه های آزمایش این شرایط را توصیف می کند. در نظر گرفته شده تی-معیار آزمون اهمیت آماری شیب رگرسیون. برای پیش بینی مقادیر متغیر وابسته از مدل رگرسیون. یک مثال مربوط به انتخاب مکانی برای یک فروشگاه خرده فروشی در نظر گرفته شده است که در آن وابستگی حجم فروش سالانه به منطقه فروشگاه بررسی می شود. اطلاعات به دست آمده به شما این امکان را می دهد که مکان فروشگاه را با دقت بیشتری انتخاب کنید و فروش سالانه آن را پیش بینی کنید. در یادداشت های بعدی، بحث تحلیل رگرسیون و همچنین مدل های رگرسیون چندگانه ادامه خواهد داشت.

    برنج. 27. طرح ساختارییادداشت

    از مطالب کتاب لوین و همکاران آمار برای مدیران استفاده شده است. - م.: ویلیامز، 2004. - ص. 792-872

    اگر متغیر وابسته مقوله ای باشد، باید از رگرسیون لجستیک استفاده شود.

    تحلیل همبستگی-رگرسیون درام‌اس برتری داشتن

    1. یک فایل داده منبع در MS Excel ایجاد کنید (به عنوان مثال، جدول 2)

    2. ساخت میدان همبستگی

    برای ایجاد یک فیلد همبستگی در خط فرمانمنو را انتخاب کنید درج / نمودار. در کادر محاوره ای که ظاهر می شود، نوع نمودار را انتخاب کنید: خط چین; چشم انداز: طرح پراکنده، به شما امکان می دهد جفت مقادیر را با هم مقایسه کنید (شکل 22).

    شکل 22 - انتخاب نوع نمودار


    شکل 23 - نمای پنجره هنگام انتخاب محدوده و سری
    شکل 25 - نمای پنجره، مرحله 4

    2. در منوی زمینهیک تیم انتخاب کنید یک خط روند اضافه کنید.

    3. در کادر محاوره ای ظاهر شده، نوع نمودار (در مثال ما خطی) و پارامترهای معادله را مانند شکل 26 انتخاب کنید.


    OK را فشار می دهیم. نتیجه در شکل 27 نشان داده شده است.

    شکل 27 - زمینه همبستگی وابستگی بهره وری نیروی کار به نسبت سرمایه به نیروی کار

    به طور مشابه، ما یک میدان همبستگی برای وابستگی بهره‌وری نیروی کار به نسبت تغییر تجهیزات ایجاد می‌کنیم. (شکل 28).


    شکل 28 - زمینه همبستگی وابستگی بهره وری نیروی کار

    از ضریب تغییر تجهیزات

    3. ساخت ماتریس همبستگی.

    برای ساخت ماتریس همبستگی در منو سرویسانتخاب کنید تحلیل داده ها.

    استفاده از ابزار تجزیه و تحلیل داده ها پسرفتعلاوه بر نتایج آمار رگرسیون، تحلیل واریانس و فواصل اطمینان، می توانید باقیمانده ها و نمودارهای برازش خط رگرسیون، باقیمانده ها و احتمال نرمال را بدست آورید. برای انجام این کار، باید دسترسی به بسته تجزیه و تحلیل را بررسی کنید. از منوی اصلی، را انتخاب کنید خدمات / افزونه ها. کادر را علامت بزنید بسته تحلیلی(شکل 29)


    شکل 30 - کادر گفتگو تحلیل داده ها

    پس از کلیک بر روی OK، در کادر محاوره ای که ظاهر می شود، فاصله ورودی (در مثال ما A2: D26)، گروه بندی (در مورد ما بر اساس ستون ها) و پارامترهای خروجی را مشخص کنید، همانطور که در شکل 31 نشان داده شده است.


    شکل 31 - کادر گفتگو همبستگی

    نتیجه محاسبات در جدول 4 ارائه شده است.

    جدول 4 - ماتریس همبستگی

    ستون 1

    ستون 2

    ستون 3

    ستون 1

    ستون 2

    ستون 3

    تجزیه و تحلیل رگرسیون تک متغیری

    با استفاده از ابزار رگرسیون

    برای انجام یک تحلیل رگرسیونی از وابستگی بهره وری نیروی کار به نسبت سرمایه به کار در منو سرویسانتخاب کنید تحلیل داده هاو ابزار تحلیل را مشخص کنید پسرفت(شکل 32).


    شکل 33 - کادر گفتگو پسرفت