• تحلیل مدل رگرسیون اکسل. کنراد کارلبرگ. تجزیه و تحلیل رگرسیون در مایکروسافت اکسل

    بسته MS Excel به شما این امکان را می دهد که هنگام ساخت یک معادله رگرسیون خطی، بیشتر کارها را خیلی سریع انجام دهید. درک چگونگی تفسیر نتایج بسیار مهم است. برای ساخت یک مدل رگرسیون، Tools\Data Analysis\Regression را انتخاب کنید (در اکسل 2007 این حالت در قسمت Data/Data Analysis/Regression قرار دارد). سپس نتایج به دست آمده را برای تجزیه و تحلیل در یک بلوک کپی کنید.

    اطلاعات اولیه:

    نتایج تجزیه و تحلیل

    در گزارش لحاظ شود
    محاسبه پارامترهای معادله رگرسیون
    مطالب نظری
    معادله رگرسیون در مقیاس استاندارد
    ضریب همبستگی چندگانه (شاخص همبستگی چندگانه)
    ضرایب کشسانی جزئی
    ارزیابی مقایسه ای تأثیر عوامل تحلیل شده بر ویژگی مؤثر (d - ضرایب تعیین جداگانه)

    بررسی کیفیت معادله رگرسیون ساخته شده
    اهمیت ضرایب رگرسیون b i (آمار t. آزمون تی دانشجویی)
    اهمیت معادله به عنوان یک کل (آمار F. معیار فیشر). ضریب تعیین
    معیارهای F جزئی

    سطح اهمیت 0.005 0.01 0.025 0.05 0.1 0.25 0.4

    موضوع: تحلیل همبستگی و رگرسیون دربرتری داشتن

    آزمایشگاه شماره 1

    1. تعیین ضریب همبستگی جفت در برنامهبرتری داشتن

    همبستگی- این یک رابطه ناقص و احتمالی بین شاخص ها است که فقط در انبوه مشاهدات ظاهر می شود.

    همبستگی جفتی- این رابطه بین دو شاخص است که یکی فاکتوریل و دیگری موثر است.

    همبستگی چندگانهاز تعامل چندین عامل با شاخص عملکرد ناشی می شود.

    شرایط لازم برای اعمال تحلیل همبستگی:

    1. وجود تعداد کافی مشاهدات در مورد بزرگی عامل مورد مطالعه و شاخص های عملکرد.

    2. عوامل مورد مطالعه باید کمی سازی شده و در منابع مختلف اطلاعاتی منعکس شود.

    استفاده از تحلیل همبستگی به ما اجازه می دهد تا مسائل زیر را حل کنیم:

    1. تغییر در شاخص عملکرد را تحت تأثیر یک یا چند عامل تعیین کنید.

    2. درجه وابستگی نسبی شاخص عملکرد به هر عامل را تعیین کنید.

    تمرین 1.

    داده ها برای 20 مزرعه کشاورزی موجود است. پیدا کردن ضریب همبستگیبین عملکرد محصولات غلات و کیفیت زمین و ارزیابی اهمیت آن. داده ها در جدول آورده شده است.

    جدول. وابستگی عملکرد محصول غلات به کیفیت زمین

    شماره خانه

    کیفیت زمین، امتیاز x

    عملکرد، مرکز در هکتار

      برای پیدا کردن ضریب همبستگی از تابع استفاده کنید CORREL.

      اهمیت ضریب همبستگی با معیار بررسی می شود دانشجو.

    برای مثال مورد بررسی، r=0.99، n=18.

    برای یافتن کمیت توزیع Student، از تابع STUDISP با آرگومان های زیر استفاده کنید: احتمال –0,05, درجه آزادی –18.

    با مقایسه مقدار آماره t با کمیت توزیع Student، در مورد معنی دار بودن ضریب همبستگی زوج نتیجه گیری کنید. اگر مقدار محاسبه شده آماره t بیشتر از کمیت توزیع Student باشد، مقدار ضریب همبستگی معنادار است.

    ساخت یک مدل رگرسیونی ارتباط بین دو مقدار

    وظیفه 2.

    طبق وظیفه 1:

    1) ساخت یک معادله رگرسیون (مدل خطی)، که یک رابطه مستقیم بین کیفیت زمین و بهره وری را مشخص می کند.

    2). کفایت مدل حاصل را بررسی کنید.

    1 - راه.

    1. در یک صفحه اکسل، آرایه ای از سلول های آزاد پنج ردیف و دو ستون را انتخاب کنید.

    2. یک تابع را فراخوانی کنید LINEST.

    3. آرگومان های زیر را برای تابع مشخص کنید: دریافت_ارزش_y بهره وری، مرکز در هکتار;دریافت_ارزش_ایکس- ستون مقادیر نشانگر کیفیت زمین، امتیاز; ثابت -1، آمار - 1(به شما امکان می دهد شاخص های مورد استفاده برای آزمایش کفایت مدل را محاسبه کنید آمار - 0،سپس چنین شاخص هایی محاسبه نمی شود.

    4. کلید ترکیبی را فشار دهید ctrl- تغییر مکان- وارد.

    سلول های انتخاب شده ضرایب مدل و همچنین نشانگرهایی را نشان می دهند که به شما امکان می دهد مدل را از نظر کفایت بررسی کنید (جدول 2).

    جدول 2

    آ 1

    آ 0

    اس e1

    اس e0

    آر 2

    اس ه

    س آر

    س ه

    آ 1 , آ 0 ضرایب مدل هستند.

    اس ه 1 اس ه 0 خطاهای استاندارد ضرایب هستند. هر چه مدل دقیق تر باشد، این مقادیر کوچکتر است.

    آر 2 – ضریب تعیین هرچه بزرگتر باشد، مدل دقیق تر است.

    اف- آمار برای آزمایش اهمیت مدل.

    n- ک-1 – تعداد درجات آزادی (n-اندازه نمونه، k-تعداد متغیرهای ورودی؛ در این مثال n=20، k=1)

    س آرمجموع مربعات ناشی از رگرسیون است.

    س همجموع مربعات خطاها است.

    5. برای بررسی کفایت مدل، کمیت توزیع فیشر را بیابید اف f . با استفاده از تابع افتوزیع. برای انجام این کار، در هر سلول آزاد، تابع را وارد کنید افتوزیعبا استدلال های زیر: احتمال – 0,05, درجه آزادی _1–1, درجه آزادی _2–18. اگر F> F f، مدل برای داده های اولیه کافی است

    6. کفایت مدل ساخته شده را با استفاده از سطح معناداری محاسبه شده (P) بررسی کنید. تابع را وارد کنید افRASPبا استدلال های زیر: ایکس- ارزش آمار اف, درجات_آزادی_1–1, درجات_آزادی_2– 18. اگر سطح معناداری محاسبه شده P<α =0,05, то модель адекватна исходным данным.

    روش دوم

    تعیین ضرایب مدل با به دست آوردن شاخص هایی برای بررسی کفایت آن و اهمیت ضرایب.

      یک تیم انتخاب کنید سرویس / تجزیه و تحلیل داده ها / رگرسیون. در کادر محاوره ای نصب: فاصله ورودیY- مقادیر شاخص بهره وری، مرکز در هکتار،فاصله ورودیایکس- مقادیر شاخص کیفیت زمین، امتیاز.

      کادر را علامت بزنید برچسب ها. در منطقه گزینه های خروجیدکمه رادیویی را انتخاب کنید فاصله خروجیو سلولی را مشخص کنید که خروجی نتایج از آن آغاز خواهد شد. برای دریافت نتایج روی OK کلیک کنید.

    تفسیر نتایج.

    ضرایب مورد نظر مدل در ستون می باشد شانس:

    برای این مثال، معادله مدل به صورت زیر است:

    Y=2.53+0.5X

    در این مثال با افزایش یک نقطه ای کیفیت خاک، عملکرد محصولات غلات به طور متوسط ​​0.5 c/ha افزایش می یابد.

    بررسی کفایت مدلبا توجه به سطح معناداری محاسبه شده P نشان داده شده در ستون انجام می شود اهمیتاف. اگر سطح معنی‌داری محاسبه‌شده کمتر از سطح معنی‌داری داده‌شده α = 0.05 باشد، آن‌گاه مدل کافی است.

    آزمون اهمیت آماریضرایب مدل با توجه به سطوح معناداری محاسبه شده P نشان داده شده در ستون انجام می شود پ-معنی. اگر سطح معنی داری محاسبه شده کمتر از سطح معنی داری داده شده 05/0 = α باشد، ضریب متناظر مدل از نظر آماری معنادار است.

    چندگانهآرضریب همبستگی. هر چه مقدار آن به 1 نزدیکتر باشد، رابطه بین شاخص های مورد مطالعه نزدیکتر است. برای این مثال، R= 0.99. این به ما امکان می دهد نتیجه بگیریم که کیفیت زمین یکی از عوامل اصلی است که عملکرد محصولات غلات به آن بستگی دارد.

    آر-مربعضریب تعیین. با مربع کردن ضریب همبستگی - R 2 \u003d 0.98 به دست می آید. این نشان می دهد که عملکرد محصولات غلات 98٪ به کیفیت خاک وابسته است، در حالی که سایر عوامل 0.02٪ را تشکیل می دهند.

    راه سوم. روش گرافیکی ساخت مدل.

    به طور مستقل یک قطعه پراکنده بسازید که منعکس کننده رابطه بین عملکرد و کیفیت زمین است.

    یک مدل خطی از وابستگی عملکرد محصول به کیفیت زمین بدست آورید.

    در یادداشت های قبلی، تمرکز اغلب بر روی یک متغیر عددی واحد بوده است، مانند بازده صندوق سرمایه گذاری مشترک، زمان بارگذاری صفحه وب یا مصرف نوشابه. در این یادداشت و نکات بعدی، روش هایی را برای پیش بینی مقادیر یک متغیر عددی بسته به مقادیر یک یا چند متغیر عددی دیگر در نظر خواهیم گرفت.

    مطالب با یک مثال از طریق نشان داده خواهد شد. پیش بینی حجم فروش در یک فروشگاه پوشاک 25 سال است که فروشگاه های زنجیره ای لباس های تخفیف دار Sunflowers به ​​طور مداوم در حال گسترش است. با این حال، این شرکت در حال حاضر یک رویکرد سیستماتیک برای انتخاب فروشگاه های جدید ندارد. مکانی که شرکت قصد دارد یک فروشگاه جدید افتتاح کند بر اساس ملاحظات ذهنی تعیین می شود. معیار انتخاب شرایط اجاره مطلوب یا ایده مدیر از مکان ایده آل فروشگاه است. تصور کنید که شما رئیس بخش پروژه های ویژه و برنامه ریزی هستید. شما وظیفه دارید یک برنامه استراتژیک برای افتتاح فروشگاه های جدید تهیه کنید. این طرح باید شامل پیش بینی فروش سالانه در فروشگاه های تازه افتتاح شده باشد. شما معتقدید که فروش فضا به طور مستقیم با درآمد مرتبط است و می خواهید این واقعیت را در فرآیند تصمیم گیری خود لحاظ کنید. چگونه یک مدل آماری ایجاد می کنید که فروش سالانه را بر اساس اندازه فروشگاه جدید پیش بینی می کند؟

    معمولاً از تحلیل رگرسیون برای پیش‌بینی مقادیر یک متغیر استفاده می‌شود. هدف آن توسعه یک مدل آماری است که مقادیر متغیر وابسته یا پاسخ را از روی مقادیر حداقل یک متغیر مستقل یا توضیحی پیش بینی کند. در این یادداشت، ما یک رگرسیون خطی ساده را در نظر خواهیم گرفت - یک روش آماری که به شما امکان می دهد مقادیر متغیر وابسته را پیش بینی کنید. Yتوسط مقادیر متغیر مستقل ایکس. یادداشت های زیر یک مدل رگرسیون چندگانه را توصیف می کنند که برای پیش بینی مقادیر متغیر مستقل طراحی شده است Yبا مقادیر چندین متغیر وابسته ( X 1، X 2، …، X k).

    دانلود یادداشت در قالب یا فرمت، نمونه ها در قالب

    انواع مدل های رگرسیون

    جایی که ρ 1 ضریب همبستگی است. اگر ρ 1 = 0 (بدون خود همبستگی)، D≈ 2; اگر ρ 1 ≈ 1 (خودهمبستگی مثبت)، D≈ 0; اگر ρ 1 = -1 (خودهمبستگی منفی)، D ≈ 4.

    در عمل، استفاده از معیار دوربین واتسون مبتنی بر مقایسه مقدار است Dبا ارزش های نظری انتقادی d Lو d Uبرای تعداد معینی از مشاهدات nتعداد متغیرهای مستقل مدل ک(برای رگرسیون خطی ساده ک= 1) و سطح معناداری α. اگر D< d L ، فرضیه استقلال انحرافات تصادفی رد می شود (از این رو، یک خودهمبستگی مثبت وجود دارد). اگر D > d U، فرضیه رد نمی شود (یعنی خود همبستگی وجود ندارد). اگر d L< D < d U دلیل کافی برای تصمیم گیری وجود ندارد. زمانی که مقدار محاسبه شده است Dپس از 2 تجاوز می کند d Lو d Uاین خود ضریب نیست که مقایسه می شود Dو عبارت (4- D).

    برای محاسبه آمار دوربین واتسون در اکسل، به جدول پایین در شکل 1 می رویم. 14 برداشت موجودی. عدد در عبارت (10) با استفاده از تابع = SUMMQDIFF(array1, array2) و مخرج = SUMMQ(آرایه) محاسبه می شود (شکل 16).

    برنج. 16. فرمول های محاسبه آمار دوربین واتسون

    در مثال ما D= 0.883. سوال اصلی این است: چه مقداری از آمار دوربین واتسون را باید به اندازه کافی کوچک در نظر گرفت تا نتیجه گیری شود که یک خودهمبستگی مثبت وجود دارد؟ لازم است که مقدار D را با مقادیر بحرانی مرتبط کنیم ( d Lو d U) بسته به تعداد مشاهدات nو سطح اهمیت α (شکل 17).

    برنج. 17. مقادیر بحرانی آمار دوربین واتسون (قطعه جدول)

    بنابراین، در مشکل حجم فروش در فروشگاهی که کالا را به منزل شما تحویل می دهد، یک متغیر مستقل وجود دارد ( ک= 1)، 15 مشاهده ( n= 15) و سطح معنی داری α = 0.05. از این رو، d L= 1.08 و دU= 1.36. از آنجا که D = 0,883 < d L 08/1 =، بین باقیمانده ها همبستگی مثبت وجود دارد، روش حداقل مربعات را نمی توان اعمال کرد.

    آزمون فرضیه های شیب و ضریب همبستگی

    رگرسیون فوق صرفاً برای پیش بینی اعمال شد. برای تعیین ضرایب رگرسیون و پیش بینی مقدار یک متغیر Yبرای یک مقدار متغیر معین ایکساز روش حداقل مربعات استفاده شد. علاوه بر این، خطای استاندارد برآورد و ضریب همبستگی مختلط را در نظر گرفتیم. اگر تجزیه و تحلیل باقیمانده تأیید کند که شرایط کاربرد روش حداقل مربعات نقض نمی شود و مدل رگرسیون خطی ساده کافی است، بر اساس داده های نمونه، می توان استدلال کرد که بین متغیرهای جامعه رابطه خطی وجود دارد.

    کاربردتی - معیارهای شیببا بررسی اینکه آیا شیب جمعیت β 1 برابر با صفر است، می توان تعیین کرد که آیا رابطه آماری معنی داری بین متغیرها وجود دارد یا خیر. ایکسو Y. اگر این فرضیه رد شود، می توان استدلال کرد که بین متغیرها ایکسو Yیک رابطه خطی وجود دارد فرضیه های صفر و جایگزین به صورت زیر فرموله می شوند: H 0: β 1 = 0 (بدون رابطه خطی)، H1: β 1 ≠ 0 (رابطه خطی وجود دارد). الف - مقدماتی تی- آمار برابر است با تفاوت بین شیب نمونه و شیب فرضی جمعیت، تقسیم بر خطای استاندارد برآورد شیب:

    (11) تی = (ب 1 β 1 ) / Sb 1

    جایی که ب 1 شیب رگرسیون مستقیم بر اساس داده های نمونه است، β1 شیب فرضی جمعیت عمومی مستقیم است، ، و آمار تست تیاین دارد تی- توزیع با n - 2درجه آزادی.

    بیایید بررسی کنیم که آیا رابطه آماری معناداری بین اندازه فروشگاه و فروش سالانه در α = 0.05 وجود دارد یا خیر. تیهنگام استفاده، معیارها همراه با سایر پارامترها نمایش داده می شود بسته تحلیلی(گزینه پسرفت). نتایج کامل بسته تحلیلی در شکل نشان داده شده است. 4، یک قطعه مربوط به آمار t - در شکل. 18.

    برنج. 18. نتایج برنامه تی

    چون تعداد فروشگاه ها n= 14 (نگاه کنید به شکل 3)، مقدار بحرانی تی-آمار در سطح معناداری α = 0.05 را می توان با فرمول پیدا کرد: تی ال=STUDENT.INV(0.025;12) = -2.1788 که در آن 0.025 نیمی از سطح معنی داری و 12 = است. n – 2; t U\u003d STUDENT.INR (0.975، 12) \u003d +2.1788.

    از آنجا که تی-statistics = 10.64 > t U= 2.1788 (شکل 19)، فرضیه صفر H 0رد می شود. از طرف دیگر، آر-ارزش برای ایکس\u003d 10.6411، محاسبه شده با فرمول \u003d 1-STUDENT.DIST (D3, 12, TRUE) تقریباً برابر با صفر است، بنابراین فرضیه H 0دوباره رد می شود این حقیقت که آر- ارزش تقریباً صفر است، به این معنی که اگر هیچ رابطه خطی واقعی بین اندازه فروشگاه و فروش سالانه وجود نداشت، یافتن آن با استفاده از رگرسیون خطی تقریباً غیرممکن بود. بنابراین بین میانگین فروش سالانه فروشگاه و اندازه فروشگاه رابطه خطی معناداری از نظر آماری وجود دارد.

    برنج. 19. آزمون فرضیه شیب جمعیت عمومی در سطح معنی داری 05/0 و 12 درجه آزادی.

    کاربرداف - معیارهای شیبیک رویکرد جایگزین برای آزمایش فرضیه‌های مربوط به شیب رگرسیون خطی ساده استفاده از آن است اف-شاخص. به یاد بیاورید که اف- معیار برای آزمایش رابطه بین دو واریانس استفاده می شود (به جزئیات مراجعه کنید). هنگام آزمایش فرضیه شیب، معیار خطاهای تصادفی واریانس خطا (مجموع مجذور خطاها تقسیم بر تعداد درجه آزادی) است. اف-تست از نسبت واریانس توضیح داده شده توسط رگرسیون استفاده می کند (یعنی مقادیر SSRتقسیم بر تعداد متغیرهای مستقل ک، به واریانس خطا ( MSE=SYایکس 2 ).

    الف - مقدماتی اف-آمار برابر است با میانگین مجذور انحرافات ناشی از رگرسیون (MSR) تقسیم بر واریانس خطا (MSE): اف = MSR/ MSE، جایی که MSR=SSR / کMSE =SSE/(n– k – 1)، kتعداد متغیرهای مستقل در مدل رگرسیونی است. آمار تست افاین دارد اف- توزیع با کو n– k – 1درجه آزادی.

    برای سطح اهمیت معین α، قاعده تصمیم به صورت زیر فرموله می شود: اگر F > FU، فرضیه صفر رد می شود. در غیر این صورت رد نمی شود. نتایج که در قالب یک جدول خلاصه از تحلیل واریانس ارائه شده است، در شکل 1 نشان داده شده است. 20.

    برنج. 20. جدول تحلیل واریانس برای آزمون فرضیه معنی دار بودن آماری ضریب رگرسیون.

    به همین ترتیب تی-معیار اف-معیار هنگام استفاده در جدول نمایش داده می شود بسته تحلیلی(گزینه پسرفت). نتایج کامل کار بسته تحلیلیدر شکل نشان داده شده است. 4، قطعه مربوط به اف-statistics - در شکل. 21.

    برنج. 21. نتایج برنامه اف- معیارهای به دست آمده با استفاده از بسته ابزار تجزیه و تحلیل اکسل

    آماره F 113.23 است و آر-مقدار نزدیک به صفر (سلول اهمیتاف). اگر سطح معناداری α 0.05 باشد، مقدار بحرانی را تعیین کنید اف-توزیعات با یک و 12 درجه آزادی را می توان از فرمول بدست آورد F U\u003d F. OBR (1-0.05؛ 1؛ 12) \u003d 4.7472 (شکل 22). از آنجا که اف = 113,23 > F U= 4.7472 و آر-مقدار نزدیک به 0< 0,05, нулевая гипотеза H 0منحرف می شود، یعنی اندازه یک فروشگاه ارتباط نزدیکی با حجم فروش سالانه آن دارد.

    برنج. 22. آزمون فرضیه شیب جمعیت عمومی در سطح معنی داری 05/0، با یک و 12 درجه آزادی.

    فاصله اطمینان حاوی شیب β 1 .برای آزمایش فرضیه وجود رابطه خطی بین متغیرها، می توانید یک فاصله اطمینان حاوی شیب β 1 بسازید و مطمئن شوید که مقدار فرضی β 1 = 0 به این بازه تعلق دارد. مرکز فاصله اطمینان حاوی شیب β 1 شیب نمونه است ب 1 ، و مرزهای آن کمیت ها هستند b 1 ±t n –2 Sb 1

    همانطور که در شکل نشان داده شده است. 18، ب 1 = +1,670, n = 14, Sb 1 = 0,157. تی 12 \u003d STUDENT.OBR (0.975، 12) \u003d 2.1788. از این رو، b 1 ±t n –2 Sb 1 = 2.1788 ± 1.670 * 0.157 = 0.342 ± 1.670، یا + 1.328 ≤ β 1 ≤ +2.012. بنابراین، شیب جمعیت با احتمال 0.95 در محدوده 1.328 + تا 2.012 + قرار دارد (یعنی از 1،328،000 تا 2،012،000 دلار). از آنجایی که این مقادیر بزرگتر از صفر هستند، رابطه خطی آماری معناداری بین فروش سالانه و منطقه فروشگاه وجود دارد. اگر فاصله اطمینان حاوی صفر باشد، هیچ رابطه ای بین متغیرها وجود نخواهد داشت. علاوه بر این، فاصله اطمینان به این معنی است که هر 1000 متر مربع. فوت منجر به افزایش میانگین فروش 1,328,000 تا 2,012,000 دلار می شود.

    استفادهتی - معیارهای ضریب همبستگی.ضریب همبستگی معرفی شد r، که معیاری از رابطه بین دو متغیر عددی است. برای تعیین اینکه آیا بین دو متغیر رابطه آماری معناداری وجود دارد یا خیر می توان از آن استفاده کرد. اجازه دهید ضریب همبستگی بین جمعیت های هر دو متغیر را با نماد ρ نشان دهیم. فرضیه های صفر و جایگزین به صورت زیر فرموله می شوند: H 0: ρ = 0 (بدون همبستگی)، H 1: ρ ≠ 0 (همبستگی وجود دارد). بررسی وجود همبستگی:

    جایی که r = + ، اگر ب 1 > 0, r = – ، اگر ب 1 < 0. Тестовая статистика تیاین دارد تی- توزیع با n - 2درجه آزادی.

    در مشکل فروشگاه های زنجیره ای آفتابگردان r2= 0.904 و ب 1- 1.670+ (شکل 4 را ببینید). از آنجا که ب 1> 0، ضریب همبستگی بین فروش سالانه و اندازه فروشگاه است r= +√0.904 = +0.951. بیایید این فرضیه صفر را آزمایش کنیم که بین این متغیرها همبستگی وجود ندارد تی- آمار:

    در سطح معناداری 0.05 = α، فرضیه صفر باید رد شود زیرا تی= 10.64 > 2.1788. بنابراین می توان ادعا کرد که از نظر آماری رابطه معناداری بین فروش سالانه و اندازه فروشگاه وجود دارد.

    هنگام بحث در مورد استنباط در مورد شیب جمعیت، فواصل اطمینان و معیارهای آزمون فرضیه ها ابزارهای قابل تعویض هستند. با این حال، محاسبه فاصله اطمینان حاوی ضریب همبستگی دشوارتر است، زیرا شکل توزیع نمونه آماری rبستگی به ضریب همبستگی واقعی دارد.

    برآورد انتظارات ریاضی و پیش بینی مقادیر فردی

    در این بخش روش هایی برای تخمین پاسخ مورد انتظار بحث می شود Yو پیش بینی ارزش های فردی Yبرای مقادیر داده شده متغیر ایکس.

    ایجاد فاصله اطمینان.در مثال 2 (به بخش بالا مراجعه کنید روش حداقل مربعات) معادله رگرسیون امکان پیش بینی مقدار متغیر را فراهم می کند Y ایکس. در مشکل انتخاب مکان برای یک فروشگاه خرده فروشی، میانگین فروش سالانه در یک فروشگاه با مساحت 4000 متر مربع است. فوت معادل 7.644 میلیون دلار بوده است، اما این برآورد از انتظارات ریاضی عموم مردم یک نقطه است. برای برآورد انتظارات ریاضی جمعیت عمومی، مفهوم فاصله اطمینان پیشنهاد شد. به همین ترتیب، می توان مفهوم را معرفی کرد فاصله اطمینان برای انتظار ریاضی از پاسخبرای یک مقدار معین از یک متغیر ایکس:

    جایی که , = ب 0 + ب 1 X i– متغیر مقدار پیش بینی شده Yدر ایکس = X i, S YXمیانگین مربعات خطا است، nحجم نمونه است، ایکسمن- مقدار داده شده متغیر ایکس, µ Y|ایکس = ایکسمن- انتظارات ریاضی از یک متغیر Yدر ایکس = Х i,SSX=

    تجزیه و تحلیل فرمول (13) نشان می دهد که عرض فاصله اطمینان به عوامل متعددی بستگی دارد. در سطح معینی از اهمیت، افزایش دامنه نوسانات در اطراف خط رگرسیون، که با استفاده از میانگین مربعات خطا اندازه‌گیری می‌شود، منجر به افزایش عرض بازه می‌شود. از سوی دیگر، همانطور که انتظار می رود، افزایش حجم نمونه با کاهش فاصله زمانی همراه است. علاوه بر این، عرض فاصله بسته به مقادیر تغییر می کند ایکسمن. اگر مقدار متغیر Yبرای مقادیر پیش بینی شده است ایکس، نزدیک به مقدار متوسط ، معلوم می شود که فاصله اطمینان از زمانی که پاسخ برای مقادیر دور از میانگین پیش بینی می شود باریک تر است.

    فرض کنید هنگام انتخاب مکان برای یک فروشگاه، می‌خواهیم یک فاصله اطمینان 95% برای میانگین فروش سالانه در تمام فروشگاه‌های با مساحت 4000 متر مربع ایجاد کنیم. پا:

    بنابراین میانگین حجم فروش سالیانه در تمامی فروشگاه های با مساحت 4000 متر مربع می باشد. فوت، با احتمال 95 درصد در محدوده 6.971 تا 8.317 میلیون دلار قرار دارد.

    فاصله اطمینان را برای مقدار پیش بینی شده محاسبه کنید.علاوه بر فاصله اطمینان برای انتظار ریاضی از پاسخ برای مقدار معینی از متغیر ایکس، اغلب لازم است که فاصله اطمینان برای مقدار پیش بینی شده را بدانیم. اگرچه فرمول محاسبه چنین فاصله اطمینانی بسیار شبیه فرمول (13) است، اما این بازه حاوی یک مقدار پیش بینی شده است و نه تخمینی از پارامتر. فاصله زمانی برای پاسخ پیش بینی شده Yایکس = شیبرای مقدار خاصی از متغیر ایکسمنبا فرمول تعیین می شود:

    بیایید فرض کنیم که هنگام انتخاب مکان برای یک فروشگاه خرده فروشی، می خواهیم یک فاصله اطمینان 95٪ برای حجم فروش سالانه پیش بینی شده در فروشگاهی با مساحت 4000 متر مربع ایجاد کنیم. پا:

    بنابراین، حجم فروش سالانه پیش بینی شده برای 4000 متر مربع. فوت، با احتمال 95% در محدوده 5.433 تا 9.854 میلیون دلار قرار دارد.همانطور که می بینید، فاصله اطمینان برای مقدار پاسخ پیش بینی شده بسیار گسترده تر از فاصله اطمینان برای انتظارات ریاضی آن است. این به این دلیل است که تنوع در پیش‌بینی مقادیر فردی بسیار بیشتر از تخمین مقدار مورد انتظار است.

    مشکلات و مسائل اخلاقی مرتبط با استفاده از رگرسیون

    مشکلات مرتبط با تحلیل رگرسیون:

    • نادیده گرفتن شرایط کاربرد روش حداقل مربعات.
    • برآورد اشتباه از شرایط برای کاربرد روش حداقل مربعات.
    • انتخاب اشتباه روش های جایگزین بر خلاف شرایط کاربرد روش حداقل مربعات.
    • کاربرد تحلیل رگرسیون بدون شناخت عمیق موضوع مورد مطالعه.
    • برون یابی رگرسیون فراتر از محدوده متغیر توضیحی.
    • سردرگمی بین روابط آماری و علی.

    استفاده گسترده از صفحات گسترده و نرم افزارهای آماری، مشکلات محاسباتی را که مانع استفاده از تحلیل رگرسیون می شد، از بین برده است. با این حال، این منجر به این واقعیت شد که تجزیه و تحلیل رگرسیون توسط کاربرانی که صلاحیت و دانش کافی ندارند مورد استفاده قرار گرفت. اگر بسیاری از آنها اصلاً از شرایط کاربرد روش حداقل مربعات اطلاعی ندارند و نمی دانند چگونه اجرای آنها را بررسی کنند، چگونه کاربران از روش های جایگزین مطلع می شوند؟

    محقق نباید با خرد کردن اعداد - محاسبه شیب، شیب و ضریب همبستگی مختلط غافل شود. او به دانش عمیق تری نیاز دارد. بیایید این را با یک مثال کلاسیک برگرفته از کتاب های درسی نشان دهیم. Anscombe نشان داد که هر چهار مجموعه داده نشان داده شده در شکل. 23 پارامترهای رگرسیون یکسانی دارند (شکل 24).

    برنج. 23. چهار مجموعه داده مصنوعی

    برنج. 24. تحلیل رگرسیون چهار مجموعه داده مصنوعی. تمام شده با بسته تحلیلی(برای بزرگنمایی تصویر روی تصویر کلیک کنید)

    بنابراین، از نقطه نظر تحلیل رگرسیون، همه این مجموعه داده ها کاملاً یکسان هستند. اگر تحلیل به همین جا ختم می شد، اطلاعات مفید زیادی را از دست می دادیم. این توسط نمودارهای پراکندگی (شکل 25) و نمودارهای باقیمانده (شکل 26) ساخته شده برای این مجموعه داده ها مشهود است.

    برنج. 25. نمودارهای پراکنده برای چهار مجموعه داده

    نمودارهای پراکنده و نمودارهای باقیمانده نشان می دهد که این داده ها با یکدیگر متفاوت هستند. تنها مجموعه ای که در امتداد یک خط مستقیم توزیع می شود مجموعه A است. نمودار باقیمانده های محاسبه شده از مجموعه A هیچ الگوی ندارد. این را نمی توان برای مجموعه های B، C، و D گفت. نمودار پراکندگی ترسیم شده برای مجموعه B یک الگوی درجه دوم را نشان می دهد. این نتیجه با نمودار باقیمانده ها که شکل سهمی دارد تأیید می شود. نمودار پراکندگی و نمودار باقیمانده نشان می دهد که مجموعه داده B حاوی یک نقطه پرت است. در این شرایط، لازم است که اطلاعات پرت را از مجموعه داده ها حذف کرده و تجزیه و تحلیل را تکرار کنید. تکنیک تشخیص و حذف موارد پرت از مشاهدات، تحلیل تأثیر نامیده می شود. پس از حذف موارد پرت، نتیجه ارزیابی مجدد مدل ممکن است کاملاً متفاوت باشد. نمودار پراکندگی ترسیم شده از مجموعه داده D وضعیت غیرعادی را نشان می دهد که در آن مدل تجربی به شدت به یک پاسخ وابسته است ( X 8 = 19, Y 8 = 12.5). چنین مدل‌های رگرسیونی باید به‌ویژه با دقت محاسبه شوند. بنابراین، نمودارهای پراکندگی و باقیمانده ابزاری ضروری برای تحلیل رگرسیون هستند و باید جزء لاینفک آن باشند. بدون آنها، تحلیل رگرسیون معتبر نیست.

    برنج. 26. قطعه های باقیمانده برای چهار مجموعه داده

    چگونه از مشکلات در تحلیل رگرسیون جلوگیری کنیم:

    • تحلیل رابطه احتمالی بین متغیرها ایکسو Yهمیشه با یک نمودار پراکنده شروع کنید.
    • قبل از تفسیر نتایج تحلیل رگرسیون، شرایط کاربردی بودن آن را بررسی کنید.
    • باقیمانده ها را در مقابل متغیر مستقل رسم کنید. این امر به تعیین چگونگی مطابقت مدل تجربی با نتایج مشاهدات و تشخیص نقض ثبات واریانس کمک می‌کند.
    • از هیستوگرام ها، نمودارهای ساقه و برگ، نمودارهای جعبه ای و نمودارهای توزیع نرمال برای آزمایش فرض توزیع نرمال خطاها استفاده کنید.
    • اگر شرایط کاربردی روش حداقل مربعات برآورده نشد، از روش‌های جایگزین استفاده کنید (مثلاً مدل‌های رگرسیون درجه دوم یا چندگانه).
    • اگر شرایط کاربرد روش حداقل مربعات برآورده شود، لازم است فرضیه مربوط به معنادار بودن آماری ضرایب رگرسیون را آزمایش کرد و فواصل اطمینان حاوی انتظارات ریاضی و مقدار پاسخ پیش‌بینی‌شده را ساخت.
    • از پیش بینی مقادیر متغیر وابسته خارج از محدوده متغیر مستقل خودداری کنید.
    • به خاطر داشته باشید که وابستگی های آماری همیشه علی نیستند. به یاد داشته باشید که همبستگی بین متغیرها به معنای وجود رابطه علی بین آنها نیست.

    خلاصه.همانطور که در بلوک دیاگرام (شکل 27) نشان داده شده است، یادداشت یک مدل رگرسیون خطی ساده، شرایط کاربردی بودن آن و راه های آزمایش این شرایط را توصیف می کند. در نظر گرفته شده تی-معیار آزمون اهمیت آماری شیب رگرسیون. برای پیش بینی مقادیر متغیر وابسته از مدل رگرسیون استفاده شد. یک مثال مربوط به انتخاب مکانی برای یک فروشگاه خرده فروشی در نظر گرفته شده است که در آن وابستگی حجم فروش سالانه به منطقه فروشگاه بررسی می شود. اطلاعات به دست آمده به شما این امکان را می دهد که مکان فروشگاه را با دقت بیشتری انتخاب کنید و فروش سالانه آن را پیش بینی کنید. در یادداشت های بعدی، بحث تحلیل رگرسیون و همچنین مدل های رگرسیون چندگانه ادامه خواهد داشت.

    برنج. 27. بلوک دیاگرام یک یادداشت

    از مطالب کتاب لوین و همکاران آمار برای مدیران استفاده شده است. - م.: ویلیامز، 2004. - ص. 792-872

    اگر متغیر وابسته مقوله ای باشد، باید از رگرسیون لجستیک استفاده شود.

    روش رگرسیون خطی به ما اجازه می دهد تا یک خط مستقیم را توصیف کنیم که به بهترین وجه با یک سری از جفت های مرتب شده (x، y) مطابقت دارد. معادله یک خط مستقیم که به معادله خطی معروف است در زیر آورده شده است:

    ŷ مقدار مورد انتظار y برای مقدار معین x است،

    x یک متغیر مستقل است،

    a - بخش در محور y برای یک خط مستقیم،

    b شیب خط مستقیم است.

    در شکل زیر این مفهوم به صورت گرافیکی نشان داده شده است:

    شکل بالا خطی را نشان می دهد که با معادله ŷ =2+0.5x توصیف شده است. پاره خط روی محور y نقطه ای است که خط با محور y قطع می کند. در مورد ما، a = 2. شیب خط، b، نسبت افزایش خط به طول خط، مقدار 0.5 دارد. شیب مثبت به این معنی است که خط از چپ به راست بالا می رود. اگر b = 0، خط افقی است، به این معنی که هیچ رابطه ای بین متغیرهای وابسته و مستقل وجود ندارد. به عبارت دیگر تغییر مقدار x تاثیری بر مقدار y ندارد.

    ŷ و y اغلب اشتباه گرفته می شوند. نمودار مطابق معادله داده شده 6 جفت نقطه مرتب و یک خط را نشان می دهد

    این شکل نقطه مربوط به جفت مرتب شده x = 2 و y = 4 را نشان می دهد. توجه داشته باشید که مقدار مورد انتظار y با توجه به خط در ایکس= 2 برابر ŷ است. ما می توانیم این را با معادله زیر تأیید کنیم:

    ŷ = 2 + 0.5x = 2 + 0.5 (2) = 3.

    مقدار y نقطه واقعی است و مقدار ŷ مقدار y مورد انتظار با استفاده از یک معادله خطی برای مقدار x معین است.

    مرحله بعدی تعیین معادله خطی است که حداکثر با مجموعه جفت های مرتب شده مطابقت دارد، در مقاله قبلی در این مورد صحبت کردیم، جایی که شکل معادله را با .

    استفاده از اکسل برای تعریف رگرسیون خطی

    برای استفاده از ابزار تحلیل رگرسیون ساخته شده در اکسل، باید افزونه را فعال کنید بسته تحلیلی. با کلیک بر روی برگه می توانید آن را پیدا کنید فایل –> گزینه ها(2007+)، در گفتگوی ظاهر شده گزینه هابرتری داشتنبه برگه بروید افزونه هادر زمینه کنترلانتخاب کنید افزونه هابرتری داشتنو کلیک کنید برودر پنجره ای که ظاهر می شود، کادر کناری را علامت بزنید بسته تحلیلی،کلیک خوب.

    در برگه داده هادر گروه تحلیل و بررسییک دکمه جدید ظاهر می شود تحلیل داده ها.

    برای نشان دادن نحوه عملکرد این افزونه، از داده‌ها استفاده می‌کنیم، جایی که یک پسر و یک دختر در یک میز در حمام مشترک هستند. داده های مثال حمام ما را در ستون های A و B یک صفحه خالی وارد کنید.

    به برگه بروید داده ها،در گروه تحلیل و بررسیکلیک تحلیل داده ها.در پنجره ای که ظاهر می شود تحلیل داده هاانتخاب کنید پسرفتهمانطور که در شکل نشان داده شده است و روی OK کلیک کنید.

    پارامترهای رگرسیون مورد نیاز را در پنجره تنظیم کنید پسرفت، همانطور که در تصویر نشان داده شده است:

    کلیک خوب.شکل زیر نتایج به دست آمده را نشان می دهد:

    این نتایج با نتایج محاسبات مستقل در .

    تحلیل رگرسیون یکی از رایج ترین روش های تحقیق آماری است. می توان از آن برای تعیین میزان تأثیر متغیرهای مستقل بر متغیر وابسته استفاده کرد. عملکرد مایکروسافت اکسل دارای ابزارهایی است که برای انجام این نوع تجزیه و تحلیل طراحی شده اند. بیایید نگاهی بیندازیم که آنها چیست و چگونه از آنها استفاده کنیم.

    اما، برای استفاده از تابعی که به شما امکان انجام تحلیل رگرسیون را می دهد، اول از همه، باید بسته تجزیه و تحلیل را فعال کنید. فقط در این صورت ابزارهای لازم برای این روش روی نوار اکسل ظاهر می شوند.


    حالا وقتی به تب می رویم "داده ها"، روی روبان در جعبه ابزار "تحلیل و بررسی"ما یک دکمه جدید خواهیم دید - "تحلیل داده ها".

    انواع تحلیل رگرسیون

    چندین نوع رگرسیون وجود دارد:

    • سهموی
    • قدرت؛
    • لگاریتمی؛
    • نمایی;
    • تظاهرات؛
    • هذلولی
    • رگرسیون خطی.

    در ادامه در مورد اجرای آخرین نوع تحلیل رگرسیون در اکسل با جزئیات بیشتری صحبت خواهیم کرد.

    رگرسیون خطی در اکسل

    در زیر، به عنوان مثال، جدولی است که میانگین دمای هوای روزانه در خیابان و تعداد مشتریان فروشگاه را برای روز کاری مربوطه نشان می دهد. بیایید با کمک تحلیل رگرسیون دریابیم که دقیقاً چگونه شرایط آب و هوایی به شکل دمای هوا می تواند بر حضور یک فروشگاه خرده فروشی تأثیر بگذارد.

    معادله رگرسیون خطی کلی به این صورت است: Y = a0 + a1x1 + ... + axk. در این فرمول Yبه معنای متغیری است که می خواهیم تأثیر آن را مطالعه کنیم. در مورد ما، این تعداد خریداران است. معنی ایکسعوامل مختلفی هستند که بر متغیر تأثیر می گذارند. گزینه ها آضرایب رگرسیون هستند. یعنی اهمیت یک عامل خاص را تعیین می کنند. فهرست مطالب کتعداد کل همین عوامل را نشان می دهد.


    تجزیه و تحلیل نتایج تجزیه و تحلیل

    نتایج تحلیل رگرسیون به صورت جدول در محل مشخص شده در تنظیمات نمایش داده می شود.

    یکی از شاخص های اصلی این است R-square. این نشان دهنده کیفیت مدل است. در مورد ما، این ضریب 0.705 یا حدود 70.5٪ است. این سطح کیفی قابل قبولی است. رابطه کمتر از 0.5 بد است.

    شاخص مهم دیگر در سلول در تقاطع خط قرار دارد "تقاطع Y"و ستون "ضرایب". در اینجا مشخص شده است که Y چه مقدار خواهد داشت و در مورد ما، این تعداد خریداران است، با سایر عوامل برابر با صفر. در این جدول این مقدار 58.04 است.

    مقدار در تقاطع نمودار "متغیر X1"و "ضرایب"سطح وابستگی Y به X را نشان می دهد. در مورد ما، این میزان وابستگی تعداد مشتریان فروشگاه به دما است. ضریب 1.31 یک شاخص نسبتاً بالای تأثیر در نظر گرفته می شود.

    همانطور که می بینید، ایجاد جدول تجزیه و تحلیل رگرسیون با استفاده از Microsoft Excel بسیار آسان است. اما، فقط یک فرد آموزش دیده می تواند با داده های به دست آمده در خروجی کار کند و ماهیت آنها را درک کند.