• مثال محاسبه ضریب همبستگی کندال. ضریب همبستگی رتبه کندال. حل این دو معادله می دهد

    نیازهای عملکرد اقتصادی و اجتماعی مستلزم توسعه روش هایی برای توصیف کمی فرآیندها است که به فرد امکان می دهد نه تنها عوامل کمی، بلکه عوامل کیفی را نیز به دقت ثبت کند. به شرطی که بتوان مقادیر ویژگی های کیفی را بر اساس میزان کاهش (افزایش) ویژگی مرتب یا رتبه بندی کرد، می توان نزدیکی رابطه بین ویژگی های کیفی را ارزیابی کرد. کیفی نشانه ای است که نمی توان آن را به دقت اندازه گیری کرد، اما به شما امکان می دهد اشیاء را با یکدیگر مقایسه کنید و بنابراین آنها را به ترتیب کیفیت نزولی یا صعودی مرتب کنید. و محتوای واقعی اندازه‌گیری‌ها در مقیاس‌های رتبه‌بندی ترتیبی است که اشیاء بر اساس شدت صفت اندازه‌گیری شده مرتب می‌شوند.

    برای اهداف عملی، استفاده از همبستگی رتبه بسیار مفید است. به عنوان مثال، اگر بین دو ویژگی کیفی محصولات همبستگی رتبه بالایی برقرار شود، کافی است محصولات را فقط برای یکی از ویژگی ها کنترل کنیم که باعث کاهش هزینه و تسریع کنترل می شود.

    به عنوان مثال می توان وجود رابطه ای بین در دسترس بودن محصولات قابل فروش برای تعدادی از بنگاه ها و هزینه های سربار برای فروش را در نظر گرفت. در طی 10 مشاهده، جدول زیر به دست آمد:

    بیایید مقادیر X را به ترتیب صعودی مرتب کنیم، در حالی که به هر مقدار شماره ترتیبی (رتبه) آن اختصاص داده می شود:

    بدین ترتیب،

    بیایید جدول زیر را بسازیم که در آن جفت های X و Y که در نتیجه مشاهده با رتبه های آنها به دست آمده اند، ثبت می شوند:

    با نشان دادن تفاوت در رتبه‌ها، فرمول محاسبه ضریب همبستگی نمونه اسپیرمن را می‌نویسیم:

    که در آن n تعداد مشاهدات است، که همچنین تعداد جفت رتبه ها است.

    ضریب اسپیرمن دارای ویژگی های زیر است:

    اگر رابطه مستقیم کاملی بین ویژگی‌های کیفی X و Y وجود داشته باشد به این معنا که رتبه‌های اشیاء برای همه مقادیر i یکسان است، ضریب همبستگی نمونه اسپیرمن 1 است. در واقع، با جایگزینی در فرمول، ما دریافت 1.

    اگر بین ویژگی های کیفی X و Y رابطه معکوس کامل وجود داشته باشد به این معنا که رتبه با رتبه مطابقت دارد، ضریب همبستگی نمونه اسپیرمن -1 است.

    در واقع، اگر

    با جایگزینی مقدار به فرمول ضریب همبستگی اسپیرمن، -1 را دریافت می کنیم.

    اگر بین ویژگی های کیفی نه بازخورد کامل مستقیم و نه کامل وجود داشته باشد، ضریب همبستگی نمونه اسپیرمن بین 1- و 1 است و هر چه مقدار آن به 0 نزدیکتر باشد، رابطه بین ویژگی ها کمتر می شود.

    با توجه به مثال بالا، مقدار P را پیدا می کنیم، برای این کار جدول را با مقادیر و:

    ضریب همبستگی نمونه کندال. با استفاده از ضریب همبستگی رتبه کندال می توان رابطه بین دو ویژگی کیفی را ارزیابی کرد.

    اجازه دهید رتبه اشیاء در نمونه با اندازه n باشد:

    با علامت X:

    بر اساس Y: . اجازه دهید فرض کنیم که در سمت راست رتبه‌هایی وجود دارد، بزرگ، در سمت راست، رتبه‌هایی، بزرگ، در سمت راست، رتبه‌هایی، بزرگ هستند. اجازه دهید نماد مجموع رتبه ها را معرفی کنیم

    به طور مشابه، نماد را به عنوان مجموع تعداد رتبه‌های سمت راست، اما کوچکتر معرفی می‌کنیم.

    ضریب همبستگی نمونه کندال به صورت زیر نوشته می شود:

    جایی که n حجم نمونه است.

    ضریب کندال همان ویژگی های ضریب اسپیرمن را دارد:

    اگر رابطه مستقیم کاملی بین ویژگی‌های کیفی X و Y وجود داشته باشد به این معنا که رتبه‌های اشیاء برای همه مقادیر i یکسان است، ضریب همبستگی نمونه کندال 1 است. در واقع، سمت راست وجود دارد. رتبه های n-1 که بزرگ هستند، بنابراین، به همان ترتیبی که What را تنظیم می کنیم. سپس. و ضریب کندال برابر است با: .

    اگر بین صفات X و Y رابطه معکوس کامل وجود داشته باشد به این معنا که رتبه با رتبه مطابقت دارد، ضریب همبستگی نمونه کندال 1- است. در سمت راست هیچ رتبه ای وجود ندارد، بنابراین بزرگ است. به همین ترتیب. با جایگزینی مقدار R+=0 به فرمول ضریب کندال، -1 را بدست می آوریم.

    با حجم نمونه به اندازه کافی بزرگ و با مقادیر ضرایب همبستگی رتبه نزدیک به 1، برابری تقریبی صورت می گیرد:

    آیا ضریب کندال تخمین محافظه کارانه تری از همبستگی نسبت به ضریب اسپیرمن ارائه می دهد؟ (مقدار عددی؟ همیشه کمتر از). اگر چه محاسبه ضریب؟ زمان کمتری نسبت به محاسبه ضریب، در صورت اضافه شدن یک عبارت جدید به سری، محاسبه مجدد ضریب آسان تر است.

    یک مزیت مهم ضریب این است که می توان از آن برای تعیین ضریب همبستگی رتبه جزئی استفاده کرد، که امکان ارزیابی میزان رابطه "خالص" بین دو ویژگی رتبه را فراهم می کند و تأثیر سومی را از بین می برد:

    اهمیت ضرایب همبستگی رتبه. هنگام تعیین قدرت همبستگی رتبه‌ای بر اساس داده‌های نمونه، باید این سؤال را در نظر گرفت: با چه درجه پایایی می‌توان به این نتیجه رسید که در صورت وجود ضریب همبستگی رتبه‌ای نمونه مشخص، در جامعه عمومی همبستگی وجود دارد. به دست آمده است. به عبارت دیگر، اهمیت همبستگی‌های رتبه‌ای مشاهده‌شده باید بر اساس فرضیه استقلال آماری دو رتبه‌بندی در نظر گرفته شود.

    با حجم نمونه نسبتاً بزرگ n، اهمیت ضرایب همبستگی رتبه را می توان با استفاده از جدول توزیع نرمال بررسی کرد (جدول 1 پیوست). برای آزمون معناداری ضریب اسپیرمن؟ (برای n>20) مقدار را محاسبه کنید

    و معناداری ضریب کندال را آزمایش کنیم؟ (برای n>10) مقدار را محاسبه کنید

    که در آن S=R+- R-، n حجم نمونه است.

    علاوه بر این، سطح معنی داری ? تنظیم می شود، مقدار بحرانی tcr (?، k) از جدول نقاط بحرانی توزیع دانشجو و مقدار محاسبه شده تعیین می شود یا با آن مقایسه می شود. تعداد درجات آزادی k = n-2 در نظر گرفته می شود. اگر یا > tcr، آنگاه مقادیر یا به عنوان معنی دار تشخیص داده می شوند.

    ضریب همبستگی فچنر.

    در نهایت، ما باید ضریب Fechner را ذکر کنیم که درجه ابتدایی نزدیکی اتصال را مشخص می کند، که توصیه می شود در صورت وجود مقدار کمی از اطلاعات اولیه، از آن برای اثبات واقعیت وجود یک اتصال استفاده شود. مبنای محاسبه آن در نظر گرفتن جهت انحراف از میانگین حسابی هر سری تغییرات و تعیین ثبات علائم این انحرافات برای دو سری است که رابطه بین آنها اندازه گیری می شود.

    این ضریب با فرمول تعیین می شود:

    که در آن na تعداد تصادفات علائم انحراف مقادیر فردی از میانگین حسابی آنها است. nb - به ترتیب، تعداد عدم تطابق.

    ضریب فچنر می تواند در محدوده -1.0 تغییر کند<= Кф<= +1,0.

    جنبه های کاربردی همبستگی رتبه. همانطور که قبلا ذکر شد، ضرایب همبستگی رتبه را می توان نه تنها برای تجزیه و تحلیل کیفی رابطه بین دو ویژگی رتبه، بلکه در تعیین قدرت رابطه بین رتبه و ویژگی های کمی استفاده کرد. در این حالت، مقادیر ویژگی کمی مرتب شده و رتبه های مربوطه به آنها اختصاص می یابد.

    تعدادی موقعیت وجود دارد که محاسبه ضرایب همبستگی رتبه نیز هنگام تعیین قدرت ارتباط بین دو ویژگی کمی توصیه می شود. بنابراین، با انحراف معنی دار توزیع یکی از آنها (یا هر دو) از توزیع نرمال، تعیین سطح معنی داری ضریب همبستگی نمونه r نادرست می شود، در حالی که ضرایب رتبه؟ و در تعیین سطح اهمیت با چنین محدودیت هایی همراه نیستند.

    موقعیت دیگری از این دست زمانی رخ می دهد که رابطه بین دو ویژگی کمی غیر خطی (اما یکنواخت) باشد. اگر تعداد اشیاء در نمونه کم باشد یا اگر علامت رابطه برای محقق مهم باشد، استفاده از رابطه همبستگی؟ ممکن است در اینجا نامناسب باشد. محاسبه ضریب همبستگی رتبه به فرد اجازه می دهد تا از این مشکلات عبور کند.

    بخش عملی

    وظیفه 1. تحلیل همبستگی و رگرسیون

    بیان و رسمی سازی مشکل:

    یک نمونه تجربی داده شده است که بر اساس یک سری مشاهدات از وضعیت تجهیزات (برای خرابی) و تعداد اقلام ساخته شده گردآوری شده است. نمونه به طور ضمنی رابطه بین حجم تجهیزات شکست خورده و تعداد اقلام ساخته شده را مشخص می کند. با توجه به مفهوم نمونه، مشاهده می شود که محصولات تولیدی بر روی تجهیزاتی تولید می شوند که همچنان در حال کار هستند، زیرا هر چه درصد تجهیزات خراب بیشتر باشد، محصولات تولیدی کمتر می شود. مطالعه نمونه برای وابستگی همبستگی-رگرسیون، یعنی ایجاد شکل وابستگی، ارزیابی تابع رگرسیون (تحلیل رگرسیون) و همچنین شناسایی رابطه بین متغیرهای تصادفی و ارزیابی نزدیکی آن (تحلیل همبستگی) الزامی است. یکی از وظایف دیگر تحلیل همبستگی ارزیابی معادله رگرسیون یک متغیر نسبت به متغیر دیگر است. علاوه بر این، پیش بینی تعداد محصولات تولیدی با 30 درصد خرابی تجهیزات ضروری است.

    ما نمونه بالا را در جدول رسمی می کنیم و داده های "شکست تجهیزات،٪" را به عنوان X، داده های "تعداد محصولات" را به عنوان Y نشان می دهیم:

    اطلاعات اولیه. میز 1

    با توجه به معنای فیزیکی مسئله، می توان دریافت که تعداد محصولات تولید شده Y به طور مستقیم به درصد خرابی تجهیزات بستگی دارد، یعنی وابستگی Y به X وجود دارد. برخلاف همبستگی، فرض می کند که مقدار X به عنوان یک متغیر مستقل یا عامل، مقدار Y - به عنوان وابسته به آن، یا یک ویژگی موثر عمل می کند. بنابراین، نیاز به سنتز یک مدل اقتصادی و ریاضی کافی است، به عنوان مثال. تابع Y = f(X) را تعیین کنید (پیدا کنید، انتخاب کنید)، که رابطه بین مقادیر X و Y را مشخص می کند، با استفاده از آن می توان مقدار Y را در X = 30 پیش بینی کرد. راه حل این مشکل را می توان با استفاده از تحلیل همبستگی-رگرسیون انجام داد.

    بررسی اجمالی روشهای حل مسائل همبستگی-رگرسیون و اثبات روش حل انتخابی.

    روش های تحلیل رگرسیون با توجه به تعداد عوامل مؤثر بر ویژگی مؤثر به تک و چند عاملی تقسیم می شوند. تک عاملی - تعداد عوامل مستقل = 1، یعنی. Y = F (X)

    چند عاملی - تعداد عوامل > 1، به عنوان مثال.

    با توجه به تعداد متغیرهای وابسته (ویژگی های نتیجه) مورد مطالعه، وظایف رگرسیون را نیز می توان به وظایفی با یک و چند ویژگی مولد تقسیم کرد. به طور کلی، یک کار با بسیاری از ویژگی های موثر را می توان به صورت زیر نوشت:

    روش تحلیل همبستگی-رگرسیون شامل یافتن پارامترهای وابستگی تقریبی (تقریبی) فرم است.

    از آنجایی که تنها یک متغیر مستقل در کار فوق ظاهر می‌شود، یعنی وابستگی تنها به یک عامل مؤثر در نتیجه بررسی می‌شود، باید مطالعه را بر روی وابستگی یک عاملی یا رگرسیون زوجی اعمال کرد.

    در حضور تنها یک عامل، وابستگی به صورت زیر تعریف می شود:

    شکل نوشتن یک معادله رگرسیون خاص به انتخاب تابعی بستگی دارد که رابطه آماری بین عامل و ویژگی حاصل را نشان می دهد و شامل موارد زیر است:

    رگرسیون خطی، معادله شکل،

    سهمی، معادله شکل

    مکعب، معادله شکل

    هذلولی، معادله شکل

    نیم لگاریتمی، معادله شکل

    نمایی، معادله شکل

    توان، معادله فرم.

    یافتن تابع به تعیین پارامترهای معادله رگرسیون و ارزیابی پایایی خود معادله خلاصه می شود. برای تعیین پارامترها می توانید هم از روش حداقل مربعات و هم از روش حداقل ماژول ها استفاده کنید.

    اولین مورد این است که مجموع انحرافات مجذور مقادیر تجربی Yi از میانگین Yi محاسبه شده باید حداقل باشد.

    روش حداقل مدول شامل به حداقل رساندن مجموع مدول های تفاوت بین مقادیر تجربی Yi و میانگین های محاسبه شده Yi است.

    برای حل مسئله، روش حداقل مربعات را به عنوان ساده ترین روش انتخاب می کنیم و از نظر خصوصیات آماری تخمین خوبی ارائه می دهد.

    فناوری حل مسئله تحلیل رگرسیون با استفاده از روش حداقل مربعات.

    با تخمین انحراف مقدار واقعی y از مقدار محاسبه شده، می توانید نوع وابستگی (خطی، درجه دوم، مکعب و غیره) بین متغیرها را تعیین کنید:

    که در آن - مقادیر تجربی، - مقادیر محاسبه شده برای تابع تقریبی. با تخمین مقادیر Si برای توابع مختلف و انتخاب کوچکترین آنها، یک تابع تقریبی را انتخاب می کنیم.

    نوع تابع با یافتن ضرایبی که برای هر تابع به عنوان راه حلی برای یک سیستم معادلات مشخص به دست می آید تعیین می شود:

    رگرسیون خطی، معادله نوع، سیستم -

    سهمی، معادله شکل، سیستم -

    مکعب، معادله نوع، سیستم -

    پس از حل سیستم، می یابیم که با کمک آن به یک عبارت خاص از تابع تحلیلی می رسیم که با داشتن آن، مقادیر محاسبه شده را پیدا می کنیم. سپس تمام داده ها برای یافتن برآورد انحراف S و تجزیه و تحلیل برای حداقل وجود دارد.

    برای یک وابستگی خطی، نزدیکی رابطه بین عامل X و ویژگی مؤثر Y را در قالب یک ضریب همبستگی r تخمین می زنیم:

    مقدار متوسط ​​شاخص؛

    مقدار متوسط ​​فاکتور؛

    y - مقدار آزمایشی شاخص؛

    x - مقدار تجربی عامل؛

    انحراف استاندارد x;

    انحراف معیار در y.

    اگر ضریب همبستگی r = 0 باشد، در نظر گرفته می‌شود که رابطه بین ویژگی‌ها ناچیز است یا وجود ندارد، اگر r = 1 باشد، رابطه عملکردی بسیار بالایی بین ویژگی‌ها وجود دارد.

    با استفاده از جدول Chaddock، می توان یک ارزیابی کیفی از نزدیکی همبستگی بین علائم انجام داد:

    جدول Chaddock جدول 2.

    برای یک وابستگی غیرخطی، نسبت همبستگی (0 1) و شاخص همبستگی R تعیین می شود که از وابستگی های زیر محاسبه می شود.

    که در آن مقدار مقدار شاخص محاسبه شده از وابستگی رگرسیون است.

    به عنوان تخمینی از دقت محاسبات، از مقدار میانگین خطای تقریب نسبی استفاده می کنیم.

    در دقت بالا در محدوده 0-12٪ قرار دارد.

    برای ارزیابی انتخاب وابستگی عملکردی، از ضریب تعیین استفاده می کنیم

    ضریب تعیین به عنوان یک معیار "تعمیم یافته" برای کیفیت انتخاب یک مدل عملکردی استفاده می شود، زیرا نسبت بین واریانس فاکتوریل و کل، به طور دقیق تر، سهم واریانس عاملی در کل را بیان می کند.

    برای ارزیابی معناداری شاخص همبستگی R از آزمون F فیشر استفاده شده است. مقدار واقعی معیار با فرمول تعیین می شود:

    که در آن m تعداد پارامترهای معادله رگرسیون، n تعداد مشاهدات است. مقدار با مقدار بحرانی که از جدول معیار F تعیین می شود، با در نظر گرفتن سطح معنی داری پذیرفته شده و تعداد درجات آزادی u مقایسه می شود. اگر، آنگاه مقدار شاخص همبستگی R معنی دار تشخیص داده شود.

    برای شکل انتخابی رگرسیون، ضرایب معادله رگرسیون محاسبه می شود. برای راحتی، نتایج محاسبات در جدولی با ساختار زیر گنجانده شده است (به طور کلی، تعداد ستون ها و ظاهر آنها بسته به نوع رگرسیون متفاوت است):

    جدول 3

    راه حل مشکل.

    مشاهداتی در مورد یک پدیده اقتصادی - وابستگی خروجی محصولات به درصد خرابی تجهیزات انجام شد. مجموعه ای از مقادیر دریافت شده است.

    مقادیر انتخاب شده در جدول 1 توضیح داده شده است.

    ما نموداری از وابستگی تجربی به نمونه داده شده می سازیم (شکل 1)

    با شکل نمودار، ما تعیین می کنیم که وابستگی تحلیلی را می توان به عنوان یک تابع خطی نشان داد:

    ضریب همبستگی زوجی را برای ارزیابی رابطه بین X و Y محاسبه کنید:

    بیایید یک جدول کمکی بسازیم:

    جدول 4

    ما یک سیستم معادلات را حل می کنیم تا ضرایب را پیدا کنیم و:

    از معادله اول، جایگزین مقدار

    در معادله دوم بدست می آوریم:

    ما پیدا می کنیم

    شکل معادله رگرسیون را بدست می آوریم:

    9. برای تخمین تنگی رابطه پیدا شده، از ضریب همبستگی r استفاده می کنیم:

    با توجه به جدول Chaddock، متوجه می شویم که برای r = 0.90 رابطه بین X و Y بسیار زیاد است، بنابراین پایایی معادله رگرسیون نیز بالا است. برای ارزیابی دقت محاسبات، از مقدار میانگین خطای تقریب نسبی استفاده می کنیم:

    ما معتقدیم که مقدار درجه بالایی از قابلیت اطمینان معادله رگرسیون را فراهم می کند.

    برای یک رابطه خطی بین X و Y، شاخص تعیین برابر است با مجذور ضریب همبستگی r: . بنابراین، 81 درصد از کل تغییرات با تغییر در صفت عامل X توضیح داده می شود.

    برای ارزیابی اهمیت شاخص همبستگی R، که در مورد وابستگی خط مستقیم، از نظر مقدار مطلق برابر با ضریب همبستگی r است، از آزمون F فیشر استفاده می‌شود. مقدار واقعی را با فرمول تعیین می کنیم:

    که در آن m تعداد پارامترهای معادله رگرسیون، n تعداد مشاهدات است. یعنی n = 5، m = 2.

    با در نظر گرفتن سطح معناداری پذیرفته شده = 0.05 و تعداد درجات آزادی، مقدار جدول بحرانی را به دست می آوریم. از آنجایی که مقدار شاخص همبستگی R معنی دار تشخیص داده می شود.

    بیایید مقدار پیش بینی شده Y را در X = 30 محاسبه کنیم:

    بیایید یک نمودار از تابع پیدا شده بسازیم:

    11. خطای ضریب همبستگی را با مقدار انحراف معیار تعیین کنید

    و سپس مقدار انحراف نرمال شده را تعیین کنید

    از نسبت > 2 با احتمال 95 درصد می توان در مورد معنی دار بودن ضریب همبستگی به دست آمده صحبت کرد.

    وظیفه 2. بهینه سازی خطی

    انتخاب 1.

    در طرح توسعه منطقه قرار است 3 میدان نفتی با حجم کل تولید 9 میلیون تن به بهره برداری برسد. در میدان اول، حجم تولید حداقل 1 میلیون تن، در میدان دوم - 3 میلیون تن، در سوم - 5 میلیون تن است. برای دستیابی به این بهره وری باید حداقل 125 حلقه چاه حفر شود. برای اجرای این طرح 25 میلیون روبل در نظر گرفته شد. سرمایه گذاری سرمایه (شاخص K) و 80 کیلومتر لوله (شاخص L).

    تعیین تعداد بهینه (حداکثر) چاه برای اطمینان از بهره وری برنامه ریزی شده هر میدان الزامی است. داده های اولیه در مورد کار در جدول آورده شده است.

    اطلاعات اولیه

    بیان مشکل در بالا آورده شده است.

    ما شرایط و محدودیت های مشخص شده در مشکل را رسمی می کنیم. هدف از حل این مسئله بهینه سازی، یافتن حداکثر مقدار تولید نفت با تعداد بهینه چاه برای هر میدان با در نظر گرفتن محدودیت های موجود بر روی مسئله است.

    تابع هدف مطابق با الزامات مسئله به شکل زیر خواهد بود:

    تعداد چاه ها برای هر میدان کجاست.

    محدودیت های موجود در کار برای:

    طول لوله:

    تعداد چاه در هر میدان:

    هزینه ساخت 1 چاه:

    مسائل بهینه سازی خطی به عنوان مثال با روش های زیر حل می شوند:

    به صورت گرافیکی

    روش سیمپلکس

    استفاده از روش گرافیکی تنها در هنگام حل مسائل بهینه سازی خطی با دو متغیر راحت است. با تعداد بیشتر متغیرها، استفاده از دستگاه جبری ضروری است. یک روش کلی برای حل مسائل بهینه سازی خطی به نام روش سیمپلکس در نظر بگیرید.

    روش Simlex یک مثال معمولی از محاسبات تکراری است که در حل اکثر مسائل بهینه سازی استفاده می شود. رویه‌های تکراری از این دست در نظر گرفته می‌شوند که با کمک مدل‌های تحقیق عملیات، حل مسئله را ارائه می‌دهند.

    برای حل یک مسئله بهینه سازی با استفاده از روش سیمپلکس، لازم است که تعداد مجهولات Xi بیشتر از تعداد معادلات باشد. سیستم معادلات

    رابطه m را ارضا کرد

    A= برابر m بود.

    ستون ماتریس A را به عنوان و ستون عبارات آزاد را به عنوان مشخص کنید

    جواب اصلی سیستم (1) مجموعه ای از m مجهولات است که جواب سیستم (1) هستند.

    به طور خلاصه، الگوریتم روش سیمپلکس به شرح زیر است:

    محدودیت اصلی که به صورت نابرابری از نوع نوشته شده است<= (=>) را می توان با اضافه کردن متغیر باقیمانده به سمت چپ محدودیت (کم کردن متغیر زائد از سمت چپ) به عنوان یک تساوی نشان داد.

    به عنوان مثال، در سمت چپ محدودیت اصلی

    یک متغیر باقیمانده معرفی می شود که در نتیجه نابرابری اولیه به برابری تبدیل می شود.

    اگر محدودیت اصلی مصرف لوله را مشخص کند، آنگاه متغیر باید به عنوان باقیمانده یا بخش استفاده نشده آن منبع تفسیر شود.

    حداکثر کردن تابع هدف معادل کمینه کردن همان تابعی است که با علامت مخالف گرفته شده است. یعنی در مورد ما

    برابر است با

    یک جدول سیمپلکس برای حل اصلی شکل زیر جمع آوری شده است:

    این جدول نشان می دهد که پس از حل مشکل در این سلول ها یک راه حل اساسی وجود خواهد داشت. - خصوصی از تقسیم یک ستون به یکی از ستون ها. - ضرب کننده های صفر اضافی برای مقادیر موجود در سلول های جدول مربوط به ستون فعال. - مقدار حداقل تابع هدف -Z، - مقادیر ضرایب در تابع هدف برای مجهولات.

    در میان ارزش ها هر مثبتی را پیدا کنید. اگر اینطور نباشد، مشکل حل شده در نظر گرفته می شود. هر ستونی از جدول را که دارای آن است انتخاب کنید، این ستون، ستون "مجاز" نامیده می شود. اگر اعداد مثبتی در بین عناصر ستون حل وجود نداشته باشد، به دلیل نامحدود بودن تابع هدف در مجموعه راه حل های آن، مسئله غیرقابل حل است. اگر اعداد مثبت در ستون وضوح وجود دارد، به مرحله 5 بروید.

    ستون با کسری پر شده است که در صورت شمار آن عناصر ستون و در مخرج - عناصر مربوطه ستون حل است. از بین تمام مقادیر، کوچکترین انتخاب شده است. خطی که کوچکترین نتیجه در آن خط "مجاز" نامیده می شود. در تقاطع خط مجاز و ستون مجاز، یک عنصر مجاز یافت می شود که به نوعی، به عنوان مثال، با رنگ برجسته می شود.

    بر اساس اولین جدول سیمپلکس، جدول زیر گردآوری شده است که در آن:

    بردار ردیف با بردار ستون جایگزین شد

    رشته مجاز با همان رشته تقسیم بر عنصر مجاز جایگزین می شود

    هر یک از سطرهای دیگر جدول با مجموع این سطر با وضوح جایگزین می شود و در یک عامل اضافی انتخاب شده خاص ضرب می شود تا 0 در سلول ستون وضوح به دست آید.

    با جدول جدید به نقطه 4 می رویم.

    راه حل مشکل.

    بر اساس بیان مسئله، سیستم نابرابری زیر را داریم:

    و تابع هدف

    ما سیستم نابرابری ها را با معرفی متغیرهای اضافی به یک سیستم معادلات تبدیل می کنیم:

    اجازه دهید تابع هدف را به معادل آن کاهش دهیم:

    بیایید جدول سیمپلکس اولیه را بسازیم:

    بیایید یک ستون مجوز را انتخاب کنیم. بیایید ستون را محاسبه کنیم:

    مقادیر را در جدول وارد می کنیم. با کوچکترین آنها = 10، رشته فعال کننده را تعیین می کنیم: . در تقاطع سطر حل و ستون حل، عنصر حل کننده = 1 را می یابیم. بخشی از جدول را با فاکتورهای اضافی پر می کنیم، به این ترتیب که: رشته حل کننده ضرب در آنها، به سطرهای باقی مانده جدول اضافه می شود. 0 را در عناصر ستون حل تشکیل می دهد.

    جدول سیمپلکس دوم را می سازیم:

    در آن، ما یک ستون حل می گیریم، مقادیر را محاسبه می کنیم، آنها را در یک جدول قرار می دهیم. حداقل یک رشته مجاز دریافت می کنیم. عنصر حل کننده 1 خواهد بود. فاکتورهای اضافی را پیدا می کنیم، ستون ها را پر کنید.

    جدول سیمپلکس زیر را می سازیم:

    به طور مشابه، ما یک ستون حل، یک سطر حل‌کننده و یک عنصر حل‌کننده = 2 پیدا می‌کنیم. جدول سیمپلکس زیر را می‌سازیم:

    از آنجایی که هیچ مقدار مثبتی در خط -Z وجود ندارد، این جدول محدود است. ستون اول مقادیر مورد نظر مجهولات را می دهد، یعنی. راه حل اساسی بهینه:

    در این حالت مقدار تابع هدف -Z = -8000 است که معادل Zmax = 8000 است. مشکل حل می شود.

    وظیفه 3. تجزیه و تحلیل خوشه ای

    فرمول مسئله:

    پارتیشن بندی اشیا را بر اساس داده های داده شده در جدول انجام دهید. انتخاب روش حل باید به طور مستقل انجام شود تا یک نمودار وابستگی داده ایجاد شود.

    انتخاب 1.

    اطلاعات اولیه

    مروری بر روش‌های حل مسائل مشخص شده. توجیه روش حل.

    وظایف تحلیل خوشه ای با استفاده از روش های زیر حل می شود:

    روش اتحاد یا خوشه بندی درختی در تشکیل خوشه های «عدم تشابه» یا «فاصله بین اشیاء» استفاده می شود. این فواصل را می توان در فضای یک بعدی یا چند بعدی تعریف کرد.

    اتصال دو طرفه (نسبتاً به ندرت) در شرایطی استفاده می شود که داده ها نه بر اساس "اشیاء" و "ویژگی های اشیاء"، بلکه بر اساس مشاهدات و متغیرها تفسیر می شوند. انتظار می رود که هر دو مشاهدات و متغیرها به طور همزمان در کشف خوشه های معنی دار کمک کنند.

    روش K-means. زمانی استفاده می شود که از قبل یک فرضیه در مورد تعداد خوشه ها وجود داشته باشد. می توانید به سیستم بگویید که دقیقاً مثلاً سه خوشه تشکیل دهد تا تا حد امکان متفاوت باشند. در حالت کلی، روش K-means دقیقاً K خوشه‌های متفاوتی را می‌سازد که تا حد امکان از هم فاصله دارند.

    روش های زیر برای اندازه گیری فاصله وجود دارد:

    فاصله اقلیدسی. این رایج ترین نوع فاصله است. به سادگی یک فاصله هندسی در فضای چند بعدی است و به صورت زیر محاسبه می شود:

    توجه داشته باشید که فاصله اقلیدسی (و مربع آن) از داده های اصلی محاسبه می شود، نه از داده های استاندارد شده.

    فاصله بلوک شهر (فاصله منهتن). این فاصله صرفاً میانگین تفاوت ها بر روی مختصات است. در بیشتر موارد، این اندازه گیری فاصله منجر به همان نتایجی می شود که برای فاصله معمول اقلیدسی وجود دارد. با این حال، توجه داشته باشید که برای این اندازه‌گیری، تأثیر تفاوت‌های بزرگ فردی (فروت‌ها) کاهش می‌یابد (زیرا آنها مجذور نیستند). مسافت منهتن با استفاده از فرمول محاسبه می شود:

    فاصله چبیشف این فاصله زمانی می تواند مفید باشد که کسی بخواهد دو شی را به عنوان "متفاوت" تعریف کند، اگر آنها در یک مختصات (هر یک بعد) متفاوت باشند. فاصله چبیشف با فرمول محاسبه می شود:

    فاصله قدرت. گاهی اوقات تمایل به افزایش یا کاهش تدریجی وزن مربوط به بعد است که اجسام مربوطه برای آن بسیار متفاوت هستند. این را می توان با استفاده از فاصله قدرت-قانون به دست آورد. فاصله توان با فرمول محاسبه می شود:

    که در آن r و p پارامترهای تعریف شده توسط کاربر هستند. چند مثال از محاسبات می تواند نشان دهد که این اندازه گیری چگونه "کار می کند". پارامتر p مسئول وزن‌دهی تدریجی تفاوت‌ها در مختصات فردی است، پارامتر r مسئول وزن‌دهی تدریجی فواصل زیاد بین اجسام است. اگر هر دو پارامتر - r و p برابر با دو باشند، این فاصله با فاصله اقلیدسی منطبق است.

    درصد اختلاف نظر. این معیار زمانی استفاده می شود که داده ها طبقه بندی شده باشند. این فاصله با فرمول محاسبه می شود:

    برای حل مشکل، روش تداعی (خوشه‌بندی درخت‌مانند) را به عنوان مناسب‌ترین روش برای شرایط و بیان مسئله (برای انجام پارتیشن بندی اشیا) انتخاب می‌کنیم. به نوبه خود، روش join می تواند از چندین نوع قوانین پیوند استفاده کند:

    اتصال تک (روش نزدیکترین همسایه). در این روش فاصله بین دو خوشه با فاصله بین دو نزدیکترین شی (نزدیکترین همسایه) در خوشه های مختلف تعیین می شود. یعنی هر دو شی در دو خوشه نسبت به فاصله پیوند مربوطه به یکدیگر نزدیکتر هستند. این قاعده باید به یک معنا اشیاء رشته ای را به هم متصل کند تا خوشه ها را تشکیل دهند و خوشه های حاصل تمایل دارند با "رشته های" طولانی نمایش داده شوند.

    اتصال کامل (روش دورترین همسایگان). در این روش، فاصله بین خوشه ها با بیشترین فاصله بین هر دو شی در خوشه های مختلف (یعنی "دورترین همسایگان") تعریف می شود.

    همچنین بسیاری از روش‌های پیوستن خوشه‌ای دیگر مانند اینها وجود دارد (مثلاً جفت‌سازی بدون وزن، جفت‌سازی وزنی، و غیره).

    تکنولوژی روش حل. محاسبه شاخص ها

    در مرحله اول، زمانی که هر شیء یک خوشه مجزا است، فواصل بین این اشیاء با معیار انتخاب شده تعیین می شود.

    از آنجایی که واحدهای اندازه گیری ویژگی ها در مسئله مشخص نشده اند، فرض بر این است که آنها منطبق هستند. بنابراین، نیازی به عادی سازی داده های اولیه نیست، بنابراین بلافاصله به محاسبه ماتریس فاصله می پردازیم.

    راه حل مشکل.

    بیایید یک نمودار وابستگی بر اساس داده های اولیه بسازیم (شکل 2)

    اجازه دهید فاصله معمول اقلیدسی را به عنوان فاصله بین اجسام در نظر بگیریم. سپس طبق فرمول:

    جایی که l - ویژگی ها؛ k - تعداد ویژگی ها، فاصله بین اشیاء 1 و 2 است:

    ما به محاسبه مسافت های باقی مانده ادامه می دهیم:

    از مقادیر بدست آمده جدولی می سازیم:

    کوچکترین فاصله. این بدان معنی است که عناصر 3،6 و 5 در یک خوشه ترکیب می شوند. جدول زیر را بدست می آوریم:

    کوچکترین فاصله. عناصر 3،6،5 و 4 در یک خوشه ترکیب می شوند. از دو خوشه جدولی بدست می آوریم:

    حداقل فاصله بین عناصر 3 و 6 برابر است. این بدان معنی است که عناصر 3 و 6 در یک خوشه ترکیب می شوند. حداکثر فاصله بین خوشه تازه تشکیل شده و بقیه عناصر را انتخاب می کنیم. به عنوان مثال، فاصله بین خوشه 1 و خوشه 3،6 حداکثر (13.34166, 13.60147) = 13.34166 است. بیایید جدول زیر را بسازیم:

    در آن، حداقل فاصله، فاصله بین خوشه های 1 و 2 است. با ترکیب 1 و 2 در یک خوشه، به دست می آوریم:

    بدین ترتیب با استفاده از روش "همسایه دور" دو خوشه 1.2 و 3.4.5.6 به دست آمد که فاصله بین آنها 13.60147 است.

    مشکل حل شد.

    برنامه های کاربردی. حل مشکلات با استفاده از بسته های برنامه (MS Excel 7.0)

    مشکل تحلیل همبستگی-رگرسیون.

    داده های اولیه را در جدول وارد می کنیم (شکل 1)

    منوی "سرویس / تجزیه و تحلیل داده" را انتخاب کنید. در پنجره ظاهر شده، خط "Regression" را انتخاب کنید (شکل 2).

    در پنجره بعدی، فواصل ورودی را برای X و Y تنظیم می کنیم، سطح قابلیت اطمینان را روی 95% می گذاریم و داده های خروجی را در یک برگه جداگانه "گزارش Sheet" قرار می دهیم (شکل 3).

    پس از محاسبه، داده های نهایی تحلیل رگرسیون را در برگه "گزارش برگ" دریافت می کنیم:

    همچنین نمودار پراکندگی تابع تقریبی یا "گراف انتخاب" را نمایش می دهد:


    مقادیر و انحرافات محاسبه شده به ترتیب در ستون های "پیش بینی شده Y" و "Residuals" در جدول نمایش داده می شوند.

    بر اساس داده های اولیه و انحرافات، نموداری از باقیمانده ها ساخته می شود:

    مشکل بهینه سازی


    داده های اولیه را به صورت زیر وارد می کنیم:

    مجهول های مورد نظر X1، X2، X3 به ترتیب در سلول های C9، D9، E9 وارد می شوند.

    ضرایب تابع هدف در X1، X2، X3 به ترتیب در C7، D7، E7 وارد می شود.

    تابع هدف در سلول B11 به صورت فرمول وارد می شود: =C7*C9+D7*D9+E7*E9.

    محدودیت های موجود در کار

    برای طول لوله کشی:

    در سلول های C5، D5، E5، F5، G5 وارد کنید

    تعداد چاه در هر میدان:

    X3 100 پوند; ما در سلول های C8، D8، E8 وارد می کنیم.

    هزینه ساخت 1 چاه:

    ما در سلول های C6، D6، E6، F6، G6 وارد می کنیم.

    فرمول محاسبه طول کل C5*C9+D5*D9+E5*E9 در سلول B5، فرمول محاسبه کل هزینه C6*C9+D6*D9+E6*E9 در سلول B6 قرار می گیرد.


    ما در منوی "ابزارها / جستجوی راه حل" را انتخاب می کنیم، پارامترهای یافتن راه حل را مطابق با داده های اولیه وارد شده وارد می کنیم (شکل 4):

    با استفاده از دکمه "Parameters"، پارامترهای زیر را برای یافتن راه حل تنظیم کنید (شکل 5):


    پس از جستجوی راه حل، گزارشی از نتایج دریافت می کنیم:

    گزارش نتایج Microsoft Excel 8.0e

    گزارش ایجاد: 1381/11/17 ساعت 1:28:30 بامداد

    سلول هدف (حداکثر)

    نتیجه

    کل تولید

    سلول های قابل تغییر

    نتیجه

    تعداد چاه

    تعداد چاه

    تعداد چاه

    محدودیت های

    معنی

    طول

    مربوط

    هزینه پروژه

    متصل نیست

    تعداد چاه

    متصل نیست

    تعداد چاه

    مربوط

    تعداد چاه

    مربوط

    جدول اول مقدار اولیه و نهایی (بهینه) سلول هدف را نشان می دهد که تابع هدف مسئله حل شده در آن قرار می گیرد. در جدول دوم مقادیر اولیه و نهایی متغیرهای مورد بهینه سازی را مشاهده می کنیم که در سلول های مورد تغییر موجود است. جدول سوم گزارش نتایج حاوی اطلاعاتی در مورد محدودیت ها است. ستون "Value" حاوی مقادیر بهینه منابع مورد نیاز و متغیرهای بهینه شده است. ستون "فرمول" شامل محدودیت هایی در منابع مصرف شده و متغیرهای بهینه شده است که به شکل ارجاع به سلول های حاوی این داده ها نوشته شده است. ستون Status مشخص می‌کند که آیا این محدودیت‌ها محدود هستند یا غیرمقید هستند. در اینجا، "محدود" محدودیت هایی هستند که در راه حل بهینه در قالب برابری های صلب اجرا می شوند. ستون "تفاوت" برای محدودیت منابع، تعادل منابع استفاده شده را تعیین می کند. تفاوت بین مقدار مورد نیاز منابع و در دسترس بودن آنها.

    به همین ترتیب با نوشتن نتیجه جستجوی راه حل در قالب «گزارش پایداری» جداول زیر را به دست می آوریم:

    گزارش پایداری Microsoft Excel 8.0e

    کاربرگ: [Optimization Problem solution.xls] راه حل مسئله بهینه سازی تولید

    گزارش ایجاد: 1381/11/17 ساعت 1:35:16 بامداد

    سلول های قابل تغییر

    جایز است

    جایز است

    معنی

    قیمت

    ضریب

    افزایش دادن

    نزول کردن

    تعداد چاه

    تعداد چاه

    تعداد چاه

    محدودیت های

    محدودیت

    جایز است

    جایز است

    معنی

    قسمت راست

    افزایش دادن

    نزول کردن

    طول

    هزینه پروژه

    گزارش پایداری حاوی اطلاعاتی در مورد متغیرهای متغیر (بهینه شده) و محدودیت های مدل است. این اطلاعات مربوط به روش سیمپلکس مورد استفاده در بهینه سازی مسائل خطی است که در بالا از نظر حل مسئله توضیح داده شد. این به شما امکان می دهد ارزیابی کنید که راه حل بهینه حاصل چقدر نسبت به تغییرات احتمالی در پارامترهای مدل حساس است.

    بخش اول گزارش حاوی اطلاعاتی در مورد سلول های متغیر حاوی مقادیر مربوط به تعداد چاه ها در فیلدها است. ستون "مقدار نتیجه" مقادیر بهینه متغیرهایی که باید بهینه شوند را نشان می دهد. ستون "ضریب هدف" حاوی داده های اولیه مقادیر ضریب تابع هدف است. دو ستون بعدی افزایش و کاهش مجاز این ضرایب را بدون تغییر جواب بهینه یافت شده نشان می دهد.

    بخش دوم گزارش پایداری حاوی اطلاعاتی در مورد محدودیت های اعمال شده بر روی متغیرهای در حال بهینه سازی است. ستون اول منابع مورد نیاز برای راه حل بهینه را نشان می دهد. دومی شامل مقادیر قیمت های سایه برای انواع منابع استفاده شده است. دو ستون آخر حاوی داده هایی در مورد افزایش یا کاهش احتمالی مقدار منابع موجود است.

    مشکل خوشه بندی

    یک روش گام به گام برای حل مشکل در بالا آورده شده است. در اینجا جداول اکسل وجود دارد که پیشرفت حل مشکل را نشان می دهد:

    "روش نزدیکترین همسایه"

    حل مسئله تحلیل خوشه ای - "روش نزدیکترین همسایه"

    اطلاعات اولیه

    که در آن x1 حجم خروجی است.

    x2 - میانگین هزینه سالانه اصلی

    صندوق های تولید صنعتی

    "روش همسایه دور"

    حل مسئله تحلیل خوشه ای - "روش همسایه دور"

    اطلاعات اولیه

    که در آن x1 حجم خروجی است.

    x2 - میانگین هزینه سالانه اصلی

    صندوق های تولید صنعتی

    یکی از عوامل محدود کننده اعمال معیارها بر اساس فرض نرمال بودن حجم نمونه است. تا زمانی که نمونه به اندازه کافی بزرگ باشد (مثلاً 100 مشاهده یا بیشتر)، می توانید فرض کنید که توزیع نمونه نرمال است، حتی اگر مطمئن نباشید که توزیع یک متغیر در جامعه نرمال است. با این حال، اگر نمونه کوچک است، این آزمون‌ها تنها در صورتی باید استفاده شوند که اطمینان وجود داشته باشد که متغیر واقعاً به طور معمول توزیع شده است. با این حال، هیچ راهی برای آزمایش این فرض بر روی یک نمونه کوچک وجود ندارد.

    استفاده از معیارهای مبتنی بر فرض نرمال بودن نیز توسط مقیاس اندازه گیری محدود می شود (به فصل مفاهیم اولیه تجزیه و تحلیل داده ها مراجعه کنید). در روش های آماری مانند t-test، رگرسیون و ... فرض بر این است که داده های اصلی پیوسته هستند. با این حال، موقعیت‌هایی وجود دارد که داده‌ها به‌جای اندازه‌گیری دقیق، به سادگی رتبه‌بندی می‌شوند (در مقیاس ترتیبی اندازه‌گیری می‌شوند).

    یک مثال معمولی رتبه‌بندی سایت‌ها در اینترنت است: جایگاه اول توسط سایت با حداکثر تعداد بازدیدکننده، جایگاه دوم توسط سایت با حداکثر تعداد بازدیدکننده در بین سایت‌های باقی‌مانده (در بین سایت‌های از که اولین سایت حذف شده است) و غیره. با دانستن رتبه ها می توان گفت که تعداد بازدیدکنندگان یک سایت از تعداد بازدیدکنندگان سایت دیگر بیشتر است، اما نمی توان گفت چقدر بیشتر است. تصور کنید 5 سایت دارید: A، B، C، D، E که در 5 مکان برتر قرار دارند. فرض کنید در ماه جاری ترتیب زیر را داشتیم: A، B، C، D، E و در ماه قبل: D، E، A، B، C. سوال این است که آیا تغییرات قابل توجهی در رتبه‌بندی‌ها رخ داده است. از سایت ها یا نه؟ در این شرایط، بدیهی است که ما نمی توانیم از آزمون t برای مقایسه این دو مجموعه داده استفاده کنیم و در حال حرکت به حوزه محاسبات احتمالی خاص هستیم (و هر آزمون آماری حاوی یک محاسبه احتمالی است!). ما تقریباً به این صورت استدلال می کنیم: چقدر احتمال دارد که تفاوت در ترتیبات دو سایت به دلایل کاملاً تصادفی باشد یا این تفاوت بسیار زیاد است و نمی توان آن را به طور تصادفی توضیح داد. در این بحث ها ما فقط از رتبه یا جایگشت سایت ها استفاده می کنیم و از نوع خاصی از توزیع تعداد بازدیدکنندگان آنها استفاده نمی کنیم.

    برای تجزیه و تحلیل نمونه های کوچک و برای داده های اندازه گیری شده در مقیاس های ضعیف، از روش های ناپارامتریک استفاده می شود.

    مروری کوتاه بر رویه های ناپارامتریک

    اساساً برای هر معیار پارامتری، حداقل یک جایگزین ناپارامتریک وجود دارد.

    به طور کلی، این روش ها در یکی از دسته های زیر قرار می گیرند:

    • معیارهای تفاوت برای نمونه های مستقل؛
    • معیارهای تفاوت برای نمونه های وابسته.
    • ارزیابی میزان وابستگی بین متغیرها

    به طور کلی، رویکرد به معیارهای آماری در تجزیه و تحلیل داده ها باید عمل گرایانه باشد و بار ملاحظات نظری غیرضروری نداشته باشد. با یک کامپیوتر STATISTICA که در اختیار دارید، به راحتی می توانید چندین معیار را برای داده های خود اعمال کنید. با دانستن برخی از مشکلات روش ها، با آزمایش راه حل مناسب را انتخاب خواهید کرد. توسعه نمودار کاملاً طبیعی است: اگر نیاز به مقایسه مقادیر دو متغیر دارید، از آزمون t استفاده می کنید. با این حال، باید به خاطر داشت که بر اساس فرض نرمال بودن و برابری واریانس ها در هر گروه است. رهایی از این مفروضات منجر به آزمایش های ناپارامتریک می شود که به ویژه برای نمونه های کوچک مفید است.

    توسعه آزمون t منجر به تجزیه و تحلیل واریانس می شود که زمانی استفاده می شود که تعداد گروه های مقایسه شده بیشتر از دو باشد. توسعه متناظر رویه‌های ناپارامتریک منجر به تحلیل واریانس ناپارامتریک می‌شود، اگرچه بسیار ضعیف‌تر از تحلیل واریانس کلاسیک است.

    برای ارزیابی وابستگی، یا به بیان تا حدودی بزرگ، درجه نزدیکی اتصال، ضریب همبستگی پیرسون محاسبه می شود. به بیان دقیق، استفاده از آن دارای محدودیت هایی است، به عنوان مثال، با نوع مقیاسی که داده ها در آن اندازه گیری می شوند و غیر خطی بودن وابستگی، بنابراین، به عنوان جایگزین، ضرایب همبستگی ناپارامتریک یا به اصطلاح رتبه ای. همچنین استفاده می شود که برای مثال برای داده های رتبه بندی شده استفاده می شود. اگر داده ها در مقیاس اسمی اندازه گیری شوند، طبیعی است که آنها را در جداول احتمالی ارائه کنیم که از آزمون کای دو پیرسون با تغییرات و اصلاحات مختلف برای دقت استفاده می کنند.

    بنابراین، در اصل، تنها چند نوع معیار و رویه وجود دارد که بسته به مشخصات داده ها، باید بدانید و بتوانید از آنها استفاده کنید. شما باید تعیین کنید که کدام معیار باید در یک موقعیت خاص اعمال شود.

    روش های ناپارامتریک زمانی مناسب هستند که حجم نمونه کوچک باشد. اگر داده های زیادی وجود داشته باشد (مثلاً n> 100)، اغلب استفاده از آمار ناپارامتریک منطقی نیست.

    اگر حجم نمونه بسیار کوچک باشد (به عنوان مثال، n = 10 یا کمتر)، آنگاه سطوح معنی‌داری برای آن دسته از آزمون‌های ناپارامتریک که از تقریب نرمال استفاده می‌کنند، تنها می‌توانند به عنوان تخمین‌های تقریبی در نظر گرفته شوند.

    تفاوت بین گروه های مستقل. اگر دو نمونه (مثلاً نر و ماده) وجود داشته باشد که باید با توجه به مقدار متوسطی مانند فشار خون متوسط ​​یا تعداد گلبول‌های سفید خون مقایسه شوند، می‌توان از آزمون تی نمونه مستقل استفاده کرد.

    جایگزین های ناپارامتریک برای این آزمون، آزمون سری Wald-Wolfowitz، Mann-Whitney)/n است که x i مقدار i ام، n تعداد مشاهدات است. اگر متغیر دارای مقادیر منفی یا صفر (0) باشد، میانگین هندسی قابل محاسبه نیست.

    میانگین هارمونیک

    از میانگین هارمونیک گاهی اوقات برای میانگین فرکانس ها استفاده می شود. میانگین هارمونیک با فرمول محاسبه می شود: HS = n/S(1/x i) که در آن HS میانگین هارمونیک است، n تعداد مشاهدات، x i مقدار مشاهده با عدد i است. اگر متغیر دارای صفر (0) باشد، میانگین هارمونیک قابل محاسبه نیست.

    واریانس و انحراف معیار

    واریانس نمونه و انحراف معیار رایج ترین معیارهای مورد استفاده برای تغییرپذیری (تغییر) در داده ها هستند. واریانس به عنوان مجموع انحرافات مجذور مقادیر متغیر از میانگین نمونه، تقسیم بر n-1 (اما نه بر n) محاسبه می شود. انحراف استاندارد به عنوان جذر برآورد واریانس محاسبه می شود.

    محدوده

    محدوده یک متغیر معیاری از نوسان است که به عنوان حداکثر منهای حداقل محاسبه می شود.

    محدوده چارک

    محدوده فصلی، طبق تعریف، عبارت است از: چارک بالا منهای چارک پایین (صدک 75 درصد منهای 25 درصد). از آنجایی که صدک 75 درصد (چرک بالایی) مقدار سمت چپ است که 75 درصد مشاهدات آن است و صدک 25 درصد (چرک پایین) مقداری است که در سمت چپ آن 25 درصد مشاهدات مربوط به چارک است. محدوده بازه حول میانه است که شامل 50 درصد مشاهدات (مقادیر متغیر) است.

    عدم تقارن

    چولگی مشخصه شکل توزیع است. اگر چولگی منفی باشد، توزیع به سمت چپ منحرف می شود. اگر چولگی مثبت باشد، توزیع به سمت راست منحرف می شود. چولگی توزیع نرمال استاندارد 0 است. چولگی مربوط به ممان سوم است و به صورت زیر تعریف می شود: چولگی = n × M 3 /[(n-1) × (n-2) × s 3 ]، که در آن M 3 است: (x i -xmean x) 3، s 3 - انحراف استاندارد به توان سوم افزایش یافته است، n - تعداد مشاهدات.

    اضافی

    کورتوز مشخصه شکل توزیع است، یعنی معیاری از وضوح قله آن (نسبت به توزیع نرمال، که کشش آن 0 است). به عنوان یک قاعده کلی، توزیع‌هایی با قله تندتر از توزیع نرمال دارای کشیدگی مثبت هستند. توزیع هایی که پیک آنها تیزتر از قله توزیع نرمال است، کشش منفی دارند. کورتوز با لحظه چهارم همراه است و با فرمول تعیین می شود:

    کشیدگی = /[(n-1) × (n-2) × (n-3) × s 4 ]، که در آن M j است: (x-x میانگین x، s 4 انحراف استاندارد به توان چهارم است، n برابر است تعداد مشاهدات

    در هنگام رتبه بندی، کارشناس باید عناصر ارزیابی شده را به ترتیب صعودی (نزولی) ترجیح خود مرتب کند و به هر یک از آنها رتبه هایی را در قالب اعداد طبیعی اختصاص دهد. در رتبه بندی مستقیم، ارجح ترین عنصر دارای رتبه 1 (گاهی 0) و کم ترجیح ترین عنصر دارای رتبه m است.

    در صورتی که کارشناس نتواند رتبه بندی دقیقی انجام دهد به دلیل اینکه به نظر وی برخی از عناصر از نظر اولویت یکسان هستند، در این صورت می توان رتبه های یکسانی را به این عناصر اختصاص داد. برای اطمینان از برابری مجموع رتبه ها با مجموع مکان های عناصر رتبه بندی شده، به اصطلاح از رتبه های استاندارد شده استفاده می شود. رتبه استاندارد شده میانگین حسابی تعداد عناصر سری رتبه بندی شده است که از نظر اولویت برابر هستند.

    مثال 2.6.کارشناس شش مورد را بر اساس اولویت به شرح زیر رتبه بندی کرد:

    سپس رتبه های استاندارد شده این عناصر خواهد بود

    بنابراین، مجموع رتبه های اختصاص داده شده به عناصر برابر با مجموع اعداد طبیعی خواهد بود.

    دقت بیان اولویت توسط عناصر رتبه بندی به طور قابل توجهی به اصلی بودن مجموعه ارائه ها بستگی دارد. روش رتبه بندی مطمئن ترین نتایج را می دهد (با توجه به درجه نزدیکی ترجیح آشکار و "درست")، زمانی که تعداد عناصر ارزیابی شده بیش از 10 نباشد. قدرت محدود کننده مجموعه ارائه نباید از 20 تجاوز کند.

    پردازش و تجزیه و تحلیل رتبه بندی ها به منظور ایجاد یک رابطه ترجیحی گروهی بر اساس ترجیحات فردی انجام می شود. در این مورد، وظایف زیر را می توان تعیین کرد: الف) تعیین محکم بودن ارتباط بین رتبه بندی دو متخصص در عناصر مجموعه ارائه ها. ب) تعیین رابطه بین دو عنصر با توجه به نظرات فردی اعضای گروه در مورد ویژگی های مختلف این عناصر. ج) ارزیابی اجماع نظرات کارشناسان در یک گروه متشکل از بیش از دو کارشناس.

    در دو مورد اول، از ضریب همبستگی رتبه ای به عنوان معیاری برای تنگی رابطه استفاده می شود. بسته به اینکه فقط رتبه بندی سخت یا غیر دقیق مجاز است، از ضریب همبستگی رتبه کندال یا اسپیرمن استفاده می شود.

    ضریب همبستگی رتبه کندال برای مسئله (الف)

    جایی که متر- تعداد عناصر؛ r 1 i -رتبه اختصاص یافته توسط کارشناس اول منعنصر -ام؛ r 2 i -همان، کارشناس دوم.

    برای مسئله (ب)، مؤلفه‌های (2.5) به معنای زیر هستند: m تعداد ویژگی‌های دو عنصر مورد ارزیابی است. r 1 i(r 2 i) - رتبه مشخصه i در رتبه بندی عنصر اول (دوم) که توسط گروهی از متخصصان تعیین شده است.

    رتبه بندی دقیق از ضریب همبستگی رتبه استفاده می کند آراسپیرمن:


    که اجزای آن همان معنایی را دارند که در (2.5) آمده است.

    ضرایب همبستگی (2.5)، (2.6) از -1 تا +1 متغیر است. اگر ضریب همبستگی +1 باشد، به این معنی است که رتبه‌بندی‌ها یکسان است. اگر برابر با 1- باشد، − متضاد هستند (رتبه بندی ها معکوس یکدیگر هستند). برابری ضریب همبستگی به صفر به این معنی است که رتبه بندی ها به صورت خطی مستقل (ناهمبسته) هستند.

    از آنجایی که با این رویکرد (کارشناس یک ابزار اندازه گیری با خطای تصادفی است)، رتبه بندی های فردی تصادفی در نظر گرفته می شود، مشکل آزمون آماری فرضیه در مورد معنی دار بودن ضریب همبستگی به دست آمده مطرح می شود. در این مورد، از آزمون نیمن-پیرسون استفاده می شود: آنها با سطح معنی داری معیار α تنظیم می شوند و با دانستن قوانین توزیع ضریب همبستگی، مقدار آستانه را تعیین می کنند. ca، که مقدار بدست آمده از ضریب همبستگی با آن مقایسه می شود. ناحیه بحرانی راست دست است (در عمل معمولاً ابتدا مقدار معیار محاسبه می شود و سطح معنی داری از آن تعیین می شود که با سطح آستانه مقایسه می شود. α ).

    ضریب همبستگی رتبه τ کندال، برای m > 10، توزیعی نزدیک به نرمال با پارامترهای زیر دارد:

    که در آن M [τ] انتظار ریاضی است. D [τ] پراکندگی است.

    در این مورد، جداول تابع توزیع نرمال استاندارد استفاده می شود:

    و مرز τ α منطقه بحرانی به عنوان ریشه معادله تعریف می شود

    اگر مقدار محاسبه‌شده ضریب τ≥ τ α باشد، در نظر گرفته می‌شود که رتبه‌بندی‌ها مطابقت واقعاً خوبی دارند. به طور معمول، مقدار α در محدوده 0.01-0.05 انتخاب می شود. برای m ≤ 10، توزیع m در جدول آورده شده است. 2.1.

    بررسی اهمیت ثبات دو رتبه بندی با استفاده از ضریب ρ اسپیرمن به همان ترتیب با استفاده از جداول توزیع دانشجویی برای m > 10 انجام می شود.

    در این مورد، ارزش

    دارای توزیعی است که به خوبی با توزیع دانش آموز تقریب شده است متر– 2 درجه آزادی در متر> 30، توزیع ρ با توزیع نرمال مطابقت خوبی دارد که دارای M [ρ] = 0 و D [ρ] = .

    برای m ≤ 10، اهمیت ρ با استفاده از جدول بررسی می شود. 2.2.

    اگر رتبه بندی ها سختگیرانه نیستند، ضریب اسپیرمن

    که ρ طبق (2.6) محاسبه می شود.

    که در آن k 1 , k 2 تعداد گروه های مختلف رتبه های غیر دقیق به ترتیب در رتبه های اول و دوم است. ل i تعداد رتبه های یکسان است من-گروه در استفاده عملی از ضرایب همبستگی رتبه اسپیرمن ρ و کندال τ، باید در نظر داشت که ضریب ρ نتیجه دقیق تری از نظر حداقل واریانس ارائه می دهد.

    جدول 2.1.توزیع ضریب همبستگی رتبه کندال

    ضریب همبستگی کندال زمانی استفاده می شود که متغیرها با دو مقیاس ترتیبی نشان داده شوند، مشروط بر اینکه هیچ رتبه مرتبطی وجود نداشته باشد. محاسبه ضریب کندال با شمارش تعداد مسابقات و وارونگی همراه است. بیایید این روش را در مثال مشکل قبلی در نظر بگیریم.

    الگوریتم حل مسئله به صورت زیر است:

      داده های جدول را دوباره قالب بندی می کنیم. 8.5 به طوری که یکی از ردیف ها (در این مورد ردیف ایکسط) رتبه بندی شد. به عبارت دیگر، ما جفت ها را با هم عوض می کنیم ایکسو y به ترتیب درست و داده ها را در ستون های 1 و 2 جدول وارد می کنیم. 8.6.

    جدول 8.6

    ایکس من

    y من

    2. "درجه رتبه بندی" ردیف 2 را تعیین کنید ( yمن). این روش به ترتیب زیر انجام می شود:

    الف) مقدار اول سری بدون رتبه "3" را بگیرید. شمارش تعداد رتبه ها زیرعدد داده شده، که بیشترارزش مقایسه شده 9 چنین مقدار وجود دارد (اعداد 6، 7، 4، 9، 5، 11، 8، 12 و 10). در ستون "تصادف" عدد 9 را وارد می کنیم. سپس تعداد مقادیری را که می شماریم کمترسه. 2 چنین مقدار وجود دارد (رتبه های 1 و 2)؛ عدد 2 را در ستون "inversion" وارد کنید.

    ب) عدد 3 را دور بیندازید (ما قبلاً با آن کار کرده ایم) و این روش را برای مقدار بعدی "6" تکرار کنید: تعداد مسابقات 6 است (رتبه های 7، 9، 11، 8، 12 و 10)، تعداد موارد وارونگی 4 است (رتبه های 1، 2، 4 و 5). در ستون "تصادف" عدد 6 و در ستون "وارونگی" عدد 4 را وارد می کنیم.

    ج) به روش مشابه، این روش تا پایان ردیف تکرار می شود. باید به خاطر داشت که هر مقدار "کار شده" از بررسی بیشتر حذف می شود (فقط رتبه هایی که زیر این عدد قرار دارند محاسبه می شوند).

    توجه داشته باشید

    برای اینکه در محاسبات اشتباه نکنید، باید در نظر داشت که با هر "گام" مجموع تصادفات و وارونگی ها یک بار کاهش می یابد. این قابل درک است، با توجه به اینکه هر بار یک مقدار از در نظر گرفتن حذف می شود.

    3. مجموع مسابقات محاسبه می شود (R)و مجموع وارونگی ها (س); داده ها در یک و سه فرمول ضریب کندال قابل تعویض (8.10) وارد می شوند. محاسبات مربوطه انجام می شود.

    تی (8.10)

    در مورد ما:

    روی میز. برنامه های XIV مقادیر بحرانی ضریب برای یک نمونه معین هستند: τ cr. = 0.45; 0.59. مقدار تجربی به دست آمده با مقدار جدول مقایسه می شود.

    نتیجه

    τ = 0.55 > τ cr. = 0.45. همبستگی از نظر آماری برای سطح 1 معنادار است.

    توجه داشته باشید:

    در صورت لزوم (به عنوان مثال، در صورت عدم وجود جدول مقادیر بحرانی)، اهمیت آماری تیکندال را می توان با فرمولی مانند زیر تعریف کرد:

    (8.11)

    جایی که S* = P - Q+ 1 اگر پ< Q ، و S* = P - Q - 1 اگر P > Q.

    ارزش های zبرای سطح معنی‌داری متناظر با معیار پیرسون مطابقت دارد و طبق جداول مربوطه یافت می‌شود (در پیوست موجود نیست. برای سطوح معنی‌داری استاندارد z cr = 1.96 (برای β 1 = 0.95) و 2.58 (برای β2 = 0.99). ضریب همبستگی کندال از نظر آماری معنادار است اگر z > z kr

    در مورد ما S* = P - Q– 1 = 35 و z= 2.40، یعنی نتیجه اولیه تأیید می شود: همبستگی بین علائم برای سطح 1 معناداری از نظر آماری معنی دار است.

    ضریب کندال همبستگی رتبه

    یکی از معیارهای نمونه وابستگی دو متغیر تصادفی (ویژگی) X و بر اساس رتبه بندی عناصر نمونه (X 1 , Y x), .. ., (Х n، Y n). ک.ک.ر. به. اشاره دارد، بنابراین، به رتبه بندی آماردانانو با فرمول تعیین می شود

    جایی که r i- شما متعلق به آن جفت هستید ( X، Y), برای آن Xraven i، S = 2N-(n-1)/2، N-تعداد عناصر نمونه، که هم j>i و هم rj > r i. همیشه به عنوان معیار انتخابی وابستگی K. به. به طور گسترده توسط M. Kendall استفاده شد (M. Kendall، نگاه کنید).

    ک.ک.ر. برای آزمون فرضیه استقلال متغیرهای تصادفی از k استفاده می شود. اگر فرضیه استقلال درست باشد، E t = 0 و D t = 2(2n+5)/9n(n-1) است. با حجم نمونه کوچک، بررسی آماری فرضیه های استقلال با استفاده از جداول ویژه ساخته می شوند (نگاه کنید به). برای n>10، تقریب نرمال برای توزیع m استفاده می شود: اگر

    در این صورت فرضیه استقلال رد می شود و در غیر این صورت پذیرفته می شود. در اینجا یک . - سطح معنی داری، u a /2 نقطه درصد توزیع نرمال است. ک.ک.ر. k.، مانند هر مورد، می تواند برای تشخیص وابستگی دو ویژگی کیفی استفاده شود، در صورتی که فقط بتوان عناصر نمونه را نسبت به این ویژگی ها مرتب کرد. اگر X، Yدارای یک نرمال مشترک با ضریب همبستگی p، سپس رابطه بین K. به. به. و به شکل:

    همچنین ببینید همبستگی رتبه اسپیرمن، آزمون رتبه.

    روشن شد: کندال م.، همبستگی رتبه، ترجم. از انگلیسی، م.، 1975; Van der Waerden B. L.، ریاضی، ترجمه. از آلمانی، م.، 1960; Bolshev L. N.، Smirnov N. V.، جداول آمار ریاضی، M.، 1965.

    A. V. Prokhorov.


    دایره المعارف ریاضی. - م.: دایره المعارف شوروی. I. M. Vinogradov. 1977-1985.

    ببینید «ضریب رتبه کندال» در فرهنگ‌های دیگر چیست:

      انگلیسی با کارآمد، همبستگی رتبه کندال; آلمانی کندالز رانگکوررالاسکوافزینت. ضریب همبستگی، که درجه مطابقت ترتیب همه جفت اشیا را توسط دو متغیر تعیین می کند. آنتی نازی دایره المعارف جامعه شناسی، 2009 ... دایره المعارف جامعه شناسی

      ضریب رتبه کندال- انگلیسی. کارآمد، همبستگی رتبه کندال; آلمانی کندالز رانگکوررالاسکوافزینت. ضریب همبستگی که درجه مطابقت ترتیب همه جفت اشیاء را توسط دو متغیر تعیین می کند ... فرهنگ توضیحی جامعه شناسی

      اندازه گیری وابستگی دو متغیر تصادفی (ویژگی ها) X و Y، بر اساس رتبه بندی نتایج مشاهدات مستقل (X1، Y1)، . . ., (Xn,Yn). اگر رتبه مقادیر X به ترتیب طبیعی i=1 باشد، . . ., n,a Ri رتبه Y مربوط به …… دایره المعارف ریاضی

      ضریب همبستگی- (ضریب همبستگی) ضریب همبستگی نشانگر آماری وابستگی دو متغیر تصادفی است تعریف ضریب همبستگی، انواع ضرایب همبستگی، خواص ضریب همبستگی، محاسبه و کاربرد ... ... دایره المعارف سرمایه گذار

      وابستگی بین متغیرهای تصادفی، که، به طور کلی، یک کاراکتر کاملاً عملکردی ندارد. در مقابل وابستگی عملکردی، K.، به عنوان یک قاعده، زمانی در نظر گرفته می شود که یکی از مقادیر نه تنها به دیگری داده شده بستگی دارد، بلکه ... ... دایره المعارف ریاضی

      همبستگی (وابستگی همبستگی) یک رابطه آماری بین دو یا چند متغیر تصادفی (یا متغیرهایی است که می‌توان آن‌ها را با درجه‌ای از دقت قابل قبول در نظر گرفت). در همان زمان، تغییرات در مقادیر یک یا ... ... ویکی پدیا

      همبستگی- (همبستگی) همبستگی یک رابطه آماری از دو یا چند متغیر تصادفی است. دایره المعارف سرمایه گذار

      به طور کلی پذیرفته شده است که آغاز S. m. یا، همانطور که اغلب نامیده می شود، آمار "n کوچک"، در دهه اول قرن بیستم با انتشار کار W. Gosset تنظیم شد، که در آن او توزیع t را قرار داد، که توسط جهانی دریافت شده فرض شده بود. یکمی بعد ... ... دایره المعارف روانشناسی

      Maurice Kendall Sir Maurice George Kendall تاریخ تولد: 6 سپتامبر 1907 (1907 09 06) محل تولد: Kettering، بریتانیا تاریخ مرگ ... ویکی پدیا

      پیش بینی- (پیش بینی) تعریف پیش بینی وظایف و اصول پیش بینی تعریف پیش بینی وظایف و اصول پیش بینی روش های پیش بینی مطالب مندرجات تعریف مفاهیم اولیه پیش بینی وظایف و اصول پیش بینی ... ... دایره المعارف سرمایه گذار