• آزمون فرضیه های ساده با آزمون کای اسکوئر پیرسون در MS EXCEL. P.2. تست نیکویی برازش پیرسون (c2) 2 تست

    ODA. فرکانس های تجربی در واقع فرکانس های مشاهده شده هستند.

    تأیید فرضیه در مورد توزیع جمعیت عمومی. معیار پیرسون

    همانطور که قبلا ذکر شد، فرض در مورد نوع توزیع را می توان بر اساس فرضیه های نظری مطرح کرد. با این حال، مهم نیست که قانون توزیع نظری چقدر خوب انتخاب شده است، اختلاف بین توزیع های تجربی و نظری اجتناب ناپذیر است. این سؤال به طور طبیعی مطرح می شود: آیا این اختلافات فقط به دلیل شرایط تصادفی مرتبط با تعداد محدودی از مشاهدات است یا مهم هستند و به این واقعیت مربوط می شوند که قانون توزیع نظری ناموفق انتخاب شده است. ملاک توافق در خدمت پاسخ به این سوال است، یعنی.

    ODA. معیار تطابقمعیاری برای آزمون فرضیه قانون پیشنهادی توزیع مجهول نامیده می شود.

    برای هر معیار، یعنی. توزیع مربوطه، جداول معمولاً جمع آوری می شوند که بر اساس آن پیدا می کنند ک kr (به ضمائم مراجعه کنید). پس از یافتن نقطه بحرانی، مقدار مشاهده شده معیار از داده های نمونه محاسبه می شود به obs. اگر به obs > ک kr، آنگاه فرض صفر رد می شود و اگر برعکس باشد، آنگاه پذیرفته می شود.

    اجازه دهید کاربرد معیار پیرسون را برای آزمایش فرضیه توزیع نرمال جمعیت عمومی شرح دهیم. معیار پیرسون به این سوال پاسخ می دهد که آیا اختلاف بین فرکانس های تجربی و نظری تصادفی است؟

    معیار پیرسون، مانند هر معیار دیگری، اعتبار فرضیه را اثبات نمی کند، بلکه تنها موافقت یا عدم موافقت آن را با داده های مشاهده ای در سطح قابل قبولی از اهمیت نشان می دهد.

    بنابراین، اجازه دهید یک توزیع تجربی از نمونه ای به اندازه n بدست آید. در سطح معناداری a، لازم است فرضیه صفر آزمایش شود: جامعه به طور معمول توزیع شده است.

    به عنوان معیاری برای آزمایش فرضیه صفر، یک متغیر تصادفی c 2 = در نظر گرفته شده است، که در آن فرکانس های تجربی هستند. - فرکانس های نظری

    این SW دارای توزیع c 2 - با k - درجه آزادی است. تعداد درجات آزادی با معادله k=m –r -1 به دست می آید، m تعداد فواصل نمونه برداری جزئی است. r تعداد پارامترهای توزیع است. برای توزیع نرمال r=2 (a و s)، سپس k=m –3.

    به منظور آزمون فرضیه صفر در سطح معینی از اهمیت: جامعه به طور معمول توزیع شده است، لازم است:

    1. میانگین نمونه و انحراف معیار نمونه را محاسبه کنید.

    2. محاسبه فرکانس های نظری،

    که در آن n حجم نمونه است. h - مرحله (تفاوت بین دو گزینه مجاور)؛ ; مقادیر تابع به برنامه نگاه می کنند.

    3. بسامدهای تجربی و نظری را با استفاده از آزمون پیرسون مقایسه کنید. برای این:



    الف) مقدار مشاهده شده معیار را بیابید.

    ب) با توجه به جدول نقاط توزیع بحرانی c 2، با توجه به سطح اهمیت داده شده a و تعداد درجات آزادی k، نقطه بحرانی را پیدا کنید.

    اگر< - нет оснований отвергнуть нулевую гипотезу. Если >- فرض صفر رد می شود.

    اظهار نظر.فرکانس های کمی (<5) следует объединить; в этом случае и соответствующие им теоретические частоты также надо сложить. Если производилось объединение частот, то при определении числа степеней свободы следует в качестве m принять число групп выборки, оставшихся после объединения частот.

    تکالیف معیار

    معیار χ 2 برای دو منظور استفاده می شود.

    1) برای مقایسه توزیع تجربی صفت با نظری -یکنواخت، معمولی یا غیره؛

    2) برای تطبیق دو، سه یا بیشتر تجربیتوزیع های همان ویژگی 12 .

    شرح معیار

    معیار χ 2 به این سوال پاسخ می دهد که آیا مقادیر مختلف یک ویژگی با فرکانس یکسان در توزیع های تجربی و نظری یا در دو یا چند توزیع تجربی رخ می دهد.

    مزیت روش این است که به فرد اجازه می دهد تا توزیع ویژگی های ارائه شده در هر مقیاس را با شروع از مقیاس نام ها مقایسه کند (به بخش 1.2 مراجعه کنید). در ساده ترین حالت توزیع جایگزین "بله - نه"، "ازدواج مجاز - اجازه ازدواج نداد"، "مشکل را حل کرد - مشکل را حل نکرد" و غیره، می توانیم از قبل معیار χ 2 را اعمال کنیم.

    فرض کنید ناظری تعداد عابران پیاده را که در مسیر خود از نقطه A به نقطه B سمت راست یا چپ دو مسیر متقارن را انتخاب کرده اند را ثبت می کند (شکل 4.3 را ببینید).

    فرض کنید در نتیجه 70 مشاهده ثابت شود که E\مردم راه درست را انتخاب کردند و فقط 19 نفر سمت چپ را انتخاب کردند. با استفاده از معیار χ 2 ما می توانیم تعیین کنیم که آیا توزیع معینی از انتخاب ها با توزیع یکنواختی که در آن هر دو خط در فرکانس یکسان انتخاب می شوند، متفاوت است یا خیر. این یک نوع مقایسه دریافت شده است اوهآتش نشانیتوزیع با نظری.چنین وظیفه ای می تواند به عنوان مثال در تحقیقات روانشناسی کاربردی مرتبط با طراحی در معماری، سیستم های ارتباطی و غیره باشد.

    اما تصور کنید که ناظر یک مشکل کاملاً متفاوت را حل می کند: او مشغول مشکلات مقررات دوجانبه است. همزمانی توزیع به‌دست‌آمده با یکنواخت، او را بسیار کمتر از تصادف یا عدم تطابق داده‌های او با داده‌های سایر محققین مورد توجه قرار می‌دهد. او می‌داند که افراد راست‌پا تمایل دارند خلاف جهت عقربه‌های ساعت حلقه بزنند، در حالی که افراد چپ‌پا تمایل دارند در جهت عقربه‌های ساعت حلقه بزنند، و در مطالعه‌ای که توسط همکاران 13 انجام شد، چپ‌پا بودن در 26 نفر از 100 نفر مورد بررسی مشاهده شد.

    با استفاده از روش χ 2، او می تواند دو توزیع تجربی را مقایسه کند: نسبت 51:19 در نمونه خود و نسبت 74:26 در نمونه سایر محققین.

    این یک گزینه است مقایسه دو تجربیتوزیع ها بر اساس ساده ترین ویژگی جایگزین (البته ساده ترین از دیدگاه ریاضی و به هیچ وجه روانشناختی).

    به طور مشابه، می‌توانیم توزیع انتخاب‌ها را از سه یا چند گزینه مقایسه کنیم. به عنوان مثال، اگر در یک نمونه 50 نفری 30 نفر پاسخ (الف)، 15 نفر - پاسخ (ب) و 5 نفر - پاسخ (ج) را انتخاب کردند، می‌توانیم از روش χ 2 برای بررسی اینکه آیا این توزیع با یکنواخت متفاوت است استفاده کنیم. توزیع یا از توزیع پاسخ ها در نمونه دیگری که پاسخ (الف) توسط 10 نفر، پاسخ (ب) توسط 25 نفر، پاسخ (ج) توسط 15 نفر انتخاب شده است.

    در مواردی که این صفت به صورت کمی اندازه گیری می شود، مثلاً Vنقاط، ثانیه یا میلی‌متر، ممکن است مجبور باشیم تمام مقادیر فراوانی ویژگی‌ها را در چندین رقم ترکیب کنیم. به عنوان مثال، اگر زمان حل یک مسئله از 10 تا 300 ثانیه متغیر باشد، بسته به حجم نمونه می توانیم 10 یا 5 رقم وارد کنیم. به عنوان مثال، این ارقام خواهند بود: 0-50 ثانیه. 51-100 ثانیه؛ 101-150 ثانیه و ... سپس از روش χ 2 استفاده می کنیم فرکانس‌های وقوع ارقام مختلف صفت را با هم مقایسه می‌کند، اما در غیر این صورت نمودار مدار تغییر نمی‌کند.

    هنگام مقایسه توزیع تجربی با توزیع نظری، درجه اختلاف بین فرکانس های تجربی و نظری را تعیین می کنیم.

    هنگام مقایسه دو توزیع تجربی، درجه اختلاف بین بسامدهای تجربی و بسامدهای نظری را تعیین می کنیم که اگر این دو توزیع تجربی مطابقت داشته باشند مشاهده می شود. فرمول های محاسبه فرکانس های نظری به طور خاص برای هر گزینه مقایسه داده می شود.

    هر چه اختلاف بیشتر باشدبین دو توزیع قابل مقایسه، بیشترتجربی مقدار y).

    فرضیه ها

    بسته به وظایف، چندین فرضیه ممکن است،

    که پیش روی خود قرار دادیم.

    گزینه اول:

    H 0: توزیع تجربی حاصل از این صفت با توزیع نظری (مثلاً یکنواخت) تفاوتی ندارد.

    H 1: توزیع تجربی حاصل از این صفت با توزیع نظری متفاوت است.

    گزینه دوم:

    H 0: توزیع تجربی 1 با توزیع تجربی 2 تفاوتی ندارد.

    H 1: توزیع تجربی 1 با توزیع تجربی 2 متفاوت است.

    گزینه سوم:

    H 0: توزیع های تجربی 1، 2، 3، ... با یکدیگر تفاوتی ندارند.

    H 1: توزیع های تجربی 1، 2، 3، ... با یکدیگر متفاوت هستند.

    معیار χ 2 امکان آزمون هر سه نوع فرضیه را فراهم می کند.

    نمایش گرافیکی یک معیار

    بیایید مثالی را با انتخاب مسیرهای راست یا چپ در مسیر از نقطه A به نقطه B نشان دهیم. در شکل. 4.4، فرکانس انتخاب مسیر سمت چپ با ستون سمت چپ، و فراوانی انتخاب مسیر سمت راست با ستون سمت راست هیستوگرام نشان داده می شود. فرکانس‌های انتخاب نسبی بر روی محور y اندازه‌گیری می‌شوند، یعنی فرکانس‌های انتخاب یک مسیر خاص، مربوط به تعداد کل مشاهدات. برای مسیر چپ فرکانس نسبی که فرکانس نیز نامیده می شود 70/19 یعنی 27/0 و برای مسیر راست 70/51 یعنی 73/0 است.

    اگر احتمال انتخاب هر دو مسیر به یک اندازه بود، نیمی از آزمودنی ها مسیر درست و نیمی مسیر چپ را انتخاب می کردند. احتمال انتخاب هر یک از خطوط 0.50 خواهد بود.

    می بینیم که انحراف فرکانس های تجربی از این مقدار بسیار قابل توجه است. شاید تفاوت بین توزیع تجربی و نظری قابل توجه باشد.

    در شکل 4.5 در واقع دو هیستوگرام را نشان می دهد، اما میله ها به گونه ای گروه بندی می شوند که در سمت چپ فرکانس های ترجیحی خط چپ در انتخاب مشاهده گر ما (1) و در نمونه T.A با هم مقایسه می شوند. دوبروکوتوا و N.N. Bragina (2) و در سمت راست - فرکانس های ترجیحی مسیر درست در همان دو نمونه.

    می بینیم که تفاوت بین نمونه ها بسیار کم است. معیار χ2، احتمالاً همزمانی این دو توزیع را تأیید می کند.

    محدودیت های معیار

    1. حجم نمونه باید به اندازه کافی بزرگ باشد: پ30. در پ<30 критерий χ2 مقادیر بسیار تقریبی می دهد. دقت معیار با بزرگی افزایش می یابد پ.

    2. فرکانس نظری برای هر خانه جدول نباید کمتر از 5 باشد: f> 5. به این معنی که اگر تعداد ارقام از پیش تعیین شده باشد و قابل تغییر نباشد، نمی‌توانیم روش χ2 را بدون جمع‌آوری حداقل تعداد مشاهدات اعمال کنیم. به عنوان مثال، اگر بخواهیم فرضیات خود را آزمایش کنیم که فرکانس تماس با سرویس تلفن Trust به طور نابرابر در 7 روز هفته توزیع شده است، به 5 * 7 = 35 تماس نیاز داریم. بنابراین، اگر تعداد ارقام ( ک) از قبل داده شده است، همانطور که در این مورد، حداقل تعداد مشاهدات ( n دقیقه) با فرمول تعیین می شود: n min = ک*5.

    3. ارقام انتخاب شده باید کل توزیع را "از بین ببرند"، یعنی کل محدوده تنوع ویژگی را پوشش دهند. در این مورد، گروه بندی به ارقام باید در همه توزیع های مقایسه شده یکسان باشد.

    4. هنگام مقایسه توزیع ویژگی هایی که فقط 2 مقدار می گیرند، لازم است "تصحیح برای تداوم" انجام شود. هنگامی که یک تصحیح انجام می شود، مقدار χ 2 کاهش می یابد (به مثال با تصحیح برای تداوم مراجعه کنید).

    5. رتبه ها باید غیر متقاطع باشند: اگر مشاهده ای به یک رتبه اختصاص داده شود، دیگر نمی توان آن را به رتبه دیگری اختصاص داد.

    مجموع مشاهدات بر اساس ارقام باید همیشه برابر با تعداد کل مشاهدات باشد.

    یک سوال مشروع این است که چه چیزی را به عنوان تعداد مشاهدات در نظر بگیریم - تعداد انتخاب ها، واکنش ها، کنش ها یا تعداد افرادی که انتخاب می کنند، واکنش نشان می دهند یا کنش هایی را انجام می دهند. اگر آزمودنی چندین واکنش نشان دهد و همه آنها ثبت شوند، تعداد آزمودنی ها با تعداد واکنش ها مطابقت نخواهد داشت. می‌توانیم واکنش‌های هر آزمودنی را جمع‌بندی کنیم، مثلاً در تکنیک هکهاوزن برای مطالعه انگیزه پیشرفت یا در آزمون تحمل ناکامی توسط S. Rosenzweig انجام می‌شود، و توزیع مجموع واکنش‌ها را در چندین نمونه مقایسه کنیم.

    در این صورت، تعداد مشاهدات، تعداد موضوعات خواهد بود. اگر فراوانی واکنش‌های یک نوع معین را در کل نمونه محاسبه کنیم، توزیع واکنش‌های انواع مختلف را به دست می‌آوریم و در این حالت تعداد مشاهدات، تعداد کل واکنش‌های ثبت‌شده خواهد بود، نه تعداد افراد. .

    از نقطه نظر ریاضی، قاعده استقلال رتبه در هر دو مورد رعایت می شود: یک مشاهده متعلق به یک و تنها یک رتبه از توزیع است.

    همچنین می توان چنین گونه ای از مطالعه را تصور کرد که در آن توزیع انتخاب های یک موضوع را مطالعه می کنیم. به عنوان مثال، در درمان شناختی-رفتاری، از مراجع خواسته می شود که هر بار زمان دقیق بروز یک واکنش نامطلوب را ثبت کند، به عنوان مثال حملات ترس، افسردگی، فوران خشم، افکار تحقیرکننده خود و غیره. روان‌درمانگر داده‌های به‌دست‌آمده را تجزیه و تحلیل می‌کند، ساعت‌هایی را که در آن علائم نامطلوب بیشتر ظاهر می‌شوند، شناسایی می‌کند و به مشتری کمک می‌کند تا یک برنامه فردی برای جلوگیری از واکنش‌های نامطلوب ایجاد کند.

    آیا با استفاده از معیار χ2 امکان پذیر است؟ برای اثبات اینکه برخی از ساعات در این توزیع فردی بیشتر است، در حالی که برخی دیگر کمتر است؟ همه مشاهدات وابسته هستند، زیرا به یک موضوع اشاره دارند. در عین حال، همه دسته ها غیرقابل عبور هستند، زیرا همان حمله به یک و تنها یک دسته (در این مورد، ساعت روز) اشاره دارد. ظاهراً اعمال روش χ2 در این مورد ساده سازی خاصی خواهد بود. حملات ترس، خشم یا افسردگی ممکن است به طور مکرر در طول روز اتفاق بیفتد، و ممکن است مثلاً صبح زود، ساعت 6 و اواخر عصر، ساعت 12، حملات معمولاً با هم، در یک روز ظاهر شوند: در عین حال، یک حمله روزانه 3 ساعته زودتر از یک روز پس از حمله قبلی و حداقل دو روز قبل از حمله بعدی ظاهر می شود و غیره ظاهراً می توانیم در اینجا در مورد یک مدل پیچیده ریاضی یا چیزی شبیه به آن صحبت کنیم. که نمی توان آن را «با جبر» باور کرد. و با این حال، برای اهداف عملی، ممکن است استفاده از این معیار برای شناسایی ناهمواری سیستماتیک وقوع هر رویداد مهم، انتخاب، ترجیح و غیره در یک شخص مفید باشد.

    بنابراین، همان مشاهده باید تنها به یک دسته تعلق داشته باشد. اما اینکه آیا هر موضوع یا هر واکنش بررسی شده از موضوع را به عنوان یک مشاهده در نظر بگیریم، سؤالی است که حل آن به اهداف مطالعه بستگی دارد (برای مثال رجوع کنید به Ganzen V.A., Balin V.D., 1991, p.10).

    "محدودیت" اصلی معیار χ 2 - که به نظر اکثر محققان به طرز وحشتناکی پیچیده است.

    بیایید سعی کنیم بر افسانه دشواری غیرقابل درک معیار غلبه کنیم χ 2 . برای نشاط بخشیدن به ارائه، یک مثال ادبی بازیگوش را در نظر بگیرید.

    برنامه را در نظر بگیریدام‌اسبرتری داشتنآزمون کای دو پیرسون برای آزمون فرضیه های ساده.

    پس از دریافت داده های تجربی (یعنی زمانی که مقداری وجود دارد نمونه) معمولاً یک قانون توزیع انتخاب می شود که به بهترین وجه متغیر تصادفی نشان داده شده را توصیف می کند نمونه برداری. بررسی چگونگی توصیف داده های تجربی توسط قانون توزیع نظری انتخاب شده با استفاده از آن انجام می شود معیارهای رضایت. فرضیه صفر، معمولاً این فرضیه وجود دارد که توزیع یک متغیر تصادفی با برخی از قوانین نظری برابر است.

    بیایید ابتدا به برنامه نگاه کنیم تست خوب بودن تناسب پیرسون X 2 (chi-square)در رابطه با فرضیه های ساده (فرض می شود که پارامترهای توزیع نظری مشخص باشد). سپس - ، زمانی که فقط فرم توزیع و پارامترهای این توزیع و مقدار مشخص شده است آمار X 2 بر اساس همان برآورد/محاسبه می شوند نمونه ها.

    توجه داشته باشید: در ادبیات انگلیسی زبان، رویه درخواست تست خوب بودن تناسب پیرسون X 2 نام دارد آزمون کای دو خوب بودن برازش.

    روش آزمایش فرضیه ها را به یاد بیاورید:

    • مستقر نمونه هاارزش محاسبه می شود آمار، که با نوع فرضیه مورد آزمایش مطابقت دارد. به عنوان مثال، برای استفاده تی-آمار(در صورت عدم شناخت)؛
    • تابع حقیقت فرضیه صفر، توزیع این آمارشناخته شده است و می تواند برای محاسبه احتمالات (مثلاً برای تی- آماراین )؛
    • بر اساس محاسبه می شود نمونه هامعنی آماردر مقایسه با مقدار بحرانی برای مقدار داده شده ();
    • فرضیه صفررد می شود اگر مقدار آماربزرگتر از بحرانی (یا اگر احتمال به دست آوردن این مقدار باشد آمار() کمتر سطح اهمیت، که رویکرد معادل است).

    خرج کنیم آزمایش فرضیهبرای توزیع های مختلف

    مورد گسسته

    فرض کنید دو نفر در حال بازی تاس هستند. هر بازیکن مجموعه ای از تاس های خود را دارد. بازیکنان به نوبت 3 تاس می اندازند. هر دور توسط کسی برنده می‌شود که در هر زمان شش‌های بیشتری را بزند. نتایج ثبت می شود. یکی از بازیکنان پس از 100 دور مشکوک بود که استخوان های حریفش متقارن نیست، زیرا. او اغلب برنده می شود (اغلب شش پرتاب می کند). او تصمیم گرفت تا تحلیل کند که چنین تعدادی از نتایج حریف چقدر محتمل است.

    توجه داشته باشید: زیرا 3 تاس، سپس می توانید هر بار 0 تاس بیاندازید. 1 2 یا 3 شش، یعنی. متغیر تصادفی می تواند 4 مقدار داشته باشد.

    از نظریه احتمال می دانیم که اگر مکعب ها متقارن باشند، احتمال سقوط شش ها مطابقت دارد. بنابراین، پس از 100 دور، فرکانس شش ها را می توان با استفاده از فرمول محاسبه کرد
    =BINOM.DIST(A7,3,1/6,FALSE)*100

    فرمول فرض می کند که سلول A7 شامل تعداد متناظر شش های حذف شده در یک دور است.

    توجه داشته باشید: محاسبات ارائه شده است فایل نمونه در ورق گسسته.

    برای مقایسه مشاهده شده(مشاهده شد) و فرکانس های نظری(مورد انتظار) مناسب برای استفاده.

    با انحراف قابل توجهی از فرکانس های مشاهده شده از توزیع نظری، فرضیه صفردر مورد توزیع یک متغیر تصادفی طبق یک قانون نظری، باید رد شود. یعنی اگر تاس‌های حریف متقارن نباشند، فرکانس‌های مشاهده‌شده «به‌طور قابل‌توجهی متفاوت» خواهند بود. توزیع دو جمله ای.

    در مورد ما، در نگاه اول، فرکانس ها کاملا نزدیک هستند و نتیجه گیری بدون ابهام بدون محاسبات دشوار است. مناسب تست خوب بودن تناسب پیرسون X 2، به طوری که به جای گزاره ذهنی "به طور قابل توجهی متفاوت"، که می تواند بر اساس مقایسه انجام شود هیستوگرام ها، از یک عبارت ریاضی درست استفاده کنید.

    اجازه دهید از این واقعیت استفاده کنیم قانون اعداد بزرگفرکانس مشاهده شده (مشاهده شده) با افزایش حجم نمونه ها n تمایل به احتمال مربوط به قانون نظری دارد (در مورد ما، قانون دوجمله ای). در مورد ما، حجم نمونه n 100 است.

    معرفی کنیم تست آمارکه با X 2 نشان می دهیم:

    در جایی که O l بسامد مشاهده شده رویدادهایی است که متغیر تصادفی مقادیر قابل قبول خاصی را به خود اختصاص داده است، E l بسامد نظری مربوطه (مورد انتظار) است. L تعداد مقادیری است که یک متغیر تصادفی می تواند بگیرد (در مورد ما برابر با 4 است).

    همانطور که از فرمول مشخص است، این آماراندازه گیری نزدیکی فرکانس های مشاهده شده به فرکانس های نظری است، یعنی. می توان از آن برای تخمین "فاصله" بین این فرکانس ها استفاده کرد. اگر مجموع این "فاصله ها" "خیلی زیاد" باشد، پس این فرکانس ها "به طور قابل ملاحظه ای متفاوت هستند". واضح است که اگر مکعب ما متقارن باشد (یعنی قابل اجرا قانون دوجمله ای) پس احتمال اینکه مجموع "فاصله ها" "خیلی زیاد" باشد کم خواهد بود. برای محاسبه این احتمال، باید توزیع را بدانیم آمار X 2 ( آمار X 2 بر اساس تصادفی محاسبه شد نمونه ها، بنابراین یک متغیر تصادفی است و بنابراین متغییر خود را دارد توزیع احتمال).

    از یک آنالوگ چند بعدی قضیه انتگرال مویور-لاپلاسمشخص است که برای n->∞ متغیر تصادفی ما X 2 به طور مجانبی با L - 1 درجه آزادی است.

    بنابراین اگر مقدار محاسبه شده آمار X 2 (مجموع "فاصله ها" بین فرکانس ها) بیش از یک مقدار حد معین خواهد بود، پس دلیلی برای رد کردن خواهیم داشت. فرضیه صفر. همانطور که در بررسی فرضیه های پارامتریک، مقدار حد از طریق تنظیم می شود سطح اهمیت. اگر احتمال اینکه آمار X 2 مقداری کمتر یا مساوی با محاسبه شده ( پ-معنی) کمتر خواهد شد سطح اهمیت، آن فرضیه صفررا می توان رد کرد.

    در مورد ما، مقدار آماری 22.757 است. احتمال اینکه آمار X 2 مقداری بزرگتر یا مساوی 22.757 بگیرد بسیار کم است (0.000045) و با استفاده از فرمول ها قابل محاسبه است.
    =XI2.DIST.PX(22,757;4-1)یا
    =XI2.TEST(مشاهده شده؛ مورد انتظار)

    توجه داشته باشید: تابع ()CH2.TEST به طور خاص برای آزمایش رابطه بین دو متغیر طبقه بندی شده طراحی شده است (نگاه کنید به ).

    احتمال 0.000045 به طور قابل توجهی کمتر از حد معمول است سطح اهمیت 0.05. بنابراین، بازیکن دلایل زیادی دارد که به حریف خود به عدم صداقت مشکوک شود ( فرضیه صفرصداقت او رد شده است).

    هنگامی که اعمال می شود معیار X 2باید مراقب بود که حجم نمونه ها n به اندازه کافی بزرگ بود، در غیر این صورت تقریب توزیع نامعتبر خواهد بود آمار X 2. معمولاً در نظر گرفته می شود که برای این کار کافی است که فرکانس های مشاهده شده (مشاهده شده) بیشتر از 5 باشد. اگر اینطور نیست، فرکانس های پایین در یک فرکانس ترکیب می شوند یا به فرکانس های دیگر ملحق می شوند و مقدار ترکیبی به مقدار کل اختصاص می یابد. احتمال و بر این اساس، تعداد درجات آزادی کاهش می یابد X 2 - توزیع.

    به منظور بهبود کیفیت برنامه معیار X 2()، لازم است فواصل پارتیشن بندی را کاهش دهید (L را افزایش دهید و بر این اساس تعداد را افزایش دهید درجه آزادی، با این حال، با محدودیت در تعداد مشاهداتی که در هر بازه قرار می گیرند (d.b.> 5) از این جلوگیری می شود.

    مورد مداوم

    تست تناسب خوب پیرسون X 2 می توان به همین ترتیب در مورد .

    برخی را در نظر بگیرید نمونه برداری، متشکل از 200 مقدار. فرضیه صفرکشورهایی که نمونهساخته شده از .

    توجه داشته باشید: متغیرهای تصادفی در فایل نمونه در ورق Continuousبا استفاده از فرمول تولید شده است =NORM.ST.INV(RAND()). بنابراین، ارزش های جدید نمونه هاهر بار که ورق دوباره محاسبه می شود، ایجاد می شود.

    اینکه آیا مجموعه داده های موجود کافی است یا نه، می توان به صورت بصری ارزیابی کرد.

    همانطور که از نمودار می بینید، مقادیر نمونه به خوبی در امتداد خط مستقیم قرار می گیرند. با این حال، همانطور که برای آزمایش فرضیهمناسب تست خوب بودن تناسب پیرسون X 2.

    برای انجام این کار، محدوده تغییرات یک متغیر تصادفی را به فواصل با گام 0.5 تقسیم می کنیم. بیایید فرکانس های مشاهده شده و نظری را محاسبه کنیم. فرکانس های مشاهده شده را با استفاده از تابع FREQUENCY() و فرکانس های نظری را با استفاده از تابع NORM.ST.DIST محاسبه می کنیم.

    توجه داشته باشید: با توجه به مورد گسسته، اطمینان از آن ضروری است نمونهبسیار بزرگ بود و بیش از 5 مقدار در فاصله زمانی قرار گرفت.

    آمار X 2 را محاسبه کنید و آن را با مقدار بحرانی یک داده مقایسه کنید سطح اهمیت(0.05). زیرا ما دامنه تغییرات یک متغیر تصادفی را به 10 بازه تقسیم کردیم، سپس تعداد درجه آزادی 9 است. مقدار بحرانی را می توان با فرمول محاسبه کرد.
    \u003d XI2.INV.RH (0.05؛ 9) یا
    \u003d XI2.OBR (1-0.05؛ 9)

    نمودار بالا نشان می دهد که مقدار آماری 8.19 است که به طور قابل توجهی بالاتر است بحرانیفرضیه صفررد نمی شود.

    در زیر بر روی آن آمده است نمونهیک مقدار بعید در نظر گرفته شد و بر اساس شاخص رضایت پیرسون X 2فرضیه صفر رد شد (علیرغم اینکه مقادیر تصادفی با استفاده از فرمول ایجاد شده است. =NORM.ST.INV(RAND())فراهم آوردن نمونه برداریاز جانب توزیع نرمال استاندارد).

    فرضیه صفررد شد، اگرچه از نظر بصری داده ها کاملاً به یک خط مستقیم نزدیک هستند.

    به عنوان مثال، بیایید آن را نیز در نظر بگیریم نمونه برداریاز U(-3; 3). در این مورد، حتی از نمودار نیز مشخص است که فرضیه صفرباید رد شود.

    معیار رضایت پیرسون X 2نیز تایید می کند که فرضیه صفرباید رد شود.

    روش مورد بحث در بالا به خوبی کار می کند اگر ویژگی کیفی مورد علاقه ما دو مقدار داشته باشد (ترومبوز - نه، سبز مریخی - صورتی). علاوه بر این، از آنجایی که روش مشابه مستقیم آزمون t Student است، تعداد نمونه های مقایسه شده نیز باید برابر با دو باشد.

    واضح است که هم تعداد مقادیر ویژگی و هم تعداد نمونه ها می تواند بیشتر از دو باشد. برای تجزیه و تحلیل چنین مواردی، به روش متفاوتی مشابه تحلیل واریانس نیاز است. از نظر ظاهری، این روش که اکنون به شرح آن می پردازیم، با معیار z بسیار متفاوت است، اما در واقع اشتراکات زیادی بین آنها وجود دارد.

    برای اینکه مثالی دور نرویم، با مشکل ترومبوز شانت که همین الان تحلیل کردیم شروع می کنیم. اکنون ما نه نسبت، بلکه تعداد بیماران مبتلا به ترومبوز را در نظر خواهیم گرفت. نتایج آزمون را در جدول (جدول 5.1) وارد می کنیم. برای هر گروه، تعداد بیماران با و بدون ترومبوز را نشان می دهیم. ما دو علامت داریم: دارو (آسپرین-دارونما) و ترومبوز (بله-نه). جدول تمام ترکیبات ممکن آنها را نشان می دهد، بنابراین چنین جدولی را جدول احتمالی می نامند. در این حالت اندازه میز 2*2 است.

    بیایید به سلول های واقع در مورب نگاه کنیم که از بالا سمت چپ به گوشه سمت راست پایین می روند. اعداد موجود در آنها به طور قابل توجهی بزرگتر از اعداد موجود در سایر خانه های جدول هستند. این نشان دهنده ارتباط بین مصرف آسپرین و خطر ترومبوز است.

    حالا بیایید به جدول نگاه کنیم. 5.2. این جدولی از اعداد مورد انتظار است که اگر آسپرین بر خطر ترومبوز تأثیر نمی گذارد، به دست می آوریم. نحوه محاسبه اعداد مورد انتظار را کمی پایین تر تجزیه و تحلیل خواهیم کرد، اما در حال حاضر به ویژگی های خارجی جدول توجه خواهیم کرد. علاوه بر اعداد کسری کمی ترسناک در سلول ها، می توان یک تفاوت دیگر را با جدول مشاهده کرد. 5.1 داده های خلاصه برای گروه ها در ستون سمت راست و برای ترومبوز در ردیف پایین است. در گوشه سمت راست پایین - تعداد کل بیماران در کارآزمایی. در باره-



    توجه داشته باشید که اگرچه اعداد در کادرهای شکل 1. 5.1 و 5.2 متفاوت هستند، مجموع سطرها و ستون ها یکسان است.

    چگونه اعداد مورد انتظار را محاسبه کنیم؟ دارونما 25 نفر دریافت کرد، آسپرین - 19. ترومبوز شنت در 24 مورد از 44 مورد بررسی قرار گرفت، یعنی در 54.55٪ موارد رخ نداد - در 20 از 44، یعنی در 45.45٪ موارد. ما این فرضیه صفر را می پذیریم که آسپرین بر خطر ترومبوز تأثیر نمی گذارد. سپس ترومبوز باید با فراوانی مساوی 55/54 درصد در گروه دارونما و آسپرین مشاهده شود. با محاسبه مقدار 54.55 درصد از 25 و 19، به ترتیب 13.64 و 10.36 به دست می آوریم. این تعداد مورد انتظار بیماران مبتلا به ترومبوز در گروه دارونما و آسپرین است. به همین ترتیب، می توانید تعداد مورد انتظار بیماران بدون ترومبوز را در گروه دارونما دریافت کنید - 45.45٪ از 25، یعنی 11.36 در گروه آسپرین - 45.45٪ از 19، یعنی 8.64. لطفاً توجه داشته باشید که اعداد مورد انتظار تا رقم دوم اعشار محاسبه می شوند - چنین دقتی در محاسبات بعدی مورد نیاز است.

    جدول مقایسه 5.1 و 5.2. اعداد در سلول ها کاملاً متفاوت است. بنابراین، تصویر واقعی با آنچه که در صورت عدم تأثیر آسپرین بر خطر ترومبوز مشاهده می شد، متفاوت است. اکنون باقی مانده است که معیاری بسازیم که این تفاوت ها را با یک عدد مشخص کند و سپس مقدار بحرانی آن را پیدا کند - یعنی مانند معیارهای F، t یا z عمل کند.

    با این حال، ابتدا اجازه دهید یک ویژگی آشنای دیگر را به یاد بیاوریم.




    یک معیار کار کوناهان در مقایسه هالوتان و مورفین است، یعنی بخشی که مرگ و میر ناشی از عمل مقایسه شد. داده های مربوطه در جدول آورده شده است. 5.3. شکل جدول مانند جدول است. 5.1. به نوبه خود جدول 5.4 مانند جدول. 5.2 شامل اعداد مورد انتظار است، یعنی اعدادی که با این فرض محاسبه می شوند که کشندگی مستقل از ماده بیهوشی است. از مجموع 128 مورد عمل شده، 110 نفر زنده ماندند، یعنی 85.94٪. اگر انتخاب بیهوشی بر مرگ و میر تأثیر نمی گذاشت، در هر دو گروه نسبت بازماندگان یکسان بود و تعداد بازماندگان در گروه هالوتان - 85.94٪ از 61، یعنی 52.42 در گروه مورفین - 85.94٪ بود. از 67، یعنی 57.58. به همین ترتیب می توانید تعداد مرگ و میر مورد انتظار را بدست آورید. بیایید جداول 5.3 و 5.4 را با هم مقایسه کنیم. برخلاف مثال قبلی، تفاوت بین مقادیر مورد انتظار و مشاهده شده بسیار کم است. همانطور که قبلا متوجه شدیم، هیچ تفاوتی در مرگ و میر وجود ندارد. به نظر می رسد ما در مسیر درستی هستیم.

    معیار x2 برای جدول 2x2

    آزمون x2 (بخوانید "chi-square") به هیچ فرضی در مورد پارامترهای جامعه ای که نمونه ها از آن گرفته شده اند نیاز ندارد - این اولین آزمایش ناپارامتریک است که ما با آن آشنا می شویم. بیایید آن را بسازیم. اول، مثل همیشه، معیار باید یک عدد واحد بدهد،


    که به عنوان معیاری برای تفاوت بین داده های مشاهده شده و داده های مورد انتظار، یعنی در این مورد، تفاوت بین جدول اعداد مشاهده شده و مورد انتظار عمل می کند. ثانیاً، این معیار باید در نظر گرفته شود که تفاوت، مثلاً، در یک بیمار برای تعداد مورد انتظار کوچک مهمتر از یک بیمار بزرگ است.

    معیار x2 را به صورت زیر تعریف می کنیم:

    جایی که O عدد مشاهده شده در سلول جدول احتمالی است، E عدد مورد انتظار در همان سلول است. جمع بندی در تمام سلول های جدول انجام می شود. همانطور که از فرمول مشخص است، هر چه تفاوت بین اعداد مشاهده شده و مورد انتظار بیشتر باشد، سهم سلول در مقدار %2 بیشتر خواهد بود. در عین حال، سلول‌هایی با تعداد مورد انتظار کم سهم بیشتری دارند. بنابراین، این معیار هر دو الزام را برآورده می کند - اولاً تفاوت ها را اندازه می گیرد و ثانیاً بزرگی آنها را نسبت به اعداد مورد انتظار در نظر می گیرد.

    اجازه دهید معیار x2 را برای داده‌های ترومبوز شانت اعمال کنیم. روی میز. 5.1 اعداد مشاهده شده و در جدول را نشان می دهد. 5.2 - مورد انتظار


    lo و مقدار z به دست آمده از همان داده ها. می توان نشان داد که برای جداول متقاطع با اندازه 2x2، برابری X2 = z2 برقرار است.

    مقدار بحرانی % 2 را می توان به روشی آشنا یافت. روی انجیر 5.7 توزیع مقادیر X2 ممکن را برای جداول احتمالی 2x2 برای مواردی که هیچ رابطه ای بین ویژگی های مورد مطالعه وجود ندارد نشان می دهد. مقدار X2 تنها در 5% موارد از 3.84 فراتر می رود. بنابراین، 3.84 مقدار بحرانی برای سطح معنی داری 5٪ است. در مثال ترومبوز شنت، ما مقدار 7.10 را دریافت کردیم، بنابراین این فرضیه را که هیچ ارتباطی بین مصرف آسپرین و لخته شدن خون وجود ندارد، رد می کنیم. برعکس، داده های جدول. 5.3 با فرضیه تأثیر یکسان هالوتان و مورفین بر میزان مرگ و میر پس از عمل مطابقت خوبی دارند.

    البته، مانند همه معیارهای اهمیت، x2 یک ارزیابی احتمالی از صدق یک فرضیه خاص ارائه می دهد. در واقع، آسپرین ممکن است بر خطر ترومبوز تأثیری نداشته باشد. در واقع، هالوتان و مورفین ممکن است اثرات متفاوتی بر مرگ و میر ناشی از عمل داشته باشند. اما، همانطور که معیار نشان داد، هر دو بعید هستند.

    استفاده از معیار x2 در صورتی معتبر است که عدد مورد انتظار در هر یک از سلول ها بزرگتر یا مساوی 5 باشد. این شرط مشابه شرط قابل اجرا بودن معیار z است.

    مقدار بحرانی %2 به اندازه جدول احتمالی، یعنی به تعداد درمان های مقایسه شده (ردیف های جدول) و تعداد نتایج ممکن (ستون های جدول) بستگی دارد. اندازه جدول با تعداد درجات آزادی v بیان می شود:

    V \u003d (r - 1) (s - 1),

    که r تعداد سطرها و c تعداد ستون هاست. برای جداول 2x2 v = (2 - l) (2 - l) = l داریم. مقادیر بحرانی %2 برای v های مختلف در جدول آورده شده است. 5.7.

    فرمول قبلی برای x2 در مورد جدول 2x2 (یعنی با 1 درجه آزادی) مقادیر تا حدودی بیش از حد تخمین زده شده را ارائه می دهد (وضعیت مشابه با معیار z بود). این به این دلیل است که توزیع نظری x2 پیوسته است، در حالی که مجموعه مقادیر x2 محاسبه شده گسسته است. در عمل، این منجر به رد شدن بیش از حد فرضیه صفر می شود. برای جبران این اثر، تصحیح Yeats به فرمول وارد می شود: (1 O - E - -

    توجه داشته باشید که تصحیح Yeats فقط زمانی اعمال می شود که v = 1، یعنی برای جداول 2x2 اعمال می شود.

    اجازه دهید تصحیح Yeats را برای مطالعه ارتباط بین مصرف آسپرین و ترومبوز شانت اعمال کنیم (جدول 5.1 و 5.2):


    همانطور که به یاد دارید، بدون اصلاح یتس، مقدار %2 7.10 بود. مقدار تصحیح شده %2 کمتر از 6.635، مقدار بحرانی برای سطح معنی داری 1% بود، اما همچنان از 5.024، مقدار بحرانی برای سطح معنی داری 2.5% فراتر رفت.

    معیار x2 برای یک جدول احتمالی دلخواه

    حال حالتی را در نظر بگیرید که جدول احتمالی بیش از دو سطر یا ستون داشته باشد. توجه داشته باشید که معیار z در چنین مواردی قابل اجرا نیست.

    در فصل 3 نشان داده‌ایم که اجرا تعداد دوره‌ها* را کاهش می‌دهد. آیا این تغییرات باعث می شود که به پزشک مراجعه کنید؟ روی میز. 5.5 نتایج یک نظرسنجی از شرکت کنندگان در مطالعه را نشان می دهد. آیا این داده ها از این فرضیه حمایت می کنند که دویدن بر احتمال مراجعه به پزشک برای دوره های نامنظم تأثیر نمی گذارد؟

    از 165 زن معاینه شده، 69 نفر (یعنی 42 درصد) به پزشک مراجعه کردند و 96 نفر (یعنی 58 درصد) به پزشک مراجعه نکردند. اگر

    * در عین حال، برای سادگی محاسبات، اندازه هر سه گروه - شاهد، ورزشکار زن و ورزشکار - یکسان در نظر گرفته شد. اکنون از داده های واقعی استفاده خواهیم کرد.


    آهسته دویدن بر احتمال مراجعه به پزشک تأثیر نمی گذارد، بنابراین در هر یک از گروه ها 42 درصد از زنان باید با پزشک مشورت کنند. روی میز. 5.6 مقادیر مورد انتظار مربوطه را نشان می دهد. آیا داده های واقعی با آنها بسیار متفاوت است؟

    برای پاسخ به این سوال، %2 را محاسبه می کنیم:

    (14 - 22,58)2 (40 - 31,42)2 (9 - 9,62)2

    22,58 31,42 9,62

    (14 - 13,38)2 (46 - 36,80)2 (42 - 51,20)2

    13,38 36,80 51,20

    تعداد سطرها در جدول اقتضایی سه است، ستون ها دو تا هستند، بنابراین تعداد درجات آزادی v = (3 - 1) (2 - 1) = 2. اگر فرضیه عدم وجود اختلاف بین گروهی صحیح باشد، سپس، همانطور که از جدول مشاهده می شود. 5.7، %2 بیش از 1% مواقع از 9.21 تجاوز نخواهد کرد. مقدار حاصل بیشتر است. بنابراین در سطح معنی داری 01/0 می توان این فرضیه را که بین دویدن و مراجعه به پزشک در مورد قاعدگی رابطه وجود ندارد رد کرد. با این حال، پس از اینکه متوجه شدیم این ارتباط وجود دارد، با این وجود، نمی توانیم مشخص کنیم که کدام گروه (کدام) با بقیه متفاوت است.

    بنابراین با معیار %2 آشنا شدیم. ترتیب کاربرد آن در اینجا آمده است.

    بر اساس داده های موجود یک جدول احتمالی بسازید.

    تعداد اشیاء را در هر ردیف و در هر ستون بشمارید و متوجه شوید که این مقادیر چه نسبتی از تعداد کل اشیاء را تشکیل می دهند.

    با دانستن این کسرها، اعداد مورد انتظار را با دقت دو رقم اعشار محاسبه کنید - تعداد اشیایی که
    اگر هیچ رابطه ای بین سطرها و ستون ها وجود نداشته باشد، به تمام سلول های جدول ضربه می زند

    مقداری را پیدا کنید که تفاوت بین مقادیر مشاهده شده و مورد انتظار را مشخص کند. اگر جدول احتمالی 2x2 است، تصحیح Yeats را اعمال کنید

    تعداد درجات آزادی را محاسبه کنید، سطح معنی داری را مطابق جدول انتخاب کنید. 5.7، مقدار بحرانی %2 را تعیین کنید. آن را با میز خود مقایسه کنید.

    به یاد داشته باشید، برای جدول های متقاطع 2x2، معیار x2 تنها زمانی اعمال می شود که همه اعداد مورد انتظار بزرگتر از 5 باشند. در مورد جداول بزرگتر چطور؟ در این مورد، معیار %2 در صورتی قابل اعمال است که همه اعداد مورد انتظار حداقل 1 باشند و نسبت سلول‌هایی با اعداد مورد انتظار کمتر از 5 از 20% تجاوز نکند. اگر این شرایط برآورده نشود، معیار x2 ممکن است نتایج نادرستی بدهد. در این مورد، داده های اضافی را می توان جمع آوری کرد، اما این همیشه امکان پذیر نیست. یک راه ساده تر وجود دارد - ترکیب چندین ردیف یا ستون. در زیر نحوه انجام این کار را به شما نشان خواهیم داد.

    تبدیل جداول متقاطع

    در بخش قبل، وجود ارتباط بین دویدن دویدن و مراجعه به پزشک برای قاعدگی، یا به طور معادل، وجود تفاوت بین گروه ها در دفعات مراجعه به پزشک را مشخص کردیم. با این حال، ما نتوانستیم تعیین کنیم که کدام گروه با یکدیگر متفاوت هستند و کدام گروه نیستند. ما در تحلیل واریانس با وضعیت مشابهی مواجه شدیم. هنگام مقایسه چندین گروه، تجزیه و تحلیل واریانس به شما امکان می دهد واقعیت وجود تفاوت ها را تشخیص دهید، اما گروه هایی را که برجسته هستند نشان نمی دهد. دومی را می توان با روش های مقایسه چندگانه انجام داد که در فصل به آن پرداختیم. 4. چیزی مشابه را می توان با جداول احتمالی انجام داد.

    نگاه کردن به میز 5.5، می توان فرض کرد که زنان ورزشکار و ورزشکار بیشتر از زنان گروه کنترل به پزشک مراجعه می کردند. تفاوت بین ورزشکاران زن و ورزشکاران زن ناچیز به نظر می رسد.

    اجازه دهید این فرضیه را که زنان ورزشکار و ورزشکار هستند، آزمایش کنیم

    V 0,50 0,25 0,10 0,05 0,025 0,01 0,005 0,001
    41 40,335 46,692 52,949 56,942 60,561 64,950 68,053 74,745
    42 41,335 47,766 54,090 58,124 61,777 66,206 69,336 76,084
    43 42,335 48,840 55,230 59,304 62,990 67,459 70,616 77,419
    44 43,335 49,913 56,369 60,481 64,201 68,710 71,893 78,750
    45 44,335 50,985 57,505 61,656 65,410 69,957 73,166 80,077
    46 45,335 52,056 58,641 62,830 66,617 71,201 74,437 81,400
    47 46,335 53,127 59,774 64,001 67,821 72,443 75,704 82,720
    48 47,335 54,196 60,907 65,171 69,023 73,683 76,969 84,037
    49 48,335 55,265 62,038 66,339 70,222 74,919 78,231 85,351
    50 49,335 56,334 63,167 67,505 71,420 76,154 79,490 86,661
    سطح اهمیت

    J. H. Zar، تجزیه و تحلیل آماری زیستی، ویرایش دوم، Prentice-Hall، Englewood Cliffs، N.J.، 1984.

    به همان اندازه به دکتر مراجعه کنید. برای انجام این کار، یک جدول فرعی از جدول اصلی حاوی داده های این دو گروه انتخاب کنید. روی میز. 5.8 اعداد مشاهده شده و مورد انتظار را نشان می دهد. آنها بسیار نزدیک هستند

    سخنرانی 6 دو نمونه تجزیه و تحلیل

    6.1 معیارهای پارامتری. 1

    6.1.2 آزمون دانش آموز (آزمون t) 2

    6.1.3 F آزمون فیشر است. 6

    6.2 آزمون های ناپارامتریک. 7

    6.2.1 معیار علامت (معیار G) 7

    کار بعدی تجزیه و تحلیل آماری که پس از تعیین مشخصات اصلی (نمونه) و تجزیه و تحلیل یک نمونه حل می شود، آنالیز مشترک چند نمونه است. مهم ترین سوالی که در هنگام تجزیه و تحلیل دو نمونه مطرح می شود این است که آیا تفاوت هایی بین نمونه ها وجود دارد یا خیر. معمولاً این کار با آزمون فرضیه های آماری در مورد تعلق هر دو نمونه به یک جامعه عمومی یا برابری میانگین ها انجام می شود.

    اگر نوع توزیع یا تابع توزیع نمونه به ما داده شود، در این صورت مشکل تخمین تفاوت بین دو گروه از مشاهدات مستقل را می توان با استفاده از آن حل کرد. پارامتریک شاخصآمار: یا آزمون تی دانشجویی (تی ، اگر مقایسه نمونه ها بر اساس مقادیر متوسط ​​باشد (ایکس و Y) یا با استفاده از معیار فیشر (اف ) اگر نمونه ها با واریانس آنها مقایسه شوند.

    استفاده از معیارهای آمار پارامتریک بدون بررسی اولیه نوع توزیع می تواند منجر به خطاهای خاصی شود.در حین آزمایش یک فرضیه کاری

    برای غلبه بر این مشکلات در عمل تحقیقات آموزشی، باید استفاده کرد ناپارامتریک شاخص آمار مانند تست علامت، تست ویلکاکسون دو نمونه ای، تست ون در وائردن، تست اسپیرمن که انتخاب آن ها اگرچه نیاز به تعداد اعضای نمونه زیاد و آگاهی از نوع توزیع ندارد، باز هم بستگی دارد. در یکسری شرایط

    آزمون های آماری ناپارامتریک - از فرض قانون توزیع نمونه ها مبرا هستند و بر اساس فرض استقلال مشاهدات هستند.

    6.1 معیارهای پارامتری

    به گروه معیارهای پارامتریک روش های آمار ریاضی شامل روش‌هایی برای محاسبه آمار توصیفی، ساخت نمودارهایی برای نرمال بودن توزیع، آزمون فرضیه‌های مربوط به تعلق دو نمونه به یک جامعه است. این روش ها بر این فرض استوارند که توزیع نمونه ها از قانون توزیع نرمال (گاوسی) تبعیت می کند. از جمله معیارهای پارامتریک آمار، معیار دانشجو و فیشر را در نظر خواهیم گرفت.

    6.1.1 روش های آزمایش نمونه برای نرمال بودن

    برای تعیین اینکه آیا با توزیع نرمال سروکار داریم، می‌توانیم روش‌های زیر را اعمال کنیم:

    1) در داخل محورها، می توانید یک چند ضلعی فرکانس (تابع توزیع تجربی) و منحنی توزیع نرمالبر اساس داده های تحقیق با بررسی اشکال منحنی توزیع نرمال و نمودار تابع توزیع تجربی، می توان به پارامترهایی پی برد که در آنها آخرین منحنی با منحنی اول متفاوت است.

    2) محاسبه شده است معنی متوسطو حالت و بر این اساس انحراف از توزیع نرمال مشخص می شود.اگر حالت، میانه و میانگین حسابی تفاوت معنی داری با یکدیگر نداشته باشند، با توزیع نرمال روبرو هستیم. اگر میانه تفاوت قابل توجهی با میانگین داشته باشد، در این صورت با یک نمونه نامتقارن روبرو هستیم.

    3) کشیدگی منحنی توزیع باید برابر با 0 باشد. منحنی های دارای کشیدگی مثبت بسیار عمودی تر از منحنی توزیع نرمال هستند. منحنی های با کشش منفی در مقایسه با منحنی توزیع نرمال شیب بیشتری دارند.

    4) پس از تعیین مقدار متوسط ​​توزیع فرکانس و انحراف معیار، چهار بازه توزیع زیر را پیدا کرده و با داده های واقعی سری مقایسه کنید:

    الف) - حدود 25 درصد فراوانی جمعیت باید به بازه زمانی تعلق داشته باشد.

    ب) - حدود 50 درصد فراوانی جمعیت باید به بازه زمانی تعلق داشته باشد.

    ج) حدود 75 درصد فراوانی جمعیت باید به بازه زمانی تعلق داشته باشد.

    د) - حدود 100 درصد فراوانی جمعیت باید به بازه تعلق داشته باشد.

    6.1.2 آزمون دانش آموز (آزمون تی)

    این معیار به شما امکان می دهد تا احتمال اینکه هر دو میانگین در نمونه به یک جامعه تعلق دارند را پیدا کنید. این معیار اغلب برای آزمون این فرضیه استفاده می شود: "میانگین دو نمونه متعلق به یک جامعه است."

    هنگام استفاده از معیار، دو مورد قابل تشخیص است. در حالت اول برای آزمون فرضیه تساوی میانگین های کلی دو استفاده می شود مستقل, غیر مرتبطنمونه ها (به اصطلاح دو نمونه آزمون t). در این مورد، یک گروه کنترل و یک گروه آزمایشی (آزمایشی) وجود دارد که ممکن است تعداد آزمودنی ها در گروه ها متفاوت باشد.

    در حالت دوم، هنگامی که همان گروه از اشیاء مواد عددی را برای آزمایش فرضیه‌های مربوط به ابزار تولید می‌کنند، به اصطلاح آزمون تی زوجی. نمونه ها نامیده می شوند وابسته, مربوط.

    الف) مورد نمونه های مستقل

    آمار آزمون برای نمونه های غیر مرتبط و مستقل به شرح زیر است:

    که در آن، میانگین حسابی در گروه آزمایش و کنترل است،

    خطای استاندارد تفاوت بین میانگین های حسابی. از فرمول پیدا می شود:

    ,(2)

    که در آن n 1 و n 2 مقادیر نمونه اول و دوم به ترتیب.

    اگر n 1 \u003d n 2 ، خطای استاندارد تفاوت بین میانگین های حسابی طبق فرمول محاسبه می شود:

    (3)

    که در آن n حجم نمونه است.

    شمردن تعداد درجات آزادیطبق فرمول انجام می شود:

    k \u003d n 1 + n 2 - 2. (4)

    با برابری عددی نمونه ها k = 2 n - 2.

    در مرحله بعد، باید مقدار به دست آمده t emp را با مقدار نظری توزیع t Student مقایسه کنید (به پیوست کتاب های درسی آمار مراجعه کنید). اگر تی امپ

    مثالی از استفاده را در نظر بگیریدتی -آزمون دانش آموز برای نمونه های منفصل و نابرابر.

    مثال 1.در دو گروه از دانش آموزان - تجربی و کنترل - نتایج زیر در موضوع به دست آمد (نمرات آزمون؛ جدول 1 را ببینید).

    جدول 1. نتایج آزمایش

    گروه اول (آزمایشی) N 1 = 11 نفر

    گروه دوم (شاهد)

    N 2 \u003d 9 نفر

    121413161191315151814

    تعداد کل اعضای نمونه: n ​​1 = 11، n 2 = 9.

    محاسبه میانگین های حسابی: X cf =13.636; Y cf = 9.444

    انحراف استاندارد: s x = 2.460; s y = 2.186

    با استفاده از فرمول (2)، خطای استاندارد اختلاف میانگین های حسابی را محاسبه می کنیم:

    ما آمار معیار را محاسبه می کنیم:

    ما مقدار t بدست آمده در آزمایش را با مقدار جدولی با در نظر گرفتن درجات آزادی، برابر با فرمول (4) به تعداد آزمودنی ها منهای دو (18) مقایسه می کنیم.

    مقدار جدول t crit 2.1 است، با فرض خطر قضاوت اشتباه در پنج مورد از صد مورد (سطح معناداری = 5٪ یا 0.05).

    اگر مقدار تجربی t بدست‌آمده در آزمایش از مقدار جدول بیشتر شود، دلیلی برای پذیرش فرضیه جایگزین (H 1) وجود دارد که دانش‌آموزان گروه آزمایش سطح دانش متوسط ​​بالاتری از خود نشان می‌دهند. در آزمایش t=3.981، جدول t=2.10، 3.981>2.10، که از آن نتیجه گیری در مورد مزیت یادگیری تجربی حاصل می شود.

    اینجا ممکن است وجود داشته باشد سوالات :

    1. اگر مقدار t بدست آمده در آزمایش از مقدار جدولی کمتر باشد چه؟ سپس فرضیه صفر را باید پذیرفت.

    2. آیا مزیت روش تجربی ثابت شده است؟ آنقدر که نشان داده شده است ثابت نشده است، زیرا از همان ابتدا خطر اشتباه در پنج مورد از صد مورد (0.05 = p) مجاز است. آزمایش ما می تواند یکی از این پنج مورد باشد. اما 95 درصد موارد احتمالی به نفع فرضیه جایگزین صحبت می کنند و این یک استدلال نسبتاً قانع کننده در شواهد آماری است.

    3. اگر گروه گواه نمرات بهتری نسبت به گروه آزمایش کسب کند چه؟ به عنوان مثال، با ساختن میانگین حسابی گروه آزمایش، a - کنترل را با هم عوض می کنیم:

    این حاکی از این است که روش جدید به دلایل مختلف، احتمالاً هنوز خوب نبوده است. از آنجایی که قدر مطلق 3.9811>2.1 است، دومین فرضیه جایگزین (H 2) در مورد مزیت روش سنتی پذیرفته می شود.

    ب) مورد نمونه های مرتبط (جفت شده).

    در مورد نمونه های پیوندی با تعداد مساوی اندازه گیری در هر یک، می توان از فرمول آزمون t دانشجوی ساده تری استفاده کرد.

    محاسبه مقدار t طبق فرمول انجام می شود:

    تفاوت بین مقادیر متناظر متغیر X و متغیر Y کجاست و d میانگین این تفاوت ها است.

    Sd با استفاده از فرمول زیر محاسبه می شود:

    (6)

    تعداد درجات آزادی کبا فرمول k=n -1 تعیین می شود. مثالی از استفاده از آزمون t Student برای نمونه های متصل و بدیهی است که تعداد آنها برابر است.

    اگر تی امپ

    مثال 2. میزان گرایش دانش آموزان به ارزش های هنری و زیبایی شناختی مورد بررسی قرار گرفت. برای فعال شدن شکل گیری این گرایش در گروه آزمایشی، گفتگوهایی انجام شد، نمایشگاه هایی از نقاشی های کودکان برپا شد، بازدید از موزه ها و گالری های هنری برگزار شد، نشست هایی با نوازندگان، هنرمندان و... برگزار شد که طبیعتا این سوال پیش می آید که چه چیزی آیا اثربخشی کار انجام شده است؟ به منظور آزمایش اثربخشی این کار، آزمایشی قبل و بعد از آزمایش داده شد. به دلایل روش شناختی، جدول 2 نتایج تعداد کمی از افراد را نشان می دهد.

    جدول 2. نتایج آزمایش

    دانش آموزان

    (n=10)

    نکته ها

    محاسبات کمکی

    قبل از شروع آزمایش (X)

    در پایان

    آزمایش (U)

    د

    d2

    ایوانف

    نوویکوف

    سیدوروف

    پیروگوف

    آگاپوف

    سووروف

    ریژیکوف

    سروو

    تبرها

    بیستروف

    میانگین

    14,8

    21,1

    ابتدا طبق فرمول محاسبه می کنیم:

    سپس فرمول (6) را اعمال می کنیم، دریافت می کنیم:

    در نهایت فرمول (5) باید اعمال شود. ما گرفتیم:

    تعداد درجات آزادی: k \u003d 10-1 \u003d 9 و طبق جدول ضمیمه 1 t crit \u003d 2.262 ، آزمایشی t \u003d 6.678 را پیدا می کنیم ، که حاکی از امکان پذیرش یک فرضیه جایگزین است (H 1 ) در مورد تفاوت های قابل توجه در میانگین های حسابی، به عنوان مثال، نتیجه گیری در مورد اثربخشی تاثیر تجربی انجام می شود.

    از نظر فرضیه های آماری، نتیجه به این صورت خواهد بود: در سطح 5 درصد، فرضیه H 0 رد و فرضیه H 1 پذیرفته می شود.

    6.1.3 F - آزمون فیشر

    معیار فیشربه شما امکان می دهد مقادیر واریانس نمونه دو نمونه مستقل را با هم مقایسه کنید. برای محاسبه F emp باید نسبت واریانس دو نمونه را پیدا کنید، به طوری که واریانس بزرگتر در صورت و کوچکتر در مخرج باشد. فرمول محاسبه معیار فیشر به شرح زیر است:

    واریانس نمونه اول و دوم به ترتیب کجاست.

    از آنجایی که با توجه به شرط ملاک، مقدار صورت باید بزرگتر یا مساوی مقدار مخرج باشد، مقدار Femp همیشه بزرگتر یا مساوی یک خواهد بود.

    تعداد درجات آزادی نیز به سادگی تعریف می شود:

    k 1 \u003d n l - 1برای نمونه اول (یعنی برای نمونه ای که واریانس آن بزرگتر است) و k 2 \u003d n 2 - 1برای نمونه دوم

    در پیوست 1، مقادیر بحرانی معیار فیشر با مقادیر k 1 (خط بالای جدول) و k 2 (ستون چپ جدول) یافت می شود.

    اگر t emp >t crit، فرضیه صفر پذیرفته می شود، در غیر این صورت جایگزین پذیرفته می شود.

    مثال 3در دو کلاس سوم، ده دانش آموز از نظر رشد ذهنی بر اساس آزمون TURMS مورد آزمایش قرار گرفتند. مقادیر میانگین به دست آمده تفاوت معنی داری نداشتند، با این حال، روانشناس به این سوال علاقه مند است - آیا تفاوت هایی در میزان همگنی شاخص های رشد ذهنی بین کلاس ها وجود دارد.

    راه حل. برای معیار فیشر، مقایسه واریانس نمرات آزمون در هر دو کلاس ضروری است. نتایج آزمون در جدول ارائه شده است:

    جدول 3

    تعداد دانش آموزان

    کلاس اول

    درجه دوم

    مبالغ

    میانگین

    60,6

    63,6

    پس از محاسبه واریانس برای متغیرهای X و Y، به دست می آوریم:

    s x 2 = 572.83; s y 2 = 174.04

    سپس با توجه به فرمول (8) برای محاسبه بر اساس معیار F Fisher، در می یابیم:

    طبق جدول ضمیمه 1 برای معیار F با درجه آزادی در هر دو مورد برابر با k = 10 - 1 = 9، F crit = 3.18 (<3.29), следовательно, в терминах статистических гипотез можно утвер­ждать, что Н 0 (гипотеза о сходстве) может быть отвергнута на уровне 5%, а принимается в этом случае гипотеза Н 1 . Иc следователь может утверждать, что по степени однородности такого показа­теля, как умственное развитие, имеется различие между выбор­ками из двух классов.

    6.2 آزمون های ناپارامتریک

    محقق با مقایسه چشمی (بر حسب درصد) نتایج قبل و بعد از هر گونه مواجهه به این نتیجه می رسد که در صورت مشاهده تفاوت، در نمونه های مقایسه شده تفاوت وجود دارد. چنین رویکردی کاملاً غیرقابل قبول است، زیرا تعیین سطح اطمینان در تفاوت ها برای درصد غیرممکن است. درصدهای گرفته شده به خودی خود امکان نتیجه گیری آماری قابل اعتماد را فراهم نمی کند. برای اثبات اثربخشی هر گونه تأثیر، لازم است یک روند آماری معنی دار در تغییر (تغییر) شاخص ها شناسایی شود. برای حل چنین مسائلی محقق می تواند از تعدادی معیار تفاوت استفاده کند که در زیر معیارهای ناپارامتریک آزمون علامت و آزمون کای دو در نظر گرفته می شود.

    6.2.1 معیار علامت (معیار G)

    این معیار برای مقایسه وضعیت برخی از ویژگی های اعضای دو طراحی شده است وابسته نمونه هابر اساس اندازه گیری های انجام شده در مقیاسی که کمتر از رتبه نیست.

    دو سری مشاهدات روی متغیرهای تصادفی وجود داردایکس و Y با در نظر گرفتن دو به دست می آید نمونه های وابسته. بر اساس آنها، N جفت از فرم (х i، y i)، که در آن ایکسمن، ای من - نتایج یک اندازه گیری مضاعف از یک ویژگی مشابه از همان جسم.

    در تحقیقات آموزشی، دانش‌آموزان، معلمان و مدیریت مدرسه می‌توانند به عنوان هدف مطالعه عمل کنند. در همان زمان xمن، ای من مثلاً می‌تواند امتیازهایی باشد که معلم برای اجرای دوبار کار مشابه یا متفاوت توسط یک گروه از دانش‌آموزان قبل و بعد از استفاده از یک ابزار آموزشی خاص داده می‌شود.

    عناصر هر جفت xمن، ای من از نظر قدر با یکدیگر مقایسه می شوند و به جفت علامت اختصاص داده می شود «+» اگر xمن< у i ، امضا کردن «-» اگر x i > y i و «0» اگر x i = y i .

    فرضیه صفر به صورت زیر فرموله می شوند: در وضعیت ویژگی مورد مطالعه تفاوت معنی داری در اندازه گیری های اولیه و ثانویه وجود ندارد. فرضیه جایگزین: قوانین توزیع مقادیرایکس و Y متفاوت هستند، به عنوان مثال، حالات ویژگی مورد مطالعه در یک مجموعه در اندازه گیری های اولیه و ثانویه این ویژگی به طور قابل توجهی متفاوت است.

    آمار معیار (T) به صورت زیر تعریف می شود:

    فرض کنید که از N جفت (x، y،) چندین جفت وجود دارد که در آنها مقادیر وجود دارد x i و y i برابر هستند. چنین جفت هایی با علامت "0" نشان داده می شوند و هنگام محاسبه مقدار T در نظر گرفته نمی شوند. فرض کنید پس از کسر از عدد N تعداد جفت هایی که با علامت "0" نشان داده شده است، فقط وجود دارد. n بخار. در میان باقی مانده ها n جفت ها، تعداد جفت هایی را که با علامت "-" نشان داده شده اند، می شماریم، یعنی جفت هایی که در آن ها x i< y i . مقدار T و برابر است با تعداد جفت های دارای علامت منفی.

    فرضیه صفر پذیرفته می شودسطح معنی داری 0.05 اگر مقدار مشاهده شده باشدتی< n - t a , где значение n - t a از جداول آماری برای معیار علامت پیوست 2 تعیین می شود.

    مثال 4دانش‌آموزان در آزمونی شرکت کردند تا درک خود را از یک مفهوم خاص آزمایش کنند. سپس به پانزده دانش‌آموز ابزار آموزش الکترونیکی ارائه شد که برای توسعه این مفهوم در دانش‌آموزان با ناتوانی‌های یادگیری طراحی شده بود. پس از مطالعه راهنما، دانش آموزان مجدداً همان کار کنترلی را انجام دادند که بر اساس سیستم پنج نقطه ای ارزیابی شد.

    نتایج عملکرد مضاعف کار نشان‌دهنده اندازه‌گیری‌ها در مقیاس مرتبه (مقیاس پنج نقطه‌ای) است. در این شرایط می توان از معیار نشانه برای شناسایی روند تغییر وضعیت دانش دانش آموزان پس از مطالعه دفترچه راهنما استفاده کرد، زیرا تمام مفروضات این معیار برآورده شده است.

    نتایج اجرای مضاعف کار (در امتیاز) توسط 15 دانش آموز در قالب جدول ثبت می شود (به جدول 1 مراجعه کنید).

    جدول 4

    دانش آموزان (شماره)

    اولین اعدام

    اعدام دوم

    علامت اختلاف ارتفاع

    فرضیه در حال آزمایش H0 : وضعیت دانش دانش آموزان پس از مطالعه راهنما افزایش نیافت. فرضیه جایگزین: وضعیت دانش دانش آموزان پس از مطالعه راهنما افزایش یافت.

    اجازه دهید مقدار آمار معیار T را برابر با تعداد تفاوت های مثبت نمرات دریافتی دانش آموزان محاسبه کنیم. با توجه به داده های جدول. 4 T=10، n=12.

    برای تعیین مقادیر بحرانی آمار معیار n-ta از جدول استفاده می کنیم. کاربردها 2. برای سطح معناداری a = 0.05 at n =12 مقدار n-ta=9. بنابراین، نابرابری T> n-ta (10>9) برآورده می شود. بنابراین، مطابق با قاعده تصمیم، فرضیه صفر در سطح معنی‌داری 05/0 رد می‌شود و یک فرضیه جایگزین پذیرفته می‌شود که به ما این امکان را می‌دهد که به این نتیجه برسیم که دانش دانش‌آموزان پس از مطالعه خودآموز کتابچه راهنما بهبود یافته است.

    مثال 5فرض بر این است که مطالعه یک درس ریاضی به شکل گیری یکی از روش های تفکر منطقی (به عنوان مثال، روش تعمیم) در دانش آموزان کمک می کند، حتی اگر شکل گیری آن به طور هدفمند انجام نشود. برای آزمایش این فرض، آزمایش زیر انجام شد.

    دانش آموزان VII 5 کار به کلاس ارائه شد که حل آنها بر اساس استفاده از این روش تفکر است. اعتقاد بر این بود که دانش آموز اگر به 3 یا بیشتر پاسخ صحیح بدهد صاحب این تکنیک می شود.

    مقیاس اندازه گیری زیر ایجاد شد: 1 یا 2 کار به درستی حل شد - نمره "0"؛ 3 کار را به درستی حل کرد - نمره "1"؛ 4 کار را به درستی حل کرد - نمره "2"؛ 5 کار به درستی حل شد - نمره "3".

    این کار دو بار انجام شد: در پایان شهریور و اواخر اردیبهشت سال بعد. این مقاله توسط 35 نفر از دانش آموزان یکسان نوشته شده است که به طور تصادفی از 7 مدرسه مختلف انتخاب شده اند. نتایج دو بار انجام کار به صورت جدول نوشته می شود (جدول 5 را ببینید).

    مطابق با اهداف آزمایش، فرضیه صفر را به صورت زیر فرموله می کنیم: H 0 - مطالعه ریاضیات به شکل گیری روش تفکر مورد مطالعه کمکی نمی کند. سپس فرضیه جایگزین به نظر می رسد: H 1 - مطالعه ریاضیات به تسلط بر این روش تفکر کمک می کند.

    جدول 5

    با توجه به داده های جدول. 5، مقدار آمار T=15 - تعداد تفاوت ها با علامت "+". از 35 جفت، 12 جفت علامت "0" دارند. به معنای، n=35-12=23.

    طبق جدول پیوست 2 برای n 23 = و سطح معنی داری 0.025، مقدار بحرانی آماره آزمون را برابر با 16 می یابیم. بنابراین، نابرابری Т

    بنابراین، مطابق با قاعده تصمیم، باید نتیجه بگیریم که نتایج به‌دست‌آمده دلیل کافی برای رد فرضیه صفر نمی‌دهد، یعنی برای رد این جمله که مطالعه ریاضی به خودی خود کمکی نمی‌کند، دلیل کافی نداریم. برای تسلط بر روش فکری انتخاب شده

    تست 6.2.2 χ2 (chi-square)

    معیار χ2 (chi-square) برای مقایسه توزیع اشیاء دو جمعیت بر اساس اندازه گیری در مقیاس نام ها در دو مورد استفاده می شود. مستقلنمونه ها.

    فرض کنید وضعیت ویژگی مورد مطالعه (مثلاً تکمیل یک کار خاص) برای هر شی در مقیاسی از نام‌ها اندازه‌گیری می‌شود که فقط دو دسته متقابل دارند (مثلاً: به درستی انجام شده - اشتباه انجام شده است). با توجه به نتایج اندازه گیری وضعیت اموال مورد مطالعه در اشیاء دو نمونه، جدول چهار سلولی 2X2 تدوین شده است. (جدول 6 را ببینید).

    جدول 6

    در این جدول در باره ij- تعداد اشیاء درمن-امین نمونه که در آن افتادj- طبقه بندی با توجه به وضعیت اموال مورد مطالعه؛i = 1،2تعداد نمونه است؛j=1،2- تعداد دسته ها؛ ن- تعداد کل مشاهدات، برابر با O 11 + O 12 + O 21 + O 22یا n 1 + n 2 .

    سپس، بر اساس داده های جدول 2X2 (به جدول 6 مراجعه کنید)، می توان فرضیه صفر را در مورد برابری احتمالات اشیاء مجموعه اول و دوم در دسته اول (دوم) مقیاس برای اندازه گیری آزمایش کرد. ویژگی در حال بررسی، به عنوان مثال، فرضیه برابری احتمالات انجام صحیح یک کار خاص توسط دانش آموزان در کلاس های کنترل و تجربی.

    هنگام آزمون فرضیه های صفر، لازم نیست احتمالات وجود داشته باشد ص 1و ص 2شناخته شده بودند، زیرا فرضیه ها فقط روابط خاصی را بین آنها برقرار می کنند (برابری، کم و بیش).

    برای آزمون فرضیه های صفر مورد بحث در بالا، با توجه به داده های جدول 2X2 (به جدول 6 مراجعه کنید)، مقدار آمار معیار محاسبه می شود. تیطبق فرمول کلی زیر:

    (9)

    جایی که n 1، n 2 - اندازه های نمونه،N=n1 + n2- تعداد کل مشاهدات

    فرضیه در حال آزمایش است H0: p 1 £ p 2- با یک جایگزین H 1: p 1 > p 2.اجازه دهیدآ - سطح اهمیت پذیرفته شده سپس مقدار آمار تی،به دست آمده بر اساس داده های تجربی با ارزش بحرانی آمار مقایسه می شود x 1-2 آ ،که توسط جدول مشخص می شودج 2 ج یک درجه آزادی (به پیوست 2 مراجعه کنید) با در نظر گرفتن مقدار انتخاب شدهآ . اگر نابرابری درست باشدتی< x 1-2 a ، سپس فرضیه صفر در سطح پذیرفته می شودآ اگر این نابرابری برآورده نشد، دلیل کافی برای رد فرضیه صفر نداریم.

    با توجه به اینکه جایگزینی توزیع دقیق آمار تیتوزیعج 2 ج یک درجه آزادی تقریب نسبتاً خوبی را فقط برای نمونه های بزرگ به دست می دهد، کاربرد این معیار با شرایط خاصی محدود می شود.

    1) مجموع حجم دو نمونه کمتر از 20 باشد.

    2)حداقل یکی از بسامدهای مطلق در جدول 2X2 که از داده های تجربی گردآوری شده کمتر از 5 است.

    مثال 6آزمایشی با هدف شناسایی بهترین کتاب های درسی نوشته شده توسط دو تیم از نویسندگان مطابق با اهداف آموزش هندسه و محتوای برنامه انجام شد. IX کلاس برای انجام این آزمایش، دو ناحیه به صورت تصادفی انتخاب شدند که اکثر مدارس آنها در مناطق روستایی قرار داشتند. دانش آموزان ناحیه اول (20 پایه) طبق کتاب شماره 1 ، دانش آموزان ناحیه دو (15 پایه) طبق کتاب شماره 2 تحصیل کردند.

    بیایید روش مقایسه پاسخ معلمان مدارس تجربی دو ناحیه به یکی از سؤالات پرسشنامه را در نظر بگیریم: «آیا کتاب درسی عموماً برای مطالعه مستقل در دسترس است و به تسلط بر مطالبی که معلم در آن توضیح نداده است کمک می کند. کلاس (پاسخ: بله - خیر.)

    نگرش معلمان به ویژگی های مورد مطالعه کتاب های درسی بر اساس مقیاس عناوین سنجیده می شود که دارای دو دسته است: بله، خیر. هر دو نمونه معلمان تصادفی و مستقل هستند.

    پاسخ 20 معلم ناحیه اول و 15 معلم ناحیه دوم را به دو دسته تقسیم می کنیم و در قالب جدول 2*2 یادداشت می کنیم (جدول 5).

    جدول 7

    تمام مقادیر در جدول 7 کمتر از 5 نیست، بنابراین، مطابق با شرایط استفاده از معیار استج 2 محاسبه آمار معیار طبق فرمول (9) انجام می شود.

    طبق جدول پیوست 2 برای یک درجه آزادی ( v=l ) و سطح معناداریآ = 0.05 پیدا کنید x 1- a= T بحرانی = 3.84. بنابراین، مشاهده نابرابری T درست است<Т критич (1,86<3,84). Согласно правилу принятия ре­шений для критерия ج 2 نتیجه به‌دست‌آمده زمینه کافی برای رد فرضیه صفر را فراهم نمی‌کند، یعنی نتایج نظرسنجی از معلمان دو ناحیه تجربی، زمینه کافی برای رد فرض برابری در دسترس بودن کتاب‌های درسی را فراهم نمی‌کند. 1 و 2 برای خواندن مستقل توسط دانش آموزان.

    استفاده از آزمون کای اسکوئر در مواردی نیز امکان پذیر است که اشیاء دو نمونه از دو جمعیت با توجه به وضعیت دارایی مورد مطالعه به بیش از دو دسته تقسیم شوند. به عنوان مثال، دانش‌آموزان در کلاس‌های تجربی و شاهد بر اساس نمره‌های (در امتیازات: 2، 3، 4، 5) که دانش‌آموزان برای انجام برخی کارهای کنترلی دریافت می‌کنند، به چهار دسته تقسیم می‌شوند.

    نتایج اندازه گیری وضعیت ویژگی مورد مطالعه در اشیاء هر نمونه به توزیع می شود بادسته بندی ها. بر اساس این داده ها، یک جدول 2XC تدوین شده است که در آن دو ردیف (با توجه به تعداد جمعیت در نظر گرفته شده) و باستون ها (با توجه به تعداد دسته های مختلف وضعیت ملک مورد مطالعه، اتخاذ شده در مطالعه).

    جدول 8

    بر اساس داده های جدول 8، می توان فرضیه صفر را در مورد برابری احتمالات برخورد با اجسام مجموعه های اول و دوم در هر یک از آنها آزمایش کرد.من (من = ل،2، ...، ج) دسته ها، یعنی بررسی انجام تمام برابری های زیر: p 11 \u003d p 21, p 12 \u003d p 22, ..., p 1 c \u003d p 2 c. به عنوان مثال می توان فرضیه برابری احتمالات کسب نمره های «5»، «4»، «3» و «2» را برای انجام یک تکلیف معین توسط دانش آموزان در کلاس های کنترل و تجربی آزمایش کرد. .

    برای آزمون فرضیه صفر با استفاده از آزمونج 2 بر اساس داده های جدول 2XC، مقدار آمار معیار محاسبه می شود تیطبق فرمول زیر:

    (10)

    جایی که ص 1و ص 2- اندازه های نمونه

    معنی تی،به دست آمده بر اساس داده های تجربی با مقدار بحرانی مقایسه می شود x 1- آ ،که توسط جدول مشخص می شود c 2 c k =С-1 درجه آزادی، با در نظر گرفتن سطح اهمیت انتخاب شدهآ . وقتی نابرابری T> x 1- aفرضیه صفر در سطح رد می شود آو فرضیه جایگزین پذیرفته می شود. این بدان معنی است که توزیع اشیاء در بادسته بندی با توجه به وضعیت ویژگی مورد مطالعه در دو مجموعه در نظر گرفته شده متفاوت است.

    مثال 7. اجازه دهید روش مقایسه نتایج کار کتبی را در نظر بگیریم که جذب یکی از بخش های درس توسط دانش آموزان ناحیه اول و دوم را آزمایش کرد.

    با انتخاب تصادفی، از دانش‌آموزان ناحیه اول که کار را تالیف کرده‌اند 50 نفر و از دانش‌آموزان منطقه دو 50 نفر انتخاب شدند. مطابق با معیارهای ویژه ارزیابی عملکرد، هر دانش آموز می تواند در یکی از چهار دسته قرار گیرد: بد، متوسط، خوب، عالی. ما از نتایج کار انجام شده توسط دو نمونه از دانش‌آموزان برای آزمون این فرضیه استفاده می‌کنیم که کتاب درسی شماره 1 به جذب بهتر بخش آزمون شده درس کمک می‌کند، یعنی دانش‌آموزان در منطقه آزمایشی اول به طور متوسط ​​بالاتر دریافت خواهند کرد. نمره نسبت به دانش آموزان منطقه دوم.

    نتایج کار دانش‌آموزان هر دو نمونه را در جدول 4*2 یادداشت می‌کنیم (جدول 9 ).

    جدول 9

    مطابق با شرایط استفاده از معیارج 2 آمار معیار طبق فرمول اصلاح شده (10) محاسبه می شود.

    مطابق با شرایط اعمال آزمون کای دو دنباله مطابق جدول پیوست 2 برای یک درجه آزادی (ک Grabar M.I.، Krasnyanskaya K.A. کاربرد آمار ریاضی در تحقیقات آموزشی. روش های ناپارامتریک م.، آموزش، 1356، ص 54

    Grabar M.I.، Krasnyanskaya K.A. کاربرد آمار ریاضی در تحقیقات آموزشی. روش های ناپارامتریک م.، «پداگوژی»، 1356، ص 57