مبانی نظری اعتبار و هنجاریابی آزمون روانشناسی

مبانی نظری اعتبار و هنجاریابی آزمون روانشناسی

در ۶۷ صفحه ورد قابل ویرایش با فرمت docx

توضیحات: فصل دوم پایان نامه (پیشینه و مبانی نظری پژوهش)

همراه با منبع نویسی درون متنی به شیوه APA جهت استفاده فصل دو پایان نامه

توضیحات نظری کامل در مورد متغیر

پیشینه داخلی و خارجی در مورد متغیر مربوطه و متغیرهای مشابه

رفرنس نویسی و پاورقی دقیق و مناسب

منبع : فارسی و انگلیسی دارد (به شیوه APA)

نوع فایل: WORD و قابل ویرایش با فرمت docx

قسمتهایی از متن مبانی نظری و پیشینه

مبانی نظری اعتبار و هنجاریابی آزمون

هر رشته­ی علمی با یک سری نظریه­ها مواجه است که زیربنا و بنیاد آن رشته را تشکیل می­دهد و شالوده­ی دستاورد­ها و یافته­های علمی آن شاخه از علوم محسوب می­شود. از زمان پیدایش علم روان سنجی تغییرات بنیادی زیادی در نظریه های آن صورت گرفته است و این سیر تحولی به گونه مستمر ادامه داشته است.­­­این نظریه­ها دارای انواع و مدل­هایی هستند و هر کدام معطوف به بعد خاصی از اندازه­گیری می­باشند. یک نظریه یا مدل اندازه­گیری خوب در یک آزمون سنجش توانایی با مشخص کردن رابطه ی بین سوالات آزمون و سطح توانایی، چارچوب مرجعی جهت طراحی آزمون مناسب و حل مشکلات عملی مربوط به آن فراهم می­سازد. بدیهی است که از یک نظریه و مدل مناسب، انتظار می­رود که بتواند دقت قابل­قبولی در اندازه­گیری پدیده مورد نظر داشته باشد.

نظریه­های آماری نمرات اندازه­گیری به تدریج در طول صد سال اخیر توسعه یافته­اند. در سال ۱۹۰۴، چارلز اسپیرمن[۱] مبنای نظری اساسی برای الگوی نمره واقعی ارائه داد. در چند دهه پس از آن، تحولات بسیاری شکل گرفت. گالیکسن[۲](۱۹۵۰)، تمام این تحولات را در یک سیستم واحد منسجم خلاصه کرد. این سیستم متشکل از قضایا و معادلات آماری به عنوان نظریه کلاسیک اندازه­گیری شناخته شده است. فردریک لرد[۳](۱۹۵۲) و جرج راش[۴](۱۹۶۰)آنچه را که در حال حاضر به عنوان نظریه پرسش – پاسخ شناخته می­شود را به طور مستقل گسترش دادند. در سال ۱۹۶۳، لی کرونباخ[۵](کرونباخ، راجاراتنام[۶] و گلیسر[۷]، ۱۹۶۳) نظریه تعمیم­پذیری را تثبیت کرد (سوئن و لی،۲۰۰۷ ). برنان[۸](b2010) متذکر می­شود که تفاوت­های میان مدل­ها بنیادی و مهم هستند، اما هریک از این مدل­ها قابل دفاع و سودمند هستند، و هیچ­یک از آنها جایگزینی برای دیگری نیست. همچنین از اینکه بیشتر تحقیقات فعلی در اندازه­گیری آموزشی به تفاوت­های میان این مدل­ها، مخصوصاً تفاوت های میان مفروضاتشان توجهی نمی­کنند، اظهار تأسف می­کند. بنا به مطالب ذکر شده و در راستای موضوع پژوهش، در این بخش تلاش می­شود که به معرفی سه نظریه مذکور و شرح مفاهیم، مفروضات، محدودیت­ها و تقابل­های آنها پرداخته شود.


[۱].Charles spearman

[۲].Gulliksen

۳٫ Frederic Lord

۴٫Georg Rasch

۵٫Cronbach

۶٫ Rajaratnam

۷٫Gleser

۸٫ Brennan

انواع تصمیم و واریانس­های خطا

در یک وضعیت اندازه­گیری، نوع تفسیر نمره (هنجار در مقابل ملاک­مرجع) تعیین می کند که کدام تصمیم (نسبی یا مطلق) مناسب است و واریانس خطا به طور متفاوتی برای هر نوع از تصمیم تعریف می شود. یک تصمیم مطلق[۱] است اگر تصمیم درباره افراد مبنی بر نمراتشان در ارتباط با یک ملاک باشد. به بیانی دیگر، تصمیم مطلق بر روی سطح عملکرد افراد بدون توجه به رتبه­ی آنها متمرکز است و در ارتباط با ثبات جایگاه نسبی افراد و هم ثبات نمرات واقعی است. واریانس خطا برای تصمیم مطلق را با علامت نشان می­دهند و آنرا واریانس خطای مطلق[۲] می نامند که شامل همه مؤلفه­های واریانس مدل به جز هدف اندازه­گیری است. این نوع واریانس بیانگر تفاوت میان نمره مشاهده شده و نمره جهان فرد است. یک تصمیم نسبی[۳] است اگر تصمیم درباره افراد مبتنی بر جایگاهشان در ارتباط با دیگران باشد. این نوع تصمیم بر روی تفسیر نمره هنجار­مرجع متمرکز است. یعنی نمرات اندازه­گیری برای متمایز کردن آزمودنی­ها به کار می­روند. اعتبار اندازه­گیری در این حالت مربوط به ثبات جایگاه نسبی افراد است نه در مورد ثبات نمرات واقعی. واریانس خطا برای تصمیم نسبی را با علامتنشان می دهند و آن را واریانس خطای نسبی[۴] می­نامند. این نوع واریانس شامل همه ی مؤلفه­های واریانس تعاملی است که هدف اندازه­گیری را در بر می­گیرد. واریانس خطای نسبی به صورت تفاوت میان نمره انحرافی مشاهده شده شخص[۵] و نمره انحرافی جهان[۶] او تعریف می­شود. این نوع واریانس مشابه واریانس خطا در CTT است. ریشه دوم واریانس­های خطا (نسبی و مطلق)، برآوردی از خطای استاندارد اندازه­گیری (نسبی و مطلق) است که می­توان از آن در جهت ساخت فواصل اطمینان حول نمره جهان فرد استفاده کرد.

در کل واریانس خطای نسبی کمتر از واریانس خطای مطلق است زیرا شامل مؤلفه­های واریانس کمتری است. این نشان می­دهد که تفسیر­های نسبی در مورد نمرات افراد نسبت به تفسیرهای مطلق کمتر مستعد خطا هستند. در شکل زیر، تفاوت میان خطای مطلق و خطای نسبی طرح P×Iنشان داده شده است. قسمت­های هاشور خورده، سهم واریانس خطا تحت سطوح مختلف است. …


[۱].absolute decision

[۲].absolute error variance

[۳].relative decision

[۴].relative error variance

[۵].person’s observed deviation score

[۶].universe deviation score

نظریه تعمیم­ پذیری در مقابل نظریه کلاسیک آزمون

برنان (b2010) از شباهت­های دو نظریه­ی تعمیم­پذیری و کلاسیک آزمون به موارد زیر اشاره می­کند؛ هر دو نظریه نمره واقعی (یا جهان) را به عنوان یک ارزش مورد انتظار از نمرات مشاهده شده تعریف می­کنند. هر دو نظریه به وضوح خطاهای اندازه­گیری تصادفی را شامل می­شوند و مفاهیم اعتبار( یا تعمیم­پذیری) در هر دو نظریهبه خوبی تعریف شده است.

این دو نظریه به رغم شباهت­هایی که دارند، تفاوت­های بسیار مهمی نیز دارند که در زیر به شرح مواردی از آن پرداخته می­شود.

چارچوب مفهومی : GT نسبت به CTT چارچوب مفهومی قدرتمند­تری دارد که منجر به برطرف کردن

تعدادی از تناقضات آشکار در چند بحث CTT از اعتبار شده است. دو ویژگی مهم GT که به حل تناقضات

کمک می­کند عبارتند از: تمایز گذاشتن GT میان رویه­های اندازه­گیری ثابت و تصادفی و همچنین قابلیت این نظریه در پرداختن به طرح­های مختلف مطالعه D( برنان، b2010).

مفروضات زیربنایی آماری: در CTT مفروضات آزمون­های موازی و آزمون­های اساساً تائو معادل،

اغلب غیرقابل دفاع هستند. در حالیکه GTفرض می­کند که آزمون­ها تصادفی موازی هستند و محتوای آزمون یک نمونه تصادفی از حیطه یا جهان تعریف شده در نظر گرفته می­شود. برنان (b2010) بیان می­کند که هر دو نوع موازی بودن ایده آل هستند و هیچگاه احتمال اینکه کاملاً واقعیت داشته باشد، نیست. اگر چه یکی یا دیگری ممکن است در زمینه­ای خاص مناسب­تر باشد.

مدلسازی نمرات مشاهده شده: در CTTنمره ی مشاهده شده یک فرد در آزمون مبتنی بر نمره واقعی

شخص در آزمون و خطای اندازه­گیری است. در GT هر نمره مشاهده شده معرف یک نمونه از تمام نمرات ممکن فرض می­شود و در قالب یک یا چند مؤلفه واریانس بیان می­شود. نمره مشاهده شده در یک آزمون از رویه­های مختلف مورد استفاده در آزمون تأثیر می­پذیرد و با توجه به رویه­های مورد استفاده در آزمون معرف عملکرد فرد در همان رویه­هاست.

منابع چندگانه­ ی خطای اندازه­ گیری: همان­طور که سوئن و لی (۲۰۰۷) مطرح کرده­اند؛ در وضعیت­های

اندازه­گیری پیچیده که با منابع چندگانه­ای از خطای اندازه­گیری (رویه­ها) روبه­رو است، نمره­ی مشاهده شده نتیجه­ی نمره­ی واقعی باضافه­ی اثرات و تعاملات این منابع چندگانه خطاهای اندازه­گیری است. روش معمول CTT در چنین وضعیت­های اندازه­گیری برای برآورد اعتبار این است که از روش­های مختلفی (همچون بازآزمایی، بین ارزیابان، همسانی درونی،… ) استفاده می­کند. روش­های مختلف، ضرایب اعتبار مختلفی را به دنبال دارند که این نیز به نوبه­ی خود منجر به خطاهای استاندارد اندازه­گیری متفاوتی می­شود. مسئله­ای که اینجا پیش می­آید این است که در چنین وضعیتی دقیق­ترین برآورد ضریب اعتبار کدام است؟ و به منظور ساخت فاصله­های اطمینان حول نمرات مشاهده، کدام خطای استاندارد اندازه­گیری را باید به کار برد؟ متأسفانه CTT قادر به پاسخ­گویی به این سوالات نیست. در حالیکه در GT می­توان منابع چندگانه خطا را همزمان در ترکیب­های متفاوتی از تصادفی یا ثابت در نظر گرفت. با تشخیص اینکه آیا یک رویه تصادفی یا ثابت باشد امکان برآورد اعتبار و خطای استاندارد ناشی از منابع معین خطا در GT وجود دارد. به بیانی دیگر، GT سهم هر منبع خطا (رویه) را در واریانس نمرات آزمون تعیین می­کند و فرصت محاسبه­ی برآوردهای متفاوتی از اعتبار را می­دهد که بستگی به این دارد کدام منبع خطا برای هر استفاده ی خاص از آزمون مهم در نظر گرفته می­شود. فن و سان (۲۰۱۳) بیان می­کنند که در چنین وضعیت­های اندازه­گیری، CTT قادر به برآورد اعتبار نیست زیرا شیوه­های سنتی اعتبار تنها برای یک رویه طراحی شده­اند. از این رو CTT نمی­تواند به بررسی منابع چندگانه خطای اندازه­گیری بپردازد. سوئن و لی[۱](۲۰۰۷) نیز اذعان داشتند، این گونه نیست که CTT وجود منابع چندگانه خطاهای اندازه­گیری را انکار کند، بلکه حقیقت این است که این نظریه نمی­تواند از لحاظ مفهومی و آماری آن را در خود جای دهد در حالیکه، GT نه تنها می­تواند از نظر مفهومی تصور داشتن انواع مختلفی از ضریب اعتبار را در خود لحاظ کند، بلکه می­تواند یک مکانیسم عملی برای انجام آن نیز داشته باشد. …


[۱]. Suen & Lei

خرید فایل