Employing Robust MM-estimators in Estimating Principal Component Regression Model - A Comparative Study- | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
IRAQI JOURNAL OF STATISTICAL SCIENCES | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Article 10, Volume 18, Issue 1, June 2021, Pages 74-87 PDF (2.4 M) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Document Type: Research Paper | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
DOI: 10.33899/iqjoss.1970.170002 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Authors | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Esraa Alsaraf* 1; Bashar A. AL-TALIB2 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1Department of Statistics and InformaticsوCollege of Computer & Mathematical Science, University of Mosul, Mosul | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2Department of Statistics and Informatics, Faculty of Computer Sciences and Mathematics, University of Mosul, Mosul, Iraq | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Abstract | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
This paper focuses on proposing the use of robust MM estimators in estimating the parameters of the principal component regression model, which is usually used in estimating the regression model when the explanatory variables are not independent. even in the presence of leverage points in the data and gives estimators with good efficiency, this estimator has been called the MM estimator, referring to the fact that more than one M estimator is used to obtain the final estimator as the estimation is done using the Iteratively Re-weighted Least Square (IRLS) method | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Highlights | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
In light of what has been reached in the experimental and applied aspects, the most important conclusions of the study can be drawn as follows: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Keywords | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Principal Component Regression; Leverage Points; Robust Methods; MM Estimators; Weighted Least Squares | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Full Text | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1- المقدمةIntroduction یعتبر استخدام انحدار المکونات الرئیسیة واحدة من طرق التقدیر التی تعالج مشکلة تعـدد العلاقة الخطـیة والـتی تحـدث فی کثـیر مـن النمـاذج القیاسـیة، وجـوهر هـذه الطریقـة هو أنها تسـتبدل المتغـیرات المسـتقلة الـتی تعـانی مـن مشکلة التعدد الخطی بمکونات رئیسیة تعبر عنها لتوفیق نموذج الانحدار، وطریقة المکونات الرئیسیة واحدة من النماذج الخطیة المتحیزة واسعة الاستخدام وتقوم على فکرة تحویل المتغیرات التفسیریة إلى متغیرات جدیدة متعامدة دون حـذف أی منهــا تسمى بالمکونات (المرکبات) الرئیسیة، وکـل مکون رئیسـی عبـارة عـن ترکیـب خطـی فی المتغـیرات المسـتقلة الأصـلیة. وتعتبر عملیة إیجاد المکونات الرئیسیة خطوة مهمـة لإزالـة أثـر التعـدد الخطـی تمهیـداً لاسـتخدام طریقـة المربعـات الصـغرى الاعتیادیـة لتقدیر معالم نموذج الانحدار الخطی الأصلیة للمتغیرات التفسیریة التی یستعاض عنها بالمکونات الرئیسیة.(الشیخ،2014) وقد کان اهتمام الباحثین لإیجاد طرائق ذات کفاءة أعلى ولا تتأثر کثیراً بالقیم الشاذة أو بالانحراف عن الافتراضات کبدائل عن الطرق التقلیدیة سواء المعلمیة واللامعلمیة والتی تفقد کفاءتها فی حالة جود قیم شاذة فی بیاناتها، وفی بعض الحالات یتحتم عدم حذف قیم المشاهدات الشاذة بل توظیف طرائق بدیلة للتقدیر تکون غیر حساسة Insensitive أو حصینة تجاه وجود هذه القیم فی العینة، أی أنها تستطیع التعامل معها آخذة بنظر الاعتبار طبیعة البیانات والعلاقة بین متغیراتها، وهذه الطرائق تسمى بالطرائق الحصینة (Robust Methods) أما المقدرات الناتجة عنها فتسمى بالمقدرات الحصینة (Robust Estimators). إذ أن الطرائق الحصینة تعطی أوزان أقل للمشاهدات الشاذة وذلک للتقلیل من تأثیرها على عملیة التقدیر، ویتم غالباً استخدام الأسلوب التکراری Iteration فی الحساب للتقلیل من تأثیر وجود الارتباط الذاتی والتعددیة الخطیة فی البیانات. ومن أهم هذه الطرائق التی تم استخدامها فی هذه الدراسة هو أسلوب MM الحصین (Huber , 1964). ومن أجل تحقیق الغرض من البحث تم استخدام برنامج R فی کتابة أکواد التحلیل، وقد تم اختبار تحقیق البیانات للافتراضات الخاصة بتحلیل المکونات الرئیسیة أولاً بالبیانات الأصلیة ومن ثم تم حساب المکونات الرئیسیة وأُجریت بعدها المقارنة بین نتائج النموذج الأصلی والنماذج الأخرى فضلاً عن الأسلوب المقترح. 2- هدف البحث یهدف هذا البحث إلى تحصین مقدرات نموذج الانحدار ضد وجود القیم الشاذة فی البیانات سواءً فی المتغیر المعتمد أو فی المتغیرات المستقلة، فضلاً عن التعامل مع وجود مشکلة تعدد العلاقة الخطیة بین المتغیرات التوضیحیة. 3- الجانب النظری 3-1)) مشکلة تعدد العلاقة الخطیة Multi-Collinearity Problem تظهر مُشکلة تعدُد العلاقة الخطیة عندما یرتبط اثنان أو أکثر من المتغیرات التوضیحیة (المستقلة) بعلاقة خطیة قویة جداﹰ بحیث یُصبح من الصعب فصل أثر کُل مُتغیر عن المُتغیر المُعتمد، وان مُصطلح تعدُد العلاقة الخطیة هو مُصطلح مُرکب من کلمة multi (مُتعدد) وco (مُشترک) وlinearity (خطی)، وتختلف درجة التعدُد الخطی تبعاً لقوة الارتباط بین المُتغیرات التوضیحیة، فإذا کان مُحدد مصفوفة المعلومات مُساویاً للصفر فإننا نحصل على تعدد خطی تام (Perfect Multi-collinearity) وبهذا لا نستطیع تقدیر معلمات الانحدار باستخدام طریقة المُربعات الصُغرى الاعتیادیة، حیث أن تبایُن مُقدرات معلمات الانحدار ستکون قیمها غیر مُعرفة (لأن قیمة المحدد فی المقام مساویة للصفر)، أی أن (الخطیب ،2010): Undefined … (1)
أما إذا کان المحدد قریباً من الصفر فإننا نحصل على تعدُد خطی غیر تام (ضعیف) (Weak Multicollinearity) ، وعند استخدام طریقة المُربعات الصُغرى الاعتیادیة لغرض تقدیر معلمات الانحدار فإننا نحصل على مُقدرات غیر دقیقة ما یؤدی إلى الحصول على تبایُن عالٍ (لأن المقام سیکون صغیراﹰ)، وکما یلی: Large value … (2) وقد اهتم الباحثون بالتخلُص من مُشکلة تعدُد العلاقة الخطیة أو التقلیل من أثرها، وذلک باستخدام أسالیب متعددة وطرائق مختلفة لمعالجة المُشکلة، ومن هذه الطرائق ما یأتی: 1- إضافة بیانات جدیدة إلى البیانات الأصلیة ، حیث أن زیادة عدد المُشاهدات یؤدی إلى التقلیل من قیمة الأخطاء المعیاریة، ویعود السبب فی ذلک إلى الزیادة الحاصلة فی قیمة مُحدد مصفوفة المعلومات. 2- استبعاد أحد المتغیرات ذی الارتباط المرتفع مع أحد المتغیرات التوضیحیة الأخرى، مع مراعاة أن أی استبعاد للمتغیرات المهمة یؤدی إلى حصول مشکلة فی توصیف النموذج. 3- استخدام المعلومات المُسبقة، إذ یتُم وضع معلومات مُسبقة حول معلمات الانحدار لغرض تقدیرها، حیث تأخذ المعلومات المُسبقة صیغاً ثابتة وعشوائیة ومُختلطة. 4- استخدام تحویلات على المُتغیرات التی لها ارتباط عالٍ وهناک نوعان من التحویلات القیاسیة وهما الأکثر شیوعاً: التحویل إلى المتغیر الطبیعی(Normal variable form) والتحویل الثابت بطول واحد(Unit length scaling) . 5- استخدام طرائق تقدیر مُتحیزة، منها انحدار الحرف (Ridge Regression)، وانحدار المرکبات الرئیسیة (Principal Components Regression)، وانحدار الجذور الصماء (Latent Root Regression)، والمُقدر المُتقلص (Shrunken Estimator) أو إحدى الطرق غیر المتحیزة مثل طریقة المُربعات الصُغرى المُقیدة (Restricted Least Square). وهناک عدة معاییر للکشف عـن وجـود التـداخل الخطی منها ما هو عام فی اختبار وجود المشکلة ومنها ما هو خاص یتناول کل متغیر على حدى، ومن أهمها: أ- المؤشرات العامة (للمتغیرات بالعموم) لوجود مشکلة تعدد العلاقة الخطیة أولاً: المحدد Determinant یکون محدد المصفوفة مفرداً Singular اذا احتوى على أعمدة وصفوف مرتبطة خطیاً. لذلک، فإن محدد مصفوفة الارتباط (R= ) کون المتغیرات محولة إلى الصیغة القیاسیة یشیر إلى وجود مشکلة تعدد العلاقة الخطیة. ومع ذلک، فإن المحدد لا یوفر معلومات حول الترابط بین معلمات الانحدار. والمحدد قیمته محصورة بین الصفر والواحد (1≥ 0≤ ) (Cooley & Lohnes, 1971). فإذا کانت قیمته تقترب من الصفر فهذا یعنی وجود تداخل خطی بین المتغیرات (Asteriou & Hall, 2007).. ثانیاً: معامل التحدید Coefficient of Determination یعرف معامل التحدید بأنه نسبة تأثیر المتغیرات المستقلة فی التغیرات الحاصلة فی المتغیر التابع Y (Gujarati & Porter, 2008; Stock &Watson, 2010).، ومن ناحیة اخرى کلما کانت قیمة معامل التحدید عالیة زادت فرصة وجود تعدد علاقة خطیة بین المتغیرات وصیغته الریاضیة کالآتی: (Asteriou & Hall, 2007; Gujarati & Porter, 2008; Maddala, 1988) … (3) ثالثاً: Farrar : إنه اختبار Chi-Square لاکتشاف قوة العلاقة الخطیة بین مجموعة من المتغیرات المستقلة فی نموذج الانحدار، ویتم حسابه وفقاً للصیغة الآتیة: = … (4) فإذا کان فهذا یعنی وجود مشکلة تعدد العلاقة الخطیة (Farrar& Glauber,1967). رابعاً: الدلیل الشرطی Condition Index یستخدم هذا المؤشر للکشف عن وجود التعدد الخطی ومن خلال القیم الممیزة یتم حساب هذا المؤشر وفقاً للصیغة الآتیة (المولى،2016): , j = 1,2,…,p … (5) حیث ان: : القیمة الممیزة ذات التسلسل (j). ویستفاد من الدلیل الشرطی فی قیاس درجة تعدد العلاقة الخطیة بالاعتماد على قیمة الجذر الممیز j ، حیث اقترح کل من Belsley,Kuh & Welsch فی عام 1980 أنه اذا کانت قیمة الدلیل الشرطی بحدود العشرة تکون العلاقة ضعیفة ، أما عندما (30≤ ≤100) تکون العلاقة متوسطة أما إذا کانت ( ) فهذا یعنی إن العلاقة قویة. خامساً: مجموع مقلوب الجذور الممیزة Sum of reciprocal of eigenvalues … (6) اذا کان هذا المجموع أکبر من خمسة مرات عدد المتغیرات التفسیریة فهذا یعنی وجود تداخل خطی بین المتغیرات التفسیریة ایضاً.(سالم،2018) سادساً:Theil’s indicator اقترح (Theil, 1971)مقیاساً للعلاقة الخطیة بین المغیرات المستقلة بناءً على المساهمة التزایدیة ( ) لمربع الارتباط المتعدد ، حیث أن هو عبارة عن معامل التحدید لانحدار المتغیر على بقیة المتغیرات المستقلة فی النموذج. – … (7) فاذا کانت m=0 فعندها تکون کل المتغیرات التوضیحیة غیر مرتبطة لأن المساهمة المتزایدة تضاف جمیعها إلى ، ومع ذلک إذا کانت m فهذا یعنی وجود مشکلة تعدد علاقة خطیة بین المتغیرات. سابعاًRed indicator : قدم Kovács et al., 2005)) مؤشراً موحداً لتشخیص تعدد العلاقة الخطیة باستخدام الجذور الممیزة أو تحدید معدل الارتباط فی البیانات، وصیغته الریاضیة کالآتی: Red = … (8) اذا کانت قیمة المؤشر صفر (Red=0) یشیر إلى عدم وجود تعدد علاقة خطیة واذا کانت قیمته تقترب من الواحد (Red ) یشیر الى وجود تعدد علاقة خطیة بین المتغیرات. ب- المؤشرات الفردیة (لکل متغیر على حدى) لوجود مشکلة تعدد العلاقة الخطیة اولاً: معامـل تضـخم التباین Inflation Variance Factor (VIF) تم اقتراح هذا المقیاس عام 1967 من قبل Farrar&Glauber وقد أطلق علیه Marquardt عام 1970 بمعامل تضخم التباین Variance Inflation Factors ویرمز له بالرمز (VIF) ومعاملات تضخم التباین یمکن التعبیر عنها بصیغة ریاضیة تأخذ الشکل الآتی(النعیمی،2005): , j=1, 2,…, m ...(9) حیث أن: m : تمثل عدد المتغیرات التوضیحیة ، Rj2: تمثل معامل التحدید لانحدار المتغیر Xj على بقیة المتغیرات التوضیحیة وإن ، فاذا کان هناک ارتباط بین Xj مع بقیة المتغیرات فهذا یؤدی الى ان قیمة سوف تقترب من الواحد مما یؤدی أن قیمة (VIF) تکون کبیرة جداً وهذا یؤشر على وجود مشکلة تعدد العلاقة الخطیة بین المتغیرات التوضیحیة ، أما إذا کان المتغیر Xj مستقل تماماﹰ عن بقیة المتغیرات التنبؤیة الاخرى فان (R2=0) وبذلک تکون قیمة (VIF=1) ویعنی هذا عدم وجود مشکلة تعدد العلاقة الخطیة بین المتغیرات التنبؤیة. أوضح Montgomery أنه إذا کانت قیمة فانه یعد سبباً کافیاً لإهمال المتغیر Xj من التحلیل. ثانیاً : TOL یستخدم هذا المؤشر للکشف عن وجود مشکلة تعدد العلاقة الخطیة وصیغته الریاضیة هی: … (10) فاذا کانت قیمة فهذا یعنی وجود تعدد علاقة خطیة بین المتغیرات وکما وضح کل من et al., 2004; Marquardt, 1970). (Kutner. ثالثاً: الجذور الممیزة Eigenvalues اقترح کل من الباحثین Kendall (1957) و Silvey (1969) استخدام قیم الجذور الممیزة لمصفوفة الارتباط للتحقق من وجود تعدد علاقة خطیة و حیث تشیر قیم الجذور الممیزة الصغیرة والقریبة من الصفر الى وجود علاقة قویة(Kendall, 1957; Silvey, 1969). رابعاً: CVIF هو مقیاس تم اقتراحه من قبل کل من الباحثین Curto and Pinto (2011) للکشف عن وجود مشکلة تعدد العلاقة الخطیة ولتقییم تأثیر الارتباط بین معلمات الانحدار فی تباین ویتم حساب هذا المقیاس وفقاً للصیغة الآتیة: … (11) حیث أن: فإذا کانت قیمة فهذا یعنی وجود مشکلة تعدد العلاقة الخطیة بین المتغیرات المستقلة (Curto&Pinto, 2011). خامساً: Leamer’s method اقترح Leamer (Greene,2002) مقیاساً لتأثیر تعدد العلاقة الخطیة للمتغیر ذو التسلسل j على بقیة المتغیرات وصیغته الریاضیة هی : … (12) علماً أن هذا المقیاس هو بمثابة الجذر التربیعی لنسبة التباینات من المعلمات المقدرة ( ) عند تقدیرها بدون ومع معلمات الانحدار الأخرى، فإذا کان المتغیر غیر مرتبط بالانحدارات الأخرى فإن سیکون 1 وإلا فسیکون مساویًا لـ ، واذا کانت فهذا یعنی وجود مشکلة تعدد العلاقة الخطیة. سادساً: F and relation یمکن استخدام العلاقة بین اختبارF و من انحدار على الانحدارات المتبقیة الاخرى لاکتشاف تعدد العلاقة الخطیة، وتوصف العلاقة بأنها: … (13) حیث = فإذا کان فهذا یعنی أن تربطه علاقة خطیة مع المتغیرات الاخرى ویجب إسقاطها من النموذج ((Gujarati and Porter,2008. سابعاً: Farrar هو اختبار F لتحدید الانحدارت التی تربطها علاقة خطیة ببقیة المتغیرات ویتم حساب احصاءة الاختبار من معاملات الارتباط المتعددة بین المتغیرات المستقلة وصیغته الریاضیة هی: … (14) فإذا کانت فهذا مؤشر على وجود مشکلة تعدد علاقة خطیة کبیرة (Farrar & Glauber, 1967).. (3-2) الطرائق الحصینةRobust Methods إن العدید من الباحثین توصلوا إلى أن الطرائق التقلیدیة للتعامل مع المشاکل تکون غیر کفوءة فی حالة عدم تحقق أحد الافتراضات أو الشروط التی تعتمد علیها. لذلک سعى الباحثون لإیجاد طرائق أکثر کفاءة ولا تتأثر کثیراً بالانحرافات عن الافتراضات المحددة، فکانت الطرائق الحصینة (Robust Methods) هی البدیل الجید وهی أقل تأثراً فی حالة اختراق البیانات لشرط من شروط التحلیل المستخدم، وتمتاز بأنها مناسبة لفئة واسعة من التوزیعات فی تقدیر معلمات النموذج الخطی. أما المقدرات الناتجة عن هذه الطریقة فتسمى بالمقدرات الحصینة وتکون غیر حساسة تجاه الشواذ، وبالرغم من وجود طرق حصینة مختلفة إلا أن أغلبها تشترک بنقطتین رئیسیتین، الأولى هی بإعطاء وزن أقل للمشاهدة الشاذة (إن وجدت) وذلک للتقلیل من تأثیرها، والنقطة الثانیة استخدام أسلوب التکرار (Iteration) الذی یؤدی إلى تقلیل تأثیر الارتباط الذاتی والتعدد الخطی (Rousseeuw , 2005)، ومن أهم الطرائق الحصینة المستخدمة لإیجاد مقدرات الأنموذج هی:- (1-3-2) مقدر MMالحصین MM-estimators من المعلوم أن مقدرات M تصلح للتعامل مع مشکلة تقدیر المعلمات للمتغیر المعتمد والمتغیرات المستقلة لکن هذه المقدرات تکون غیر حصینة (Non-Robust) ضد الحالات التی یکون فیها البعد X x-direction یحتوی على قیم شاذة (أی عندما توجد فی مصفوفة التنبؤ قیم مخلة أو جاذبة Leverage Points). فیعتبر مقدر MM الذی تم اقتراحه من قبل Yohai, 1987)) ذو نقطة انهیار (Breakdown) عالیة حتى عن وجود نقاط جذب (Leverage Points) فی البیانات ویعطی مقدرات ذات کفاءة جیدة، علماً أن ثابت التولیف (Tunning Constatnt) یتم اختیاره لتحقیق نقطة الانهیار والکفاءة المطلوبتین (Heritier et. al., 2009) و(Riazoshams, 2019). وقد سمی هذا المقدر بمقدرMM إشارة إلى حقیقة أن أکثر من مقدرM واحد یستخدم للحصول على المقدر النهائی حیث یتم التقدیر باستخدام طریقة المربعات الصغرى المعاد وزنها (IRLS) (Andersen, 2008). ویقوم مقدرMM على تقدیر معلمات الانحدار باستخدام تقدیر S (S-estimation) الذی یقوم بتصغیر تباین الأخطاء (البواقی) من مقدرات M (M-estimation) ومن ثم إعادة تطبیق مقدرM مرة ثانیة. حیث یتم تقدیر المعلمات لمقدرMM کحل لدالة التصغیر التالیة(Almetwally and Almongy, 2008) و (Susanti et. al., 2014): … (15) or … (16) حیث أن sMM یمثل الانحراف المعیاری الذی یتم الحصول علیه من تقدیر S وأن هی دالة Tukey’s biweight: … (17) حیث أن … (18) ویقوم استخدام هذا المقدر من خلال الموازنة بین الکفاءة عند التوزیع الطبیعی وبین التحیز عندما تکون البیانات ملوثة بالقیم الشاذة، حیث أنه کلما زادت الکفاءة کلما زاد التحیز (Maronna et. al., 2019). (2-3-2)بعض مقاییس التشتت الحصینة Some Robust Measures of Scale ولأجل المقارنة بین أداء کل طریقة من الطرق المستخدمة فی حالات عدم وجود شواذ وحالتی وجود قیم شاذة فی المتغیرین المعتمد والمتغیرات المستقلة تم استخدام العدید من معاییر المقارنة الشائعة ومنها الخطأ القیاسی لقیم البواقی Residual standard error، معامل التحدید R-Square، متوسط مربعات الخطأ MSE، جذر متوسط مربعات الخطأ RMSE، وسیط نسبة الأخطاء المطلقة Median Absolute Percentage Error MDAPE، ووسیط الأخطاء المطلقة MDAE وهی من المعاییر المعروفة فی مقارنة الکفاءة ودقة التقدیر بین النماذج المختلفة(Memmedli and Ozdemir , 2009) , (Boiroju and Reddy, 2012), (Willmott and Matsuura, 2005), (Sarwar and Sharma, 2014), (Woschnagg and Cipan, 2004), (Makridakis and Hibon, 1995) سنتناول فی هذه الفقرة بعض مقاییس التشتت الحصینة التی سیتم استخدامها فی التحالیل الإحصائیة وهی کما یلی: 1-الخطأ القیاسی لقیم البواقی Residual standard error هو الجذر التربیعی لحاصل قسمة مجموع مربعات البواقی على درجات الحریة (جذر متوسط مربعات الخطأ)، وکلما صغرت قیمة هذا المعیار دل ذلک على کفاءة النموذج المقدر. أی أنه مقیاس یستخدم لتقییم مدى ملائمة نموذج الانحدار الخطی للبیانات، وصیغته الریاضیة هی: RSE = … (19) 2- متوسط مربعات الخطأ Mean Square Error (MSE) متوسط مربعات الخطأ العشوائی هو مقیاس للدقة یتـم حسابه بتربیع الخطأ لکل مشاهدة فی مجموعة البیانات، ومن ثـم إیجاد المعدل أو متوسط القیـم لمجموع هذه المربعات، حیث أن الأخطاء یتم تربیعها قبل أخذ مجموعها ویمکن توضیح هذا المعیار کما یأتی:- (سالم،کورکیس شهید وعبد الامیر،2016) MSE = … (20) وباستخدام المصفوفات: MSE = … (21)
: یمثل حاصل ضرب مصفوفة قیـم المتغیر التابع ومدورها. : یمثل مصفوفة معلمات الانحدار المقدرة. : یمثل حاصل ضرب مدور مصفوفة قیـم المتغیرات المستقلة ومصفوفة قیـم المتغیر التابع. :n حجـم العینة ، p: عدد متغیرات الاستجابة. 3-جذر متوسط مربعات الخطأRoot Mean Square Error (RMSE or RSE) هو مقیاس یعبر عن الجذر التربیعی لمقیاس آخر وهو متوسط مربعات الخطأ (Mean Square Error (MSE))، وتکون صیغته الریاضیة کما یلی: RMSE … (22) ولغرض المقارنة بین النماذج، من العادة استخدام مقیاس جذر متوسط مربعات الخطأ(RMSE) بدلاً من متوسط مربعات الخطأ(MSE)، وذلک لأن جذر متوسط مربعات الخطأ قد تم قیاسه بالوحدات الأصلیة للقیم نفسها. ویعد هذا المقیاس أکثر حساسیة من المقاییس الأخرى لقیم البواقی الکبیرة، حیث إن عملیة تربیع القیم تعطی أوزاناً غیر متکافئة(غیر متجانسة) لقیم البواقی الکبیرة. أما إذا کانت قیمة البواقی الکبیرة لا تشکل مشکلة فی اتخاذ قرارک (مثلاً عندما تکون الکلفة الحقیقیة للخطأ تتناسب تقریباً مع حجم الخطأ، ولیس مع مربع قیمته) فعندها قد یکون من المناسب استخدام MAE أو MAPE کمعاییر للمقارنة. إن جذر متوسط مربعات الخطأ(RMSE) ومتوسط الأخطاء المطلقة (MAE) یستخدمان فقط للمقارنة بین النماذج التی تقاس قیم البواقی فیها بنفس وحدات القیاس. ومن المعلوم أن متوسط مربعات الخطأ(MSE) ومتوسط الأخطاء المطلقة(MAE) ربما یعالجان مشکلة وجود بواقی موجبة وسالبة کما هو معروف، وهما یعدان بدیلین لمحدودیة استخدام متوسط الأخطاء (Mean Error ME)، ولکنهما یفشلان فی تزویدنا بمعلومات عن الدقة التنبؤیة المتعلقة بوحدات القیم التی تحسب لها(العبیدی،2015). 4- وسیط الأخطاء المطلقة (MDAE) Median Absolute Error هو متوسط الفرق المطلق بین متجهین رقمیین، وصیغته الریاضیة هی:(Alexel,2019) MDAE = median … (23)
حیث أن: : القیم الفعلیة : القیم المتوقعة 5- وسیط نسبة الأخطاء المطلقة Median Absolute Percentage Error (MDAPE) هو وسیط النسبة المئویة لحاصل قسمة قیم البواقی الى قیم المشاهدات الحقیقیة للمتغیر المعتمد بعد ترتیب القیم المطلقة للأخطاء، وصیغته الریاضیة هی: (Alexel,2019) MDAPE = … (24) 4- الجانب التجریبی إن تحلیل المکونات أو المرکبات الرئیسیة هو الأساس فی أسلوب انحدار المکونات الرئیسیة حیث أنه فی تحلیل المکونات الرئیسیة الاعتیادی یتم إیجاد المکونات أو المرکبات ثم إیجاد قیم التحمیلات والجذور الممیزة أما انحدار المکونات الرئیسیة فتکون فیه المتغیرات المستقلة على شکل مکونات رئیسیة نقوم بدراسة تأثیرها على المتغیر المعتمد، وعلیه نحتاج إلى انحدار المکونات الرئیسیة عندما یکون لدینا مشکلة تعدد العلاقة الخطیة بین المتغیرات المستقلة، وهنالک بعض الحالات یکون فیها المتغیر المعتمد أو المتغیرات المستقلة ملوثة بقیم شاذة فتسبب خفض فی کفاءة النموذج المقدر وعندها تتداخل أهمیة دمج انحدار المکونات الرئیسیة مع الاسالیب الحصینة للحصول على مقدرات کفوءة، وقد تم فی هذا البحث استخدام أوزان حصینة على نموذج مقدر بطریقة المربعات الصغرى متغیراتها المستقلة عبارة عن المکونات الرئیسیة للنموذج الأصلی. ولمقارنة کفاءة الطرق تمت تجربة نماذج بثلاثة وخمسة وتسعة متغیرات على التوالی وبأحجام عینات 50 و 100 و 200 مشاهدة على التوالی فی حالة عدم وجود شواذ فی البیانات وأیضاً فی حالات وجود 5% أو %6 و%10 و %20 و %30 و %40 شواذ فی البیانات فی المتغیر المعتمد Y وتم تطبیق النموذج المقترح لانحدار المربعات الصغرى الاعتیادیة للمرکبات الرئیسیة والموزونة بمقدرMM الحصین بدوال أوزان ومنها Huber و Hampel و Bisquare على بیانات تحتوی على قیم جاذبة کی نتمکن من تمییز الطریقة الأکثر کفاءة مقارنة ببقیة الطرق وذلک فی حالات وجود 5% أو %6 و%10 و %20 و %30 و %40 شواذ فی البیانات وفی المتغیرات المستقلة وکما هو مبین فی لاحقاً وتم تکرار کل التجارب ( Replicates = 2970 ) مرة لغرض الحصول على نتائج متسقة، ولإعطاء صورة شاملة عن کفاءة الطرق. ولأجل المقارنة بین أداء کل طریقة من الطرق المستخدمة فی حالات عدم وجود شواذ وحالتی وجود قیم شاذة فی المتغیرین المعتمد والمتغیرات المستقلة تم استخدام العدید من معاییر المقارنة الشائعة ومنها الخطأ القیاسی لقیم البواقی Residual standard error، معامل التحدید R-Square، متوسط مربعات الخطأ MSE، جذر متوسط مربعات الخطأ RMSE، وسیط نسبة الأخطاء النسبیة Median Absolute Percentage Error MDAPE، ووسیط الأخطاء المطلقة MADE وهی من المعاییر المعروفة فی مقارنة الکفاءة ودقة التقدیر بین النماذج المختلفة (Memmedli and Ozdemir , 2009) , (Boiroju and Reddy, 2012), (Willmott and Matsuura, 2005), (Sarwar and Sharma, 2014), (Woschnagg and Cipan, 2004), (Makridakis and Hibon, 1995)
جدول (1): مقارنة کفاءة الطرق لنتائج المحاکاة لثلاثة متغیرات ولعینة بحجم 50 مشاهدة
جدول (2) مقارنة کفاءة الطرق لنتائج المحاکاة لخمسة متغی ارت ولعینة بحجم 100مشاهدة
جدول (3): مقارنة کفاءة الطرق لنتائج المحاکاة لتسعة متغیرات ولعینة بحجم 200
جدول (4): تفسیر النتائج لکل تجارب المحاکاة التی بلغت 2970 محاولة
وعلیه فإن خلاصة تجارب المحاکاة ولــــ 2970 محاولة قررنا بأن طریقة المربعات الصغرى الاعتیادیة للمرکبات الرئیسیة والموزونة بمقدرMM الحصین هی الأفضل أی أن نموذج انحدار المکونات الرئیسیة بالطرق الحصینة قد تفوق على کل الطرق الأخرى. 5- الجانب التطبیقی Application Part لتطبیق الطریقة المقترحة تم جمع بیانات من معمل إسمنت بادوش للفترة من 2008- 2014، مع استبعاد أشهر الصیانة التی توقف المعمل فیها عن الانتاج. یتکون الاسمنت من بعض المواد الأساسیة المتوافرة بصورة طبیعیة من الحجر والرمل والحصى وبعض الإضافات الاخرى أثناء عملیة التصنیع والتی تتضمن مواد تعمل على التغلب على بعض المشاکل الفنیة ومواد لزیادة بیاض الاسمنت. وقد تم تحدید المتغیرات الآتیة:- X1: تمثل أوکسید المغنیسیوم Mgo، X2: تمثل أوکسید الکالسیوم Cao، X3 : تمثل أوکسید الحدیدیک Fe2o3، X4 : تمثل أوکسید الالمنیوم Al2o3، X5 : تمثل ثنائی أوکسید السیلیکون Sio2، X6: تمثل معامل الإشباع الجیری L.S.F، X7 : تمثل مواد غیر قابلة للذوبان In.R، X8: تمثل الفقدان بالحرق L.O.، X9: تمثل ثالث أوکسید الکبریت Sio3 ، Y: تمثل تمدد الإسمنت Autoclave. 5-1)) اختبار وجود مشکلة تعدد العلاقة الخطیة تم فی البدأ التأکد من وجود مشکلة تعدد العلاقة الخطیة بین المتغیرات المستقلة لبیانات معمل السمنت، وتم البدأ بمصفوفة الارتباط ورسوم الانتشار بین المتغیرات المستقلة وکما موضح فی الشکل (1) أدناه.
الشکل (1): شکل یمثل مصفوفة الارتباط نلاحظ من الشکل (1) أعلاه الذی یبین رسم مصفوفة الارتباط أن هنالک علاقة قویة للمتغیرX2(أوکسید الکالسیوم Cao) مع المتغیرین X6(معامل الإشباع الجیری L.S.F) و X8(الفقدان بالحرق L.O.)، وکذلک بینX5 (ثنائی أوکسید السیلیکون Sio2) و X6وربما ینتج عن ذلک حصول مشکلة تعدد العلاقةالخطیة. والجدول (5) أدناه یمثل المؤشرات العامة لوجود مشکلة تعدد العلاقة الخطیة. المؤشرات العامة لوجود مشکلة تعدد العلاقة الخطیة :(5)جدول
1 --> COLLINEARITY is detected 0 --> COLLINEARITY in not detected by the test
ونلاحظ من الجدول (5) أعلاه أن قیمة محدد مصفوفة المعلومات صغیر جداً، وقریب من الصفر (0.0014) وکذلک فإن قیمة إحصاءة مربع کای لفارار وکلاوبر(Farrar and Glauber) کبیرة جداً، کما أن قیمة العدد الشرطی Condition Number کبیرة جداً، کذلک فإن معیار Red Indicator غیر مساویة للصفر، وأخیراً فإن قیمة مؤشر Theil أکبر من الواحد الصحیح بکثیر. کل هذه الأمور تدل على وجود مشکلة تعدد العلاقة الخطیة. جدول (6): المؤشرات الفردیة لوجود مشکلة تعدد العلاقة الخطیة
ونلاحظ من الجدول (6) أعلاه وکما بین الشکل (1) السابق أن هنالک علاقة قویة للمتغیر X2(أوکسید الکالسیوم Cao) مع المتغیرین X6(معامل الإشباع الجیری L.S.F) و X8(الفقدان بالحرق L.O.)، وکذلک بین X5 (ثنائی أوکسید السیلیکون Sio2) و X6. هذا یظهر من خلال قیم معامل تضخم التباین التی زادت عن 10 وبالمقابل قیم ال TOL الصغیرة وکبر قیم Wi و Fi الکبیرة وکذلک قیم إحصاءة Leamer الصغیرة وکذا قیم CVIF والتی زادت عن العشرة وکل هذه أدلة على وجود مشکلة تعدد العلاقةالخطیة، وقد تناول العدید من الباحثین مؤشرات الکشف عن وجود مشکلة تعدد العلاقة الخطیة منهم (Asteriou and Hall, 2007), (Gujarati and Porter, 2009), (Farrar and Glauber, 1967), (Belsley et. al., 2004), (Chatterjee and Hadi, 2012), (Maddala, 1992), (Kovács et. al., 2005), (Kutner et. al., 2004), (Marquardt, 1970), (Curto and Pinto, 2011), (Greene, 2002), (Imdadullah et. al., 2016).
الشکل (2): شکل یبین رسم معامل تضخم التباین والجذور الممیزة والشکل (2) أعلاه یبین ما أکدته المؤشرات العددیة ویتضح من رسمی VIF ورسم الجذور الممیزة بأن هنالک ثلاثة متغیرات تعانی من مشکلة تعدد العلاقة الخطیة. (5-2) انحدار المکونات الرئیسیة بعد التأکد من وجود مشکلة تعدد العلاقة الخطیة تمت مقارنة أداء الطرق المقترحة على بیانات معمل الإسمنت بعد تحویل المتغیرات إلى الصیغة القیاسیة (لاختلاف وحدات قیاسها) ومن ثم مقارنة کفاءة الطرق المقترحة فی تقدیر نموذج الانحدار لتمدد الإسمنت على متغیرات الدراسة التسعة. وقد کانت مقاییس الکفاءة کما هو مبین فی الجدول أدناه والتی یتضح منها تفوق طریقة المربعات الصغرى الاعتیادیة للمرکبات الرئیسیة والموزونة بمقدر MM الحصین.
جدول (7): مقاییس الکفاءة
ونلاحظ من رسم البواقی ضد القیم المقدرة فی الشکل (3) أدناه لنموذج انحدار المتغیر المعتمد y (تمدد الإسمنت) الموزون بمقدر MM (الرسوم للدوال الأخرى مطابقة لها) ضد المکونات الرئیسیة المقابلة للمتغیرات المستقلة أنه لا توجد علامة لوجود ارتباط بین البواقی والقیم المقدرة ولا یوحی الشکل بوجود علاقة غیر خطیة. أما بالنسبة لرسم QQ-Plot نلاحظ وجود حوالی ثلاثة قیم شاذة (122, 113, 81) حیث نلاحظ انحراف النموذج عن التوزیع الطبیعی کما هو واضح فی أطراف الرسم. وبالنظر إلى رسم جذر الأخطاء القیاسیة ضد القیم المقدرة أن النقاط متوزعة حول الخط بشکل منتظم الأمر الذی یدل على عدم وجود مشکلة عدم تجانس التباین بین الأخطاء. وأخیراً وبالنظر إلى رسم قیم الجذب Leverage (مسافات کوک Cook’s Distance) ضد الأخطاء القیاسیة نجد أن الرسم قد أفرز قیمتین شاذتین فی المتغیر المعتمد (122, 113) وهما نفس القیمتین اللتین تم تشخیصهما فی رسم QQ-Plot، ولا یبدو من الرسم وجود أیة قیم جاذبة Leverage Points)) فی البیانات.
الشکل (3): الرسوم التشخیصیة لمشاکل نموذج الانحدار الخطی (LSRobMM) 6- الاستنتاجات: على ضوء ما تم التوصل الیه فی الجانبین التجریبی والتطبیقی یمکن استخلاص أهم الاستنتاجات الخاصة بالدراسة وکالاتی: 1- بقی الأسلوب المقترح لطریقة المربعات الصغرى للمکونات الرئیسیة والموزونة بمقدر MM الحصین متفوقاً فی حالة وجود مشکلتی الشواذ فی المتغیر المعتمد Y-outliers وتعدد العلاقة الخطیة فی البیانات فی آنٍ واحد ما یدل على حصانته بالإتجاهین وبوجود تعدد العلاقة الخطیة. 2- فی حالة استخدام اسلوب المحاکاة ولکل النماذج وکل نسب التلویث وکل أحجام العینات، أظهر أسلوب MM الحصین المقترح (LSRobMM) تفوقاً واضحاً على نموذج المربعات الصغرى الاعتیادیة، والنموذج الموزون بالدوال (Huber,Hampel,Bisquare) کون مقدر MM حصین ضد الشواذ فی کل من المتغیر المعتمد والمتغیرات المستقلة. 3- من خلال مناقشاتنا نستنتج أنه لـــ 2970 محاولة مختلفة لسیناریوهات تجارب المحاکاة وتلویث متغیر الاستجابة y، سجلت الطریقة المقترحة LSRobMM تفوقاً واضحاً على باقی الطرق وذلک من خلال الانخفاض الواضح فی قیم معاییر المقارنة (Least Squares, LSPCRRobHuber, LSPCRRobHampel, LSPCRRobBisquare)، کما أظهر اسلوب MM الحصین المقترح أفضلیة على أسلوب المربعات الصغرى الاعتیادیة فی جمیع أحجام العینة ونسب التلویث، وکذلک أظهر أفضلیة على المقدرات الموزونة دوال الوزن (Huber،Hampel،Bisquare). | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
References | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1. Al-Khatib, Ahmed Nazih Abdullah, (2010AD), “Studying the probability distribution of the random character factor by providing random prior information,” Master's thesis, College of Computer Science and Mathematics, University of Mosul- Iraq.
2. Al-Sheikh, Sawss, (2014 AD), “Using the regression of the main components in the case of the existence of the problem of polylinearity, an applied study on the determinants of inflation in Algeria,” University of Adrar, Algeria.
3. Al-Obeidi, Nada Nizar Muhammad, (2015 AD) “Proposed weighted methods for two-stage cluster immunity and estimation of regression models (clustered regression) by application to the data of a sample of thalassemia patients in Nineveh Governorate,” master’s thesis, College of Computer Science and Mathematics, University of Mosul - Iraq.
4. Al-Mawla, Taqwa Abd al-Salam Taha, (2016AD), “A comparison between the methods of regression of the principal components and partial least squares with the application on the Kirkuk Cement Factory,” Tikrit Journal of Pure Sciences, Issue-21, pp. (185-203).
5. Al-Nuaimi, Aswan Muhammad Tayyib Rashid, (2005AD), “Choice of variables in character regression,” unpublished master's thesis, College of Computer Science and Mathematics, University of Mosul- Iraq.
6. Khattar, Gibran Abdul-Amir and Muhammad, Korkis Shahid and Ismail, Muhammad Salem, (2016AD), “Estimating the parameters of multiple linear regression using robust methods (comparative study)”, Al Qadisiyah Journal of Computer Science and Mathematics, Iraq, Volume 8, Number 1.
7. Salem, Mohamed Abdel Wahhab Mohamed, (2018 AD), “Methods of treating multiple linear overlap of aggregate investment data in Sudan (1980-2014 AD)”, Sudan University of Science and Technology - College of Graduate Studies.
8. Alexei, Botchkarev, (2018), “Evaluating Performance of Regression Machine Learning Models Using Multiple Error Metrics in Azure Machine Learning Studio”, SSRN Electronic Journal, 10.2139/ssrn,3177507.
9. Almetwally, Ehab & Almongy, Hisham, (2018), “Comparison Between M-estimation, S-estimation, And MM Estimation Methods of Robust Estimation with Application and Simulation”.
10. Andersen, R., (2008), “Modern methods for robust regression”, (No. 152), Sage.
11. Asteriou, D., and Hall, S. G., (2007), “Applied econometrics: A modern approach using EViews and Microfit”, Palgrave Macmillan, New York, [p496].
12. Boiroju, N.K., and Reddy, M.K., (2012), “A Graphical Method for Model Selection”, Pakistan Journal of Statistics & Operation Research, pp. 767-776.
13. Belsley, D. A., Kuh, E., and Welsch, R. E., (2004), “Diagnostics: Identifying Influential Data and Sources of Collinearity”, John Wiley & Sons, New York.
14. Cooley, W.W. A., and Lohnes, P. R. A.,(1971), “Multivariate Data Analysis”, JohnWiley & Sons, Australia, ISBN 9780471170600, [p496].
15. Curto, J. D., and Pinto, J. C., (2011), “The corrected VIF (CVIF)”, Journal of Applied Statistics, 38(7):1499–1507.
16. Farrar, D. E., and Glauber, R. R., (1967), “Multicollinearity in regression analysis: The problem revisted”, The Review of Economics and Statistics, 49:92–107, [p495, 496, 498].
17. Greene, W. H., (2002), “Econometric Analysis”, Prentic-Hall, New Jersey, 5th edition, [p495, 497].
18. Gujarati, D. N., and Porter, D. C., (2008), “Basic econometrics”, McGraw Hill, 5th edition, [p495, 496, 497, 498,503].
19. Heritier, Stephane & Cantoni, Eva & Copt, Samuel & Victoria-Feser, Maria-Pia., (2009), “Robust Methods in Biostatistics”, 10.1002/978047074053.
20. Huber, P.J., (1964), “Robust Estimation of a Location Parameter”, Annals of Mathematical Statistics.USA, 35:73- 101.
21. Imdadullah, M., Aslam, M., and Altaf, S., (2016), “Mctest: An R Package for detection of collinearity among regressors”, R J., 8, 499–509.
Available online: https://journal.r-project.org/archive/2016/RJ-2016-062/index.html
(Accessed on 26 March 2020).
22. Kendall, M. G., (1957), “A Course in Multivariate Analysis”, Charles Griffin & Company, London.
23. Kovács, P. Petres, T., and Tóth, (2005), “A new measure of multicollinearity in linear regression models”, International Statistical Review / Revue Internationale de Statistique, 73(3):405–412.
24. Kutner M. H., Nachtsheim C. J., & Neter J., (2004), “Applied Linear Regression Models”. McGraw Hill Irwin, 4th edition, [p495, 497].
25. Maddala, G.S., (1988), “Introduction to Econometrics”, Macmillan, New York,[p496].
26. Maddala, G. S., (1992), “Introduction to econometrics”, Macmillan, New York.
27. Makridakis, S., and Hibon, M., (1995), “Evaluating accuracy (or error) Measures”, INSEAD Working Papers Series 95/18/TM. Fontainebleau, France.
28. Marquardt, D.W., (1970), “Generalized inverses, ridge regression, biased linear estimation, and nonlinear estimation”, Technimetrics, 12(3):591–612.
29. Memmedli, M., and Ozdemir, O., (2009), “A Comparison Study of Performance Measures and Length of Intervals in Fuzzy Time Series by Neural Networks”, Proceedings of the 8th Wseas International Conference on System Science and Simulation in Engineering.
30. Maronna, R. A., Martin, R. D., & Yohai, V. J., (2019), “Robust statistics: theory and methods (with R)”, John Wiley & Sons.
31. Riazoshams, Hossein & Midi, Habshah & Ghilagaber, Gebrenegus., (2019), “Robust Nonlinear Regression: with Applications using R”, 10.1002/9781119010463.
32. Rousseeuw , J. , Leroy , A. , (2005) ,“ Robust regression and outlier detection”, John Wily and Sons , New York .
33. Sarwar, A., and Sharma, V., (2014), “Comparative analysis of machine learning techniques in prognosis of type II diabetes”, AI & society, 29(1), 123-129.
34. Silvey, S. D., (1969), “ Multicollinearity and imprecise estimation”, Journal of the Royal Statistical Society, Series B (Methodological), 31(3):539–552, [p495, 497].
35. Stock, J. H, and Watson, M. W., (2010), “Introduction to Econometrics”, Pearson Addison-Wesley, 3rd edition, [p496].
36. Susanti, Y., & Pratiwi, H., (2014), “M estimation, S estimation, and MM estimation in robust regression”, International Journal of Pure and Applied Mathematics, 91(3), 349-360.
37. Theil, H., (1971), “Principles of Econometrics”, John Wiley & Sons, New York, [p495, 497].
38. Willmott, C., and Matsuura, K., (2005), “Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance”, Climate Research, 30(1), 79-82.
39. Woschnagg, E., and Cipan, J., (2004), “Evaluating Forecast Accuracy”, UK Ö konometrische Prognose, University of Vienna, Department of Economics.
40. Yohai, V. J., (1987), “High breakdown-point and high efficiency robust estimates for regression”, The Annals of Statistics, 642-656. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Statistics Article View: 301 PDF Download: 469 |