Detection of outliers in the linear regression model with application to well water pollution data on the outskirts of the city of Mosul | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
IRAQI JOURNAL OF STATISTICAL SCIENCES | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Article 8, Volume 19, Issue 1, June 2022, Pages 76-84 PDF (1.17 M) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Document Type: Research Paper | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
DOI: 10.33899/iqjoss.2022.174334 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Authors | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Saja M. Ismail* 1; Safwan Nathem Rashed2 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1Department of Informatics & Statistic, College of Computer & Mathematical Science, University of Mosul, Mosul, Iraq | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2Department of Informatics and Statistics, College of Computer Scicnes and Mathmatic, University of Mosul, Mosul, Iraq | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Abstract | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
The research idea is concerned with identifying the effect of outliers on the parameters of the multiple linear regression analysis models. Where the outliers values present in the data are detected and diagnosed if they are in the independent or the dependent variable, which causes an impact on the estimation of the parameters of the studied model. The extreme data types and methods of processing them have been identified to obtain a better model with high efficiency or reduce the impact of These values on the model; the MSE standard was developed to compare treatment methods and was applied to real data taken from the Dams and Water Resources Research Center, University of Mosul. As suggested by (شاکر،2009) is the best in detection among the methods that have been used. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Highlights | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
All the results, conclusions and efficiency obtained are estimated according to the standard of comparison according to the nature of the data currently studied and taken from the Dams and Water Resources Research Center. The best way to detect anomalous observations in multiple regression model data is using box-plot. And that the treatment of outliers led to a very significant improvement in the performance of the multiple linear regression model by predicting the values of the dependent variable in its general form. both cases,
As for the hippocampal M estimator method, the best model appeared at a breakdown point of 50%. As for the weighted hippocampal M estimator method, where the preferred model appeared at, the superiority of the MM hippocampus with an efficiency of 3.42 and a breakdown point of 50% appeared, and this was clear because it had the lowest MSE. The outlier values, which showed higher efficiency than the rest of the methods, are the method of the hippocampal M estimator, which is weighted by the rest of the laboratories.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Keywords | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Outliers; Diagnostic Detection; Treatment; Elimination Method; Hippocampal M Estimator; Hippocampal MM Estimator and Weighted Hippocampal M Estimator | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Full Text | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مقدمة من المعلوم أن التقدیر فی الطرائق الاحصائیة یعتمد على مجموعة من الفروض المهمة للحصول على نموذج انحدار دقیق ، وتعد معلومیة التوزیع الاحتمالی للبیانات أحدى أهم الأحیان تأخذ البیانات الموزعة نمطاً مختلفاً وقد لا تتمثل بنمط معین من التوزیعات والسبب یعود أحیاناً الى وجود القیم الشاذة (Outlier) وهو الأمر الذی یؤدی الى عدم التحقق فی فروض المربعات الصغرى وعندها ستفقد خصائصها الجیدة وعلیه یتم البحث عن طرق بدیلة حصینة لمعالجة هذه المشکلة وتعطینا مقدرات کفوءة ، وقد تم البحث عن طرق للکشف عن القیم الشاذة التی ظهرت فی البیانات منها طریقة الرسم الصندوقی ، وطریقة الـHat Matrix ، وطریقة حذف ستیودنت ، وقد وضعت أسالیب عدیدة لمعالجة هذه القیم عند تقدیر معلمات نموذج الانحدار أهمها أسلوب الحذف ، طریقة مقدر M الحصین الذی یعالج الخلل فی المتغیر التابع دون معالجة الخلل الموجود فی المتغیرات التوضیحیة ، کذلک استخدام طریقة مقدر MM الحصین الذی یعالج الخلل فی المتغیرات المستقلة والمتغیر التابع ، کذلک طریقة مقدر M الحصین الموزونة المقترحة من قبل(شاکر ، 2009) . تضمن هذا البحث جانبین ، الأول مفهوم القیم الشاذة وطرق الکشف عنها وتشخیصها ، وطرق کشف التأثیر عن القیم الشاذة ، وأسالیب معالجة القیم الشاذة .أما الجانب الثانی تمثل بتطبیق الطرائق الثلاثة للکشف على بیانات حقیقیة المتمثلة بتلوث میاه الابار أطراف مدینة الموصل وتم الحصول على البیانات من مرکز بحوث السدود والموارد المائیة –جامعة الموصل وتم وضع معیار متوسط مربعات الخطأ MSE للمقارنة .
تعد طریقة المربعات الصغرى الاعتیادیة أحد الطرق فی تقدیر معلمات النموذج التی تأخذ العلاقة : …(1) تشترط توفر عدد من الشروط من أجل الحصول على مقدرات دقیقة لمعلمات نموذج والذی یتمثل بالمعادلة الأتیة: …(2) ومن هذه الشروط هی التوزیع الطبیعی لمتجه الاخطاء وتجانس تباین الاخطاءHeteroscedastic) ( إلا أن هذه الشروط لاتتحقق فی کثیر من الحالات والسبب یعود إلى وجود القیم الشاذة فی متجه الأخطاء أو فی قیم المتغیرات التوضیحیة ، لذا فأن کشف هذه القیم ومعالجتها قبل تحلیل البیانات أمر فی غایة الأهمیة من أجل الحصول على نتائج واقعیة دقیقة Maronna and Martia ,2006)) وقد وضعت أسالیب للکشف عن هذه القیم منها:
a) الرسم الصندوقی :_هو أحد الطرائق الاستکشافیة الحدیثة لتعیین القیم الشاذة وهی طریقة العرض بالرسم الصندوقی Box_Plot بأستخدام خمس ملخصات المقترحة من قبل العالم (Tukey , 1977) ، وهو أحد الأسالیب الرسومیة التی توضح القیم ذات التطرف القوی (Extrem Outlier) والقیم ذات التطرف المعتدل وتحتویها البرامج والحزم الرسومیة (الصائغ ,2013). b) فحص عناصر قطر المصفوفة (Hat- Matrix): هی أحدى الطرق الأحصائیة التی من خلالها یتم الکشف عن القیم الشاذة فی المتغیرات المستقلة والتی تسمى أحیاناً بقیم قوة الرفع (Leverage values) (یوسف ،2015)إذا إن: …(3) فإذا کانت or or فهذا یدل على ان المشاهدة ))هی مشاهدة متطرفة (Belsly and Walsch, 1980) . v طرق تشخیص القیم الشاذة فی المتغیرات المستقلة: هناک ثلاث طرق لتشخیص المتغیرات المستقلة:
…(4)
...(5)
…(6) c) طریقة بواقی ستیودنت المحذوفة:_ تمثل أحدى طرق الکشف عن القیم الشاذة فی المتغیر التابع ، والتی یتم الحصول علیها بایجاد القیمة المعیاریة للبواقی المحذوفة (Deleted Residual)، حیث ان البواقی المحذوفة للمشاهدة یساوی الفرق بین قیم ( ) الفعلیة والقیم المقدرة لها ( ) باستخدام نموذج الانحدار الخطی الذی تقدیره باستبعاد المشاهدة ( )، مما یجعل تحلیل البواقی أکثر فاعلیة فی الکشف عن المشاهدات القاصیة فی المتغیر التابع (y) وتم التوصل إلى أفضل معادلة تم الاعتماد علیها فی الدراسة حیث تم حساب بواقی ستیودنت أستناداً إلى المعادلة أدناه والتی تتبع توزیع t بدرجة حریة (n-k-1) وتستند فی حسلبها على الخطأ ومجموع مربعات الخطأ فضلاً عن قیم الرفع لمصفوفة الـ Hat-Matrix (المطیری، 2010): …(7) v طرق تشخیص القیم الشاذة فی المتغیر المعتمد: یتم تشخیص القیم الشاذة لمتغیر التابع بمقارنة القیمة المطلقة لباقی ستیودنت المحذوفة بقیمة توزیع t عند درجة حریة n-k -1 ومستوى معنویة حیث تعتبر الحالة حالة شاذة لابد من دراستها وتحدید مدى تأثیرها على مقدرات المربعات الصغرى(المطیری ,2010) . …(8)
هنالک مقاییس یتم من خلالها معرفة إذا کانت المشاهدات الشاذة مؤثرة أم لا من هذه لمقاییس:
یستخدم مقیاس DFFITS لقیاس اثر المشاهدة i على القیمة المقدرة ، وتم الاعتماد على الصیغة أدناه لقیاس أثر المشاهدة على القیم المقدرة …(9) v طرق کشف التأثیر لقیمة DFFITS على النموذج: یمکن تشخیص المشاهدة i باعتبارها مؤثرة على نتائج نموذج تحلیل الانحدار الخطی المتعدد وهناک طرق کشف منها:-
أختبر بلیسلی الحالة مؤثرة على نتائج تحلیل الانحدار الخطی المتعدد أستناداً إلى عدد معلمات النموذج p الموضح بالصیغة الأتیة: …(10)
اقترح کل من شاترجی وهادی معیار لمقارنة القیمة المطلقة لـ DFFITS بقیمة اکبر قلیلاً من القیمة التی اقترحها بلیسلی واخرون تعرف کالآتی: …(11)
نستخدم مقیاس الاثر على الأخطاء المعیاریة Influence on standard Error الذی طوره بلیسلی اثر على حالة مصفوفة تباین تغایر معاملات الانحدار المقدرة. وبعد مراحل من التطور تم التوصل إلى معادلة حسابیة تعتمد على قیم الرافعة وقیم بواقی ستیودنت المحذوفة وعدد معلمات النموذج وعدد المتغیرات وفق الصیغة الأتیة: …(12) نلاحظ فی المعادلة تزید قیمة COVRATIO بزیادة قیمة الرافعة وانخفاض بواقی ستیودنت المحذوفة ویکون ذلک مؤثر جید لاکتشاف قیم COVRATIO المؤثرة على الأخطاء المعیاریة. v طریقة کشف التأثیر لقیمة (COVRATIO): اقترح (Belsley et al. , 1980) مقارنة قیمة COVRATIO بالقیمة لتشخیص اثر الحالة رقم ( ) على الأخطاء المعیاریة لمعاملات الانحدار أی إذا کانت قیمة COVRATIO خارج هذه الفترة فان المشاهدة رقم ( ) تعتبر مؤثرة على قیم الأخطاء المعیاریة لمعاملات نموذج الانحدار أعتماداً على الفترة الاتیة: …(13)
یستخدم مقیاس (مسافة کوک) لقیاس أثر المشاهدة ( ) على کل معاملات نموذج الانحدار المقدرة، وقد تم اعتماد مقیاس مسافة کوک على القیمة لأنه عندما تکون احد هاتان القیمتان کبیرة أو کلاهما فان قیمة مسافة کوک ستصبح کبیرة أیضاً. …(14) v طریقة کشف التأثیر لقیمة مسافة کوک Di :_ طریقة فوکس: حیث اقترح فوکس طریقة فی عملیة الکشف القیمة الشاذة مؤثرة على قیم معاملات الانحدار وبخلاف ذلک تکون القیمة غیر مؤثرة من خلال الصیغة الأتیة:_ …(15)
یستخدم مقیاس DFBETAS لقیاس الفرق بین معاملات الانحدار المقدرة باستخدام کل المشاهدات وقیم معاملات الانحدار المقدرة بعد حذف المشاهدة رقم (i) فی کل مرة. وهناک معادلة یجب حسابها فی کل مرة یتم فیها توفیق النموذج بعد حذف المشاهدة رقم i مستنداً إلى الخطأ المعیاری وعنصر القطر k من مصفوفة وفی الصیغة الاتیة : for k=0,1,2,…,p ...(16) v طریقة کشف التأثیر لقیمة(DFBETAS): لتشخیص الحالات المؤثرة على قیمة معامل الانحدار .
اقترح نیتر معیاراً لتحدید الحالات المؤثرة فی حالة العینات الصغیرة والمتوسطة أما فی حالة العینات الکبیرة
هو أحد طرق المعالجة الذی یتم من خلاله معالجة القیم المتطرفة فی المتغیر المعتمد وذالک بأستعمال الاسالیب الحصینة التی أقترحها (Huber,1973) .وتم الاعتماد على الصیغة أدناه یمکن الحصول على معلمات النموذج وکما یلی: …(17) هدف أسلوب M الحصین هو أعطاء أوزان صغیرة للمشاهدات غیر الاعتیادیة (المتطرفة ) من خلال عناصر القطر للمصفوفة القطریة W، ولتطبیق أسلوب M یتطلب الأمر مقدر ابتدائی وأسلوب تکراری للوصول فی النهایة إلى تقارب فی مقدرات M للمعلمة ، ویدعى هذا الأسلوب بأسلوب المربعات الصغرى الموزونة (IRLS) (RousseeandLeroy,1987).
هو أحد الأسالیب الحصینة ذات الخصائص الجیدة والأکثر استخداما ، وهو أحد طرق المعالجة یستخدم لمعالجة القیم المتطرفة فی المتغیرات المستقلة والمتغیر التابع وهو مقدر یجمع بین الکفاءة النسبیة المحاذیة العالیة لمقدر M مع نقطة انهیار عالیة لنوع معین من مقدرات S ، حیث أن مقدرMM یقوم بحساب تباین الأخطاء من مقدر ابتدائی ذو نقطة انهیار عالیة الا وهو مقدر S-Estimation ، بینما أسلوب M الذی کان یستخدم المربعات الصغرى الموزونة یأخذ الاخطاء من مقدر ابتدائی وهو مقدر المربعات الصغرى الاعتیادیة الذی تکون نقطة انهیاره 0%(شاکر,2017). وقد وصف (Yohai , 1987) ثلاث مراحل للحصول على مقدر MM:
، إذ أن کما أن دالة فی المرحلة الثالثة یجب أن لا تکون نفس دالة ، ولکن یجب أن تحقق الشروط الثلاثة (Yohai , 1987) . والصیغة أدناه تمثل مقدر معلمات النموذج MM الحصین التی تم الاعتماد علیها فی العمل. …(18)
تعتبر هذه الطریقة أحد طرق معالجة القیم الشاذة الموجودة فی متجه الأخطاء الأ أنه فی حالة وجود مثل هذه القیم فی مصفوفة المتغیرات التوضیحیة یصبح هذا الأسلوب غیر قادر على معالجة هذه القیم والتخلص من أثرها ، لذا أقترح (شاکر،2009) أولاً تعدیل القیم المتطرفة الموجودة فی مصفوفة المتغیرات التوضیحیة باستعمال مصفوفة الأوزان لطریقة المربعات الصغرى الموزونة weighted least squares (W.L.S) ومن ثم معالجة القیم المتطرفة الموجودة فی متجه متغیر الاستجابة من خلال استخدام (متجه أخطاء المربعات الصغرى الموزونة ) باستعمال أسلوب M الحصین ثانیاً، وأخیراً إیجاد المقدرات الجدیدة بعد التعدیل الأخیر وهذه المقدرات سیطلق علیها اسمM الحصینة الموزونة (Robust M-Weighted Estimator(R.M.W. وبنفس طریقة المربعات الصغرى الموزونة الاعتیادیة یمکن إیجاد M الحصین الموزون المقترح (شاکر،2009)،نحصل على المعادلة الأتیة: …(19) المعادلة(19) تمثل صیغة أسلوب Mالحصین الموزون المقترح ( R.W.M) والذی یتم بواسطته معالجة التطرف الموجود فی المتغیرات التوضیحیة أو متغیر الاستجابة أو کلیهما معاً.
فی هذا الجانب من البحث تم تطبیق ما ورد فی الجانب النظری على بیانات الدراسة تتمثل عن تلوث میاه الابار والعناصر الداخلة فی الترکیب والتی تتمثل بمتغیرات X وعناصر اخرى تتمثل بالمتغیر Y والتى تحمل اعلى نسبة من الشواذ ( AL-Youzbakey and Sulaiman , 2020) ومن هذه العناصر التی تم اعتمادها فی الدراسة کمتغیرات مستقلة (الکالسیوم (Ca2+) والبیکربونات HCO3)) والمغنیسیوم (Mg+)) ،والاملاح الذائبة (T.D.S) کمتغیر معتمد. ومن خلال دراستنا استنتجنا بأن العلاقة بین کل متغیر مستقل مع متغیر معتمد علاقة طردیة موجبة.
الشکل (1) یوضح القیم الشاذة فی المتغرات المستقلة X والمتغیر التابع Y من خلال الشکل (1) تبین إن المتغیر ظهرت فیه قیمة شاذة واحدة أما فی المتغیر ظهرت فیه قیمتین شاذتین کذلک المتغیر ظهرت فیه تسعة قیم شاذة والمتغیر یحتوی احدى عشر قیمة شاذة .
نتائج النموذج المقدر بعد حذف المشاهدة رقم (3)(93):
حیث تم الحصول على أقل MSE عند حذف المشاهدتین (3)،(39) مقارنتةً بباقی النماذج .
جدول(1) :مقدر معلمات النموذج والجذر التربیعی لتباین الاخطاء ومعامل التحدید باستخدام مقدر Mالحصین
حیث ظهرت قیمة ال MSE=0.8730 وهی قیمة صغیرة مقارنة بباقی النماذج کذالک قیمة =0.9910 وهی قیمة تفسیریة تبین أن متغیرات الانموذج (الکالسیوم ،والبیکربونات ، والمغنیسیوم) قد فسرت بنسبة (0.991) من أجمالی التغیرات الحاصلة بالمتغیر التابع (T.D.S الأملاح الذائبة الکلیة) .
جدول(2): یوضح معاملات الانحدار ومتوسط مربعات الخطأ و معامل التحدید
حیث تم الحصول على نموذج تکون فیه قیمة الMSE=1.5638 وقیمة أقل ما یمکن وقیمة معامل التحدید وهی قیمة تفسیریة تبین أن متغیرات الثلاثة (الکالسیوم، البیکربونات ،المغنیسیوم) للنموذج قد فسرت ما نسبته (0.9626) من أجمالی التغیرات الحاصلة بالمتغیر التابع (الاملاح الذائبةT.D.S).
جدول(3):معلمات النموذج بطریقة المقدر M الحصین الموزونة عند
v المقارنة بین طرق معالجة القیم الشاذة : بعد عدة طرق معالجة اجریة على بیانات التلوث تم التوصول الى اربع نماذج أنحدار یتم المقارنة بین هذه النماذج للحصول على افضل مقدر ذو کفاءة عالیة تکون فیه قیمة الMSE أقل مایمکن کما هو مبین فی الجدول الاتی: جدول (4) : نتائج المقارنة بین طرق معالجة القیم الشاذة
من ملاحظة النتائج فی الجدول (4) یمکننا القول بأن R.M.W قد عالج نسبة کبیرة من القیم الشاذة مقارنة بکل من طریقة الحذف ومقدر M الحصین ومقدر MM الحصین .
کل ما تم الحصول علیه من نتائج وأستنتاجات وکفاءة مقدر وفق معیار المقارنة حسب طبیعة البیانات المدروسة حالیاً والمأخوذة من مرکز بحوث السدود والموارد المائیة. أن أفضل طریقة لکشف المشاهدات الشاذة فی بیانات نموذج الانحدار المتعدد باستخدام الرسم الصندوقی Box-plot. وأن معالجة القیم الشاذة أدى الى تحسین کبیر جداً فی أداء نموذج الانحدار الخطی المتعدد بالتنبؤ بقیم المتغیر التابع بشکلها العام وتم التوصل الى أفضل نموذج عند معالجة القیم الشاذة بطریقة الحذف عند حذف المشاهدتین (3)،(93) حیث کانت قیمة MSE أقل مایمکن عند هذه الحالتین ، أما بطریقة مقدر M الحصین ظهر أفضل نموذج عند نقطة أنهیار قدرها 50% أما بطریقة مقدرM الحصین الموزونة حیث ظهر النموذج المفضل عند وظهر تفوق لـMM الحصین بکفاءة 3.42 ونقطة أنهیار قدرها %50 وهذا کان واضحا لحصوله على أقل MSE ، کما تبین أن أفضل طریقة لمعالجة القیم الشاذة والتی اظهرت کفاءتها العالیة عن باقی الطرق هی طریقة مقدرM الحصین الموزونة عند عن باقی المختبرات. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
References | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1. Shaker ,Saleh Muayad,(2009)," Improving the hippocampal M method in estimating multiple linear regression model parameters", Iraqi Journal of Statistical Science, No.16,Pp.219-242. 2. Shaker ,Saleh Muayad,(2017)," Proposed robust methods for the median analysis of the linear regression model and their comparison with the ordinary least squares estimators using simulation",PHD. Thesis, University of Mosul, Mosul, Iraq. 3. AL-Mutery, Abed Al-Aziz Mnahe, (2010)," Methods for discovering anomalous and affecting observations on linear regression",King Saud University, AL-Reyad. 4. AL-Saeg, Mumen Amer Hsan,(2013)," The effect of outliers on the results of some statistical hypotheses",BSc. Thesis, University of Mosul, Mosul ,Iraq. 5. Yusef, Isaam Al-deen Yusef Abd Alla,(2020)," The effect of outliers on the parameters of the multiple linear regression analysis model",PHD. Thesis, AL-Sudan University. 6. Al-Youzbakey, K.T. and Sulaiman, A.M. (2020). "Hydrochemical Evaluation for Al-Sada Area Wells and their Suitability for Agricultural Usages", Journal of Umm Al-Qura University for Applied Science, Dams and Water Resources Researches Center, University of Mosul, Mosul, Iraq. 7. Belsley,D. et al. (1980). "Regression Diagnostics: Identifying Infuential Data and sources of Collinearity", Wiley, New York, p:105. 8. Chatterjee, S. and Hadi, A. S.(1988)."Sensitivity Analysis in Linear Regression", New York: john Wiley. 9. Fox, John,(1997). "Applied Regression Analysis, Linear Models, and Related Methods", Sage publications. 10. Neter,J. et al. (1990). "Applied Linear statistical Models:Regression, Analysis of Variance, and Experimental Designs".(3rd edition ). Irwin, Homewood, IL 60430, Boston, MA 02116. 11. Rousseew P.J. and Leroy, A.M. (1987). Robust Regression and Outlier Detection. Wiley-Interscience, New York. 12. Tukey, J.W.(1977). "Exploratory Data Analysis", Addison-Wesley reading, MA. 13. Yohai, V.J. (1987). "High breakdown-point and high efficiency estimates for regression", The Annals of Statistics 15, 642-65.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Statistics Article View: 256 PDF Download: 246 |