Combining Cluster Analysis with Multiple Linear Regression Analysis to Create the Most Accurate Prediction Model for Evaporation in the Kurdistan Region of | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
IRAQI JOURNAL OF STATISTICAL SCIENCES | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Volume 20, Issue 2, December 2023, Pages 188-199 PDF (1.15 M) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Document Type: Research Paper | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
DOI: 10.33899/iqjoss.2023.0181226 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Author | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Bakhshan Ahmed Hamad* | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Department of Mathematics, College of Education, Salahaddin University, Erbil, Iraq | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Abstract | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
This study aims to build a prediction model for the influential variables of evaporation in the Kurdistan region - Iraq, using the concept of regression and cluster analysis. The methods common guide the work to highlight the strengths of each technique, and the possibility of using hierarchical cluster analysis (nearest neighbor, furthest neighbor, and median) to improve the predictive accuracy of regression models. The variables affecting the evaporation rate were classified using weather data from meteorological stations in the Kurdistan Region, Iraq for the period from January 2020 to December 2022, and The adjusted R2, MSE, and RMSE values were used as indicators of the efficiency of the model’s performance. The study found that clustering before regression analysis leads to improve prediction accuracy by classifying and identifying homogeneous independent variables within one cluster that are different from the rest of the clusters. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Highlights | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
This study aims to build a prediction model for the influential variables of evaporation in the Kurdistan region - Iraq, using the concept of regression and cluster analysis. The methods common guide the work to highlight the strengths of each technique, and the possibility of using hierarchical cluster analysis (nearest neighbor, furthest neighbor, and median) to improve the predictive accuracy of regression models. The variables affecting the evaporation rate were classified using weather data from meteorological stations in the Kurdistan Region, Iraq for the period from January 2020 to December 2022, and The adjusted R2, MSE, and RMSE values were used as indicators of the efficiency of the model’s performance. The study found that clustering before regression analysis leads to improve prediction accuracy by classifying and identifying homogeneous independent variables within one cluster that are different from the rest of the clusters. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Keywords | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Keywords: Cluster Analysis (CA); Multiple Liner Regression Analysis (MLR); Evaporation (E) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Full Text | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
إن اتجاه القياس الكميه والمنهاج العام في البحوث هو استخدام الطرائق الإحصائية وذلك لان التصنيف العلمي للظواهر الطبيعية والمناخية وتحليل العلاقات المتبادلة بين الظواهر على أساس موضوعي والتنبؤ بنموذج يفسر العلاقة بين الظواهر أصبحت ضرورة . الانحدار من أكثر طرائق استخراج البيانات الإحصائية المهمة استخدما في مختلف مجالات العلوم بما في ذلك الذكاء الاصطناعي وعلم الأعصاب و بيانات الطقس. فقد تم استخدام نموذج الانحدار على نطاق واسع من قبل العديد من الباحثين لتقدير التبخر على أساس معلمات الأرصاد الجوية مثل دراسة Da Silva (2016) و المولى (2017) المستخدمة لطرائق الانحدار لإنشاء نماذج شهرية إقليمية ومتوسط التبخر كدالة العوامل المتاحة بما في ذلك درجة الحرارة وخط الطول والارتفاع. (Mohammd, et al., 2022). تقنية الانحدار الخطي تقوم بتحليل العلاقة بين المتغيرات و الفرق الرئيسي بين تقنيات التعنقد والانحدار هو عملية التعلم. فالانحدار يحتوي على متغير استجابة (Y) مرتبط بالمتغيرات المستقلة (X) (التعلم الخاضع للإشراف) بينما يؤدي التحليل العنقودي إلى التعلم غير الخاضع للإشراف (Mohammed & Hannon, 2019).ويعد التحليل العنقودي من التحليلات الإحصائية المهمة والشائعة الاستخدام في مختلف مجالات العلوم التطبيقية والصرفة من خلال مجموعة من الخطوات تهدف إلى تصنيف مجموعة حالات (Cases) أو متغيرات (Variables) بطرائق معينة وترتيبها داخل عناقيد (Cluster) بحيث تكون الحالات المصنفة داخل عنقود الواحد متجانسة فيما يتعلق بخصائص محددة وتختلف عن حالات أخرى موجودة في عنقود آخر. الانحدار العنقودي تم اقتراحه كطريقة لتحديد نموذج لكل قسم من البيانات. والنظر إليها على أنها خليط معين أو نموذج فئة كامنة، من بيانات المنظور التحليلي كمزيج من التحليل العنقودي والانحدار. كلا النهجين الانحدار الخطي والعنقودي هي تقنية مفيدة عندما يكون عدم التجانس موجودا في البيانات. التحليل العنقودي هو أحد أساليب التحليل الإحصائي متعدد المتغيرات حيث يتم الحصول على العنقود بطريقة خاضعة للإشراف من أجل أن يكون نموذج الانحدار "الأفضل" لكل مجموعة (De Carvalho, et al., 2010) . التبخر هو عنصر رئيسي في الدورة الهيدرولوجية وتعتبر عاملا رئيسيا في إدارة الموارد المائية للمناطق الزراعية وشبه الزراعية. تقدير فقد المياه من خلال التبخر ضروري لنمذجة ومسح وإدارة العديد من مشروعات النظم الهيدرولوجية والمائية. التبخر هو متغير يجمع أو يتضمن تأثير العديد من عناصر الغلاف الجوي، مثل درجة الحرارة، ودرجة الحرارة الرطبة وسرعة الرياح واتجاهها والضغط الجوي على البحر والرطوبة النسبية وشدة سطوع الشمس. يزداد التبخر مع سرعة الرياح العالية، كحد أقصى لدرجات الحرارة والرطوبة المنخفضة (Mohammd, et al., 2022) . النماذج المطورة من بيانات الأرصاد الجوية تنطوي على علاقات تجريبية إلى حد ما، وتعطي هذه النماذج نتائج موثوقة عند تطبيقها على الظروف المناخية (Al-Mukhtar, 2021). وبالتالي فإن استخدام الصيغ أو النماذج الرياضية التي تتنبأ بالتبخر من البيانات المناخية المتاحة أمر وارد يوفر نتائج أكثر دقة. وتمت دراسة التنبؤ بالتبخر من قبل العديد من الباحثين منها: دراسة (Almedeij, 2016) تطوير نموذج التبخر لمنطقة القاحلة في دولة الكويت بناء على الأساليب الإحصائية الكلاسيكية، منها الانحدار الخطي المتعدد وتحليل السلاسل الزمنية. أظهرت الدراسة أن قيم التبخر هو دالة لدرجة الحرارة والرطوبة النسبية وسرعة الرياح. دراسة (Adnan, et al., 2019) لقدرة ثلاث طرائق تكيفية للضبابية العصبية في تقدير التبخر الشهري باستخدام المدخلات المناخية لدرجات حرارة الهواء الدنيا والقصوى، وسرعة الرياح، وساعات سطوع الشمس، والرطوبة النسبية. تم تقييم الطرائق من خلال استخدام معيار جذر متوسط مربع الخطأ (RMSE) ومتوسط الخطأ المطلق (MAE) ومعامل التحديد ( ).وأشارت النتائج إلى الدقة الفائقة لطريقة التجميع الضبابي (FCM) لنفس متغيرات الإدخال وتقديرات أفضل مقارنة بطريقتي قسم الشبكة المضمنة ((GP والتجميع المطروح (SC). دراسة (Alsumaiei, 2020) لنمذجة معدلات التبخر اليومية في المناخات شديدة الجفاف باستخدام الشبكات العصبية الاصطناعية (ANNS). تم تطبيق الشبكات العصبية لنمذجة مثل هذه الظروف المناخية في دولة الكويت، لتعزيز أداء ANN وتم تحسين هيكل شبكة ANN من خلال اختبار مجموعات مدخلات الأرصاد الجوية المختلفة لنمذجة التبخر في تلك الظروف المناخية شديدة الجفاف. دراسة (Al-Mukhtar, 2021) بحثت في إمكانية تطبيق استخدام غابة الانحدار الكمي. تم تشكيل النموذج باستخدام بيانات من ثلاث محطات أرصاد جوية مختلفة تقع في مناخات مختلفة قاحلة وشبه قاحلة في العراق. وكانت هذه المحطات في مدن بغداد, والبصرة والموصل. تمت مقارنة أداء غابات الانحدار الكمي مع ثلاثة من طرائق الذكاء الاصطناعي وهي الغابات العشوائية وآلة ناقلات الدعم والشبكة العصبية الاصطناعية بالإضافة إلى نماذج الانحدار الخطي المتعدد ،تم تقييم النتائج باستخدام معايير للأداء: معامل التحديد ( ) ، جذر متوسط مربع الخطأ (RMSE) ، أظهرت النتائج أن نموذج غابات الانحدار الكمي حقق الأداء الأمثل بين الطرائق التي تم تقييمها. دراسة (Mohammd, et al., 2022) لنمذجة القياسات الشهرية على مدى 18عاما بين يناير 2000 وديسمبر 2017. تم استخدام تقنيات الانحدار الخطي المتعدد ، استخدمت درجة الحرارة وسرعة الرياح والرطوبة النسبية وساعات سطوع الشمس كمتغيرات مستقلة لإنشاء أفضل تنبؤا لنموذج التبخر في المناطق القاحلة في وادي حوران. وثقت الدراسة السابقة قيام هانسون بالتحقيق للتبخر اليومي في ثلاثة مواقع جنوب غرب ولاية أيداهو الهند. أشارالباحثون (Essa, et al., 2023) الذين استخدموا التحليل العنقودي كسلوب للبحث عن مجموعة من المتغيرات واقتراحها كخطوة أولية لتصنيف البيانات وجهوزيتها للتنبؤ(Taha, 2022).
تضمن هذه الدراسة جانبين، الاول مفهوم التحليل العنقودي الهرمي و طرائق التجميع (الجار الاقرب, الجار الابعد و المتوسط) مع مقياس المسافة الاقليدية. اما الجانب الثاني فيدور حول تحليل الانحدار الخطي المتعدد ومعايير المقارنة و جودة نموذج الانحدار.
التحليل العنقودي من التحاليل الإحصائية التي تستخدم في البحث العلمي لغرض وصف الأساليب التي تبحث عن تعنقد البيانات المتعددة لتكون مجموعات متجانسة فيما بينها. كذلك لتوصيف ومقارنة مجتمعات (عناقيد) في البيئات غير المتجانسة، تعتمد على نقاط التشابه والاختلاف بين البيانات حيث يندرج هذا الأسلوب ضمن أساليب التنقيب اللامعملي للبيانات (Shahab & Rashed, 2021) والذي يعتبر من المجالات المهمة والحديثة في علم الإحصاء وأهم استخدامات التحليل العنقودي هي (استكشاف البيانات، التصنيف، التحديد، توليد فرضيات خاصة لكل دراسة والتنبؤ). 2.1.1 قياس المسافة الإقليدية (Euclidean Distance): هي المسافة بين العناصر المختلفة لتحديد درجة التقارب بين متغيرين و , حيث تعتبر المسافة الأكثر استخداما ، وهي مسافة الخط المستقيم بين نقطتين في فضاء متعدد الأبعاد, (Khattreer & N, 2020) ويتم حسابها وفقا للصيغة التالية:
عبارة قيمة المتغير للعنصرi , عبارة قيمة المتغير للعنصر j عبارة قيمة المسافة بين النقطتين و 2.1.2 التحليل العنقودي الهرمي (Hierarchal Cluster Analysis): تعد هذه الطريقة من أكثر الطرائق استخداما حيث لا يتم تقسيم بيانات الدراسة إلى عدد من العناقيد في خطوة واحدة بل هي عبارة عن تسلسل هرمي للعناقيد المترابطة مما يوضح عملية ربط العناقيد بعضها مع بعض من خلال سلسلة متداخلة لإعطاء شكل هرمي يكون Dendrogram، لا تتطلب هذه الطريقة معرفة مسبقة بعدد العناقيد التي يقوم هذا التحليل الهرمي للحالات بموجبها بتناسب العينات التي عددها قليل وصغير، وينقسم هذا التحليل إلى قسمين وهما التحليل الهرمي للحالات (Cases) والتحليل الهرمي للمتغيرات (Variables) وهناك طريقتان للتجمع الهرمي، بما في ذلك دمج المجموعات (العناقيد) الصغيرة في مجموعات أكبر ،وهي تقنية التجميع ( The Agglomerative Technique) ، أوعن طريق فصل العناقيد الكبيرة إلى مجموعات صغيرة، وهي التقنية المثيرة للانقسام (The divisive technique) (Essa et al., 2023; Mohammed & AL-Rawi, 2019 ).
ويمكن توضيح هذه العملية في الرسم البياني أدناه:
شكل (1):المخطط الشجري الهرمي التجميعي و ألتقسيمي للعناصرضمن مجموعة من العناقيد
2.1.3 طرائق التجميع الهرمي: هناك العديد من طرائق التحليل العنقودي ،من أهمها والتي استخدمت في هذه الدراسة منها:
هذه الطريقة هي أبسط وأقدم طريقة، وتعتبر أيضا الأكثر انتشارا، حيث تجمع الأقرب في المسافة إلى العناصر لتكوين نواة العناقيد، ثم تضاف باقي العناصر التي هي أكثر تشابها وقريبة في المسافة، مما يؤدي إلى سلسلة طويلة من الترابط. لتحديد المسافة بين المجموعات (Mohammed & AL-Rawi, 2019)، يتم حسابها وفقا للصيغة التالية:
حيث يمثل عنصر في و عنصر في , المسافة الإقليدية للمتغيرات في المجموعات i,j.
يعرف بطريقة الارتباط التام أو الكامل أو الجار الأبعد، في هذه الطريقة يتم تشكيل الكتلة بطريقة تعكس الطريقة الأولى، ذلك لأنها تبدأ بتجميع العناقيد (العناصر) المنفردة لتشكل عنقودا واحدا فقط عندما ترتبط جميع العناصر بصورة تامة (أي تشكل زمرة)، يتم تحديد التماثل بين العناقيد المختلفة عن طريق إيجاد المسافة الأبعد ما بين أي عنصرين أي أنها تعتمد على الأقل تشابها بين المتغيرات أو الحالات، وفقا للصيغة التالية:
تستخدم هذه الطريقة بالاعتماد على متوسط المسافة بين نقطة من العنقود الاول (( A ونقطة من العنقود الثاني (B) وفق الصيغة التالية:
2.2 الانحدار الخطي المتعدد: يعرف الطريقة الإحصائية المستخدمة لفهم العلاقات السببية بين المتغيرات الكمية المختلفة في الحياة اليومية بتحليل الانحدار الخطي المتعدد. ولإيجاد العلاقة بين المتغير التابع والمتغيرات المستقلة المختلفة بأسلوب رياضي. يتم استخدام قيم المعلمات المقدرة لإنشاء معادلة تحليل الانحدار. يتم استخدام اختبارات مختلفة لتحديد ما إذا كان النموذج مقبولا أم لا. إذا تم اعتبار النموذج مقبولا، فيمكن استخدام معادلة الانحدار المقدرة للتنبؤ بقيمة المتغير التابع بالنظر إلى قيم المتغير المستقل (Ngo & Puente, 2012). الأهداف الرئيسية لتحليل الانحدار هي: الوصف, التقدير, التنبؤ والتحكم. يصف الانحدار العلاقة بين المتغيرات التابعة والمستقلة (Ali & Younas, 2021). والقدرة على تقدير قيمة المتغير التابع بناء على القيم المرصودة للمتغيرات المستقلة, لإسقاط النتائج والتغيرات يعتمد على التفاعلات بين المتغيرات التابعة والمستقلة مع تقليل تأثير متغير مستقل (Esmaeel & Rashed, 2022). تضع معظم الاختبارات الإحصائية افتراضات حول المتغيرات في التحليل التي يجب الوفاء به. ويستخدمون الاختبارات الإحصائية لتقييم مدى ملاءمة البيانات ودقة النموذج، وأخطاء النموذج المحتملة، والصعوبات في فهم النتائج (Ngo & Puente, 2012). عندما يتم انتهاك هذه الافتراضات، قد لا تكون النتائج جديرة بالثقة، مما يؤدي إلى خطأ من النوع الأول أو النوع الثاني. يتمثل هذه الفروض (Ali & Younas, 2021) بخطية العلاقة بين المتغيرات التابعة والمستقلة, عدم وجود ارتباط ذاتي بين المتغيرات المستقلة, توزيع البواقي بشكل طبيعي, تجانس تباين البواقي وعدم وجود قيم متطرفة. 2.2.1 انموذج الانحدار: إن تحليل الانحدار أحد اساليب التحليل الإحصائي متعدد المتغيرات التي تحتوي على صيغتين، فتحليل الانحدار يقوم على أنموذجين أساسيين هما (خطي، غير خطي) ويعتبر الانموذج الخطي من الانموذجات الأكثر شيوعا وهذا الأنموذج ينطوي على نوعين هما (بسيط، متعدد) البسيط يقوم على العلاقة بين متغير معتمد أو تابع (Y) ومتغير مستقل واحد (X) وأما المتعدد فيقوم على العلاقة بين متغير تابع (Y) مع أكثر من متغير مستقل (Xi)، وفي كلتا الحالتين أن كان بسيطا أو متعددا فالغرض هو إيجاد التنبؤات ( (Best & Wof, 20l5; Esmaeel & Rashed, 2022 لا بد من توفر معادلة تقديرية يعتمد عليها أو تكون الأساس في الاختبارات والتعويضات ومثل هذه المعادلة يتم إيجادها بعد تقدير معالم الأنموذج الخاص بالانحدار وهوالأنموذج الذي يأخذ الشكل الاتي:
يمثل المتغير التابع, عبارة عن المتغيرات التفسيرية ومعلمات النموذج هي . يشير الى مصطلح "البواقي" وهو الفرق بين القيم المرصودة والمتوقعة ل y في معادلة الانحدار المقدرة. لتقليل مجموع البقايا التربيعية، يتم تحديد تقديرات المعلمات باستخدام نهج المربعات الصغرى (Kor & Altun, 2020). في الانحدار الخطي ، نسعى إلى تقدير المعلمات التي تقلل من مجموع الأخطاء التربيعية (.(Seber & Lee, 2012; Mohammed & Hannon, 2019 , والجدول (1) يشير الى مصادر التباين للانحدار المتعدد . الجدول (1): جدول تحليل التباين للانحدار الخطي المتعدد
2.2.2 معايير المقارنة : دقة التنبؤ وتقليل الأخطاء المتوقعة الى ادنى حد هو الجانب الحيوي المهم من عملية التنبؤ، و عملية اتخاذ القرار بجودة الانموذج يتطلب تقدير الأخطاء بين القيم المرصودة والمتوقعة, فيما يخص تحليل الانحدار فإن هناك ثلاثة مؤشرات مهمة للجودة منها:
الخطأ المعياري للانحدار يعرف أيضا باسم الخطأ القياسي المتبقي. يمكن التعبير عن جودة الانحدار على النحو التالي:
أن معامل التحديد R-squared مقياس إحصائي يمثل نسبة التباين لمتغير تابع يتم تفسيره بوساطة المتغيرات المستقلة في الانموذج الانحدار. هو مقياس جودة الملاءمة الأكثر استخداما.
حسب التعريف تقع بين 0 و 1 وتمثل نسبة تباين العينة في y موضحة بوساطة xs. يزيد عند اضافة كل متغير مستقل جديد الى الانموذج الانحدار, لذلك فهو ليس معيارا مفيدا لاختيار الانحدار (Frost, 2023). هو نسخة معدلة لا تزداد دائما مع المزيد من متغيرات مستقلة فى انموذج الانحدار.
أحدى مقاييس الأداء الرئيسيين لانموذج الانحدار هو جذر متوسط الخطأ التربيعي .(RMSE) يحسب متوسط الفرق بين القيم المتوقعة والفعلية للانموذج. يعطي تقديرا لمدى توقع الانموذج للقيمة المستهدفة (الدقة).
يتميز جذر متوسط الخطأ التربيعي بميزة عرض الخطأ في نفس وحدة العمود المتوقع، مما يجعل من السهل تفسيره. كلما انخفضت قيمة جذر متوسط الخطأ التربيعي، كان الانموذج أفضل. أثناء تضمين متغيرات مؤثرة إضافية في مجموعة بيانات، فإننا نقوم بتقليل جذر متوسط الخطأ التربيعي. ينخفض MSE مع اقتراب نقاط البيانات من خط الانحدار مع عدد أقل من الأخطاء(Frost, 2023).
في هذه الدراسة تم أخذ البيانات من وزارة النقل والاتصالات لإقليم كردستان- العراق المديرية العامة للأنواء الجوية والرصد الزلزالي بموجب كتابهم المرقم 77 في 9/1/2023. بيانات التبخر الشهرية لمحطات محافظات (أربيل، السليمانية ودهوك ) خلال فترة (36) شهرا للفترة من كانون الثاني 2020 لغاية كانون الأول 2022. تم استخدم البرنامج الإحصائي (SPSS Version 24) لاستخراج النتائج للتحليل العنقودي أولا. وثانيا تطبيق تحليل الانحدار لكل عنقود تم تشكيله باعتبار التبخر متغيرا معتمدا مع باقي المتغيرات المستقلة (درجة الحرارة، درجة الحرارة الرطبة، شدة سطوع الشمس، الضغط الجوي على مستوى البحر, اتجاه وسرعة الرياح والرطوبة النسبية).
جدول (2): يوضح المتغير التابع و المتغيرات التفسيرية المستخدمة في الدراسة
الجدول (2) يبين المتغيرات قيد الدراسة, تم قياس البيانات بمعدلال شهرية للفترة 36 شهرا, حيث تضمنت المتوسط، الخطأ المعياري للمتوسط، الوسيط، المنوال، الانحراف المعياري، التباين، الالتواء و التفلطح للمتغيرات. والجدول(3) يبين الاحصاء الوصفي للمتغيرات . الجدول(3): الاحصائيات الوصفية للمتغيرات قيد الدراسة للفترة من كانون الاول 2020 ولغاية كانون الثاني 2022
بلغ متوسط درجة الحرارة (23.115) درجة مئوية مقارنة بوسيط درجات الحرارة لفترة الدراسة كانت (24.650) درجة مئوية، في حين متوسط درجة شدة سطوع الشمس بلغت (8.936) مقارنة بوسيط (8.550)، متوسط الضغط الجوي على مستوى سطح البحر بلغت (13.528) مقارنة بوسيط (14.000)، متوسط الرطوبة النسبية بلغت (51.925) مقارنة بوسيط (48.100). متوسط درجة حرارة الرطبة (15.925) درجة مئوية مقارنة بوسيط درجة الحرارة الرطبة (17.000)، متوسط سرعة الرياح كانت (1.514، م/ ث) مقارنة بالوسيط (1.500، م/ ث). أقل خطأ معياري للمتوسط وأقل انحراف معياري للمتغير سرعة الرياح (0.043)، أقل قيمة للالتواء كانت للمتغير درجة الحرارة الرطبة (0.192-) في حين أقل قيمة التفلطح كانت لمتغير الرطوبة النسبية (1.610-). 3.1 نتائج التحليل العنقودي: باستخدام طريقة الجار الاقرب، الجار الابعد والمتوسط (معدل الربط بين المجموعات) مستخدما مربع المسافة الاقليدية لتصنيف قابلية المتغيرات الداخلة في انموذج الانحدار المتعدد ومن ثم تقييم قوة ودقة الانموذج. يتم الجمع بين مصفوفة المسافة والعلاقة بين العناقيد، وتقسيم عدد البيانات إلى عنقودين منفصلين باستخدام نمط التكتل. تكون درجة التجانس قوية داخل المجموعات المختلفة، الجدول (4) يبين مصفوفة مربع المسافة الاقليدية بين المتغيرات قيد الدراسة لكل عنصر عبارة عن معاملات المسافة بين المتغيرات، مع زيادة المسافة بين أي متغيرين يزداد الفرق. الجدول(4):مصفوفة مربع المسافة الاقليدية بين المتغيرات
مربع المسافة الاقليدية على التوالي من الأقرب إلى الأبعد كان أقل قيمة (0.609) للمسافة بين متغير درجة الحرارة ودرجة الحرارة الرطبة, تليها قيمة (2.906) بين متغير درجة الحرارة الرطبة ومتغير الضغط الجوي على مستوى سطح البحر. المسافة بين متغير درجة الحرارة وشدة سطوع الشمس كانت قيمتها (3.244)، ومن ثم قيمة المسافة بين شدة سطوع الشمس مع درجة حرارة الرطبة (3.822)، المسافة بين الضغط الجوى على مستوى سطح البحر مع درجة الحرارة كانت قيمتها (5.258) من جهة أخرى المسافة بين الضغط الجوى على مستوى سطح البحر وبين شدة سطوع الشمس بلغت (8.979). ابعد مسافة كانت قيمتها (137.758) بين متغيري درجة الحرارة والرطوبة النسبية، تليها المسافة بين درجة الحرارة الرطبة والرطوبة النسبية كانت قيمتها (135.801)، المسافة بين متغيري شدة سطوع الشمس والرطوبة النسبية قيمتها (135.744) ومع المتغير اتجاه الرياح بلغ قيمته (95.933) نستنتج بأن متغير الرطوبة النسبية لها ابعد مسافة مع المتغيرات الاخرى قيد الدراسة. الجدول (5) يوضح قيمة المسافة أو المعاملات (Coefficients) وفق مقياس المسافة وطريقة الربط المستخدمة في التحليل، وتحديد المفردات أو المجموعات التي يتم ربطها في كل خطوة من خطوات التحليل.
الجدول(5):جدول التكتل بطرائق الجار الاقرب،الجارالابعد و معدل الربط العنقودي بمقياس مربع المسافة الاقليدية
عملية الربط بين المتغيرات تتم على أساس مربع المسافة الأقليدية فيما بينها أي أن المسافة الأقصرو قيمتها (0.609) ستمثل المرحلة الأولى من العنقدة التي هي عبارة عن تجمع متغير درجة الحرارة الرطبة (4) ودرجة الحرارة (7) كخطوة أولى للتعنقد في طرائق الثلاث (الجار الا قرب، الجار الأبعد والمعدل) من ثم الخطوة الثانية الحرارة الرطبة (4) مع متغيرالضغط الجوى على مستوى سطح البحر (2) في طريقة الجار الأقرب بينما في طريقتي الجارالابعد والمتوسط يتم الربط بين متغير الحرارة الرطبة (4) مع متغير شدة سطوع الشمس (3) وفي الخطوة الثالثة الربط بين متغير شدة سطوع الشمس (3) مع متغير الضغط الجوى على مستوى سطح البحر (2) في الطرائق الثلاث. الخطوة الرابعة هي الربط بين متغير الضغط الجوى على مستوى سطح البحر (2) مع متغير اتجاه الرياح (5) في طرائق الثلاث، تتساوى الطرائق الثلاث في الخطوة الخامسة من الربط بين الرطوبة النسبية (1) وسرعة الرياح (6) وكذلك في الخطوة السادسة يتم الربط بين متغيرالرطوبة النسبية (1) متغيرالضغط الجوى على مستوى سطح البحر (2). الشكل (2) يوضح المخطط الشجري لعدد ومراحل تشكل العناقيد بطريقة الجار الأقرب ومربع المسافة الاقليدية بالإضافة إلى ملاحظة المفردات أو المجموعات التي تم ربطها معا في كل خطوة من خطوات التحليل، وتعتمد مقياس المسافة في تقسيمها دون الرجوع إلى طريقة الربط بعكس نمط التكتل كما موضح في الجدول (4). إن التعنقد بين المتغيرات يعتمد على المسافة الأقصر بينهما وذلك لكونها أكثر تجانسا من الأزواج الأخرى من المتغيرات كما هو واضح في الشكل (2) درجة الحرارة ودرجة الحرارة الرطبة تشكل العنقود ألاول من ثم مع متغير الضغط الجوى على مستوى سطح البحر ومع شدة سطوع الشمس وأخيرا مع اتجاه الرياح. العنقود الثاني يجمع متغير الرطوبة النسبية مع سرعة الرياح.
الشكل (2):المخطط الشجري حسب طريقة الجار الاقرب المخطط الشجري في الشكل (3) يوضح عدد ومراحل تشكل العناقيد بطريقة الجار الأبعد ومربع المسافة الاقليدية، موضحا مراحل التعنقد يبدأ بعنقود درجة الحرارة مع درجة الحرارة الرطبة من ثم تعنقد مع شدة سطوع الشمس وتليها الضغط الجوى على مستوى سطح البحر وأخيرا مع اتجاه الرياح.أما العنقود الثاني فيجمع بين الرطوبة النسبية مع سرعة الرياح كما ورد أيضا في طريقة الجار الأقرب.
الشكل (3):المخطط الشجري حسب طريقة الجار الابعد (الربط الكامل) المخطط الشجري في الشكل (4) يوضح عدد ومراحل تشكيل العناقيد بطريقة المتوسط ومربع المسافة الاقليدية، موضحا مراحل التعنقد التي تبدأ بعنقود درجة الحرارة مع درجة الحرارة الرطبة مع شدة سطوع الشمس ومن ثم ضغط البخار وأخيرا مع اتجاه الرياح. أما العنقود الثاني فيجمع بين الرطوبة النسبية مع سرعة الرياح كما ورد أيضا في طريقتي الجار الأقرب والجارالأبعد.
الشكل (4):المخطط الشجري حسب طريقة المتوسط (معدل الربط ) 3.2 نتائج تحليل الانحدار الخطي المتعدد: نتائج تحليل الانحدار الخطي المتعدد لمتغير التبخر معتمدا على نتائج التحليل العنقودي الهرمي ومقياس المسافة الاقليدية من خلال طرائق (الجار الاقرب, الجار الابعد و معدل الربط) في تحديد المتغيرات المستقلة تبين بأن المعادلة التنبؤية الأولى تضمنت درجة الحرارة الرطبة ودرجات الحرارة من ثم شدة سطوع الشمس، الضغط الجوي على مستوى البحر واتجاه الرياح والمعادلة الثانية شملت متغير الرطوبة النسبية وسرعة الرياح. الجدول (6) يبين معايير المقارنة معادلتى الانحدار المتعدد من حيث نسبة التغير المفسرة من قبل المتغيرات المستقلة لكل معادلة، متوسط الخطأ التربيعي و جذر متوسط الخطأ التربيعي.
الجدول(6): نتائج تحليل الانحدار الخطي المتعدد للتنبؤ بالتبخر
اعلى نسبة للتغير المفسرة من قبل متغيرات درجة الحرارة الرطبة ودرجة الحرارة، شدة سطوع الشمس، الضغط الجوي على مستوى البحر واتجاه الرياح بلغت قيمتها (% 96.6), اقل قيمة لمربع متوسط الخطأ كانت (1.026) وجذر متوسط الخطأ التربيعي (1.013) للمعادلة التنبؤية الاولى :
اماالمعادلة التنبؤية الثانية فكانت نسبة التغير المفسرة (% 86.8) من قبل متغيرات الرطوبة النسبية وسرعة الرياح ومربع متوسط الخطأ كانت قيمته (3.919) أما جذر متوسط الخطأ التربيعي فقيمته (1.979) للمعادلة الثانية. فيما يخص معنوية المعادلتين فقد أثبتا معنوياتهما فكانت قيمة الاحتمالية لرفض فرضية العدم (0.000).
قيمة معدلات التبخر الحقيقية والقيم المقدرة لها في المعادلة التنبؤية الأولى و الثانية موضح في جدول (7). الجدول(7):القيم الحقيقية و المقدرة لمعدلات التبخر في المعادلة التنبؤية الأولى و الثانية
يلاحظ بان القيم المقدرة لمعدلات التبخر في المعادلة التنبؤية الأولى اقرب الى القيم الحقيقية مقارنة بالقيم المقدرة للمعادلة التنبؤية الثانية خلال فترة الدراسة. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
References | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Statistics Article View: 357 PDF Download: 178 |