Forecasting of air pollution data using the RNN-Wavelet hybrid method based on the MLR model

Qader, Khetam Walid; Hannon, Osama

doi:10.33899/iqjoss.2021.169969

Journals List

Forecasting of air pollution data using the RNN-Wavelet hybrid method based on the MLR model

IRAQI JOURNAL OF STATISTICAL SCIENCES

Article 6, Volume 18, Issue 2, December 2021, Pages 1-11 PDF (1.92 M)

Document Type: Research Paper

DOI: 10.33899/iqjoss.2021.169969

Authors

Khetam Walid Qader^* ¹; Osama Hannon²

¹Department of Statistics and Informatics/ College of Computer and Mathematics/ University of Mosul

²Assistant Professor/Department of Statistics and Informatics/College of Computer and Mathematics/University of Mosul

Abstract

studying and forecasting Particular matter (PM₁₀) is necessary to control and reduce the damage of environment and human health. There are many pollutants as sources of air pollution may effect on PM₁₀ variable. This type of dataset can be classified as anon-linear. Studied datasets have been taken from climate station in Malaysia. Multiple Linear Regression (MLR) is used as a linear statistical method for PM₁₀ forecasting through its influencing by corresponding climate variables, therefore it may reflect inaccurate results when used with nonlinear datasets. Time stratified (TS) method in different styles is implemental for satisfying more homogeneity of datasets. It includes ordering similar seasons in different years together to formulate anew variable smoother than their original. To improve the results of forecasting, Recurrent Neural Network (RNN) has been suggested to be used after combining with MLR in hybrid MLR-RNN method in this study. In general, the results of forecasting were the best with using time stratified approach. In addition, the results of hybrid method were outperformed comparing to MLR model. As conclusion in this study, RNN and TS can be used as active approaches to obtain better forecasting results with nonlinear datasets in which PM₁₀ is to dependent variable.

Highlights

Through the presented results and discussions of the proposed methods and their application to the study data, it is possible to deduce a preference for using the proposed hybrid methodology MLR-RNN to improve the prediction results of air pollution, especially in the case of using the time alignment method for the study data, which improves the prediction results of air pollution.

Keywords

Multiple linear regression (MLR); Time Stratified (TS); Particular Matter (PM10); Forecasting; Air pollution; Hybrid MLR-RNN

Full Text

المقدمة

فی هذه الدراسة تم التطرق إلى دراسة التنبؤ بتلوث الهواء والتی تکمن اهمیتها من خلال معرفة تأثیرها على الإنسان والحیوان والنبات وسائر الکائنات الحیة على سطح الکرة الأرضیة . تم استخدام بیانات متغیر PM₁₀ کمتغیر معتمد لقیاس تلوث الهواء والمتأثر بعدة متغیرا تفسیریة تتعلق بالأحوال والتغیرات الجویة حیث ان هنالک علاقة وثیقة بین ترکیز تلوث الهواء والمتغیرات التی تؤثر فی حالة الطقس. تم استخدام نموذج الانحدار الخطی المتعدد MLR واستخدامه فی التنبؤ بتلوث الهواء مع الأخذ فی الاعتبار تأثیرات متغیرات الأرصاد الجویة المقابلة له. قام Vlachogianni et al. (2011) بدراسة لتطویر نماذج التنبؤ باستخدام الانحدار الخطی المتعدد ومقارنة التنبؤات من نموذج MLR مع تلک الناتجة من استخدام الشبکة العصبیة الاصطناعیةANN. ان نتائج تنبؤات الشبکات العصبیة کانت أفضل من تلک المستحصلة من نموذج MLR. واستخدم Janssen et al. (2011) نماذج الانحدار الخطی المتعدد لنمذجة بیانات PM10 لمدینة باریس للمستویات الیومیة. کما وقدر Ahmad et al. (2019) ترکیز الجسیمات الدقیقة PM_2.5 باستخدام اسلوب هجین للانحدار الخطی والشبکة العصبیة الاصطناعیة وأظهرت النتائج أن کلا من الانحدار الخطی و ANNمتفقان تمامًا وقادران على تقدیر ترکیزات PM_2.5 مع دقة اکبر للشبکات العصبیة الاصطناعیة ANN. وفی مسار الدراسات السابقة ومن اجل تحسین دقة نتائج التنبؤ بالجسیمات المعلقة فی الهواء PM₁₀ والتی تعد بیانات بتاثیرات غیر خطیة وبوجود مؤثرات جویة اخرى، تم فی هذه الدراسة تقدیم عدة طرائق مقترحة للتنبؤ اضافة لنموذج الانحدار الخطی المتعدد (MLR) کطریقة تقلیدیة احصائیة فقد تم اقتراح احد الطرق الذکائیة وهی الشبکات العصبیة المعاودةRecurrent Neural Network (RNN) لتحسین نتائج التنبؤ من خلال تهجینها مع الطریقة التقلیدیة. تم التطبیق على بیانات سلسلة مُعدلات تلوث الهواء المتمثلة بالجُسیمات المعلقة PM₁₀ بواقع (1034) مشاهدة حیث تتکون هذه السلسلة من المتغیر المعتمد PM₁₀ ومتغیرات مستقلة وعددها (9) متغیرات. تم اختزال المتغیرات التفسیریة الى (4) متغیرات لان هذه المتغیرات الاربعة اعطت افضل نموذج انحدار وهذه المتغیرات هی (O₃_،NO،SO₂_،CO) حیثCO هو احادی اوکسید الکاربون(Carbon Monoxide) وان SO₂ هو ثنائی اوکسید الکبریت(Sulphur Dioxide) وNO هو احادی اوکسید النیتروجین(Nitric oxide) وo₃ هو الاوزون(Ozoon) اما المتغیرات الاخرى فاعطت معلماتها قیما مقدرة غیر معنویة اعتمادا على قیمة P-value مما جعل من حذفها الحل الامثل للوصول الى النموذج الافضل. تم استخدام برنامج Minitab)) وبرنامج Excel للحصول على نموذج الانحدار الخطی المتعدد وتنبؤاته لمرحلتی التدریب والاختبار. ان البیانات التی تمت دراستها تم اخذها بحالتین الاولى تم اخذها کاملة ای بفترتها الکلیة وتبدأ من(2013/1/1 ) وتنتهی الى /10/2015)31) وفی الحالة الثانیة تم فیها استخدام اسلوب التراصف الزمنی حیث تم تقسیم هذه البیانات الى اربعة مواسم لکی تصبح کل مجموعة من المجموعات الاربعة اکثر تجانسا وتلاؤما مع الطرق المقترحة. ستتم عملیة المراصفة الزمنیة على شکل فصول موسمیة حیث تحدد اربع مجامیع متراصفة زمنیاً بالاعتماد على الفصول الموسمیة فی کل سنة ومراصفتها زمنیا مع جمیع الفصول المشابهة فی السلسلة الزمنیة ومن الممکن صیاغة منهجیة اسلوب التراصف الزمنی المستخدم وکما هو مدرج ادناه:

فی الموسم الاول ورمزه (S₁) حیث سیکون عدد المشاهدات (239) مشاهدة وعدد الشهور (8 شهور) والاشهر التی سوف یتم أخذها هی: (کانون الثانی، شباط، کانون الاول) ولثلاث سنوات (2013،2014،2015) وعلى التوالی. اما فی الموسم الثانی ورمزه S₂)) سیکون عدد المشاهدات (276) مشاهدة وعدد الشهور (9 اشهر) والاشهر التی سوف یتم أخذها هی: (اذار، نیسان، ایار) ولثلاث سنوات (2013،2014،2015) وعلى التوالی. وفیما یخص الموسم الثالث ورمزه S₃)) حیث سیکون عدد المشاهدات (276) مشاهدة وعدد الشهور(9 اشهر) والاشهر التی سوف یتم أخذها هی: (حزیران، تموز، اب) ولثلاث سنوات (2015, 2014, 2013) وعلى التوالی. وکذلک بالنسبة للموسم الرابع ورمزه (S₄) سیکون عدد المشاهدات (243) مشاهدة وعدد الشهور (8 اشهر) والاشهر التی سوف یتم أخذها هی: (ایلول، تشرین الاول، تشرین الثانی) ولثلاث سنوات (2015, 2014, 2013) وعلى التوالی. ان الطرق المقترحة لتحسین التنبؤ بتلوث الهواء من خلال المتغیر PM₁₀ تم مقارنتها مع الانحدار الخطی المتعدد MLR ، ای مقارنة MLR-RNN مع نموذج MLR وستتم المقارنة فی حالة البیانات الکلیة والبیانات المتراصفة زمنیا.

الطرق المستخدمة للتنبؤ

فی هذا الجانب تم التطرق إلى طرق التنبؤ الشائعة الاستخدام بالبیانات متعددة المتغیرات ومن بینها نموذج الانحدار الخطی المتعدد MLR. ورغم ما یوفره نموذج الانحدار الخطی المتعدد من جودة فی نمذجة البیانات الا انه قد یکون غیر ملائم للتنبؤ بالبیانات غیر الخطیة على اعتبار ان نموذج MLR نموذج خطی مما یؤدی إلى ظهور بعض النتائج والتنبؤات بدقة قلیلة أحیاناً فی حالة استخدام نمذج خطیة مثل نموذج الانحدار الخطی المتعددMLR. ولذلک یفضل استخدام طرق غیر خطیة مثل الشبکات العصبیة المعاودة RNN مما یؤدی للحصول على نتائج اکثر دقة للتنبؤ والتحلیل (Jahandideh et al., 2009).

2.1 نموذج الانحدار الخطی المتعدد MLR))

ان نموذج الانحدار الخطی المتعدد یعتبر من الأسالیب الإحصائیة شائعة الاستخدام والمستخدمة فی التنبؤ خصوصا لبیانات السلاسل الزمنیة عن طریق الاستخدام الأمثل للبیانات فی إیجاد علاقات سببیة بین بیانات الدراسة ویعرف الانحدار الخطی المتعدد بشکل عام بأنه أسلوب ریاضی لتوضیح العلاقة بین المتغیر المعتمد Dependent Variable ومتغیرات أخرى تسمى المتغیرات التفسیریة Explanatory Variables ویهتم تحلیل الانحدار بوصف العلاقة بین المتغیرات على هیئة نموذج وقد یحتوی هذا النموذج على متغیر تفسیری واحد فیسمى فی هذه الحالة بنموذج الانحدار الخطی البسیط أما فی حاله احتواء النموذج على عدة متغیرات تفسیریة عدة فإنه یسمى بنموذج الانحدار الخطی المتعدد (Honarasa et al., 2015). کما ویعرف نموذج الانحدار الخطی المتعدد MLR بأنه عبارة عن انحدار للمتغیر المعتمدy على العدید من المتغیرات التفسیریة لذا فهو یستخدم فی التنبؤ. إذ یتم استخدام MLR لشرح العلاقة بین متغیر معتمد ومتغیران تفسیریان أو أکثر تتخذ المعادلة الخطیة فی الانحدار الخطی المتعدد الشکل التالی (Abrougui et al., 2019)

(1)

اذ أن یرمز الى المتغیر المعتمد و ترمز الى القیمة الثابتة و یرمز الى المتغیر التفسیری الأول و یرمز الى المتغیر التفسیری الثانی و یرمز الى المتغیر التفسیری الاخیر ویرمز یرمز الى المعلمة الخاصة بالمتغیر التفسیری الاول ویرمز الى المعلمة الخاصة بالمتغیر التفسیری الثانی ویرمز الى المعلمة الخاصة بالمتغیر التفسیری الاخیر و یرمز الى الخطأ العشوائی.

2.2 الشبکات العصبیة الاصطناعیة Artificial Neural Networks (ANN)

تعد الـشبکات العـصبیة الاصـطناعیة أحد أهم طرق الذکاء الاصطناعی والتی تستخدم فی التنبؤ بالمتغیر المعتمد للحصول على دقة اکبر، و تتمحور فکرتها حول محاکاة قدرة العقل البشری على التعرف على الأنماط وتمییـز الأشـیاء باسـتخدام الحاسب الآلی، والتی یتم فیها الاستفادة من الخبرات السابقة فی سبیل الوصول إلـى أفـضل نتائج فی المستقبل(Lin et al., 2020). تتکون الشبکات العصبیة الاصطناعیة من مجموعةٍ من الخوارزمیات یتم من خلالها محاکاة الدماغ البشری المتطور، وتصنیع أدمغة إلکترونیة قادرة على التعلم والتطور کما الدماغ البشری. والممیز فی الشبکات العصبیة الاصطناعیة هو وجود طبقات عدیدة تعمل على ما یسمى التعلم العمیق، کل طبقة مختصة بعمل معین (Zhou et al., 2020). توجد عدة أنواع من الشبکات العصبیة الشائعة الاستخدام واهم هذه الانواع والتی تؤدی غالبا الى نتائج اکثر دقة هی الشبکات العصبیة المعاودة Recurrent Neural Network (RNN) (Torkashvand et al., 2017). ان الشبکات العصبیة المعاودة تستخدم مخرجات طبقة معینة وتعیدها مرة أخرى للشبکة لکن کمدخلات ونتیجة لذلک یمکن أن یساعد ذلک فی التنبؤ بالعدید من النتائج المحتملة خلال أی طبقة من طبقات الشبکة فتحتفظ کل طبقة بذاکرة من الخطوة السابقة فیتذکر النظام التنبؤات الخاطئة ویتعلم منها لتحسین تنبؤاته التالیة ولذلک تسمى باسم الشبکات المعاودة لمعاودتها نفس الخطوات حتى الوصول إلى النتائج المطلوبة وبالتالی تستطیع شبکات RNN التعلم من کل خطوة للتنبؤ بالنتیجة فی الخطوة التالیة. تحتوی RNN على طبقة واحدة او اکثر وهذا بدروه یعالج غیر خطیة البیانات ویحسن نتائج التنبؤ وکذلک تحوی على Daley Layer وهذا یحسن کثیراً التعامل مع مشکلة عدم تجانس البیانات وعدم الخطیة لانه یحتوی على ذاکرة اطول بقلیل من خوارزمیة الشبکة العصبیة المغذیةFeed-Forward Back Propagation والشکل التالی یمثل الشبکة وما تحتویه من ادخالات واخراجات وطبقات .

الشکل(1) : یوضح الشبکة العصبیة المعاودة RNN

فی الشکل (1) فأن R هی الادخالات وLW1 هی وزن عشوائی للعصبون حیث یتم جمعها مع الجزء المتحیز b1(التشویش الابیض) وناتجهما سیکونان الدالة f1. حیث ان اخراج الدالة f1 سیعود کادخال ثالث فی الطبقة الاولى وقبلها سوف یمر على دالة التاخیر(Delay) لتکون وزنا عشوائیا اخر وفی الطبقة الثانیة فأن اخراج الدالة f یکون الوزن العشوائی للخلیة العصبیة LW مجموع مع b وبالتالی تخرج لنا مصفوفة احادیة. تحتوی RNN فی هذه الدراسة على طبقتین بالاضافة الى طبقة الادخال، الاولى تکون مخفیة والثانیة تکون طبقة الاخراج. حیث فی طبقة الادخال سیکون هناک (R) من الادخالات وهذه الادخالات غالبا ماتکون توزن عشوائیا فی کل طبقة مخفیة وکذلک M من العصبونات{Palit, 2006 #10;Sheela, 2013 #9}.حیث یتم حساب العدد الامثل للعصبونات فی الطبقة المخفیة کما یلی:

R*2+1 (2) =عدد العصبونات

(Palit & Popovic, 2006; Sheela & Deepa, 2013)

کل متغیر ادخال Z موزون عشوائیا. وان اوزان N من الادخالات و Mمن العصبونات تجمع مع القیمة المتحیزة bبواسطة دالة التحویل. مجموع ادخالات المتغیرات فی دالة التحویل F یمکن صیاغتها کما یاتی:

(3)

وان اکثر دوال التحویل استخداما فی الطبقة المخفیة وطبقة الاخراج هی التحویل الزاوی(tan-sigmoid) والتحویل اللوغارتمی(log-sigmoid ) ودالة التحویل الخطی (linear). ان عملیة اختیار الدالة للطبقتین امر مهم جدا یؤدی الى تحسین دقة النتائج بالاعتماد على طبیعة البیانات والدالة المختارة ومدى التجانس بینهما، الشکل(2) یوضح الاختلافات بین دوال التحویل الممکن استعمالها للشبکة .RNN

الشکل(2) : انواع دوال التحویل فی RNN

تستعمل دوال التحویل فی الطبقة المخفیة لتعکس نوعیة العلاقة بین الادخالات والاخراجات فی حین تستعمل دوال التحویل فی طبقة الاخراج لتعطی افضل وادق النتائج. والصیغ الریاضیة للدوال الخطیة واللوغارتیمیة والزاویة هی کما یلی وعلى التوالی:

(4)

(5)

(6)

(Dawson & Wilby, 2001; Shrestha et al., 2005; Yonaba et al., 2010)

ان الاوزان العشوائیة للادخالات یمکن کتابتها کمصفوفة وعلى النحو التالی

(7)

فی حین تصاغ متغیرات الادخال کما یلی :

(8)

حیث ان الهیکل العام للشبکة RNN یحتوی على طبقة واحدة مخفیة واخرى للاخراج، حیث الطبقة المخفیة تحتوی على ثلاث مدخلات الوزن العشوئی والتشویش الابیض بالاضافة الى الوزن الناتج من الخطوة السابقة اما الطبقة الخارجیة فمدخلاتها ستکون الوزن الناتج من الطبقة المخفیة مع التشویش الابیض ویمکن تمثله کما فی الشکل (3) :

الشکل (3) : الهیکل العام للشبکة العصبیة المعاودة RNN

2.3 الطریقة الهجینة(MLR-RNN)

تتضمن هذه الطریقة تهجین الطریقتین التقلیدیة MLR)) والذکائیة (RNN) من خلال الاستفادة من هیکلیة المتغیرات التفسیریة فی MLR لبناء الشبکة RNN وکما هو مدرج فی الخطوات التالیة:

‌أ. یتم ضرب کل متغیر تفسیری فی قیمة المعلمة المناظرة له واعتماد المتغیرات الناتجة کمدخلات للشبکة العصبیة المعاودة RNN)) وبناء طبقة الادخال .

‌ب. تحدید عدد العصبونات المستخدمة فی الطبقة المخفیة.

‌ج. بعد اعتماد هیکلیة نموذج MLR لطبقة الادخال للشبکة العصبیة حیث تتم عملیتی التدریب والاختبار للحصول على افضل التنبؤات وتسمى مخرجات شبکة RNN فی هذه الحالة هذه بتنبؤات لطریقة الهجینة للشبکات العصبیة MLR-RNN، حیث کلما تکررت التدریبات وکانت اکثر کلما کانت النتیجة ادق.

‌د. یتم تدریب الشبکة على جمیع دوال التحویل الخطیة واللوغارتمیة والزاویة فی کلا الطبقتین المخفیة والاخراج وبأخذ جمیع الاحتمالات الممکنة .

التراصف الزمنیTime-stratified (TS):

ان اسلوب التراصف الزمنی هو وسیلة تحلیلیة تقوم بمراصفة البیانات زمنیا تبعا للتأثیرات الموسمیة التی تظهر بشکل واضح کتأثیرات على سلوک السلسلة الزمنیة وسلوک النتائج التنبؤیة ویضمن دقة تقدیرات معلمات الانحدار الخطی المتعدد ویتجنب التحیز بسبب اتجاه التاثیرات الزمنیة فی السلسلة الزمنیة، ویمکن تطبیق التراصف الزمنی على السلاسل الزمنیة المختلفة فی حالة کانت تظم اتجاهات زمنیة موسمیة متکررة بنفس السیاق والتأثیر ویعمل على الوصول الى بیانات اکثر تجانسا من البیانات الکلیة وبالتالی الحصول على نتائج ادق (Malig et al., 2015; Tobias et al., 2014)

‌أ. ویمکن ایجاز الخطوات التی یتم بها التراصف الزمنی بالنقاط الاتیة: رسم بیانات السلسلة الزمنیة المحددة للبیانات.

‌ب. تحدید الفترات الموسمیة وفی نمط الموسم.

‌ج. سحب البیانات فی هذه الفترات من السلسلة ومراصفتها.

مقیاس خطأ التنبؤ Forecasting Error Measurement

سیتم استخدام واقتراح العدید من الطرائق والاسالیب، وللمقارنة بینها سیتم استخدام متوسط النسبة المئویة المطلقة للخطأ MAPE)) Mean Absolute Percentage Error. ویعرف الخطأ بأنه هو تقدیر للفرق بین القیمة الحقیقیة والقیمة المقدرة حیث کلما کان الخطأ قلیل فستکون الدقة اکبر. ویحسب مقیاس الخطأ MAPE على النحو التالی:

(9)

حیث : تمثل خطأ التنبؤ، n : هی عدد المشاهدات، i= 1,2,3,…….,m

yi : هو السلسلة الحقیقة او الاصلیة المستعلمة کمتغیر هدف. ویحسب خطأ التنبؤ کما یلی:

(10)

النتائج والمناقشات

فی هذه الدراسة تم استخدام طریقة احصائیة تقلیدیة شائعة الاستخدام متمثلة بنموذج MLR للتنبؤ بالجسیمات المعلقة بالهواء المتمثل بمقیاس (PM₁₀). وکذلک تم اقتراح طریقة اخرى لتحسین التنبؤ بتلوث الهواء لمتغیر PM₁₀ بعد تهجینها مع الطریقة التقلیدیة. وقد تمت مقارنتها مع الانحدار الخطی المتعدد MLR فی حالة البیانات الکلیة وفی حالة البیانات المتراصفة زمنیا ورغم ما یوفره الانحدار الخطی المتعدد من امکانیة نمذجة البیانات لاستخدامه فی التنبؤ بالمتغیر المعتمد إلا أن بیانات التلوث الجوی والأرصاد الجویة تأخذ نمطاً غیر خطیاً مما یؤدی إلى ظهور بعض النتائج والتنبؤات بدقة قلیلة أحیاناً وقد حسنت الطریقة الهجینة المقترحة من نتائج التنبؤ من خلال ما تضمنته من حلول وامکانات للتعامل مع البیانات غیر الخطیة. (Jahandideh et al., 2009). تم تقسیم البیانات الى قسمین قسم تدریب وقسم اخر للاختبار وکما مدرج ادناه:

1. بیانات التدریب : ستبدأ من الفترة(2013/1/1 ) الى (/20155/31)

2. بیانات الاختبار: ستبدأ من الفترة (/6/20151 ) الى /10/2015) 31 ) والتی تقارب نسبة %15 من البیانات وهو ضمن المعدل الذی تناولته معظم البحوث فی مجال الدراسة.

وبهذا سیکون هناک (881) مشاهدة للتدریب و(153) مشاهدة للاختبار وسیتم استخدام طریقة الانحدارMLR حیث تم حذف المتغیرات غیر المعنویة اعتمادا على قیمة P-value کما سنشاهده فی النتائج ادناه وقد تم اختیار افضل معادلة نموذج انحدار خطی متعدد اعتمادا على افضل تفسیر للعلاقة والتأثیر ومعنویة المعلمات حیث ان افضل نموذج انحدار خطی متعدد فی حالة البیانات الکلیة کما مدرج ادناه:

(11)

حیث یمکن تعریف متغیرات ومعلمات نموذج الانحدار الخطی المتعدد فی (11) کما هو ادناه:

: y هو متغیر الاستجابة PM₁₀ وx ₁ : یمثل متغیر احادی اکسید الکاربون CO وx ₂: یمثل متغیر ثنائی اکسید الکبریت SO₂وx ₃: یمثل متغیر احادی اکسید النیتروجین NO و x ₄: یمثل متغیر الاوزون O₃. نلاحظ من خلال المعادلة (11) التی تمثل نموذج الانحدار الخطی المتعدد ان معاملات المتغیرات التفسیریة β₁ , β₂, β₃, β₄تساوی (79.01),(179.60),(-2029),(3501) على التوالی والتی تمثل قیمتها قوة تأثیر المتغیر التفسیری على المتغیر المعتمد بینما توضح الاشارة اتجاه ذلک التأثیر.

ان جمیع المعلمات المقدرة معنویة لان قیم p-value هی اقل من مستوى المعنویة(0.05) مما یدل على معنویة المعلمات وکفاءة النموذج ولذلک فیعتبر النموذج الامثل. ان نتائج تنبؤات مرحلتی التدریب والاختبار من حیث دقتها مقاسة من خلال قیمة MAPE کما فی الجدول(2).

الجدول(2): قیمMAPE)) فی حالة البیانات الکلیة باستخدام نموذج MLR

بیانات الاختبار	بیانات التدریب
28.011285	27.223691

الشکل (4): التطابق بین البیانات الاصلیة مع البیانات التقدیریة (سلسلة التنبؤ) للمتغیر

المعتمد(PM₁₀) خلال الفترة الکلیة لبیانات التدریب فی MLR.

الشکل (5): التطابق بین البیانات الاصلیة مع البیانات التقدیریة (سلسلة التنبؤ) للمتغیر المعتمد(PM₁₀) خلال الفترة الکلیة لبیانات الاختبار باستخدامMLR .

الجدول(3): قیمMAPE)) فی حالة البیانات الکلیة باستخدام RNN-MLR

بیانات الاختبار	بیانات التدریب
29.6825	22.0665

الشکل(6): التطابق بین البیانات الاصلیة مع البیانات التقدیریة (سلسلة التنبؤ) (PM₁₀) للفترة الکلیة لبیانات التدریب باستخدام. MLR-RNN

الشکل(7): التطابق بین البیانات الاصلیة مع البیانات التقدیریة للمتغیر المعتمد(PM₁₀) للفترة الکلیة لبیانات الاختبار باستخدام MLR-RNN.

حیث تم بناء افضل النماذج من خلال استخدام بیانات التدریب ثم التنبؤ بها اما بیانات الاختبار فتم التنبؤ بها باستخدام نفس النموذج الذی تم انشاؤه من بیانا التدریب، ولهذا السبب فأن دقة التنبؤ لبیانات التدریب علمیا(التنبؤ داخل العینة In of sample forecasting) سیکون ادق من التنبؤ بالمشاهدات المستقبلیة للسلسلة فی حین لایمکن مقارنة النتائج للتنبؤ لبیانات التدریب والاختبار لاختلاف حجم العینة بینهما، ولنفس السبب فأن افضلیة نتائج التنبؤ لبیانات التدریب باستخدام MLR-RNN مقارنة مع MLR وهی التی یمکن الحکم بها على الطریق الافضل ولیس من خلال نتائج بیانات الاختبار. یلاحظ من الجدولین(2 و3) والأشکال(4-7) ان هنالک تقارب وانسجام بین القیم الحقیقیة والقیم المقدرة التنبؤیة باستخدام MLR-RNN وبصورة اکثر انسجاما مما کانت علیه فی نموذج MLR وهذا یدل على ان الطریقة الهجینةRNN-MLR افضل من الطریقة التقلیدیة وهی نموذج MLR. بعد الحصول على التنبؤات لبیانات التدریب والاختبار للبیانات فی الفترة الکلیة فسیتم تقسیم البیانات الى اربعة مواسم من خلال استخدام التراصف الزمنی وسیتم اتخاذ الاجراءات نفسها التی تم انجازها مع البیانات الکلیة لکل موسم على حدة باستخدام الطرق نفسهاMLR وMLR-RNN وکذلک سیتم تقسیم البیانات الى مجموعتین بیانات تدریب وبیانات اختبار لکل موسم. بعد تقسیم البیانات الى بیانات تدریب وبیانات اختبار سیتم استخدام بیانات التدریب لایجاد افضل نموذج انحدار خطی متعدد لاربع مواسم S₁ و S₂و S₃و S₄یعبر عنها وکما هو فی المعادلات ادناه.

(12)

(13)

(14)

(15)

ولغرض اجراء المقارنة مع البیانات الکلیة فسیتم القبول بالنماذج(12-15) اعلاه على الرغم من عدم معنویة بعض معلماته لاثبات هیکلیة موحدة للمتغیرات کوجه للتشابه لیصح اجراء المقارنات على التوالی حتى فی حال کانت بعض المعلمات غیر معنویة وذلک لانه تم استخدام نموذج للانحدار الخطی المتعدد بنفس المتغیرات للبیانات الکلیة . والجدول (4) سیوضح قیم مقیاس الخطأ.

الجدول(4): قیم (MAPE) فی حالة استخدام نموذج MLR.

بیانات الاختبار	بیانات التدریب
25.027	25.317	S₁
22.057	20.739	S₂
19.028	24.823	S₃
29.683	31.627	S₄

الأشکال (8-15) ادناه توضح الانسجام بین البیانات الاصلیة مع البیانات التقدیریة (سلسلة التنبؤ) للمتغیر المعتمد(PM₁₀) لبیانات التدریب والاختبار للبیانات المتراصفة زمنیاً باستخدام نموذج MLR)).


الشکل(9): التطابق بین البیانات الاصلیة مع البیانات التقدیریة(سلسلة التنبؤ) للمتغیر المعتمد(PM₁₀) لبیانات الاختبار للموسم S₁)) باستخدامMLR))	الشکل (8) التطابق بین البیانات الاصلیة مع البیانات التقدیریة(سلسلة التنبؤ) للمتغیر المعتمد(PM₁₀) لبیانات التدریب للموسم الاولS₁)) باستخدامMLR))

الشکل(11): التطابق بین البیانات الاصلیة مع البیانات(سلسلة التنبؤ) التقدیریة للمتغیر المعتمد(PM₁₀) لبیانات الاختبار للموسمS₂)) باستخدامMLR))	الشکل(10): التطابق بین البیانات الاصلیة مع البیانات التقدیریة(سلسلة التنبؤ) للمتغیر المعتمد(PM₁₀) لبیانات التدریب للموسمS₂)) باستخدام MLR))

الشکل(13): التطابق بین البیانات الاصلیة مع البیانات التقدیریة(سلسلة التنبؤ) للمتغیر المعتمد(PM₁₀) لبیانات الاختبار للموسمS₃)) باستخدام MLR))	الشکل(12): التطابق بین البیانات الاصلیة مع البیانات التقدیریة(سلسلة التنبؤ) للمتغیر المعتمد(PM₁₀) لبیانات التدریب للموسم S₃) ) باستخدامMLR))

الشکل(15): التطابق بین البیانات الاصلیة مع البیانات التقدیریة (سلسلة التنبؤ) (PM₁₀) لبیانات الاختبار للموسم S₄) ) فی MLR))	الشکل(14): التطابق بین البیانات الاصلیة مع البیانات التقدیریة للمتغیر المعتمد(PM₁₀) لبیانات التدریب للموسمS₄)) باستخدام MLR))

ومن الاشکال (8-15) اعلاه فممن الممکن استنتاج انه باستخدام عملیة التراصف الزمنی وتقسیم البیانات الى مواسم فأن الفرق بین الاخطاء الحقیقیة والاخطاء التقدیریة تکون اقل مما کانت علیه فی حالة البیانات الکاملة باستخدام MLR. بعد ان تم تطبیقMLR)) على البیانات الموسمیة سیتم تهجین للشبکات العصبیة المعاودة RNN)) باستخدام نموذجMLR)) وتسمى هذه الطریقة MLR-RNN الهجینةوکل موسم من هذه المواسمعلى حدة والجدول (5) یوضح قیم مقیاس الخطأ MAPE لبیانات التراصف الزمنی للتدریب والاختبار باستخدام طریقة MLR-RNN الهجینة .

الجدول(5): قیم (MAPE) فی حالة استخدام طریقة MLR-RNN الهجینة .

بیانات الاختبار	بیانات التدریب
20.641	21.486	S₁
18.203	15.942	S₂
20.239	16.433	S₃
37.750	23.950	S₄

وعند مقارنة نتائج الخطأ (MAPE) للطریقة الهجینةMLR-RNN)) مع نتائج MAPE)) لنموذج الانحدار(MLR) فی الجدولین (4 و5) یتبین ان معظم نتائج الطریقة الهجینة خصوصا لبیانات التدریب تفوقت على نتائج نموذج MLR واعطت نتائج اکثر دقة .

الأشکال (16-23) ادناه توضح مدى التطابق والانسجام بین البیانات الاصلیة مع البیانات التقدیریة (سلسلة التنبؤ) للمتغیر المعتمد(PM₁₀) لبیانات التدریب والاختبار لجمیع البیانات المتراصفة زمنیاً للمواسم الاربعة باستخدام الطریقة الهجینة MLR-RNN)).


الشکل(19): التطابق بین البیانات الاصلیة مع البیانات التقدیریة (سلسلة التنبؤ) (PM₁₀) لبیانات الاختبار للموسم S₂)) باستخدام MLR-RNN)).	الشکل(18): التطابق بین البیانات الاصلیة مع البیانات التقدیریة (سلسلة التنبؤ) (PM₁₀) لبیانات التدریب للموسم S₂)) باستخدامMLR-RNN)).

الشکل(21): التطابق بین البیانات الاصلیة مع البیانات التقدیریة (سلسلة التنبؤ) (PM₁₀) لبیانات الاختبار للموسم S₃)) باستخدام MLR-RNN)).	الشکل(20): التطابق بین البیانات الاصلیة مع البیانات التقدیریة (سلسلة التنبؤ) (PM₁₀) لبیانات التدریب للموسم S₃)) باستخدام MLR-RNN)).

الشکل(23): التطابق بین البیانات الاصلیة مع البیانات التقدیریة (سلسلة التنبؤ) (PM₁₀) لبیانات الاختبار للموسم S₄)) باستخدام MLR-RNN.	الشکل(22): التطابق بین البیانات الاصلیة مع البیانات التقدیریة (سلسلة التنبؤ) (PM₁₀) لبیانات التدریب للموسم S₄)) باستخدام MLR-RNN.

ومن الاشکال (16-23) اعلاه وکذلک من خلال المقارنة بین الطریقتین المقترحتین فأن التطابق بین السلسلتین باستخدام MLR-RNN افضل من النموذج MLR للبیانات المتراصفة زمنیاً وکذلک افضلیة نتائج التنبؤ للبیانات المتراصفة زمنیا مع حالة البیانات الکلیة حیث تم بناء افضل النماذج من خلال استخدام بیانات التدریب ثم التنبؤ بها اما بیانات الاختبار فتم التنبؤ بها باستخدام نفس النموذج الذی تم انشاؤه من بیانا التدریب، ولهذا السبب فأن دقة التنبؤ لبیانات التدریب سیکون ادق من التنبؤ بالمشاهدات المستقبلیة للسلسلة فی حین لا یمکن مقارنة النتائج للتنبؤ لبیانات التدریب والاختبار لاختلاف حجم العینة بینهما، ولنفس السبب فأن افضلیة نتائج التنبؤ لبیانات التدریب باستخدام MLR-RNN مقارنة مع MLR وهی التی یمکن الحکم بها على الطریق الافضل ولیس من خلال نتائج بیانات الاختبار.

الاستنتاجات

من خلال ما تم عرضه من نتائج ومناقشات للطرق المقترحة وتطبیقها على بیانات الدراسة فمن الممکن استنتاج افضلیة لاستخدام منهجیة الطریقة الهجینة المقترحة MLR-RNN لتحسین نتائج التنبؤ لتلوث الهواء وخصوصا فی حالة استخدام اسلوب التراصف الزمنی لبیانات الدراسة والذی یحسن نتائج التنبؤ لتلوث الهواء.

References

.1 Abrougui, K., Gabsi, K., Mercatoris, B., Khemis, C., Amami, R., & Chehaibi, S. (2019). Prediction of organic potato yield using tillage systems and soil properties by artificial neural network (ANN) and multiple linear regressions (MLR). Soil and Tillage Research, 190, 202-208.

.2 Ahmad, M., Alam, K., Tariq, S., Anwar, S., Nasir, J., & Mansha, M. (2019). Estimating fine particulate concentration using a combined approach of linear regression and artificial neural network. Atmospheric Environment, 219, 117050.

.3 Dawson, C., & Wilby, R. (2001). Hydrological modelling using artificial neural networks. Progress in physical Geography, 25(1), 80-108.

.4 Honarasa, F., Yousefinejad, S., Nasr, S., & Nekoeinia, M. (2015). Structure–electrochemistry relationship in non-aqueous solutions: predicting the reduction potential of anthraquinones derivatives in some organic solvents. Journal of Molecular Liquids, 212, 52-57.

.5 Jahandideh, S., Jahandideh, S., Asadabadi, E. B., Askarian, M., Movahedi, M. M., Hosseini, S., & Jahandideh, M. (2009). The use of artificial neural networks and multiple linear regression to predict rate of medical waste generation. Waste management, 29(11), 2874-2879.

.6 Janssen, N. A., Hoek, G., Simic-Lawson, M., Fischer, P., Van Bree, L., Ten Brink, H., . . . Brunekreef, B. (2011). Black carbon as an additional indicator of the adverse health effects of airborne particles compared with PM10 and PM2. 5. Environmental health perspectives, 119(12), 1691-1699.

.7 Lin, L., Dekkers, I. A., Tao, Q., & Lamb, H. J. (2020). Novel artificial neural network and linear regression based equation for estimating visceral adipose tissue volume. Clinical Nutrition.

.8 Malig, B. J., Pearson, D. L., Chang, Y. B., Broadwin, R., Basu, R., Green, R. S., & Ostro, B. (2015). A time-stratified case-crossover study of ambient ozone exposure and emergency department visits for specific respiratory diagnoses in California (2005–2008). Environmental health perspectives, 124(6), 745-753.

.9 Palit, A. K., & Popovic, D. (2006). Computational intelligence in time series forecasting: theory and engineering applications: Springer Science & Business Media.

.10 Sheela, K. G., & Deepa, S. N. (2013). Review on methods to fix number of hidden neurons in neural networks. Mathematical Problems in Engineering, 2013.

.11 Shrestha, R. R., Theobald, S., & Nestmann, F. (2005). Simulation of flood flow in a river system using artificial neural networks. Hydrology and Earth System Sciences Discussions, 9(4), 313-321.

.12 Tobias, A., Armstrong, B., & Gasparrini, A. (2014). Analysis of time-stratified case-crossover studies in environmental epidemiology using Stata. Paper presented at the United Kingdom Stata Users' Group Meetings 2014.

.13 Torkashvand, A. M., Ahmadi, A., & Nikravesh, N. L. (2017). Prediction of kiwifruit firmness using fruit mineral nutrient concentration by artificial neural network (ANN) and multiple linear regressions (MLR). Journal of integrative agriculture, 16(7), 1634-1644.

.14 Vlachogianni, A., Kassomenos, P., Karppinen, A., Karakitsios, S., & Kukkonen, J. (2011). Evaluation of a multiple regression model for the forecasting of the concentrations of NOx and PM10 in Athens and Helsinki. Science of the total environment, 409(8), 1559-1571.

.15 Yonaba, H., Anctil, F., & Fortin, V. (2010). Comparing sigmoid transfer functions for neural network multistep ahead streamflow forecasting. Journal of Hydrologic Engineering, 15(4), 275-283.

.16 Zhou, F., Liu, B., & Duan, K. (2020). Coupling wavelet transform and artificial neural network for forecasting estuarine salinity. Journal of Hydrology, 125127.

Statistics

Article View: 342

PDF Download: 295