Comparison of Logistic regression, Convolution Neural Network, and Kernel Approaches for Classifying the Caenorhabditis Elegans Motion

Shukur, Osamah Basheer; Malaa, Omar Akram

doi:10.33899/iqjoss.2023.0181225

Journals List

Comparison of Logistic regression, Convolution Neural Network, and Kernel Approaches for Classifying the Caenorhabditis Elegans Motion

IRAQI JOURNAL OF STATISTICAL SCIENCES

Volume 20, Issue 2, December 2023, Pages 175-187 PDF (1.48 M)

Document Type: Research Paper

DOI: 10.33899/iqjoss.2023.0181225

Authors

Osamah Basheer Shukur¹; Omar Akram Malaa^* ²

¹Comparison of Logistic regression, Convolution Neural Network, and Kernel Approaches for Classifying the Caenorhabditis Elegans Motion

²Department of Statistics and Informatics\ Faculty of Computer Sciences and Mathematics\ University of Mosul\ Mosul\ Iraq.

Abstract

Time series data are widely used in many fields including microbiology data. It is necessary to know how to classify the category to which observation belongs by using statistical classification methods and machine learning and deep learning algorithms. The study of the movement of some types of nematodes as one of the types of microorganisms including Caenorhabditis elegans (CE) is important to determine the actions and their impact on the life of the worms. In this study the CE motion time series data were represented by its wave motion angles which would be the study case. the non-linearity and uncertainty will be among the most common problems in this type of data that may lead to classifications that are not accurate. Convolutional Neural Network (CNN) will be used as one of the deep learning techniques and it is a non-linear method used to classify CE movement as a dependent variable in binary cases based on images of wave motion angles as an independent variable and its use will lead to accurate results because it is a suitable non-linear method to deal with Study data to solve nonlinearity and uncertainty problems through digital data visualization. Logistic regression (LR) and kernel method were also used to classify CE angles of movement. The AR(p) rank was used to determine the structure of the used methods. And by comparing the results between the methods used, it was found that the CNN method is superior to the other methods used. Therefore, it is possible to conclude that the use of the CNN method, which is based on pictorial classification, leads to accurate classification results compared to other methods based on numerical classification.

Highlights

Keywords

Keywords: enorhabditis elegaLogistic Regression (LR); Convolutional Neural Network (CNN); Kernel Method; Classification; Time series; Autoregressive (AR); Cans (CE)

Full Text

في هذه الدراسة تم التطرق الى دراسة تصنيف السلسلة الزمنية باستخدام خوارزميات التعلم تحت الاشرافsupervised learning algorithms والتي تشترط توفر بيانات المتغير المعتمد (متغير الهدف Target variable) للحصول على أخطاء التعلم. تعتبر دراسة الديدان الاسطوانية الشفافة بصورة عامة من الدراسات المهمة في علم الأحياء المجهرية كون خلاياها تشبه خلايا الإنسان وكذلك بسبب سرعة مراحل نموها. ان حركة الدودة تكون بصورة متتابعة خلال زمن معين أي على شكل سلسلة زمنية. إذ أن كل حركة تقوم بها الدودة أو تصل اليها تكون مرتبطة بالحركة التي قبلها لتمثل حالة الدراسة لمتغير سلسلة زمنية واحد لحركة الدودة وتكون خلال فترة زمنية لأجزاء من الثانية لكل حركة تقوم بها الدودة. في هذه الدراسة تم الحصول على بيانات عن الربداء الرشيقة Caenorhabditis Elegans (CE) ككائن حي نموذجي مهم في دراسة علم الوراثة لزيادة فهم علم الوراثة السلوكية. البيانات تضم مشاهدات كل منها تعبر عن زاوية خاصة بحركة الربداء الرشيقة[1] Caenorhabditis Elegans Motion (CEM). ولأنه لا يمكن تحديد CEM تحديدا نقطياً ولكن يمكن حصره ضمن فترات فيكون من الضروري توصيفه ضمن فئات وهذا ما قد يعالج جزءاً من مشكلة عدم اليقين وعندها يتم تركيز الاهتمام بتصنيف المشاهدات الجديدة من خلال نموذج تصنيفي يتم بناؤه من خلال سلوك السلسلة الزمنية خلال فترة التدريب Training period. تعد بيانات CEM من السلاسل الزمنية الطويلة بعدد مشاهدات كبير جدا وبدليل زمني قد يكون بالثواني أو أجزاء الثواني مما قد يضفي عليها صفة عدم الخطية ومما قد يجعل من الصعب التعامل مع مثل هذه البيانات. وكذلك فإن طول السلسلة الزمنية الكبير جدا مما قد يكون سبباً رئيسيا لعدم التجانس والناتج عن تعدد الخصائص والصفات والمركبات التي تمر بها البيانات من بداية السلسلة الى نهايتها والذي قد يجعل من التنبؤ النقطي point Forecast ذو نتائج غير دقيقة. وللتقليل من مشكلة عدم الخطية وعدم التجانس في البيانات وتحسين نتائج التنبؤ فيمكن تمثيل البيانات بالصور واستخدام التصنيف الثنائي Binary Classification بديلا عن التنبؤ النقطي لتحسين دقة النتائج مقارنة بنتائج التنبؤ بوجود عدم التجانس وعدم خطية البيانات لأنه يعالج بشكل غير مباشر مشكلة عدم اليقين.

هنالك دراسات سابقة تناولت استخدام اسلوب الشبكة العصبية الالتفافية Convolutional Neural Network (CNN) والانحدار اللوجستي Logistic Regression (LR) و Kernel في مجال الأحياء المجهرية فيما يخص سلوك الديدان الاسطوانية. إذ قام الباحث (1) باستخدام أسلوب CNN لتمييز سلالات CE المتنوعة وراثيا وتصنيفها عن طريق تدريب النموذج على بيانات سلسلة زمنية لاوضاع الدودة باستخدام عينات من صور حركة الدودة كمتغير ادخال وتم الحصول على نموذج قادر على تصنيف السلالات. كما استخدم (2) أسلوب CNN لتصنيف الصور المجهرية لتحديد نوع معين من الديدان الخيطية وكان النموذج المدرب يعمل بشكل جيد في التصنيف. وقام كذلك (3) باستخدام التعلم العميق من خلال اسلوبي CNN و Recurrent neural network (RNN) لحساب متوسط العمر المتوقع لبيانات CEM عن طريق تصنيفها انها على قيد الحياة او انها ميتة من خلال ملاحظة صور من حركة الدودة وحققت الطريقة المقترحة معدلات خطأ صغيرة مما يدل على جودتها. وقام (4) بتحديد اذا ما كان العمر والنمط الجيني لدودة الربداء الرشيقة يؤثران على حركتها في جميع السلالات باستخدام نموذج الانحدار اللوجستي الثنائي اذ تم تقييم فروق الحركة بين السلالات من النوع البري من خلال الانحدار اللوجستي. وكان نموذج الانحدار اللوجستي مناسب تماما اذ قام (5) بتوقع الحركة الامامية لدودة الربداء الرشيقة باستخدام أسلوب Logistic Regression (LR) الانحدار اللوجستي من خلال التنبؤ بالخلايا العصبية المشاركة في سلوك الحركة. كانت نتائج التنبؤ فعالة باستخدام طريقة النواة وبمعدل خطأ قليل من خلال قيام الباحث (6) استخدام أسلوب النواة Kernel Method بالتنبؤ بعمل الجينات لدودة الربداء الرشيقة للمساعدة في تمييز النمط الصحيح والتحقق من الإيجابيات والسلبيات.

المواد والطرق
- نموذج الانحدار الذاتي Auto Regressive Model (AR)

إن السلاسل الزمنية Time Series هي مجموعة من المشاهدات التي تتولد بفترات زمنية متتابعة وتتميز بعدم الاستقلالية. إذ أن المشاهدات فيها ترتبط بسابقتها زمنياً إذ يمكن من خلالها التنبؤ بالسلاسل الزمنية المستقبلية يعتمد على مشاهدات لسلسلة زمنية وقعت في الماضي (7, 8). ان السلسلة الزمنية الحالية يمكن أن يعبر عنها باستخدام دالة الانحدار الذاتي لقيم السلاسل الزمنية السابقة ويمكن كتابة دالة الانحدار الذاتي من الرتبة p كما في المعادلة ادناه.

إذ أن هي معلمات الانحدار الذاتي و . وان الخطأ أو التغير العشوائي عبارة عن عملية تشويش أبيض بمتوسط صفر وتباين ثابت إذ أن و . في تحليل بيانات السلسلة الزمنية يتم استخدام منهجية بوكس جنكنز بخطواتها الأربعة التعرف او التحديد وتقدير المعلمات واجراء الفحوص التشخيصية والتنبؤ. إن تحديد نموذج السلسلة الزمنية ومنها نموذج الانحدار الذاتي AR يتم غالبا من خلال الرسم باستخدام دالة الارتباط الذاتي Autocorrelation Function (ACF) ودالة الارتباط الذاتي الجزئي Partial Autocorrelation Function (PACF).

الشبكة العصبية الالتفافية Convolutional Neural Network (CNN)

هي أحد الأدوات الأساسية للتعلم العميق والتي تنضوي تحت مظلة الشبكات العصبية العميقة Deep neural network (DNN) التي تضم نوعا آخر من DNN وهي الشبكات العصبية المعاودة Recurrent Neural Network (RNN). إن هيكلية CNN تتألف من جزأين أساسيين وهما طبقة التعرف على الميزات والتي تتم فيه عمليات الإلتفاف والتجميع للتعرف على خصائص الصورة مثل الحواف وتدرج اللون وكذلك الطبقة المتصلة بالكامل التي تستقبل مخرجات طبقة التعرف على الميزات كمدخلات ليتم فيها عملية التصنيف كما موضح في شكل 1 أدناه (9).

شكل 1: هيكلية الشبكة العصبية الالتفافية.

يتم اختيار هيكلية CNN المناسبة عن طريق تحديد عدد الطبقات وهي طبقة الادخال والطبقات الخفية وطبقة الإخراج. وبعد ذلك يتم تحديد حجم المرشح ويرمز له (f) وعدد المرشحات ويرمز لها (m) وان المرشح عبارة عن ارقام عشوائية صغيرة تسمى الاوزان ويرمز لها (w) والتي تقوم بالإلتفاف حول جميع نقاط الصورة للتعرف على التفاصيل التي تشكل الصورة. وعملية الالتفاف تكون بخطوات محددة تسمى stride باتجاه يسار الصورة. عند التفاف المرشح حول الصورة سوف يتقلص حجم الصورة ويتم فقدان العديد من البيانات والخصائص ولحل هذه المشكلة يتم إضافة الحشو Padding بصفوف وأعمدة على طول وعرض الصورة. إن حجم الإخراج الناتج من عملية الالتفاف حول الصورة يتم الحصول عليه عن طريق عملية رياضية مبسطة كما موضح في المعادلة أدناه.

إذ أن تمثل طول الصورة، تمثل عرض الصورة، تمثل الحشو، تمثل أحد أبعاد المرشح، تمثل الخطوة.

بعد ذلك يتم جمع كل قيمة تحيز مع كل عنصر من عناصر المصفوفة التي تقابلها للحصول على مخرجات عملية الالتفاف كما في المعادلة أدناه التي يمكن تسمية مخرجاتها بمخرجات الدالة الجمعية والتي تمثل المرحلة الأولى من الطبقة الخفية.

حيث أن I,J تمثلان أبعاد أو عدد الصفوف وعدد الاعمدة في كل صورة على التوالي، وأن f₁,f₂ تمثلان عدد الصفوف وعدد الأعمدة في كل مرشح على التوالي، وأن والتي ترمز الى تسلسل ناتج كل مرشح. يتم استخدام أحد دوال التحويل ضمن الطبقة الخفية على مخرجات عملية الالتفاف ومن أكثر دوال التحويل استخداما في الشبكة العصبية هي كما يلي:

الدالة اللوجستية (Logistic Sigmoid function):

إذ أن SUM تمثل مدخلات دالة التحويل التي تمثل مخرجات الدالة الجمعية وتولد مخرجاتها ضمن الحدود (0,1).

دالة tan (Tan sigmoid function):

إذ أن SUM تمثل مدخلات دالة التحويل التي تمثل مخرجات الدالة الجمعية وتولد مخرجاتها ضمن الحدود (-1,1).

الدالة الخطية (Pure Line function):

إذ أن SUM تمثل مدخلات دالة التحويل التي تمثل مخرجات الدالة الجمعية وتولد مخرجاتها ضمن الحدود (-1,1).

دالة الوحدة الخطية المصححة (Relu) Rectified Linear Unit function:

إذ أن تمثل مدخلات دالة التحويل التي تمثل مخرجات الدالة الجمعية وتولد مخرجاتها أكبر أو يساوي (0).

دالة Softmax (Softmax function):

اذ ان تمثل مخرجات الطبقة المتصلة بالكامل، تمثل فئات متغير الاستجابة، اذ أنه يتم تطبيق هذه الدالة على مخرجات الطبقة المتصلة بالكامل للحصول على نتائج بعدد فئات متغير الاستجابة وهي عبارة عن ارقام موجبة وكل رقم يمثل احتمالية انتمائه الى فئة من الفئات ويكون مجموعهم يساوي واحد.

شكل 2: الدالة اللوجستية شكل 3: دالة tan شكل 4: الدالة الخطية شكل 5: دالة Relu

بعد عملية ادخال دالة التحويل على مخرجات الدالة الجمعية يتم تطبيق عملية التجميع pooling إذ أن المخرجات تقسم الى عدد من المصفوفات الصغيرة ويتم ذلك بتحديد حجمها وعدد خطواتها. وكل مصفوفة صغيرة يتم اختزالها الى قيمة واحدة فقط لتصبح المصفوفة في نهاية الطبقة الأولى الخفية بابعاد أقل. ثم يتم تحويلها الى متجه عن طريق عملية تسمى التسوية Flatten. إن المتجه يمثل مدخلات الطبقة المتصلة بالكامل Fully Connected Layer وتجمع هذه الطبقة كل الميزات التي تعلمتها الطبقات السابقة عبر الصور (10). يتم تحديد مخرجات الطبقة المتصلة بالكامل بعدد فئات التصنيف بالاعتماد على عدد فئات المتغير المعتمد ويتم أيضا تحديد الاوزان عشوائيا في كل عصبون وغالبا ما تتبع هذه الطبقة في حالة التصنيف بدالة التحويل Softmax. ان طبقة التصنيف Classification Layer يتم فيها تحديث قيم الوزن ( ) weight value والتحيز (b) biased value وهي عملية تكرارية لحين الوصول الى القيم المثلى (11).

الانحدار اللوجستي Logistic Regression

يعتبر الانحدار اللوجستي من أهم الخوارزميات المستخدمة في التصنيف ويستخدم عندما يكون المتغير المعتمد فئوي ثنائي ويسمى بالنموذج اللوجستي أو اللوجيت (Logit) وهو نموذج مفيد في تصنيف البيانات التي تتكون من متغير ثنائي للاستجابة ويعتمد على النموذج الخطي كما في المعادلات أدناه.

إذ أن تمثل معلمة الحد الثابت، تمثل معلمات الانحدار، هي المتغيرات المستقلة، يمثل نسبة الترجيح (Odds) وهو الاحتمال الشرطي للنجاح مقسوم على الاحتمال الشرطي للفشل. وإن احتمالية وقوع الحدث يكون 1 إذا كانت قيمة الاحتمال أكبر أو يساوي 0.5 (12). اذ ان احتمال النجاح يمكن صياغته كما يلي.

طريقة النواة Kernel Method

تعتبر طريقة النواة من خوارزميات التعلم الآلي التي تستخدم في التصنيف الثنائي وخاصة في حالة البيانات غير الخطية وهي أكثر استخداما على البيانات الضخمة التي تحتوي على مجموعات تدريب كبيرة وكذلك يمكن تطبيقها على مجموعات البيانات الأصغر ويستخدم أيضا في الخوارزميات القائمة على النواة مثل الانحدار الخطي وخوارزمية آلة المتجه الداعم (SVM)Support Vector Machine . ان أساس عمل خوارزمية تصنيف النواة هو البحث عن افضل طريقة لفصل البيانات الى فئتين اذ تقوم بتحويل البيانات التي لا يمكن فصلها خطيا الموجودة في مساحة منخفضة الابعاد الى فضاء عالي الابعاد ثم تعمل بملائمة نموذج خطي للبيانات في الفضاء عالي الابعاد. هناك نقاط لا يمكن رؤيتها بشكل واضح أو الوصول اليها ولذلك فان عملية فصل البيانات تمت في مساحة الادخال الاصلية بصورة معقدة وغير خطية. في هذه الحالة يجب اعادة صياغة الزوايا والاطوال والمسافات الى فضاء أو أبعاد أعلى لكي يتم فصل البيانات خطيا وبسهولة اكبر بواسطة النواة. اذ يتم فصل البيانات بشكل خطي وبسهولة بعد تحويل البيانات الى فضاء عالي الابعاد عن طريق دالة النواة وهي دالة تقوم بتحويل المتجهين (x₁ وx₂) الى فضاء متجه جديد تعمل هذه الدالة كمقياس تشابه بتحديد التشابه او الاختلاف بين كل نقطتين في الفضاء عالي الابعاد وتعطي دالة النواة نتيجة 1 في حال التشابه الكبير بين النقاط وتعطي النتيجة صفر في حال الاختلاف الكبير بين النقاط. ولغرض حساب مدى اقتراب او ابتعاد نقطة معينة عن عدد من النقاط لغرض التصنيف أو التنبؤ يتم هذا باستخدام دالة النواة (Gaussian Kernel) وكما في المعادلة أدناه (13).

اذ أن x_i و x_j تمثلان متجهين، وان المقام في معادلة دالة النواة هو عبارة عن معلمة ضعف مربع 𝜎 وزيادتها تؤدي الى تقليل ما بداخل الدالة الاسية وهو ما يجعل النتيجة تقترب من 1 واذا كانت 𝜎 قليلة مما يؤدي الى زيادة ما بداخل الدالة الاسية فإن النتيجة تقترب من صفر.

مقاييس الدقة للتصنيف Classification Accuracy Measurement

تستخدم هذه المقاييس لقياس دقة أداء النموذج في التصنيف. وللتعرف على هذه المقاييس يجب معرفة مصفوفة الارتباك Confusion Matrix (CM) (14) كما موضح في المعادلة . ومن ابسط المقاييس المستخدمة في التصنيف مقياس الدقة التصنيفية Classification accuracy يتم فيه حساب نسبة الحالات المتوقعة المطابقة للحالات الفعلية الى العدد الكلي لجميع الحالات المتوقعة والفعلية المطابقة وغير المطابقة وكما في المعادلة .

اذ أن:

حيث ان (TP) تمثل عدد المشاهدات التي تم تصنيفها بشكل صحيح على انها إيجابية. وأن (TN) تمثل عدد المشاهدات التي تم تصنيفها بشكل صحيح على انها سلبية. وان (FP) تمثل عدد المشاهدات التي تم تصنيفها بشكل غير صحيح على انها إيجابية عندما كانت في الواقع سلبية. وان (FN) تمثل عدد المشاهدات التي تم تصنيفها بشكل غير صحيح على انها سلبية عندما كانت في الواقع إيجابية.

النتائج

البيانات المستخدمة في الدراسة هي عبارة عن ظل زوايا CEM في حديقة طعام بكتيرية على لوحة اجار Agar plate بشكل سلاسل زمنية طويلة وبعدد مشاهدات كبيرة جدا. السلسلة الزمنية هي عبارة عن مقطع فيديو لحركة الدودة خلال ما يقارب 2.5 ساعة. تتراوح درجة زوايا جسم CE من 1◦ عندما تنحني على نفسها تقريباً الى الزاوية اقل من 180◦ كأكبر زاوية ممكنة عندما تصل الى الاستقامة تقريباً(15). إن شكل 6 أدناه يوضح انحناءات CE للعديد من الزوايا المختلفة تم تصويرها من ابعاد مختلفة.

شكل 6: سباحة وحركة دودة الربداء الرشيقة في زوايا وابعاد مختلفة (16).

في دراسات معينة يكون الاهتمام بدراسة متى تقطع الدودة مسافات أكبر في وقت أقل وذلك عندما تتحرك بسرعة أي عندما تكون حركتها بزوايا حادة. وهناك دراسات أخرى يكون الاهتمام فيها حول توقفات الدودة لوجود مشكلة ما أو بطئ حركتها أي عندما تكون حركتها بزوايا منفرجة نسبيا. ولذلك يتم تحديد الصفة الإيجابية والحالة السلبية حسب طبيعة الدراسة. ولأنه من الصعب التنبؤ بهذا العدد من القيم الرقمية لزوايا CEM لكون القيم كثيرة ومتقاربة من بعضها ولكن يمكن تصنيف هذه الزوايا فئويا حسب سرعة الحركة الى حركة سريعة بزوايا حادة تمثل الصفة الإيجابية (+1) وحركة بطيئة بزوايا منفرجة تمثل الصفة السلبية (-1) أي تصنيف ثنائي binary classification. في هذه الدراسة تم الاعتماد على تحويل درجات زوايا CEM الى اشكال رسومية من خلال صور ثنائية البعد بتدرج الرمادي (Grayscale) كما موضح في

شكل 7 أدناه.

شكل 7: نماذج من تحويل درجات زوايا CEM الى اشكال رسومية.

بلغت عدد مشاهدات السلسلة الزمنية CEM (17984) مشاهدة ولخمـس سلالات وهي (N2 reference strain, goa-1 strain, unc-1 strain, unc-38 strain, unc-63 strain)، تم اختيار سلسلتين زمنيتين عشوائياً من كل سلالة من السلالات الخمس وكل سلسلة زمنية تمثل CEM لدودة CE واحدة. المصفوفة رباعية البعد تمثل المتغير المستقل (X) وتم تصنيف هذه الصور الى فئتين (1 و -1) وهي الحادة والمنفرجة لغرض تمثيل المتغير المعتمد (Y). يعد أسلوب CNN مناسباً بشكل خاص لتحليل بيانات صورية لأشكال الزاوية التي تشكلها CE عند حركتها على شكل مشاهدة لكل وحدة زمنية ضمن المدى من ما يقارب (1˚) الى ما يقارب (177˚) وإن حد العتبة بين الزوايا الحادة والمنفرجة هو الزاوية (90) درجة للتصنيف الثنائي. لانشاء متغير الادخال لاسلوب CNN تم تحويل كل سلسلة زمنية من صيغتها الرقمية numerical وتشكيلها كصور ثنائية البعد وتم حفظ كل متغير سلسلة زمنية كمصفوفة رباعية الأبعاد. البعد الرابع للصورة فيمثل تسلسل المشاهدة التي تم التعبير عنها كصورة. في هذه الدراسة ظهرت صور CEM بشكل تلقائي بحجم (251×264) بكسل وبعدد مشاهدات 14400 تعادل تقريبا 80% من المشاهدات الكلية وعددها 17984 مشاهدة تقابل فترة التدريب و3584 مشاهدة أي تقريبا 20% من المشاهدات الكلية لفترة ولذلك فان الحجم النهائي لصورة متغير الادخال هو(17984×1×251×246) بكسل.

الانحدار الذاتي Auto Regressive (AR)

اعتمادا على مبدأ الانحدار الذاتي والارتباط الذاتي تم تحديد رتبة نموذج الانحدار الذاتي Auto Regressive (AR) من خلال الدالتين Autocorrelation Function (ACF) و Partial Autocorrelation Function (PACF) وبغض النظر عن استقرارية البيانات لانه يؤدي الى فقدان جزء كبير من خصائص الانحدار الذاتي والارتباط الذاتي للسلسلة الزمنية الاصلية وبالتالي فقدان الخواص الأساسية التي تتميز بها السلسلة. فمن الممكن الاستدلال على أن افضل نموذج للانحدار الذاتي AR (5) لعينة السلالة الأولى كما في

شكل 8 أدناه وذلك لأن ACF يعطي نمط مضمحل تدريجيا مع بطئ في الاضمحلال والذي يشير الى عدم استقرارية. في حين PACF تعطي نمط الانقطاع الفجائي بعد (5) من التخلفات الزمنية كما في شكل 8. وعليه بعد تطبيق دالة ACF على بيانات التدريب تم استخدام التخلفات الزمنية المشار اليها في

جدول 1 أدناه.

جدول 1: نماذج الارتباط الذاتي الأنسب

	السلالة الأولى	السلالة الثانية	السلالة الثالثة	السلالة الرابعة	السلالة الخامسة
العينة الأولى	5	5	7	8	8
العينة الثانية	5	5	6	7	2

شكل 8: الارتباط الذاتي لعينة السلالة الاولى (ACF) شكل 9: الارتباط الذاتي لعينة السلالة الاولى (PACF)

الشبكة العصبية الالتفافية CNN

ان الاطار العام لخوارزمية تنفيذ CNN يتضمن تنفيذ عدة خطوات متسلسلة وكما يلي.

تحويل المشاهدات من حالتها الرقمية الى مصفوفة واحدة رباعية الأبعاد تجمع الصور مع بعضها.
تحديد الفئتين الإيجابية والسلبية لمتغير الهدف بصفتين للزوايا الحادة والمنفرجة.
تقسيم مشاهدات السلسلة الزمنية الى مجموعتين للتدريب والإختبار.
تحديد بنية الشبكة العصبية الإلتفافية (هيكل الشبكة) طبقة الادخال والطبقة الخفية عدد (2) وطبقة الإخراج أي أن اعداد الطبقات بشكل عام هي (1-2-1).
تحديد حجم المرشح (3×3) وعدد المرشحات بالاعتماد على جدول متغيرات الانحدار الذاتي الأمثل وخطوة واحدة في الطبقة الخفية الأولى اذ ان
شكل 10 يوضح حجم الصورة وحجم المرشح وعملية التفاف المرشح على جزء من الصورة.
جمع قيمة التحيز مع عناصر المصفوفة (249×244) الناتج من الخطوة 5 والمعادلة وتطبيق دالة ReLU عليه.
تم تطبيق متوسط التجميع Average Pooling بحجم (2×2) وخطوة (2) على ناتج دالة ReLU.

شكل 10 : عملية التفاف المرشح على جزء من صورة الادخال

جمع مخرجات متوسط التجميع في عمود واحد عن طريق عملية تسمى التسوية Flatten فيتم الحصول على vector يمثل الطبقة المتصلة بالكامل Fully Connected Layer ومن ثم تطبيق المعادلة على مدخلات هذه الطبقة.
تطبيق دالة (Softmax) على مخرجات الطبقة المتصلة بالكامل.
تحديد خيارات التدريب ومنها عدد تكرار المحاولات (افتراضي) ومعدل التعلم (0.01).
انشاء الشبكة للتدريب. وبعد الحصول على القيم المثلى للأوزان والتحيز من خلال طبقة التصنيف فإن الاجراء النهائي الذي تقوم به CNN هو تصنيف السلسلة الزمنية بمقارنة المتغير مع متغير القيم الأصلية وهو متغير الهدف فسيتم حساب دقة نموذج التصنيف بالنسبة للقيم الحقيقية للسلسلة الزمنية باستخدام مقياس تقييم دقة التصنيف بتطبيق المعادلة . شكل 11 أدناه يوضح خوارزمية الشبكة العصبية الالتفافية التي تم تطبيقها على صور زوايا حركة الدودة.

شكل 11: عملية تدريب الشبكة العصبية الالتفافية لبيانات العينة الاولى من السلالة الرابعة

تم تطبيق معادلة لقياس دقة نموذج التصنيف لبيانات التدريب والاختبار لمتغيرات السلاسل الزمنية وكانت النتائج كما في

جدول 2 أدناه.

جدول 2: نتائج قياس دقة التصنيف بأسلوب CNN.

		السلالة الأولى	السلالة الثانية	السلالة الثالثة	السلالة الرابعة	السلالة الخامسة
العينة الأولى	بيانات التدريب	99.80	99.56	99.74	99.6	99.78
العينة الأولى	بيانات الاختبار	99.58	99.72	99.92	99.69	99.83
العينة الثانية	بيانات التدريب	99.62	99.67	99.74	99.53	99.55
العينة الثانية	بيانات الاختبار	99.22	99.78	99.67	99.64	99.83

الانحدار اللوجستي

ان الاطار العام لخوارزمية تنفيذ LR يتضمن تنفيذ عدة خطوات متسلسلة وكما يلي.

استخدام متغيرات الانحدار الذاتي الأمثل اعتمادا على
جدول 1 لتحديد متغيرات الادخال لاسلوب LR.
تحديد الفئتين الإيجابية والسلبية لمتغير الهدف. وتقسيم مشاهدات السلسلة الزمنية الى مجموعتين للتدريب والإختبار.
تدريب نموذج الانحدار اللوجستي الثنائي على البيانات بواسطة الايعاز (fitglm) باستخدام المدخلات وتتضمن متغيرات الادخال والإخراج ونوع التوزيع. يتم تقييم الأداء للنموذج على بيانات الاختبار بواسطة الايعاز (predict) باستخدام المدخلات وتتضمن متغيرات الادخال بالإضافة الى النموذج LR.
تم تطبيق الانحدار المتدرج على متغيرات السلاسل الزمنية للإبقاء على المعلمات المعنوية فقط وكما في معادلات الانحدار اللوجستي أدناه.

معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الأولى من السلالة الاولى

معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الأولى من السلالة الثانية

معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الأولى من السلالة الثالثة

معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الأولى من السلالة الرابعة

معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الأولى من السلالة الخامسة

معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الثانية من السلالة الاولى

معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الثانية من السلالة الثانية

معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الثانية من السلالة الثالثة

معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الأولى من السلالة الرابعة

معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الأولى من السلالة الخامسة

وكانت نتائج قياس دقة نموذج التصنيف لبيانات التدريب والاختبار كما في

جدول 3 أدناه.

جدول 3: دقة التصنيف للسلالات الخمس لبيانات التدريب والاختبار باستخدام نموذج الانحدار اللوجستي.

		السلالة الأولى	السلالة الثانية	السلالة الثالثة	السلالة الرابعة	السلالة الخامسة
العينة الأولى	بيانات التدريب	50.5486	52.1181	59.3611	48.9167	46.8819
العينة الأولى	بيانات الاختبار	59.0681	53.2645	13.8114	36.1328	56.1663
العينة الثانية	بيانات التدريب	54.8472	53.3403	49.1389	48.4375	40.3889
العينة الثانية	بيانات الاختبار	43.1920	52.2879	55.3571	49.2188	86.0770

طريقة النواة Kernel.

ان الاطار العام لخوارزمية تنفيذ Kernel يتضمن تنفيذ عدة خطوات متسلسلة وكما يلي.

استخدام متغيرات الانحدار الذاتي الأمثل لتحديد متغيرات ادخال Kernel. وتحديد الفئتين الإيجابية والسلبية.
تقسيم مشاهدات السلسلة الزمنية الى مجموعتين للتدريب والإختبار.
تدريب نموذج Kernel بواسطة الايعاز (fitckernel) باستخدام المدخلات وتتضمن متغيرات الادخال والإخراج.
استخدام النموذج الذي تم تدريبه لتصنيف بيانات الاختبار بواسطة الايعاز (predict) باستخدام المدخلات وتتضمن متغيرات الادخال بالإضافة الى النموذج. وكانت نتائج قياس دقة نموذج التصنيف كما في جدول 4 أدناه.

جدول 4: دقة التصنيف للسلالات الخمس لبيانات التدريب والاختبار باستخدام طريقة النواة.

		السلالة الأولى	السلالة الثانية	السلالة الثالثة	السلالة الرابعة	السلالة الخامسة
العينة الأولى	بيانات التدريب	99.1667	97.1806	98.5833	98.9306	99.4236
العينة الأولى	بيانات الاختبار	97.3772	97.2377	99.6373	98.4096	99.5815
العينة الثانية	بيانات التدريب	99.1875	97.9792	99.1250	99.1319	68.5208
العينة الثانية	بيانات الاختبار	98.2980	98.1585	98.8281	99.2467	35.9933

المناقشة

في

جدول 1 تم تطبيق دالة الارتباط الذاتي ACF ودالة الارتباط الذاتي الجزئي PACF على بيانات التدريب وتم استخدام التخلفات الزمنية المشار اليها في الجدول في تحديد هيكلية الأساليب المستخدمة في التصنيف. وفي خطأ! لم يتم العثور على مصدر المرجع. فان نتائج قياس دقة نموذج CNN تؤكد زيادة الدقة في التصنيف اذ انه في جميع السلالات كانت النتائج ممتازة في مرحلتي التدريب والاختبار. ومن خلال نتائج قياس دقة التصنيف لنموذج الانحدار اللوجستي لبيانات التدريب كما في

وكانت نتائج قياس دقة نموذج التصنيف لبيانات التدريب والاختبار كما في

جدول 3 أدناه.

جدول 3 يتضح انها تتراوح بين 40.3889 و 59.3611 لجميع السلالات اذ ان العينة الأولى من السلالة الثالثة تمثل اعلى دقة تصنيف بالنسبة لبيانات التدريب وبالنسبة لبيانات الاختبار فان النتائج تتراوح بين 13.8114 و 86.0770 اذ ان العينة الثانية من السلالة الخامسة كانت تمثل اعلى دقة في التصنيف وواضح ان هناك تقلب كبير وعدم استقرارية في أداء النموذج في مرحلة الاختبار. وأخيرا في جدول 4 يتبين ان أداء النموذج باستخدام طريقة النواة في مرحلة التدريب حقق نتائج جيدة في جميع السلالات بنسبة تتراوح بين ما يقارب 97.1250 و 99.4236 ولكن في العينة الثانية للسلالة الخامسة كانت اقل دقة بنسبة 68.5208 تقريبا. وفي مرحلة الاختبار كان أداء النموذج جيدا في جميع السلالات ما عدا العينة الثانية من السلالة الخامسة كانت نسبة الدقة ضعيفة.

الخلاصة والاستنتاجات

^[1] أرشيف تصنيف السلاسل الزمنية UEA&UCR المتاح لجمهور الباحثين (UEA&UCR Time Series Classification Repository):

http://www.timeseriesclassification.com/description.php?Dataset=EigenWorms

References

.₁ Javer, A., et al. Identification of C. elegans strains using a fully convolutional neural network on behavioural dynamics. in Proceedings of the European Conference on Computer Vision (ECCV) Workshops. 2018.

.₂ Uhlemann, J., O. Cawley, and T. Kakouli-Duarte. Nematode Identification using Artificial Neural Networks. in DeLTA. 2020.

.₃ García Garví, A., et al., Towards lifespan automation for Caenorhabditis elegans based on deep learning: analysing convolutional and recurrent neural networks for dead or live classification. Sensors. 2021; 21 (14): 4943.

.₄ Newell Stamper, B.L., et al., Movement decline across lifespan of Caenorhabditis elegans mutants in the insulin/insulin‐like signaling pathway. Aging cell. 2018; 17 (1): e12704.

.₅ Maertens, T., et al., Multilayer network analysis of C. elegans: Looking into the locomotory circuitry. Neurocomputing. 2021; 427: 238-261.

.₆ Le, Q., T. Sarlós, and A. Smola. Fastfood-approximating kernel expansions in loglinear time. in Proceedings of the international conference on machine learning. 2013.

.₇ Brockwell, P.J. and R.A. Davis, Time series: theory and methods. 2009: Springer science & business media.

.₈ Liu, L.-M., Time Series Analysis and Forecasting. 2nd ed. 2006, Illinois, USA: Scientific Computing Associates Corp.

.₉ Theobald, O., Machine learning for absolute beginners: a plain English introduction. Vol. 157. 2017: Scatterplot press.

.₁₀ Neapolitan, R.E. and X. Jiang, Artificial intelligence: With an introduction to machine learning. 2018: CRC Press.

.₁₁ Zhao, B., et al., Convolutional neural networks for time series classification. Journal of Systems Engineering and Electronics. 2017; 28 (1): 162-169.

.₁₂ Worster, A., J. Fan, and A. Ismaila, Understanding linear and logistic regression analyses. Canadian Journal of Emergency Medicine. 2007; 9 (2): 111-113.

.₁₃ Smola, A.J., S. Vishwanathan, and T. Hofmann. Kernel methods for missing variables. in International Workshop on Artificial Intelligence and Statistics. 2005. PMLR.

.₁₄ Luque, A., et al., The impact of class imbalance in classification performance metrics based on the binary confusion matrix. Pattern Recognition. 2019; 91: 216-231.

.₁₅ Yemini, E., et al., A database of c. elegans behavioral phenotypes. Nature Methods. 2014; 10 (9): 877–879.

.₁₆ Bilbao, A., et al., Roll maneuvers are essential for active reorientation of Caenorhabditis elegans in 3D media. Proceedings of the National Academy of Sciences. 2018; 115 (16): E3616-E3625.

Statistics

Article View: 309

PDF Download: 154