Comparison of Logistic regression, Convolution Neural Network, and Kernel Approaches for Classifying the Caenorhabditis Elegans Motion | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
IRAQI JOURNAL OF STATISTICAL SCIENCES | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Volume 20, Issue 2, December 2023, Pages 175-187 PDF (1.48 M) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Document Type: Research Paper | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
DOI: 10.33899/iqjoss.2023.0181225 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Authors | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Osamah Basheer Shukur1; Omar Akram Malaa* 2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1Comparison of Logistic regression, Convolution Neural Network, and Kernel Approaches for Classifying the Caenorhabditis Elegans Motion | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2Department of Statistics and Informatics\ Faculty of Computer Sciences and Mathematics\ University of Mosul\ Mosul\ Iraq. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Abstract | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Time series data are widely used in many fields including microbiology data. It is necessary to know how to classify the category to which observation belongs by using statistical classification methods and machine learning and deep learning algorithms. The study of the movement of some types of nematodes as one of the types of microorganisms including Caenorhabditis elegans (CE) is important to determine the actions and their impact on the life of the worms. In this study the CE motion time series data were represented by its wave motion angles which would be the study case. the non-linearity and uncertainty will be among the most common problems in this type of data that may lead to classifications that are not accurate. Convolutional Neural Network (CNN) will be used as one of the deep learning techniques and it is a non-linear method used to classify CE movement as a dependent variable in binary cases based on images of wave motion angles as an independent variable and its use will lead to accurate results because it is a suitable non-linear method to deal with Study data to solve nonlinearity and uncertainty problems through digital data visualization. Logistic regression (LR) and kernel method were also used to classify CE angles of movement. The AR(p) rank was used to determine the structure of the used methods. And by comparing the results between the methods used, it was found that the CNN method is superior to the other methods used. Therefore, it is possible to conclude that the use of the CNN method, which is based on pictorial classification, leads to accurate classification results compared to other methods based on numerical classification. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Highlights | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Time series data are widely used in many fields including microbiology data. It is necessary to know how to classify the category to which observation belongs by using statistical classification methods and machine learning and deep learning algorithms. The study of the movement of some types of nematodes as one of the types of microorganisms including Caenorhabditis elegans (CE) is important to determine the actions and their impact on the life of the worms. In this study the CE motion time series data were represented by its wave motion angles which would be the study case. the non-linearity and uncertainty will be among the most common problems in this type of data that may lead to classifications that are not accurate. Convolutional Neural Network (CNN) will be used as one of the deep learning techniques and it is a non-linear method used to classify CE movement as a dependent variable in binary cases based on images of wave motion angles as an independent variable and its use will lead to accurate results because it is a suitable non-linear method to deal with Study data to solve nonlinearity and uncertainty problems through digital data visualization. Logistic regression (LR) and kernel method were also used to classify CE angles of movement. The AR(p) rank was used to determine the structure of the used methods. And by comparing the results between the methods used, it was found that the CNN method is superior to the other methods used. Therefore, it is possible to conclude that the use of the CNN method, which is based on pictorial classification, leads to accurate classification results compared to other methods based on numerical classification. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Keywords | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Keywords: enorhabditis elegaLogistic Regression (LR); Convolutional Neural Network (CNN); Kernel Method; Classification; Time series; Autoregressive (AR); Cans (CE) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Full Text | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
في هذه الدراسة تم التطرق الى دراسة تصنيف السلسلة الزمنية باستخدام خوارزميات التعلم تحت الاشرافsupervised learning algorithms والتي تشترط توفر بيانات المتغير المعتمد (متغير الهدف Target variable) للحصول على أخطاء التعلم. تعتبر دراسة الديدان الاسطوانية الشفافة بصورة عامة من الدراسات المهمة في علم الأحياء المجهرية كون خلاياها تشبه خلايا الإنسان وكذلك بسبب سرعة مراحل نموها. ان حركة الدودة تكون بصورة متتابعة خلال زمن معين أي على شكل سلسلة زمنية. إذ أن كل حركة تقوم بها الدودة أو تصل اليها تكون مرتبطة بالحركة التي قبلها لتمثل حالة الدراسة لمتغير سلسلة زمنية واحد لحركة الدودة وتكون خلال فترة زمنية لأجزاء من الثانية لكل حركة تقوم بها الدودة. في هذه الدراسة تم الحصول على بيانات عن الربداء الرشيقة Caenorhabditis Elegans (CE) ككائن حي نموذجي مهم في دراسة علم الوراثة لزيادة فهم علم الوراثة السلوكية. البيانات تضم مشاهدات كل منها تعبر عن زاوية خاصة بحركة الربداء الرشيقة[1] Caenorhabditis Elegans Motion (CEM). ولأنه لا يمكن تحديد CEM تحديدا نقطياً ولكن يمكن حصره ضمن فترات فيكون من الضروري توصيفه ضمن فئات وهذا ما قد يعالج جزءاً من مشكلة عدم اليقين وعندها يتم تركيز الاهتمام بتصنيف المشاهدات الجديدة من خلال نموذج تصنيفي يتم بناؤه من خلال سلوك السلسلة الزمنية خلال فترة التدريب Training period. تعد بيانات CEM من السلاسل الزمنية الطويلة بعدد مشاهدات كبير جدا وبدليل زمني قد يكون بالثواني أو أجزاء الثواني مما قد يضفي عليها صفة عدم الخطية ومما قد يجعل من الصعب التعامل مع مثل هذه البيانات. وكذلك فإن طول السلسلة الزمنية الكبير جدا مما قد يكون سبباً رئيسيا لعدم التجانس والناتج عن تعدد الخصائص والصفات والمركبات التي تمر بها البيانات من بداية السلسلة الى نهايتها والذي قد يجعل من التنبؤ النقطي point Forecast ذو نتائج غير دقيقة. وللتقليل من مشكلة عدم الخطية وعدم التجانس في البيانات وتحسين نتائج التنبؤ فيمكن تمثيل البيانات بالصور واستخدام التصنيف الثنائي Binary Classification بديلا عن التنبؤ النقطي لتحسين دقة النتائج مقارنة بنتائج التنبؤ بوجود عدم التجانس وعدم خطية البيانات لأنه يعالج بشكل غير مباشر مشكلة عدم اليقين. هنالك دراسات سابقة تناولت استخدام اسلوب الشبكة العصبية الالتفافية Convolutional Neural Network (CNN) والانحدار اللوجستي Logistic Regression (LR) و Kernel في مجال الأحياء المجهرية فيما يخص سلوك الديدان الاسطوانية. إذ قام الباحث (1) باستخدام أسلوب CNN لتمييز سلالات CE المتنوعة وراثيا وتصنيفها عن طريق تدريب النموذج على بيانات سلسلة زمنية لاوضاع الدودة باستخدام عينات من صور حركة الدودة كمتغير ادخال وتم الحصول على نموذج قادر على تصنيف السلالات. كما استخدم (2) أسلوب CNN لتصنيف الصور المجهرية لتحديد نوع معين من الديدان الخيطية وكان النموذج المدرب يعمل بشكل جيد في التصنيف. وقام كذلك (3) باستخدام التعلم العميق من خلال اسلوبي CNN و Recurrent neural network (RNN) لحساب متوسط العمر المتوقع لبيانات CEM عن طريق تصنيفها انها على قيد الحياة او انها ميتة من خلال ملاحظة صور من حركة الدودة وحققت الطريقة المقترحة معدلات خطأ صغيرة مما يدل على جودتها. وقام (4) بتحديد اذا ما كان العمر والنمط الجيني لدودة الربداء الرشيقة يؤثران على حركتها في جميع السلالات باستخدام نموذج الانحدار اللوجستي الثنائي اذ تم تقييم فروق الحركة بين السلالات من النوع البري من خلال الانحدار اللوجستي. وكان نموذج الانحدار اللوجستي مناسب تماما اذ قام (5) بتوقع الحركة الامامية لدودة الربداء الرشيقة باستخدام أسلوب Logistic Regression (LR) الانحدار اللوجستي من خلال التنبؤ بالخلايا العصبية المشاركة في سلوك الحركة. كانت نتائج التنبؤ فعالة باستخدام طريقة النواة وبمعدل خطأ قليل من خلال قيام الباحث (6) استخدام أسلوب النواة Kernel Method بالتنبؤ بعمل الجينات لدودة الربداء الرشيقة للمساعدة في تمييز النمط الصحيح والتحقق من الإيجابيات والسلبيات.
إن السلاسل الزمنية Time Series هي مجموعة من المشاهدات التي تتولد بفترات زمنية متتابعة وتتميز بعدم الاستقلالية. إذ أن المشاهدات فيها ترتبط بسابقتها زمنياً إذ يمكن من خلالها التنبؤ بالسلاسل الزمنية المستقبلية يعتمد على مشاهدات لسلسلة زمنية وقعت في الماضي (7, 8). ان السلسلة الزمنية الحالية يمكن أن يعبر عنها باستخدام دالة الانحدار الذاتي لقيم السلاسل الزمنية السابقة ويمكن كتابة دالة الانحدار الذاتي من الرتبة p كما في المعادلة ادناه.
إذ أن هي معلمات الانحدار الذاتي و . وان الخطأ أو التغير العشوائي عبارة عن عملية تشويش أبيض بمتوسط صفر وتباين ثابت إذ أن و . في تحليل بيانات السلسلة الزمنية يتم استخدام منهجية بوكس جنكنز بخطواتها الأربعة التعرف او التحديد وتقدير المعلمات واجراء الفحوص التشخيصية والتنبؤ. إن تحديد نموذج السلسلة الزمنية ومنها نموذج الانحدار الذاتي AR يتم غالبا من خلال الرسم باستخدام دالة الارتباط الذاتي Autocorrelation Function (ACF) ودالة الارتباط الذاتي الجزئي Partial Autocorrelation Function (PACF).
هي أحد الأدوات الأساسية للتعلم العميق والتي تنضوي تحت مظلة الشبكات العصبية العميقة Deep neural network (DNN) التي تضم نوعا آخر من DNN وهي الشبكات العصبية المعاودة Recurrent Neural Network (RNN). إن هيكلية CNN تتألف من جزأين أساسيين وهما طبقة التعرف على الميزات والتي تتم فيه عمليات الإلتفاف والتجميع للتعرف على خصائص الصورة مثل الحواف وتدرج اللون وكذلك الطبقة المتصلة بالكامل التي تستقبل مخرجات طبقة التعرف على الميزات كمدخلات ليتم فيها عملية التصنيف كما موضح في شكل 1 أدناه (9).
شكل 1: هيكلية الشبكة العصبية الالتفافية.
يتم اختيار هيكلية CNN المناسبة عن طريق تحديد عدد الطبقات وهي طبقة الادخال والطبقات الخفية وطبقة الإخراج. وبعد ذلك يتم تحديد حجم المرشح ويرمز له (f) وعدد المرشحات ويرمز لها (m) وان المرشح عبارة عن ارقام عشوائية صغيرة تسمى الاوزان ويرمز لها (w) والتي تقوم بالإلتفاف حول جميع نقاط الصورة للتعرف على التفاصيل التي تشكل الصورة. وعملية الالتفاف تكون بخطوات محددة تسمى stride باتجاه يسار الصورة. عند التفاف المرشح حول الصورة سوف يتقلص حجم الصورة ويتم فقدان العديد من البيانات والخصائص ولحل هذه المشكلة يتم إضافة الحشو Padding بصفوف وأعمدة على طول وعرض الصورة. إن حجم الإخراج الناتج من عملية الالتفاف حول الصورة يتم الحصول عليه عن طريق عملية رياضية مبسطة كما موضح في المعادلة أدناه.
إذ أن تمثل طول الصورة، تمثل عرض الصورة، تمثل الحشو، تمثل أحد أبعاد المرشح، تمثل الخطوة. بعد ذلك يتم جمع كل قيمة تحيز مع كل عنصر من عناصر المصفوفة التي تقابلها للحصول على مخرجات عملية الالتفاف كما في المعادلة أدناه التي يمكن تسمية مخرجاتها بمخرجات الدالة الجمعية والتي تمثل المرحلة الأولى من الطبقة الخفية.
حيث أن I,J تمثلان أبعاد أو عدد الصفوف وعدد الاعمدة في كل صورة على التوالي، وأن f1,f2 تمثلان عدد الصفوف وعدد الأعمدة في كل مرشح على التوالي، وأن والتي ترمز الى تسلسل ناتج كل مرشح. يتم استخدام أحد دوال التحويل ضمن الطبقة الخفية على مخرجات عملية الالتفاف ومن أكثر دوال التحويل استخداما في الشبكة العصبية هي كما يلي:
إذ أن SUM تمثل مدخلات دالة التحويل التي تمثل مخرجات الدالة الجمعية وتولد مخرجاتها ضمن الحدود (0,1).
إذ أن SUM تمثل مدخلات دالة التحويل التي تمثل مخرجات الدالة الجمعية وتولد مخرجاتها ضمن الحدود (-1,1).
إذ أن SUM تمثل مدخلات دالة التحويل التي تمثل مخرجات الدالة الجمعية وتولد مخرجاتها ضمن الحدود (-1,1).
إذ أن تمثل مدخلات دالة التحويل التي تمثل مخرجات الدالة الجمعية وتولد مخرجاتها أكبر أو يساوي (0).
اذ ان تمثل مخرجات الطبقة المتصلة بالكامل، تمثل فئات متغير الاستجابة، اذ أنه يتم تطبيق هذه الدالة على مخرجات الطبقة المتصلة بالكامل للحصول على نتائج بعدد فئات متغير الاستجابة وهي عبارة عن ارقام موجبة وكل رقم يمثل احتمالية انتمائه الى فئة من الفئات ويكون مجموعهم يساوي واحد.
شكل 2: الدالة اللوجستية شكل 3: دالة tan شكل 4: الدالة الخطية شكل 5: دالة Relu
بعد عملية ادخال دالة التحويل على مخرجات الدالة الجمعية يتم تطبيق عملية التجميع pooling إذ أن المخرجات تقسم الى عدد من المصفوفات الصغيرة ويتم ذلك بتحديد حجمها وعدد خطواتها. وكل مصفوفة صغيرة يتم اختزالها الى قيمة واحدة فقط لتصبح المصفوفة في نهاية الطبقة الأولى الخفية بابعاد أقل. ثم يتم تحويلها الى متجه عن طريق عملية تسمى التسوية Flatten. إن المتجه يمثل مدخلات الطبقة المتصلة بالكامل Fully Connected Layer وتجمع هذه الطبقة كل الميزات التي تعلمتها الطبقات السابقة عبر الصور (10). يتم تحديد مخرجات الطبقة المتصلة بالكامل بعدد فئات التصنيف بالاعتماد على عدد فئات المتغير المعتمد ويتم أيضا تحديد الاوزان عشوائيا في كل عصبون وغالبا ما تتبع هذه الطبقة في حالة التصنيف بدالة التحويل Softmax. ان طبقة التصنيف Classification Layer يتم فيها تحديث قيم الوزن ( ) weight value والتحيز (b) biased value وهي عملية تكرارية لحين الوصول الى القيم المثلى (11).
يعتبر الانحدار اللوجستي من أهم الخوارزميات المستخدمة في التصنيف ويستخدم عندما يكون المتغير المعتمد فئوي ثنائي ويسمى بالنموذج اللوجستي أو اللوجيت (Logit) وهو نموذج مفيد في تصنيف البيانات التي تتكون من متغير ثنائي للاستجابة ويعتمد على النموذج الخطي كما في المعادلات أدناه.
إذ أن تمثل معلمة الحد الثابت، تمثل معلمات الانحدار، هي المتغيرات المستقلة، يمثل نسبة الترجيح (Odds) وهو الاحتمال الشرطي للنجاح مقسوم على الاحتمال الشرطي للفشل. وإن احتمالية وقوع الحدث يكون 1 إذا كانت قيمة الاحتمال أكبر أو يساوي 0.5 (12). اذ ان احتمال النجاح يمكن صياغته كما يلي.
تعتبر طريقة النواة من خوارزميات التعلم الآلي التي تستخدم في التصنيف الثنائي وخاصة في حالة البيانات غير الخطية وهي أكثر استخداما على البيانات الضخمة التي تحتوي على مجموعات تدريب كبيرة وكذلك يمكن تطبيقها على مجموعات البيانات الأصغر ويستخدم أيضا في الخوارزميات القائمة على النواة مثل الانحدار الخطي وخوارزمية آلة المتجه الداعم (SVM)Support Vector Machine . ان أساس عمل خوارزمية تصنيف النواة هو البحث عن افضل طريقة لفصل البيانات الى فئتين اذ تقوم بتحويل البيانات التي لا يمكن فصلها خطيا الموجودة في مساحة منخفضة الابعاد الى فضاء عالي الابعاد ثم تعمل بملائمة نموذج خطي للبيانات في الفضاء عالي الابعاد. هناك نقاط لا يمكن رؤيتها بشكل واضح أو الوصول اليها ولذلك فان عملية فصل البيانات تمت في مساحة الادخال الاصلية بصورة معقدة وغير خطية. في هذه الحالة يجب اعادة صياغة الزوايا والاطوال والمسافات الى فضاء أو أبعاد أعلى لكي يتم فصل البيانات خطيا وبسهولة اكبر بواسطة النواة. اذ يتم فصل البيانات بشكل خطي وبسهولة بعد تحويل البيانات الى فضاء عالي الابعاد عن طريق دالة النواة وهي دالة تقوم بتحويل المتجهين (x1 وx2) الى فضاء متجه جديد تعمل هذه الدالة كمقياس تشابه بتحديد التشابه او الاختلاف بين كل نقطتين في الفضاء عالي الابعاد وتعطي دالة النواة نتيجة 1 في حال التشابه الكبير بين النقاط وتعطي النتيجة صفر في حال الاختلاف الكبير بين النقاط. ولغرض حساب مدى اقتراب او ابتعاد نقطة معينة عن عدد من النقاط لغرض التصنيف أو التنبؤ يتم هذا باستخدام دالة النواة (Gaussian Kernel) وكما في المعادلة أدناه (13).
اذ أن xi و xj تمثلان متجهين، وان المقام في معادلة دالة النواة هو عبارة عن معلمة ضعف مربع 𝜎 وزيادتها تؤدي الى تقليل ما بداخل الدالة الاسية وهو ما يجعل النتيجة تقترب من 1 واذا كانت 𝜎 قليلة مما يؤدي الى زيادة ما بداخل الدالة الاسية فإن النتيجة تقترب من صفر.
مقاييس الدقة للتصنيف Classification Accuracy Measurement تستخدم هذه المقاييس لقياس دقة أداء النموذج في التصنيف. وللتعرف على هذه المقاييس يجب معرفة مصفوفة الارتباك Confusion Matrix (CM) (14) كما موضح في المعادلة . ومن ابسط المقاييس المستخدمة في التصنيف مقياس الدقة التصنيفية Classification accuracy يتم فيه حساب نسبة الحالات المتوقعة المطابقة للحالات الفعلية الى العدد الكلي لجميع الحالات المتوقعة والفعلية المطابقة وغير المطابقة وكما في المعادلة .
اذ أن:
حيث ان (TP) تمثل عدد المشاهدات التي تم تصنيفها بشكل صحيح على انها إيجابية. وأن (TN) تمثل عدد المشاهدات التي تم تصنيفها بشكل صحيح على انها سلبية. وان (FP) تمثل عدد المشاهدات التي تم تصنيفها بشكل غير صحيح على انها إيجابية عندما كانت في الواقع سلبية. وان (FN) تمثل عدد المشاهدات التي تم تصنيفها بشكل غير صحيح على انها سلبية عندما كانت في الواقع إيجابية.
البيانات المستخدمة في الدراسة هي عبارة عن ظل زوايا CEM في حديقة طعام بكتيرية على لوحة اجار Agar plate بشكل سلاسل زمنية طويلة وبعدد مشاهدات كبيرة جدا. السلسلة الزمنية هي عبارة عن مقطع فيديو لحركة الدودة خلال ما يقارب 2.5 ساعة. تتراوح درجة زوايا جسم CE من 1◦ عندما تنحني على نفسها تقريباً الى الزاوية اقل من 180◦ كأكبر زاوية ممكنة عندما تصل الى الاستقامة تقريباً(15). إن شكل 6 أدناه يوضح انحناءات CE للعديد من الزوايا المختلفة تم تصويرها من ابعاد مختلفة. شكل 6: سباحة وحركة دودة الربداء الرشيقة في زوايا وابعاد مختلفة (16).
في دراسات معينة يكون الاهتمام بدراسة متى تقطع الدودة مسافات أكبر في وقت أقل وذلك عندما تتحرك بسرعة أي عندما تكون حركتها بزوايا حادة. وهناك دراسات أخرى يكون الاهتمام فيها حول توقفات الدودة لوجود مشكلة ما أو بطئ حركتها أي عندما تكون حركتها بزوايا منفرجة نسبيا. ولذلك يتم تحديد الصفة الإيجابية والحالة السلبية حسب طبيعة الدراسة. ولأنه من الصعب التنبؤ بهذا العدد من القيم الرقمية لزوايا CEM لكون القيم كثيرة ومتقاربة من بعضها ولكن يمكن تصنيف هذه الزوايا فئويا حسب سرعة الحركة الى حركة سريعة بزوايا حادة تمثل الصفة الإيجابية (+1) وحركة بطيئة بزوايا منفرجة تمثل الصفة السلبية (-1) أي تصنيف ثنائي binary classification. في هذه الدراسة تم الاعتماد على تحويل درجات زوايا CEM الى اشكال رسومية من خلال صور ثنائية البعد بتدرج الرمادي (Grayscale) كما موضح في شكل 7 أدناه.
شكل 7: نماذج من تحويل درجات زوايا CEM الى اشكال رسومية.
بلغت عدد مشاهدات السلسلة الزمنية CEM (17984) مشاهدة ولخمـس سلالات وهي (N2 reference strain, goa-1 strain, unc-1 strain, unc-38 strain, unc-63 strain)، تم اختيار سلسلتين زمنيتين عشوائياً من كل سلالة من السلالات الخمس وكل سلسلة زمنية تمثل CEM لدودة CE واحدة. المصفوفة رباعية البعد تمثل المتغير المستقل (X) وتم تصنيف هذه الصور الى فئتين (1 و -1) وهي الحادة والمنفرجة لغرض تمثيل المتغير المعتمد (Y). يعد أسلوب CNN مناسباً بشكل خاص لتحليل بيانات صورية لأشكال الزاوية التي تشكلها CE عند حركتها على شكل مشاهدة لكل وحدة زمنية ضمن المدى من ما يقارب (1˚) الى ما يقارب (177˚) وإن حد العتبة بين الزوايا الحادة والمنفرجة هو الزاوية (90) درجة للتصنيف الثنائي. لانشاء متغير الادخال لاسلوب CNN تم تحويل كل سلسلة زمنية من صيغتها الرقمية numerical وتشكيلها كصور ثنائية البعد وتم حفظ كل متغير سلسلة زمنية كمصفوفة رباعية الأبعاد. البعد الرابع للصورة فيمثل تسلسل المشاهدة التي تم التعبير عنها كصورة. في هذه الدراسة ظهرت صور CEM بشكل تلقائي بحجم (251×264) بكسل وبعدد مشاهدات 14400 تعادل تقريبا 80% من المشاهدات الكلية وعددها 17984 مشاهدة تقابل فترة التدريب و3584 مشاهدة أي تقريبا 20% من المشاهدات الكلية لفترة ولذلك فان الحجم النهائي لصورة متغير الادخال هو(17984×1×251×246) بكسل.
اعتمادا على مبدأ الانحدار الذاتي والارتباط الذاتي تم تحديد رتبة نموذج الانحدار الذاتي Auto Regressive (AR) من خلال الدالتين Autocorrelation Function (ACF) و Partial Autocorrelation Function (PACF) وبغض النظر عن استقرارية البيانات لانه يؤدي الى فقدان جزء كبير من خصائص الانحدار الذاتي والارتباط الذاتي للسلسلة الزمنية الاصلية وبالتالي فقدان الخواص الأساسية التي تتميز بها السلسلة. فمن الممكن الاستدلال على أن افضل نموذج للانحدار الذاتي AR (5) لعينة السلالة الأولى كما في شكل 8 أدناه وذلك لأن ACF يعطي نمط مضمحل تدريجيا مع بطئ في الاضمحلال والذي يشير الى عدم استقرارية. في حين PACF تعطي نمط الانقطاع الفجائي بعد (5) من التخلفات الزمنية كما في شكل 8. وعليه بعد تطبيق دالة ACF على بيانات التدريب تم استخدام التخلفات الزمنية المشار اليها في جدول 1 أدناه.
جدول 1: نماذج الارتباط الذاتي الأنسب
شكل 8: الارتباط الذاتي لعينة السلالة الاولى (ACF) شكل 9: الارتباط الذاتي لعينة السلالة الاولى (PACF)
ان الاطار العام لخوارزمية تنفيذ CNN يتضمن تنفيذ عدة خطوات متسلسلة وكما يلي.
شكل 10 : عملية التفاف المرشح على جزء من صورة الادخال
شكل 11: عملية تدريب الشبكة العصبية الالتفافية لبيانات العينة الاولى من السلالة الرابعة
تم تطبيق معادلة لقياس دقة نموذج التصنيف لبيانات التدريب والاختبار لمتغيرات السلاسل الزمنية وكانت النتائج كما في جدول 2 أدناه. جدول 2: نتائج قياس دقة التصنيف بأسلوب CNN.
ان الاطار العام لخوارزمية تنفيذ LR يتضمن تنفيذ عدة خطوات متسلسلة وكما يلي.
معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الأولى من السلالة الاولى
معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الأولى من السلالة الثانية
معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الأولى من السلالة الثالثة
معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الأولى من السلالة الرابعة
معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الأولى من السلالة الخامسة
معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الثانية من السلالة الاولى
معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الثانية من السلالة الثانية
معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الثانية من السلالة الثالثة
معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الأولى من السلالة الرابعة
معادلة أدناه تمثل معادلة الانحدار اللوجستي لبيانات العينة الأولى من السلالة الخامسة
وكانت نتائج قياس دقة نموذج التصنيف لبيانات التدريب والاختبار كما في جدول 3 أدناه. جدول 3: دقة التصنيف للسلالات الخمس لبيانات التدريب والاختبار باستخدام نموذج الانحدار اللوجستي.
ان الاطار العام لخوارزمية تنفيذ Kernel يتضمن تنفيذ عدة خطوات متسلسلة وكما يلي.
جدول 4: دقة التصنيف للسلالات الخمس لبيانات التدريب والاختبار باستخدام طريقة النواة.
في جدول 1 تم تطبيق دالة الارتباط الذاتي ACF ودالة الارتباط الذاتي الجزئي PACF على بيانات التدريب وتم استخدام التخلفات الزمنية المشار اليها في الجدول في تحديد هيكلية الأساليب المستخدمة في التصنيف. وفي خطأ! لم يتم العثور على مصدر المرجع. فان نتائج قياس دقة نموذج CNN تؤكد زيادة الدقة في التصنيف اذ انه في جميع السلالات كانت النتائج ممتازة في مرحلتي التدريب والاختبار. ومن خلال نتائج قياس دقة التصنيف لنموذج الانحدار اللوجستي لبيانات التدريب كما في وكانت نتائج قياس دقة نموذج التصنيف لبيانات التدريب والاختبار كما في جدول 3 أدناه. جدول 3 يتضح انها تتراوح بين 40.3889 و 59.3611 لجميع السلالات اذ ان العينة الأولى من السلالة الثالثة تمثل اعلى دقة تصنيف بالنسبة لبيانات التدريب وبالنسبة لبيانات الاختبار فان النتائج تتراوح بين 13.8114 و 86.0770 اذ ان العينة الثانية من السلالة الخامسة كانت تمثل اعلى دقة في التصنيف وواضح ان هناك تقلب كبير وعدم استقرارية في أداء النموذج في مرحلة الاختبار. وأخيرا في جدول 4 يتبين ان أداء النموذج باستخدام طريقة النواة في مرحلة التدريب حقق نتائج جيدة في جميع السلالات بنسبة تتراوح بين ما يقارب 97.1250 و 99.4236 ولكن في العينة الثانية للسلالة الخامسة كانت اقل دقة بنسبة 68.5208 تقريبا. وفي مرحلة الاختبار كان أداء النموذج جيدا في جميع السلالات ما عدا العينة الثانية من السلالة الخامسة كانت نسبة الدقة ضعيفة.
[1] أرشيف تصنيف السلاسل الزمنية UEA&UCR المتاح لجمهور الباحثين (UEA&UCR Time Series Classification Repository): http://www.timeseriesclassification.com/description.php?Dataset=EigenWorms | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
References | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
.1 Javer, A., et al. Identification of C. elegans strains using a fully convolutional neural network on behavioural dynamics. in Proceedings of the European Conference on Computer Vision (ECCV) Workshops. 2018.
.2 Uhlemann, J., O. Cawley, and T. Kakouli-Duarte. Nematode Identification using Artificial Neural Networks. in DeLTA. 2020.
.3 García Garví, A., et al., Towards lifespan automation for Caenorhabditis elegans based on deep learning: analysing convolutional and recurrent neural networks for dead or live classification. Sensors. 2021; 21 (14): 4943.
.4 Newell Stamper, B.L., et al., Movement decline across lifespan of Caenorhabditis elegans mutants in the insulin/insulin‐like signaling pathway. Aging cell. 2018; 17 (1): e12704.
.5 Maertens, T., et al., Multilayer network analysis of C. elegans: Looking into the locomotory circuitry. Neurocomputing. 2021; 427: 238-261.
.6 Le, Q., T. Sarlós, and A. Smola. Fastfood-approximating kernel expansions in loglinear time. in Proceedings of the international conference on machine learning. 2013.
.7 Brockwell, P.J. and R.A. Davis, Time series: theory and methods. 2009: Springer science & business media.
.8 Liu, L.-M., Time Series Analysis and Forecasting. 2nd ed. 2006, Illinois, USA: Scientific Computing Associates Corp.
.9 Theobald, O., Machine learning for absolute beginners: a plain English introduction. Vol. 157. 2017: Scatterplot press.
.10 Neapolitan, R.E. and X. Jiang, Artificial intelligence: With an introduction to machine learning. 2018: CRC Press.
.11 Zhao, B., et al., Convolutional neural networks for time series classification. Journal of Systems Engineering and Electronics. 2017; 28 (1): 162-169.
.12 Worster, A., J. Fan, and A. Ismaila, Understanding linear and logistic regression analyses. Canadian Journal of Emergency Medicine. 2007; 9 (2): 111-113.
.13 Smola, A.J., S. Vishwanathan, and T. Hofmann. Kernel methods for missing variables. in International Workshop on Artificial Intelligence and Statistics. 2005. PMLR.
.14 Luque, A., et al., The impact of class imbalance in classification performance metrics based on the binary confusion matrix. Pattern Recognition. 2019; 91: 216-231.
.15 Yemini, E., et al., A database of c. elegans behavioral phenotypes. Nature Methods. 2014; 10 (9): 877–879.
.16 Bilbao, A., et al., Roll maneuvers are essential for active reorientation of Caenorhabditis elegans in 3D media. Proceedings of the National Academy of Sciences. 2018; 115 (16): E3616-E3625. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Statistics Article View: 309 PDF Download: 154 |