Employment of Hidden Markov Model in Determining the Quality of Nitrogenous Base Substituted of MT-ND5 gene Sequence in Humans and Mice | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
IRAQI JOURNAL OF STATISTICAL SCIENCES | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Volume 20, Issue 2, December 2023, Pages 30-42 PDF (1.76 M) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Document Type: Research Paper | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
DOI: 10.33899/iqjoss.2023.0178691 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Authors | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sura Mohammed Jamal Alden* ; Muthanna Subhi Sulaiman* | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Department of Statistic and Informatics, College of Computer Science and Mathematics, University of Mosul, Mosul, Iraq | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Abstract | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Hidden Markov models were developed to analyze bioinformatics data that have attracted the attention of researchers because of their critical importance in the life of living organisms. The aim of this paper was to determine the quality of the nitrogenous base substituted for the MT-ND5 gene chain of humans and mice. The proposed algorithm using the Viterbi algorithm in the Hidden Markov model proved to be good in determining the quality of the nitrogenous base substituted for the MT-ND5 gene chain of humans and mice, depending on the high match ratios obtained and the low sum of squared errors. A computer program was designed for this purpose and the algorithm was programmed in MATLAB R2017b language, and from the practical application of the algorithm it is seen that the Hidden Markov model is a particularly powerful approach to determine the match ratio up to a high classification accuracy. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Highlights | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
من النتائج أعلاه تم ملاحظة انه عند استبدال قاعدة نتروجينية معينة (مثل القاعدة A) لسلسلة الجين MT-ND5 الخاصة بالإنسان والفئران مع قاعدة نتروجينية أخرى (مثل القاعدة T)، تم التوصل الى وجود تتطابق بنتائج مجموع متوسط مربعات الخطأ ونسبة التطابق مع عملية الاستبدال بشكل معاكس (أي استبدال القاعدة T بالقاعدة A)، مما يدل على ان دقة تحديد نوعية القاعدة النتروجينة المستبدلة للجين تعتمد فقط على عدد القواعد النتروجينية في سلسلة الجين وليس على النوعية. وتم ملاحظة انه عند استبدال القاعدة النتروجينية G (Guanine) ببقية القواعد النتروجينية تعطي نفس نسبة التطابق للإنسان وكذلك للفئران، مما يدل على ان تغيير القاعدة النتروجينية G بقواعد نتروجينية أخرى لا يؤثر على دقة تحديد نوعية القاعدة النتروجينية لسلسلة الجين MT-ND5. كما أظهرت النتائج ان تغيير القاعدة النتروجينية G ببقية القواعد يعطي أعلى نسب للتتطابق، مما يدل على عدم تأثر سلسلة الجين MT-ND5 للإنسان والفئران بالقاعدة النتروجينية G. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Keywords | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Keywords: hidden Markov model; Viterbi algorithm; MT-ND5 gene sequence in humans and mice | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Full Text | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
شهد القرن العشرين تقدماً هائلاً في الأساليب العلمية المستخدمة في البحث العلمي في ميادين المعرفة كافة، وأصبح الاهتمام ملحوظاً بشكل أوسع في دراسة الانظمة التي تتغير مع الزمن بشكل عشوائي. ويطلق على النماذج الرياضية لمثل هذه الانظمة بالعمليات التصادفية والتي تضم مجموعة كبيرة من النماذج منها نموذج ماركوف المخفي Hidden Markov Model (HMM)، الذي يعد من النماذج التصادفية المهمة والذي تم تطبيقه في البدء كنموذج احصائي لتمييز الكلام Speech Recognition والكتابة اليدوية Handwriting، بسبب قدرته الكبيرة على التكيف مع المشكلة فضلا عن البراعة في التعامل مع الاشارات المتسلسلة [3].
إن مفهوم نموذج ماركوف المخفي HMM وخوارزمياته مستلهم أساساً من نماذج رياضية معروفة باسم العالم الذي اكتشفها وهو Andrei Markov. وقد ظهرت هذه النماذج في مستهل القرن العشرين وأطلق عليها نماذج ماركوف Markov Models، وهذا يدل على أن نموذج ماركوف المخفي ما هو إلا امتداد لنموذج ماركوف الاعتيادي 7] [1, . ويعد نموذج ماركوف المخفي مجموعة منتهية من الحالات، وكل حالة تقترن بتوزيع احتمالي. وبشكل عام تتولد الحالة الناتجة طبقاً للاحتمالات المقترنة بالحالة حيث توجد احتمالات ناجحة فقط ولا توجد حالة ظاهرة يمكن مشاهدتها، لذا تكون الحالات مخفية، أي ان نموذج ماركوف المخفي أداة احصائية قوية تستخدم للتنبؤ بسلسلة الحالة من خلال سلسلة المشاهدات. وتعد معلمة نموذج ماركوف المخفي امتداد لمعلمة نموذج ماركوف الاعتيادي . وقد بدأ استخدام نموذج ماركوف المخفي في النصف الثاني من ثمانينيات القرن العشرين بتحليل المتتابعات الحيوية Biological Sequences، وبخاصة متتابعات الـ DNA. ومنذ ذلك الحين فرض نموذج ماركوف المخفي وجوده في مجال المعلوماتية الحيوية Bioinformatics الذي يهتم بقواعد البيانات الحيوية والوراثية وادارتها وتطويرها [10]. والعناصر المهمة لنموذج ماركوف المخفي هي: [6]
1) سلسلة المشاهدات :
اذ ان تمثل طول سلسلة المشاهدات، ومؤشر رموز المشاهدات هو ، إذ ان:
و هو عدد رموز المشاهدات
2) سلسلة الحالات المخفية :
اذ ان تمثل عدد الحالات المخفية في النموذج والتي تكافئ فضاء الحالة في نموذج ماركوف وكما يأتي:
3) مصفوفة الاحتمالات الانتقالية Transition Probability Matrix : وتمثل عناصرها التوزيع الشرطي للحالة الانتقالية، اذ ان:
اذ ان تمثل عناصر المصفوفة وتحقق الشروط الاتية: 4) مصفوفة الإصدارات Emission Matrix : وتمثل مصفوفة احتمالية رابطة بين الحالات المخفية والمشاهدات.
إذ ان يمثل رمز المشاهدة ، وتحقق الشروط الاتية: 5) متجه الحالة الابتدائية The Initial State : وتمثل الحالات الابتدائية لنموذج ماركوف المخفي، إذ ان:
إذ ان تمثل عناصر المتجه وتحقق الشروط الاتية:
هناك ثلاث مسائل أساسية عند دراسة نموذج ماركوف المخفي:
تعمل مسألة التقييم على حساب احتمالية سلسلة المشاهدات للنموذج عندما يكون النموذج هو المعطى. أي يتم دراسة إمكانية احتمالية سلسلة المشاهدة بشكل كفوء عندما يكون النموذج معطى، وتحل عن طريق الخوارزمية الأمامية – الخلفية Forward- Backward Algorithm [5].
تعمل مسألة الشفرة على إيجاد سلسلة الحالة المثلى عندما تكون سلسلة المشاهدات والنموذج معطى. وتحل هذه المسألة عن طريق خوارزمية فيتربي Algorithm Viterbi [2].
تعمل مسألة التدريب على إعادة تقدير معلمات النموذج التي تعظم من إمكانية عندما تكون سلسلة المشاهدة معطى. وتحل هذه المسألة عن طريق خوارزمية بوم ولتشBaum-Welch Algorithm [8].
خوارزمية Viterbi هي خوارزمية تعمل على إيجاد أفضل سلسلة حالة بشكل وحيد، والمتغيرات الأساسية لهذه الخوارزمية هي [4,9]:
(1) إذ ان ;
إن خطوات سير خوارزمية Viterbi يمكن أن تمثل بالشكل الآتي [2]:
(2) (3)
(4) (5) الوسيط الاعظمي يعرف في الرياضيات على انه وسيط ( دخل الدالة ) التي نعطي اكبر قيمة ( حدود عليا: وحدود دنيا (الحد الأدنى ) للدالة في الخرج.
(6) (7)
(8)
يمكن تعريف الجين MT-ND5 بانه جين لترميز الجينوم الميتوكوندري للبروتين الخامس NADH-Ubiquinone Oxidoreductase Chain 5، اذا ان البروتينND5 هو وحدة فرعية لـ NADH dehydrogenase، والذي يقع في الغشاء الداخلي للميتوكوندريا ويمثل اكبر المجمعات الخمسة في سلسلة نقل الالكترون. والشكل الآتي يوضح الاستبدال بين القواعد النتروجينية الأربعة حيث ان اضلاع المربع تمثل طفرات التحول وأقطاره تمثل طفرات الانتقال، أي ان هنالك 12 نوعا من الطفرات .
وقد تم التطبيق على طفرات الاستبدال على سلسلة الجين MT-ND5 الخاصة بالإنسان والفئران وذلك للمقارنة بين نسبة التطابق للسلسلتين والتي يمكن الحصول عليهما من عملية الاستبدال، وقد تم استخدام خوارزمية Viterbi لتحديد نوعية القاعدة النيتروجينية المستبدلة لسلسلة الجين MT-ND5. كما تم اقتراح خوارزمية لتحديد نوعية القاعدة النتروجينية المستبدلة لسلسلة الجين MT-ND5 لكل من الإنسان والفئران وكما يأتي: الخوارزمية المقترحة The Suggested Algorithm الخطوة (1): ترميز القواعد النيتروجينية الأربعة من خلال تحويل الرموز الحرفية إلى أرقام والتي تشكل سلسلة الحامض النووي الرايبي منقوص الأوكسجين وكما يأتي:
الخطوة (2): تعريف عناصر نموذج ماركوف المخفي ، اذ ان تمثل متجه الحالة الابتدائية والذي أبعاده ، وان يمثل عدد الحالات. أما فتمثل مصفوفة الاحتمالات الانتقالية بين الحالات المخفية والتي تكون أبعادها بشكل عام . و تمثل مصفوفة احتمالية رابطة بين الحالات المخفية والمشاهدات (مصفوفة الإصدارات) والتي أبعادها ( )، إذ أن . الخطوة (3): تتضمن هذه الخطوة 12 مرحلة، وعلى النحو الآتي: المرحلة الأولى: استبدال القاعدة النيتروجينية A ووضع بدل هذه القاعدة المستبدلة الرمز T. المرحلة الثانية: استبدال القاعدة النيتروجينية A ووضع بدل هذه القاعدة المستبدلة الرمزC. المرحلة الثالثة: استبدال القاعدة النيتروجينية A ووضع بدل هذه القاعدة المستبدلة الرمز G. المرحلة االرابعة: استبدال القاعدة النيتروجينية T ووضع بدل هذه القاعدة المستبدلة الرمز C. المرحلة الخامسة: استبدال القاعدة النيتروجينية T ووضع بدل هذه القاعدة المستبدلة االرمز G. المرحلة السادسة: استبدال القاعدة النيتروجينية T ووضع بدل هذه القاعدة المستبدلة الرمز A. المرحلة السابعة: استبدال القاعدة النيتروجينية C ووضع بدل هذه القاعدة المستبدلة الرمز A. المرحلة الثامنة: استبدال القاعدة النيتروجينية C ووضع بدل هذه القاعدة المستبدلة الرمز T. المرحلة التاسعة: استبدال القاعدة النيتروجينية C ووضع بدل هذه القاعدة المستبدلة الرمز G. المرحلة العاشرة: استبدال القاعدة النيتروجينية G ووضع بدل هذه القاعدة المستبدلة الرمز A. المرحلة الحادية عشر: استبدال القاعدة النيتروجينية G ووضع بدل هذه القاعدة المستبدلة الرمز C. المرحلة الثانية عشر: استبدال القاعدة النيتروجينية G ووضع بدل هذه القاعدة المستبدلة الرمز T. الخطوة (4): إيجاد الحالات المخفية المرجحة وذلك باستخدام خوارزمية Viterbi . الخطوة (5): تقارن سلسلة الحالات الناتجة من الخطوة (4) مع سلسلة الحالات الحقيقة، حيث يتم في هذه الخطوة تقدير نوعية القاعدة النيتروجينية المستبدلة بما يقابلها بسلسلة الحالات الناتجة من الخطوة (4)، ويتم إيجاد متوسط مجموع مربعات خطأ Mean Squares Error ( ) حسب الصيغة (9) إذ إن : تمثل الحالات المخفية الحقيقية : تمثل الحالات المخفية المشفرة، : تمثل طول السلسلة. والنسبة المئوية للتطابق Match Ratio ( ) حسب الصيغة (10) إذ إن: : يمثل متجه الأخطاء ذو البعد ( )، ويمثل متجه التعبير المنطقي logical(اما 0 او (1. والشكل التالي يوضح المخطط الانسيابي للخوارزمية المقترحة لتحديد نوعية القاعدة النتروجينية المستبدلة لسلسلة الجين MT-ND5 الخاصة بالإنسان والفئران:
الشكل (2): المخطط الانسيابي للخوارزمية المقترحة لتحديد نوعية القاعدة النيتروجينية المستبدلة للجين MT-ND5
اولاً: نتائج تطبيق خوارزمية المقترحة على سلسلة الجين MT-ND5 الخاصة بالإنسان تم اختيار سلسلة الجين MT-ND5 الخاصة بالإنسان من الموقع MT-ND5 mitochondrially encoded NADH dehydrogenase 5 Homo sapiens (human) والتي تتكون من 1812 قاعدة نيتروجينية وذلك لتحديد نوعية القاعدة النتروجينة المستبدلة لسلسلة الجين والتي تم الحصول عليها من موقع NCBI ضمن قاعدة بيانات Data Base في مراكز عالمية متخصصة في الهندسة الوراثية ودراسة عمل الجينات، وباستخدام الخوارزمية المقترحة لتحديد نوعية القاعدة النيتروجينية المستبدلة لسلسة الجين MT-ND5 ، والتي تم برمجتها باستخدام اللغة البرمجية MATLAB R2017b ، وتم استبدال القواعد النتروجينية وكما يأتي:
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي: السطر الأول : استبدال A بـ T هو (1) واستبدال A بـ C,G هو (0) السطر الثاني : استبدال T بـ T هو (1) واستبدال T بـ C,G هو (0) السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ T,G هو (0) السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,T هو (0)
واستبدالها بالرمز ، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي: مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي: السطر الأول : استبدال A بـ T هو (0) واستبدال A بـ C هو (1) واستبدال A بـ G هو (0) السطر الثاني : استبدال T بـ T هو (1) واستبدال T بـ C,G هو (0) السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ T,G هو (0) السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,T هو (0)
واستبدالها بالرمز ، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي: مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي: السطر الأول : استبدال A بـ T هو (0) واستبدال A بـ C هو (0) واستبدال A بـG هو (1) السطر الثاني : استبدال T بـ T هو (1) واستبدال T بـ C,G هو (0) السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ T,G هو (0) السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,T هو (0)
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي: السطر الأول : استبدال A بـ A هو (1) واستبدال A بـ C,G هو (0) السطر الثاني : استبدال T بـ C هو (1) واستبدال T بـ A,G هو (0) السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ A,G هو (0) السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,A هو (0)
واستبدالها بالرمز G، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي: مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي: السطر الأول : استبدال A بـ A هو (1) واستبدال A بـ C,G هو (0) السطر الثاني : استبدال T بـ G هو (1) واستبدال T بـ A,C هو (0) السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ A,G هو (0) السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,A هو (0)
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي: السطر الأول : استبدال A بـ A هو (1) واستبدال A بـ T,G هو (0) السطر الثاني : استبدال T بـ T هو (1) واستبدال T بـ A,G هو (0) السطر الثالث: استبدال C بـ G هو (1) واستبدال C بـ A,T هو (0) السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ T,A هو (0)
ثانياً: نتائج تطبيق الخوارزمية المقترحة على سلسلة الجين MT-ND5 الخاصة بالفئران تم اختيار سلسلة الجين MT-ND5 الخاص بالفئران من الموقع MT-Nd5 NADH
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي: السطر الأول : استبدال A بـ T هو (1) واستبدال A بـ C,G هو (0) السطر الثاني : استبدال T بـ T هو (1) واستبدال T بـ C,G هو (0) السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ T,G هو (0) السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,T هو (0)
واستبدالها بالرمز ، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي: مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي: لسطر الأول : استبدال A بـ T هو (0) واستبدال A بـ C هو (1) واستبدال A بـ G هو (0) السطر الثاني : استبدال T بـ T هو (1) واستبدال T بـ C,G هو (0) السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ T,G هو (0) السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,T هو (0)
واستبدالها بالرمز ، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي: مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي: السطر الأول : استبدال A بـ T هو (0) واستبدال A بـ C هو (0) واستبدال A بـG هو (1) السطر الثاني : استبدال T بـ T هو (1) واستبدال T بـ C,G هو (0) السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ T,G هو (0) السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,T هو (0)
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي: السطر الأول : استبدال A بـ A هو (1) واستبدال A بـ C,G هو (0) السطر الثاني : استبدال T بـ C هو (1) واستبدال T بـ A,G هو (0) السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ A,G هو (0) السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,A هو (0)
واستبدالها بالرمز G، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي: مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي: السطر الأول : استبدال A بـ A هو (1) واستبدال A بـ C,G هو (0) السطر الثاني : استبدال T بـ G هو (1) واستبدال T بـ A,C هو (0) السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ A,G هو (0) السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,A هو (0)
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي: السطر الأول : استبدال A بـ A هو (1) واستبدال A بـ T,G هو (0) السطر الثاني : استبدال T بـ T هو (1) واستبدال T بـ A,G هو (0) السطر الثالث: استبدال C بـ G هو (1) واستبدال C بـ A,T هو (0) السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ T,A هو (0)
والجدول (1 (التالي يوضح نتائج عمليات الاستبدال للقواعد النتروجينية الأربع لسلسلة الجين MT-ND5 الخاصة بالإنسان والفئران من خلال متوسط مربعات الخطأ والنسبة المئوية للتطابق لكل عملية استبدال. الجدول (1): عمليات الاستبدال للقواعد النتروجينية الاربع من سلسلة الجين MT-ND5 الخاصة بالإنسان والفئران.
من الجدول (1) اثبتت الخوارزمية المقترحة في استخدام خوارزمية Viterbi في نموذج ماركوف المخفي انها دقيقة في تحديد نوعية القاعدة النتروجينية المستبدلة لسلسلة الجينND5-MT الخاصة بالإنسان والفئران وذلك بالاعتماد على النسب العالية للتطابق التي تم الحصول عليها وعلى مجموع مربعات الخطأ المنخفضة. وظهرت من الجدول ان الخوارزمية كانت أفضل في تحديد نوعية القاعدة النتروجينية من سلسلة الجين ND5-MT الخاصة بالفئران مقارنة مع سلسلة الجين الخاصة بالإنسان. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
References | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Xuan, T. (2004), "Autoregressive Hidden Markov Model with Application in Study ". Thesis of Science, S7N5E6, Dept. of Mathematics and Statistics, University of Saskatchewan, Saskatoon. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Statistics Article View: 171 PDF Download: 119 |