معلومة

النيوكلوتايد والمواقع

النيوكلوتايد والمواقع



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أنا جديد في قراءة الحمض النووي الخام. عند مقارنة البيانات الأولية لشخصين ، لماذا يمتلك شخص واحد SNP مختلفًا عن الآخر ، في نفس الموقع ، على كروموسوم معين؟ ولكن على كروموسوم مختلف سيكون هناك SNP نفسه ، في نفس الموقع ، لكلا الشخصين.


لأن هذه هي الطريقة التي يعمل بها الاختلاف الجيني. تسمى SNPs بالنيوكليوتيدات المفردة تعدد الأشكال لسبب ما: هم تعدد الأشكال. هذا يعني أنها مواقع حيث سيكون لدى الأفراد المختلفين نيوكليوتيدات مختلفة. هذا هو بالضبط سبب دراستها ولماذا لدينا قواعد بيانات لـ SNPs والأنماط الجينية المختلفة التي يمكن أن تظهر.

تذكر أن الطفرات يمكن أن تحدث بشكل عفوي في فرد واحد. في الواقع ، يمكن أن تظهر بشكل عفوي في خلية واحدة. هذا يعني أنه إذا قمت بتسلسل جينوم خليتين مختلفتين من نفس الشخص ، فمن الممكن في الواقع أن تجد اختلافات صغيرة.

من المؤكد العثور على اختلافات صغيرة بين الأفراد المختلفين. جينوماتنا ليست متطابقة وبينما ستكون معظم الاختلافات في المناطق غير المشفرة ، سيكون لديك أيضًا تعدد الأشكال داخل الجينات. إن مقدار تباين النمط الظاهري لدينا يعتمد على مثل هذه الاختلافات الصغيرة هو موضوع بحث نشط ولكن من الآمن افتراض أن التغييرات الصغيرة والنيوكليوتيدات الفردية تسبب على الأقل بعض التباين الذي تراه في الأشخاص من حولك.

على أي حال ، ما سيكون مفاجئًا هو أن يشارك شخصان نفس أشكال SNP بالضبط لجميع أشكال SNP في جينوماتهم (أنا متأكد من أن هذا يحدث ، لكنني أتوقع أن يكون هذا هو الحال فقط للأقارب المقربين وربما لا حتى ذلك الحين). هذا الاختلاف هو بيت القصيد من SNP والسبب الوحيد لتحليلنا لها.


يبدو لي كما لو أنك أساءت فهم شيء ما عن الكروموسومات التي تشكل الجينوم البشري.

على كروموسوم مختلف [...] في نفس المكان

ليس نفس الموقع على الإطلاق. ليس هناك من مفاجأة في العثور على جينومين يختلفان في مكان واحد ، وليس في مكان آخر غير ذي صلة.

تعديل إذا كانت هذه قراءة خاطئة لسؤالك ، وكنت تقصد أن SNP للشخصين كان "في نفس الموقع" مثل الشخص الآخر ، فإن بقية الإجابة ليست ذات صلة. يشير مصطلح "SNP" إلى موقع ، يُعطى اسمًا / معرفًا لغرض قياس التباين باستخدام شرائح SNP ؛ بالضرورة نفس الموقع في أي شخص ، والذي قد يختلف ، ولكن ليس من الضروري دائمًا الاختلاف بين الجميع (هيا ، هناك 4 قيم ممكنة فقط). يجب إعادة صياغة سؤالك "لماذا يختلفان في SNP 1 وليس في SNP2؟".

خلفية

لا يعني SNP أكثر من "قيمة أساسية واحدة في الجينوم ، والتي قد تختلف في مجموعة سكانية" ، لذلك دعونا نتحدث فقط عن "الاختلاف في الموضع".

تتكون مجموعة أحادية العدد من الجينوم البشري من 23 كروموسومًا ، 22 منها "عادية" تمامًا ، بينما يشارك 1 في تحديد الجنس. بالطبع ، معظم خلايانا ثنائية الصبغة ولذا لدينا مجموعتان من هذه المجموعات ، مع أزواج من Chr1 و Chr2 و ... Chr22 و X / Y.

ما أعتقد مشكلتك لا، ربما كنت تعتقد أنه كان كذلك

لم أقم بتحليل أجزاء كبيرة من البيانات الجينومية ، لكنني أعتقد أن المواقف غير المتجانسة (المواقف التي تختلف فيها كروموسومات الفرد المزدوجة) يتم تمثيلها في بيانات التسلسل الخاصة بهذا الفرد. لهذا السبب ، أنا أفعل ليس أعتقد أن سؤالك يسأل "كيف يمكن لشخصين أن يكون لهما فرق في بيسبير x في نسخة واحدة من Chr1 ، ولا يوجد فرق في النسخة الأخرى من Chr1 '- لأن كلا النسختين من Chr1 مدمجتان كمجموعة بيانات لشخص واحد.

في الواقع ، من المستحيل التعيين (بمعنى التجميع في أنماط الفرد) تسلسل متغاير الزيجوت إلى نسخة واحدة أو أخرى دون مزيد من المعلومات ، أي متواليات من الآباء والأجداد ، لمعرفة المتغيرات الموروثة معًا (المرتبطة).

ما أعتقد أن مشكلتك هي حقا

أعتقد أنك تسأل "كيف يمكن لشخصين أن يكون لهما فرق في بيسبير x على Chr1 ، ولا فرق في Basepair x على Chr6 (قل)؟ ' يمكن الإجابة على هذا بسهولة. يعد Basepair 100 من Chr1 موقعًا مختلفًا تمامًا ولا علاقة له في الجينوم بـ basepair 100 من Chr6. لا يوجد سبب لتوقع أن تكون هذه المواقف مرتبطة.

تجربة فكرية مفيدة

يمكننا تسلسل الكروموسومات بدلاً من إعادة ضبط العد في بداية كل منها ، ثم بدلاً من ذلك سيتم الإشارة إلى bp 100 من Chr6 (تقريبًا) bp 1،080،000،100 من الجينوم - وهذا يجعل الاختلاف في هذه المواضع واضحًا تمامًا.


تربط الآليات المستقلة المتعددة الأشكال الجينية المتعددة في منطقة ZEB2 بخطر الإصابة بمرض الشريان التاجي

الخلفية والأهداف: ينشأ مرض الشريان التاجي (CAD) من تفاعل العوامل الوراثية والبيئية. على الرغم من أن دراسات الارتباط على مستوى الجينوم (GWAS) قد حددت مواقع مخاطر متعددة وتعدد أشكال النوكليوتيدات المفردة (SNPs) المرتبطة بخطر الإصابة بأمراض القلب التاجية ، إلا أنها تقع في الغالب في مناطق غير مشفرة أو بين الجينات وآليات تأثيرها غير معروفة إلى حد كبير. وفقًا لذلك ، كان هدفنا هو تطوير خط أنابيب معلوماتية تعتمد على البيانات لفهم مواقع مخاطر CAD المعقدة ، وتطبيق ذلك على مجموعة غير مفهومة جيدًا من تعدد الأشكال في المنطقة المجاورة لـ ZEB2.

أساليب: لقد قمنا بتطوير خط أنابيب معلوماتية فريد من نوعه يستفيد من مجموعة بيانات جينية للتعبير الجيني CAD متعددة الأنسجة ، ومجموعات بيانات GWAS ، وموارد أخرى. قام خط الأنابيب أولاً بتشريح مواقع SNP وعلاقات عدم توازن الارتباط الخاصة بها ، وتقدم من خلال تحليلات مواضع السمات الكمية للتعبير الخاص بالأنسجة ، ثم العلاقات بين الجينات والجينات والنمط الظاهري والجينات والعلاقات بين النمط الظاهري. اختتم خط الأنابيب من خلال استكشاف شبكات تنظيم الجينات ذات الصلة بـ CAD (GRNs).

نتائج: حددنا ثلاثة أشكال SNP مستقلة لمخاطر CAD على مقربة من منطقة ترميز ZEB2 (rs6740731 و rs17678683 و rs2252641 / rs1830321). قرر خط الأنابيب لدينا أن هذه النيوكلوتايد من المحتمل أن تعمل بالتنسيق عبر جدار الشرايين والأنسجة الدهنية ، من خلال التحكم في وظائف التمثيل الغذائي والدهون. بالإضافة إلى ذلك ، فإن ZEB2 هو المحرك الرئيسي الرئيسي لـ GRN الخاص بالكبد والذي يرتبط بمستويات الدهون ، والتدابير الأيضية والقياسية البشرية ، وشدة CAD.

الاستنتاجات: باستخدام خط أنابيب معلوماتية جديد ، كشفنا عن آليات عمل متعددة الأوجه لـ SNPs المرتبطة بمخاطر CAD المرتبطة بـ ZEB2. يمكن أن يكون خط الأنابيب هذا بمثابة خارطة طريق لتشريح العلاقات المعقدة للنمط الظاهري للنيوكليوتيدات SNP والجينات والأنسجة والكشف عن أهداف للتدخلات العلاجية الخاصة بالأنسجة والجينات.

الكلمات الدالة: تصلب الشرايين مرض الشريان التاجي دراسة الارتباط على نطاق الجينوم ZEB2.

حقوق النشر © 2020 Elsevier B.V. جميع الحقوق محفوظة.

بيان تضارب المصالح

أعلن المؤلفون أنه ليس لديهم أي شيء يفصحون عنه فيما يتعلق بتضارب المصالح فيما يتعلق بهذه المخطوطة.

يعلن المؤلفون أنه ليس لديهم مصالح مالية متنافسة معروفة أو علاقات شخصية يمكن أن يبدو أنها تؤثر على العمل المذكور في هذه الورقة.


2. قواعد بيانات SNP

الأول تم تطويره منذ 5 سنوات ويحتوي فقط على ملف قائمة جزئية من العديد من الأشكال المتعددة الموجودة بين N2 و CB4856. على الرغم من كونها غير مكتملة ، إلا أن قاعدة البيانات هذه تستخدم واجهة مباشرة ، ولأغراض التعيين الأولي ، فمن المرجح أن تكون كافية لمعظم المستخدمين. تحتوي قاعدة البيانات الأحدث على معلومات أولية إلى حد ما والموقع قيد التطوير حاليًا. ومع ذلك ، نظرًا لأنه تم تجميع قاعدة البيانات هذه باستخدام التسلسل الكامل لـ CB4856 ، فإن هذا الموقع يسرد عديدة مرشح SNPs أكثر من قاعدة البيانات الأصلية. في الوقت الحاضر ، قد تكون قاعدة البيانات الأحدث هي الأنسب لرسم خرائط أكثر دقة مثل تلك التي نواجهها بشكل شائع في المراحل اللاحقة من تعيين SNP ثلاثي النقاط أو لتحديد نقاط النهاية باستخدام طرق ثنائية النقاط (الموضحة في القسم 5). يتم وصف قاعدتي البيانات ببعض التفاصيل أدناه.

الأصلي C. ايليجانس يمكن الوصول إلى قاعدة بيانات SNP على: http://genome.wustl.edu/genome/celegans/celegans_snp.cgi. على الرغم من وجود تغطية غير كاملة للجينوم فقط ، فإن هذا المورد يوفر مخزونًا مفيدًا للغاية للعديد من تعدد الأشكال في السلالات N2 و CB4856. تم تنظيم قاعدة البيانات هذه وفقًا للخريطة المادية من خلال الكروموسومات والكروموسومات الفرعية والكونوسومات. على سبيل المثال ، في الجزء العلوي من التسلسل ، الجزء 9 على الكروموسوم X (انقر فوق & # 8216 Chromosome X Polymorphisms & # 8217 في أسفل الصفحة ، ثم انقر فوق & # 82169 & # 8217 ، أو انتقل إلى http://genome.wustl.edu/ genome / celegans / chromX_layout.html ثم انقر فوق & # 82169 & # 8217) ، ستجد SNP B0403: 33022 S = CT. هذا يعني أن تعدد الأشكال موجود على cosmid B0403 عند موضع النوكليوتيدات 33.022 وأن السلالتين تختلفان في وجود إما C أو T في هذا الموضع. من المفترض أن تكون SNPs المدرجة في الحروف الحمراء قد تم تأكيدها تجريبياً ، في حين أن SNPs المدرجة في حروف بيضاء لم يتم تأكيدها بعد. في الواقع ، كان لدى مختبرنا تجربة سيئة واحدة على الأقل مع & # 8220confirmed & # 8221 SNP ، وبالتالي من الضروري التأكد من أن أي SNP تعمل معه يتصرف كما هو متوقع في يديك .

بالضغط على الأحرف الحمراء من B0403: 33022 S = CT ، نظهر نافذة إضافية تُظهر التسلسلات الفعلية المحيطة بـ SNP بالحروف السوداء (عادةً & # 8764500 bp upstream and downstream) بالإضافة إلى SNP نفسها بأحرف حمراء [C / T]. يشير هذا التعيين إلى أن N2 يحتوي على C في هذا الموضع بينما يحتوي CB4856 على T. أيضًا ، إذا كان SNP من نوع RFLP ، فسيعرض الجزء العلوي من هذه الصفحة مواقع الهضم المتوقعة لتسلسل الحمض النووي المعروض من N2 و CB4856 (مدرج هنا as & # 8220HA & # 8221 في هاواي) ، باستخدام إنزيم واحد أو أكثر. بالنظر إلى هذا ، نلاحظ أنه في خلفية CB4856 ، ينتج عن وجود T في تسلسل AGATCT ، وهو موقع التعرف على إنزيم التقييد BglII . يقطع هذا الإنزيم مرة واحدة في هذا الجزء من تسلسل CB4856 وليس على الإطلاق في N2. وبالتالي ، إذا أردنا تضخيم هذه المنطقة من الديدان N2 و CB4856 باستخدام PCR وقطع منتج PCR باستخدام BglII ، فإن CB4856 سينتج مضاعفة تبلغ حوالي 500 نقطة أساس لكل منهما ، بينما يعمل N2 كنطاق واحد يبلغ 1000 نقطة أساس. الإنزيمات الأخرى المدرجة على أنها تميز تعدد الأشكال هذا (على سبيل المثال ، MnlI و مبوي ) على الرغم من أنها صحيحة من الناحية الفنية ، إلا أنها ليست ذات فائدة عملية كبيرة ، حيث إنها تقطع عدة مرات في كل من متواليات N2 و CB4856. لذلك ، فإن تمييز نمطي الهضم المتطابقين إلى حد كبير (باستخدام هلام الاغاروز القياسي) سيكون صعبًا أو مستحيلًا.

بالانتقال إلى SNP غير المؤكد أسفل B0403 ، نجد C36B7: 21571 S = CT. يؤدي وجود C في N2 و A في CB4856 إلى إنشاء موقع جديد للإنزيم أبوي (الإجماع RAATTY حيث R هي A أو G و Y هي C أو T. للحصول على قائمة كاملة بالاختصارات ، راجع الجزء الخلفي من كتالوج NEB). نرى هنا أن ApoI يقطع خمس مرات في السلالة CB4856 (59 ، 405 ، 500 ، 638 ، 648). مباشرة فوق هذا ، نرى أن ملخص N2 مدرج كـ & # 8220none & # 8221. احذر: هذا لا يعني أن CB4856 يقطع خمس مرات مع ApoI وليس على الإطلاق في N2! في الواقع ، تقطع N2 أربع مرات مع ApoI (59 ، 405 ، 638 ، 648) ، وليس فقط في الموضع الأوسط حيث يوجد SNP الفعلي (500). من الواضح أن هذا مضلل. بواسطة & # 8220none & # 8221 ، فإنهم يقصدون فقط أن تعدد الأشكال لا ينتج عنه مواقع إنزيم جديدة تقطع على وجه التحديد تسلسل N2. شيء آخر يجب أن تكون على دراية به هو أنه بالنسبة للمواقع غير المتجانسة ، قد يكون الجزء السفلي (غير المكتوب) من الحمض النووي هو المناسب.

نظرًا لأن العديد من النيوكلوتايد المدرجة في القائمة لم يتم تأكيدها تجريبيًا ، فإن السؤال الذي يطرح نفسه: كم عدد النيوكلوتايد المندرجة هي حقيقية بالفعل وهل من الممكن التمييز بشكل بديهي بين الحقيقي منها والخطأ؟ (الأخطاء الخاطئة ترجع ببساطة إلى أخطاء في قراءات التسلسل الفردي لـ CB4856). بالنسبة لجميع أشكال النيوكلوتايد غير المؤكدة ، يوجد مؤشر احتمالية (Psnp) أعلى الصفحة التي تحتوي على معلومات التسلسل. بالنسبة لـ C36B7: 21571 ، يكون Psnp 0.9427 ، مما يعني أنه من المفترض أن يكون هناك احتمال بنسبة 94٪ أن يكون SNP حقيقيًا بناءً على جودة القراءة. بالنسبة إلى SNP غير المؤكد ، يعد هذا جيدًا كما هو. في المقابل ، من تجربتنا أن SNPs مع مؤشرات Psnp أقل من 0.5 هي دائمًا وهمية. لاحظ أيضًا أنه يمكن الآن الرجوع إلى بدائل النوكليوتيدات غير المؤكدة باستخدام قاعدة بيانات SNP الأحدث الموضحة أدناه. بالإضافة إلى البدائل منخفضة الدرجات ، فإن SNPs التي تؤدي إلى حذف زوج أساسي واحد أو إدخالات ضمن سلسلة من النيوكليوتيدات المتكررة (على سبيل المثال ، A7 مقابل أ8) غالبًا ما تكون مشبوهة. على الرغم من أن بعضًا منها قد يكون حقيقيًا ، إلا أن الفطرة السليمة تملي على احتمال حدوث أخطاء التسلسل عند محاولة التمييز بين هذه الأنواع من الاختلافات مقارنةً بمقارنة التسلسلات مثل ATG و ACG. وبالتالي ، سوف ترغب في استخدام بعض السلطة التقديرية في تنبؤاتك الصحيحة / الخاطئة التي تتجاوز مؤشر Psnp. بالطبع ، سترغب دائمًا في إثبات أي SNP غير مؤكد قبل محاولة أي تمارين مهمة لرسم الخرائط ، بغض النظر عما يخبرك به مؤشر الاحتمالات أو حدسك.

الميزة الأساسية لقاعدة البيانات هذه ، كما هو مذكور أعلاه ، أنها تستند إلى التسلسل الكامل لـ CB4856 ، وبالتالي يجب من الناحية النظرية تحديد جميع SNPs المعروفة. ومع ذلك ، حتى كتابة هذه السطور ، تحدد قاعدة البيانات بدائل النوكليوتيدات فقط ، ولكن ليس عمليات الحذف والإدخال الصغيرة. بالنظر إلى أن هذه الفئة الأخيرة تشتمل على نسبة كبيرة من الاختلافات بين N2 و CB4856 ، فإن قاعدة البيانات هذه غير مكتملة حاليًا ، حيث يدرك مطورو الموقع هذا النقص ويجب أن يتوفر الإصلاح في المستقبل القريب.

من الصفحة التي تم الوصول إليها من خلال الرابط أعلاه ، أسفل القوائم المنسدلة للمدخلات & # 8220group & # 8221 و & # 8220track & # 8221 ، حدد & # 8220Custom Tracks & # 8221 و & # 8220cb4856_snps & # 8221 ، على التوالي. استخدم الإعدادات الافتراضية لجميع الفئات الأخرى. تحت العنوان & # 8220region & # 8221 ، حدد & # 8220position & # 8221 وأدخل نطاق موقع محدد للنيوكليوتيدات الصبغية ، على سبيل المثال ، chrIV: 500000-550000. لاحظ أنه يمكن الحصول على أرقام نوكليوتيدات محددة تتوافق مع أي منطقة ذات أهمية من Wormbase. على سبيل المثال ، إدخال cosmid C32F10 على Wormbase وإجراء بحث & # 8220clone & # 8221 & # 8220 يكشف عن الموقع الجيني لهذا comsid ليكون & # 82201: 5،804،218 & # 82305،834،319 & # 8221 ، والذي سيتم إدخاله في مربع الموضع على موقع SNP كـ chrI: 5804218-5834319.

لقسم الإخراج ، تتوفر العديد من التنسيقات. على سبيل المثال & # 8220 تقوم جميع الحقول من الجدول المحدد & # 8221 بجدولة التغييرات والمواقف الخاصة بـ SNPs لتلك المنطقة. يوفر هذا الناتج أيضًا درجة 40 & # 821163 لكل SNP ، حيث تشير الأرقام الأعلى إلى موثوقية أكبر. في المتوسط ​​، تحتوي قاعدة البيانات على معدل موجب خاطئ & # 8764 5٪. من المفيد أيضًا خيار & # 8220sequence & # 8221. ينقلك هذا إلى صفحة جديدة حيث يمكنك إدخال عدد النيوكليوتيدات على جانبي SNP الذي تريد عرضه. على سبيل المثال ، إدخال & # 822050 & # 8221 في كل من مربعات المنبع والمصب والنقر على & # 8220 تسلسل الحصول & # 8221 سينتج قائمة من SNPs ، يعرض كل منها 101 تسلسل نيوكليوتيد (50 نقطة أساس لكل سطر). في هذه الحالة ، سيكون موقع SNP الفعلي في الموضع 51 ، أو النوكليوتيد الأول في السطر الثاني. لاحظ أن التسلسل المعروض هو دائمًا تسلسل N2 ، ومع ذلك ، تتم الإشارة إلى التغيير المحدد أعلى التسلسل. وبالتالي ، تشير C / T إلى أن النيوكليوتيد في الموضع 51 هو & # 8220C & # 8221 في N2 و & # 8220T & # 8221 في CB4856. يمكن بعد ذلك لصق هذه الأنواع من التسلسلات بسهولة في برنامج تحليل الحمض النووي القياسي لاكتشاف التغييرات في أنماط RFLP.

يمكن أيضًا الوصول إلى SNPs مباشرة من خلال WormBase ، على الرغم من توفير معلومات أقل إلى حد ما من مواقع الويب الخاصة بـ SNP. لعرضها ، ما عليك سوى الانتقال إلى المنطقة التي تهمك باستخدام متصفح الجينوم WormBase وتحديد منطقة ذات حجم معقول (على سبيل المثال ، 20 كيلو بايت) للعرض ضمن القائمة المنسدلة & # 8220Scroll / Zoom & # 8221. بعد ذلك ، حدد المربع & # 8220SNPs & # 8221 باتجاه أسفل الصفحة أسفل & # 8220Variation Tracks & # 8221 وانقر فوق & # 8220Update Image & # 8221. سيعرض هذا SNPs المتوقعة في المنطقة على شكل ماس أخضر أو ​​أصفر ، مما يشير إلى RFLP و non-RFLP SNPs ، على التوالي. بالإضافة إلى ذلك ، يشار إلى SNPs التي تم التحقق من صحتها عن طريق التسلسل الإضافي أو تحليل RFLP. يؤدي النقر فوق الماس أو النص المجاور إلى الانتقال إلى صفحة جديدة حيث يكون لديك خيار عرض منطقة موسعة (500 نقطة أساس) تحيط بـ SNP. بدلاً من ذلك ، يمكنك الوصول إلى SNPs من خلال WormBase عبر: http://www.wormbase.org/db/searches/strains. أدخل المعالم حسب التوجيهات وحدد & # 8220None & # 8221 تحت عنوان Loci العلوي ، & # 8220SNPs & # 8221 تحت الخيار الأوسط ، & # 8220All & # 8221 أسفل عنوان SNPs السفلي لعرض جميع SNPs التي تم التحقق منها والمتوقعة في المنطقة. لاحظ أن WormBase لا يتضمن حاليًا درجات الموثوقية لـ SNPs المتوقعة ولا توجد خيارات لعرض كميات مختلفة من التسلسلات المحيطة أو لتحديد نوكليازات التقييد ذات الصلة. ومع ذلك ، فإن الواجهة الرسومية واضحة جدًا ومفيدة للغاية لتصور مواقع تعدد الأشكال داخل منطقة صغيرة.

مع تسلسل الكونسورتيوم لـ CB4856 والتحسينات المستقبلية المتوقعة لقواعد البيانات ، من المحتمل أن تكون جهود المحقق الفردي للكشف عن تعدد الأشكال الجديد من خلال تسلسل المناطق ذات الصلة من CB4856 غير ضرورية في المستقبل القريب جدًا. ومع ذلك ، يمكن تحقيق ذلك عن طريق تضخيم التسلسلات العشوائية بين الجينات في منطقة اهتمام الفرد من CB4856. في الماضي ، قمنا بتضخيم منطقة & # 8764 1600-bp من CB4856 واستخدمنا اثنين من البادئات التسلسلية الداخلية. في أغلب الأحيان ، سيجد المرء فرقًا واحدًا على الأقل داخل منطقة بهذا الحجم.


متواليات متعددة الأشكال مضخمة

يمكن استخدام PCR لتضخيم المناطق متعددة الأشكال. يمكن توضيح الكشف عن تعدد الأشكال في هذه التسلسلات المضخمة على أنها سواتل صغيرة / سواتل دقيقة أو VNTRs / STRs حيث توضح الاختلافات في الطول اختلافات في العناصر المتكررة فيما يمكن وصفه بأنه تعدد أشكال طول الجزء المضخم ( AFLPs ). المتواليات المشقوقة متعددة الأشكال ( قبعات ) تمثل تفاعل البوليميراز المتسلسل (PCR) للمواقع المعروفة باحتوائها على مواقع تقييد متعددة الأشكال. يمكن الكشف عن الأليلات المختلفة التي تستخدم CAPS من خلال وجود أو عدم وجود هضم الطاقة المتجددة للمنتجات المضخمة التي تؤدي إلى أنماط نطاقات تفاضلية. في هذه الحالات ، قد تكون SNPs قد أدخلت أو قللت تاريخياً وجود موقع تقييد محدد وتصاريح لعرض الأليلات المختلفة. يستخدم تعديل CAPS على وجه التحديد الاشعال الطويلة التي تقدم عن قصد موقع تقييد حيث لا يوجد واحد على أساس SNPs داخل المنطقة المضخمة لـ SNPs التي لا تنشئ بشكل طبيعي موقع تقييد. يُشار إلى الإنشاء أو الإزالة المتعمد لمواقع القيود لأليل واحد مقابل الآخر في هذه الحالة باسم التسلسل المشقوق متعدد الأشكال المشتق ( dCAPS ).


مقدمة

تعدد أشكال النوكليوتيدات المفردة (SNPs) والاختلافات أحادية النوكليوتيدات (SNVs) هي تغيرات نيوكليوتيدات في مواضع جينومية واحدة تختلف بين مجموعات فرعية مهمة من السكان ، أو الطفرات العامة التي تنشأ غالبًا بسبب أمراض مثل السرطان ، على التوالي [1]. على الرغم من شيوعها ومعروف أنها تسبب العديد من الأمراض ، إلا أن تأثيرها على التعبير الجيني وربط البروتين والطرق التي تسبب بها المرض ليست مفهومة تمامًا [2]. ترتبط الطفرات الخاطئة في مناطق الترميز بسهولة بالمرض ، لأنها تسبب ترجمة لبروتين معيب [3] ، ولكن معظم تعدد الأشكال (∼93٪ من تعدد الأشكال المرتبطة بالأمراض والسمات في دراسات الارتباط على مستوى الجينوم) تحدث في مناطق غير مشفرة [3]. 4]. يمكن أن تظهر SNPs غير المشفرة في RNAs غير المشفرة ، أو introns ، أو في 5 'و 3' مناطق غير مترجمة (UTRs). لأن هذه الأشكال غير المشفرة من النيوكلوتايد لا تنتج بروتينًا متغيرًا ، فإن المسارات التي تسبب المرض من خلالها أقل شهرة ، لكنها لا تزال مرتبطة بانتظام بالمرض [5]. إن فهم تأثير هذه الأشكال غير المشفرة أو ذات المعنى نفسه له آثار واسعة النطاق لفهم المرض ، بالإضافة إلى علم الوراثة التطوري [6 ، 7].

التفسير المحتمل للتأثير على النمط الظاهري لـ SNPs في UTRs 5 'و 3' أو RNAs غير المشفر هو أنها تؤثر على التفاعلات الحاسمة بين RNA والجزيئات الحيوية الأخرى. في الواقع ، تتفاعل RNAs بشكل طبيعي مع البروتينات المرتبطة بـ RNA (RBPs) ، ومجمعات بروتين RNA مثل الريبوسوم و spliceosome ، وكذلك مع RNAs الأخرى [8-10]. تتحكم هذه التفاعلات في كل خطوة في دورة حياة الحمض النووي الريبي ، مثل مدة حياة جزيء الحمض النووي الريبي ، وتوطينه دون الخلوي ، وتوظيف الريبوسومات في جزيئات الرنا المرسال ، وفي النهاية كمية البروتين المعبر عنها لكل رنا منقوش [11 ، 12]. وبالتالي ، فليس من المستغرب أن يكون من المعروف أن مقاطعة هذه التفاعلات تسبب المرض [13]. تماشيًا مع أهميتها ، يوجد أكثر من 1500 بروتين ملزم لـ RNA وآلاف من microRNAs مشروحة في الجينوم البشري وحده [14 ، 15].

من الواضح أن SNP سيؤثر على ارتباط البروتين أو الرنا الميكروي إذا حدث مباشرة على موقع الارتباط [16 ، 17]. ومع ذلك ، كما سنبين ، فإن SNPs قادرة أيضًا على التأثير على ارتباط البروتين (أو الرنا الميكروي) "على مسافة" من خلال إشراك البنية الثانوية للحمض النووي الريبي. تتشكل الهياكل الثانوية للحمض النووي الريبي بسبب ميل النيوكليوتيدات في الرنا إلى زوج القاعدة [18]. بالنسبة إلى الرنا الهيكلي ، تعتبر هذه الاقترانات الأساسية عاملاً محددًا مهمًا للشكل المادي ذي الصلة وظيفيًا للحمض النووي الريبي ، ولكن الرنا المرسال وغير المشفر الذي لم يتم تصميمه بالضرورة لهياكل محددة سيشكل أيضًا أزواجًا قاعدية وبالتالي بنية ثانوية [19]. نظرًا لأن microRNAs وجزء كبير من بروتينات ربط RNA ترتبط بقواعد غير متزاوجة فقط ، فإن البنية الثانوية لـ RNA تتنافس مع ارتباط microRNAs أو بروتينات ربط RNA أحادية السلسلة وبالتالي تؤثر على تقارب ارتباط RNA لهذه الجزيئات. على سبيل المثال ، لقد أظهرنا سابقًا وجود بنية ثانوية تعاونية بين بروتينات ربط الحمض النووي الريبي (RNA): ربط بروتين واحد بـ RNA يغير مجموعة الهياكل الثانوية المحتملة عن طريق استبعاد القواعد الموجودة في أثرها من الاقتران الأساسي [20 ، 21]. يؤدي هذا التغيير في الهياكل الثانوية إلى تعديل إمكانية الوصول إلى البصمة لبروتين ثانٍ وبالتالي تقارب الحمض النووي الريبي لهذا البروتين الثاني. اعتمادًا على التسلسل المحدد ، يمكن لحدث ربط واحد أن يجعل حدث الربط الآخر أسهل أو أصعب.

وقد ثبت أيضًا تجريبيًا أن تعدد الأشكال المحددة يمكن أن تؤثر على الهياكل الثانوية للـ mRNAs ، وأن تعدد الأشكال يمكن أن تسبب المرض من خلال التغيرات في البنية الثانوية للحمض النووي الريبي [23-25]. هنا ، نوضح كيف يمكن لتغييرات النوكليوتيدات المفردة في جزيء الحمض النووي الريبي ، من خلال إجراء تركيبات مختلفة بقوة أو أقل مواتية ، تغيير البنية الثانوية بشكل كبير بما يكفي لتغيير تقارب RNA لبروتين ربط RNA أو microRNA ، وهذا موجود بعض الأدلة على أن هذا التأثير قد يكون تحت ضغط انتقائي في النسخ البشرية. للتبسيط ، في بقية الورقة ، سنشير إلى الجزيئات المرتبطة بـ RNA على أنها "بروتينات" ، على الرغم من أن أحداث الارتباط هذه يمكن أن تحدث بالتساوي مع mircoRNAs ، كما هو موضح في [26] ، أو أي جزيء آخر يربط أحادي السلسلة RNA. وبالمثل ، سوف نشير إلى تأثير "SNPs" على ارتباط بروتين RNA ، ولكن يجب أن تحدث هذه التأثيرات بالتساوي مع أي طفرة نقطية بما في ذلك SNVs. من خلال طي RNAs حسابيًا باستخدام نسخة معدلة من حزمة Vienna RNA ، يمكننا قياس تأثير SNPs على ارتباط البروتين كميًا. باستخدام بيانات SNPs البشرية و PAR-CLIP المعروفة ، نقوم بالتحقيق في التأثير الواسع للجينوم لـ SNPs على ربط HuR (ELAVL1). HuR هو بروتين ربط RNA تمت دراسته على نطاق واسع مع ما يقرب من 500 مقالة على PubMed. إنه عضو في عائلة ELAVL لبروتينات ربط الحمض النووي الريبي (RNA) التي تربط بشكل انتقائي متواليات غنية بالـ AU ، ويرتبط HuR ببصمة نيوكليوتيد 7 في الغالب في UTRs للعديد من mRNAs [27]. HuR له وظائف متنوعة ، بما في ذلك تثبيت mRNAs ضد التدهور كوسيلة لتنظيم التعبير الجيني والتحكم في الصادرات النووية من mRNAs ، وقد تورط في العديد من الأمراض بما في ذلك السرطان [28 ، 29]. نجد أن تعدد الأشكال يمكن أن يكون له تأثير متعدد الجوانب على التقارب الملزم لربط HuR بنسخ RNA من عشرات القواعد بعيدًا ، ببساطة من خلال التغييرات في البنية الثانوية ، ونقترح ذلك كآلية عامة يمكن من خلالها أن تؤثر SNPs على ارتباط البروتين.


تنقيح الموقع الجيني لتباين SNP الذي يؤثر على توقيت نضج سمك السلمون الأطلسي في موضع رئيسي كبير التأثير

غالبًا ما تؤدي الجهود المبذولة لفهم الأسس الجينية للتنوع الظاهري إلى تحديد المناطق المرشحة التي تظهر إشارات الارتباط و / أو الاختيار. قد تحتوي هذه المناطق على جينات متعددة وبالتالي يلزم التحقق من صحة الجينات المسؤولة فعليًا عن الإشارة. في سمك السلمون الأطلسي (سالمو سالار) يحدث موضع ذو تأثير كبير لتوقيت النضج في منطقة جينومية بما في ذلك جينان مرشحان ، vgll3 و اكاب 11، ولكن البيانات اللازمة لتحديد الجينات (أو كليهما) التي تساهم في الارتباط كانت مفقودة. هنا ، نستفيد من أحداث إعادة التركيب الطبيعي المكتشفة بين الجينين المرشحين في قطيع تفريخ السلمون لتقليل اختلال التوازن في الموضع ، وبالتالي تمكين تحديد تأثير التباين في هذين الجينين على توقيت النضج. من خلال تربية 5895 ذكرًا حتى سن النضج ، 81٪ منهم لديهم عودة الارتباط vgll3 / akap11 تركيبات الأليلات ، وجدنا ذلك vgll3 ارتبط تباين SNP بقوة مع توقيت النضج ، في حين كان هناك ارتباط ضئيل أو معدوم بينهما اكاب 11 تباين SNP وتوقيت النضج. هذه النتائج توفر أدلة قوية تدعم vgll3 باعتباره الجين المرشح الأساسي في موضع الكروموسوم 25 للتأثير على توقيت النضج. سيساعد هذا في توجيه البحث المستقبلي لفهم العمليات الجينية التي تتحكم في توقيت النضج. يوضح هذا أيضًا فائدة المؤتلفات الطبيعية لرسم خريطة أكثر دقة للتباين السببي الكامن وراء تنوع النمط الظاهري.


مناقشة

من بين 54609 موقعًا على BovineSNP50 BeadChip ، تم تحديد 21131 (38.7 & # x00025) SNPs بنجاح في ما لا يقل عن 90 & # x00025 من الأفراد ، و 1068 (2.0 & # x00025 من إجمالي 5.1 & # x00025 من مواقع التنميط الجيني) كانت متعدد الأشكال في الغزلان. في المقارنة ، بيرتولدي وآخرون. [18] نجح في التنميط الجيني لنسبة أكبر بكثير من المواضع (96.7 & # x0201398.7 & # x00025) واكتشف 4 & # x00025 من المواضع كمتعدد الأشكال باستخدام نفس شريحة SNP في البيسون وميلر وآخرون. [17] نجح في التنميط الجيني لأكثر من 90 & # x00025 من المواقع في أنواع الأغنام وثيقة الصلة باستخدام OvineSNP50 BeadChip ، ومع ذلك تم العثور على 1.7 & # x00025 فقط من المواقع متعددة الأشكال (868 من إجمالي 49034 موقعًا). انخفاض معدل نجاح التنميط الجيني في هذه الدراسة بالمقارنة مع Pertoldi et al. [18] وميلر وآخرون. [17] متوقع ، نظرًا للاختلاف 25.1 & # x0221230.1 مليون سنة بين Bovidae (B. الثور) و Cervidae (O. hemionus و O. virginianus) [21]. ومع ذلك ، فإن مستوى تعدد الأشكال مرتفع بشكل غير متوقع ويمكن أن يكون ناتجًا عن أحجام أعداد كبيرة تاريخيًا من الغزلان البغل والغزلان أسود الذيل والغزلان أبيض الذيل في أمريكا الشمالية [24]. في المقابل ، حلل بيرتولدي وآخرون أنواع البيسون. [18] مرت بالعديد من الاختناقات السكانية الشديدة ، في حين تم فحص أنواع الأغنام البرية بواسطة Miller et al. [17] يعيشون في مجموعات صغيرة ومعزولة نسبيًا. يوضح تحديد 1068 تعدد الأشكال الجديد متعدد الأشكال في هذه الدراسة أن تقنية شرائح SNP التجارية هي وسيلة قابلة للتطبيق ويحتمل أن تكون غير مستغلة بشكل كاف لاكتشاف مواقع SNP في الأنواع غير النموذجية ، حتى عند استخدامها بين سلالات شديدة التباين.

تم اكتشاف كل من المواقع المحايدة والمواقع التي يحتمل أن تكون قيد الاختيار في هذه الدراسة ، بما في ذلك 878 متطورًا بشكل محايد ، و 116 تحت تأثير الاختيار الإيجابي ، و 74 متأثرًا بالاختيار المتوازن (الجدول S1). ستكون مجموعة المواقع التي تتضمن كلاً من المواقع المحايدة والمختارة مفيدة لمجموعة متنوعة من التطبيقات. تفترض معظم التحليلات الجينية السكانية ، على سبيل المثال ، أن الواسمات الجينية المستخدمة محايدة بشكل انتقائي. ومع ذلك ، يمكن أن تكون المواقع الخاضعة للاختيار الإيجابي ضرورية في التمييز بين الأنواع المتباعدة حديثًا والمجموعات التي يصعب تمييزها باستخدام صانعين محايدين [14] ، [38]. يمكن أن يحدد توصيف المناطق الجينومية تحت الانتقاء المتوازن الجينات المفيدة والأليلات التي تنتقل بين السكان ، مثل المواقع المشاركة في مقاومة الأمراض (على سبيل المثال ، [39]). وبالتالي ، فإن الخطوة الأولى الضرورية في أي دراسة جينية هي التوصيف الدقيق لمجموعات المواقع التي تتطابق مع أهداف الدراسة والتأكد من تطبيق النماذج التحليلية المناسبة والتفسير الصحيح للنتائج.

كانت الاستدلالات الجينية السكانية التي تم إجراؤها باستخدام SNPs المحددة هنا متوافقة مع التسميات التصنيفية الحالية ومع الدراسات السابقة للكروموسوم النووي [27] والكروموسوم Y [28] والحمض النووي والشخصيات المورفولوجية [25] التي حددت البغل والغزلان ذي الذيل الأسود على أنهما وثيق الصلة و الغزلان أبيض الذيل باعتباره سلالة تطورية أكثر تباينًا. جميع قياسات المسافة الجينية (Fشارع, د و دم) ذكر تمايزًا أقل بين الغزلان البغل والغزلان أسود الذيل مقارنةً بين الغزلان ذات الذيل الأبيض وأيًا منهما O. hemionus النسب (الشكل 2). تمشيا مع تحليلات السواتل المكروية التي تم إجراؤها هنا ، تم تحديد الأنساب الثلاثة بوضوح باستخدام الاختبارات الدقيقة واختبارات التخصيص و FCA باستخدام مجموعة البيانات لجميع الأشكال المتعددة الأشكال 1068 أو 878 SNPs المحايدة. منخفض للغاية P(هوية شخصية) تشير القيم الإجمالية وداخل السلالات الفردية إلى أن هذه الأشكال المتعددة الأشكال ستكون مفيدة جدًا للتحليلات الجينية السكانية على نطاق واسع والتي تتطلب تحديدًا فرديًا لا لبس فيه. في هذه الدراسة ، استخدمنا فقط & # x02018pure & # x02019 ممثلين عن كل سلالة (كما حددتها التحليلات الجينية السابقة [40]). سيكون من الضروري إجراء مزيد من التوصيف لهذه الأشكال المتعددة الأشكال لتحديد قوتها ودقتها لتحديد الأنساب في مناطق التعاطف حيث قد يكون الأفراد من أصل مختلط.

(أ) واوشارع (مع الانحراف المعياري) ، (ب) Jost & # x02019s د (مع الخطأ القياسي) و (ج) الحد الأدنى للمسافة Nei & # x02019s ، دم.

مستوى زواج الأقارب بين السكان (Fيكون) تختلف بشكل ملحوظ بين مجموعات البيانات (الجدول 2) وتستدعي مزيدًا من التوضيح هنا. يقع طراز Fيكون تتراوح الإحصائيات من & # x022121 إلى 1 ، مع القيم السالبة التي تشير إلى وجود فائض في تغاير الزيجوت والقيم الموجبة التي تشير إلى تماثل الزيجوت الزائد بالنسبة للتوقعات تحت HWE. لكل سلالة ، تم أخذ عينات من الغزلان من مواقع متباينة ، وعلى هذا النحو من المتوقع أن تنتمي إلى مجموعات سكانية مختلفة وبالتالي إرجاع F إيجابيةيكون القيم المتوافقة مع فائض الزيجوت المتماثل (تأثير Wahlund). وفقًا لهذه التوقعات ، إيجابية Fيكون تم إرجاع القيم لجميع أنساب السواتل المكروية (على الرغم من أن F.يكون لم يكن مختلفًا بشكل كبير عن الصفر في الغزلان ذات الذيل الأبيض) وبالنسبة إلى SNPs في الغزلان ذات الذيل الأسود والغزلان ذي الذيل الأبيض. في المقابل ، ذات دلالة إحصائية سلبية Fيكون تم إرجاع القيم في غزال البغل عندما تم تحليل جميع SNPs 1068 أو 878 SNPs المحايدة (الجدول 2). يمكن أن يكون سبب الزيادة غير المتجانسة غير المتجانسة في بيانات SNP في سلالة الغزلان البغل هو وجود نسبة عالية من الأليلات منخفضة التردد في غزال البغل مما يؤدي بدوره إلى ارتفاع H بشكل مصطنع.ا. من بين 429 موقعًا كانت متعددة الأشكال في غزال البغل ، كان 54 & # x00025 (n & # x0200a = & # x0200a232) لديه تردد أليل ثانوي (MAF) أقل من 0.1 (الجدول 1). This was higher than the proportion of similarly low-frequency alleles found in black-tailed deer (46% 200 of 434 polymorphic loci within the black-tailed deer lineage) and white-tailed deer, where the MAF could not be less than 0.125 on account of only 4 individuals being analyzed (if at a given locus only one of the four individuals is heterozygous, the MAF of that locus will be 0.125) ( Table 1 ). Multilocus genotypes from additional individuals would be necessary to more fully evaluate potential mechanisms for the observed heterozygote excess in mule deer.

Any process of SNPs discovery carries some risk of ascertainment bias, where the overall pattern of genetic diversity is not accurately represented by the sampled SNPs. In general, small screening panel size, overly stringent SNP identification algorithms, and bias toward polymorphic loci in SNP selection can lead to inaccurate inferences of genetic diversity, population genetic structure, and phylogenetic relationships [5], . The small sample size of deer initially screened for SNPs in the present study will almost certainly have led to some polymorphic sites not being detected, in particular those sites harboring rare alleles. In addition, the screening of SNPs identified in B. taurus for use in O. hemionus و O. virginianus is likely biased in favor of conserved genomic regions that still retain polymorphisms ancestral to the divergence between Cervidae and Bovidae. Such loci may not be representative of the evolutionary changes that have since occurred within the Cervidae family. The selection of SNPs for the Bovine SNP50 BeadChip that are distributed in a roughly even fashion across the B. taurus genome, however, should minimize the effects of this bias. Downstream applications can avoid compounding ascertainment bias by randomly selecting a panel of SNPs for analysis, rather than using only SNPs that exceed a minimum, predefined level of polymorphism [5].

One of the most attractive incentives for using model species to identify SNPs in non-model species is the availability of annotations that link SNP variation to DNA sequences and ultimately to biological processes. Although no deer genomes have yet been fully sequenced and annotated, the genomic location of each SNP identified in this study can be mapped on various versions of the B. taurus genome (e.g., the Btau 4.2 assembly, compiled by the Bovine HapMap Consortium, or the UMD3.1 assembly, compiled by the Center for Bioinformatics and Computational Biology at the University of Maryland). The position of each SNP on both Btau4.0 and UMD3.1 is provided in Table S1. However, the level of divergence between our model and non-model species (25� MYA) may not permit accurate chromosomal locations to be determined for all identified SNPs. Multiple chromosome rearrangements have occurred in the Bovidae and Cervidae lineages since their divergence, which is especially evident in a change in karyotype from 2n =� in cervids O. virginianus و O. hemionus to 2n =� in the bovid B. taurus [44]. In spite of these large-scale rearrangements, alignment of deer DNA sequences to the B. taurus genome has been successful for next-generation sequences generated from O. virginianus [45], presumably owing to regional synteny. Still, caution is warranted when interpreting results obtained from alignments between such divergent lineages.

The SNPs characterized in this study would likely be useful in a variety of applications for an array of cervid species, given the high cross-species amplification success we observed. Neutral SNPs can be readily applied to more traditional population genetic analyses, such as characterizing population structure, quantifying genetic diversity and inferring migration rates. Loci under natural selection could be used to investigate genetic mechanisms underpinning natural selection and adaptation, or to differentiate recently diverged populations, species and ecotypes that are otherwise difficult to distinguish using neutral loci [46]. Such investigations are relevant not only for evolutionary research but also for conservation and management of mule deer, black-tailed deer and white-tailed deer. In addition to being important game species, the U.S. Fish and Wildlife Service lists the Cedros Island mule deer (O. h. cerrosensis), Florida Key white-tailed deer (O. v. calvium) and Columbian white white-tailed deer in western Oregon (O. v. leucurus) as 𠆎ndangered’ [47]. White-tailed deer are also threatened in Venezuela by overhunting and habitat loss [48]. Thorough delimitation of subpopulation boundaries, identification of locally adapted populations and characterization of genetic diversity patterns will therefore be highly useful in informing regional conservation and management strategies. These commercial SNP chips could even be applied to other cervids of conservation or management concern for example, those listed as threatened on the IUCN Red List [49] (hog dear, محور spp, revised to genus Hyelaphus in [50] Père David’s deer, Elaphurus davidianus Patagonian huemul, Hippocamelus bisulcus).

This study demonstrates the potential utility of commercially available SNP chip technology for identifying SNP loci in non-model organisms. As polymorphic SNPs were identified between lineages that diverged up to 30.1 MYA, SNP chips developed for model organisms can likely identify SNPs in a far wider range of organisms than previously realized. The porcine, ovine, equine and bovine SNP chips, for example, could be used to collectively to develop a panel of SNPs for wide range of highly divergent ungulates while SNP chips developed for dogs (كانيس الذئبة المألوفة) could likely identify polymorphic SNPs in a wide range of Carnivora species that would otherwise require extensive DNA sequencing. The cross-species utilization of SNP chips is therefore an exciting avenue of future research.


محتويات

An organism's genotype may not define its haplotype uniquely. For example, consider a diploid organism and two bi-allelic loci (such as SNPs) on the same chromosome. Assume the first locus has alleles أ أو تي and the second locus جي أو ج. Both loci, then, have three possible genotypes: (AA, في، و TT) and (GG, GC، و نسخة)، على التوالى. For a given individual, there are nine possible configurations (haplotypes) at these two loci (shown in the Punnett square below). For individuals who are homozygous at one or both loci, the haplotypes are unambiguous - meaning that there is not any differentiation of haplotype T1T2 vs haplotype T2T1 where T1 and T2 are labeled to show that they are the same locus, but labeled as such to show it doesn't matter which order you consider them in, the end result is two T loci. For individuals heterozygous at both loci, the gametic phase is ambiguous - in these cases, you don't know which haplotype you have, e.g., TA vs AT.

AA في TT
GG AG AG AG TG TG TG
GC AG AC AG TC
أو
AC TG
TG TC
نسخة AC AC AC TC TC TC

The only unequivocal method of resolving phase ambiguity is by sequencing. However, it is possible to estimate the probability of a particular haplotype when phase is ambiguous using a sample of individuals.

Given the genotypes for a number of individuals, the haplotypes can be inferred by haplotype resolution or haplotype phasing techniques. These methods work by applying the observation that certain haplotypes are common in certain genomic regions. Therefore, given a set of possible haplotype resolutions, these methods choose those that use fewer different haplotypes overall. The specifics of these methods vary - some are based on combinatorial approaches (e.g., parsimony), whereas others use likelihood functions based on different models and assumptions such as the Hardy–Weinberg principle, the coalescent theory model, or perfect phylogeny. The parameters in these models are then estimated using algorithms such as the expectation-maximization algorithm (EM), Markov chain Monte Carlo (MCMC), or hidden Markov models (HMM).

Microfluidic whole genome haplotyping is a technique for the physical separation of individual chromosomes from a metaphase cell followed by direct resolution of the haplotype for each allele.

Unlike other chromosomes, Y chromosomes generally do not come in pairs. Every human male (excepting those with XYY syndrome) has only one copy of that chromosome. This means that there is not any chance variation of which copy is inherited, and also (for most of the chromosome) not any shuffling between copies by recombination so, unlike autosomal haplotypes, there is effectively not any randomisation of the Y-chromosome haplotype between generations. A human male should largely share the same Y chromosome as his father, give or take a few mutations thus Y chromosomes tend to pass largely intact from father to son, with a small but accumulating number of mutations that can serve to differentiate male lineages. In particular, the Y-DNA represented as the numbered results of a Y-DNA genealogical DNA test should match, except for mutations.

UEP results (SNP results) Edit

Unique-event polymorphisms (UEPs) such as SNPs represent haplogroups. STRs represent haplotypes. The results that comprise the full Y-DNA haplotype from the Y chromosome DNA test can be divided into two parts: the results for UEPs, sometimes loosely called the SNP results as most UEPs are single-nucleotide polymorphisms, and the results for microsatellite short tandem repeat sequences (Y-STRs).

The UEP results represent the inheritance of events it is believed can be assumed to have happened only once in all human history. These can be used to identify the individual's Y-DNA haplogroup, his place in the "family tree" of the whole of humanity. Different Y-DNA haplogroups identify genetic populations that are often distinctly associated with particular geographic regions their appearance in more recent populations located in different regions represents the migrations tens of thousands of years ago of the direct patrilineal ancestors of current individuals.

Y-STR haplotypes Edit

Genetic results also include the Y-STR haplotype, the set of results from the Y-STR markers tested.

Unlike the UEPs, the Y-STRs mutate much more easily, which allows them to be used to distinguish recent genealogy. But it also means that, rather than the population of descendants of a genetic event all sharing the نفس result, the Y-STR haplotypes are likely to have spread apart, to form a cluster of more or less similar results. Typically, this cluster will have a definite most probable center, the modal haplotype (presumably similar to the haplotype of the original founding event), and also a haplotype diversity — the degree to which it has become spread out. The further in the past the defining event occurred, and the more that subsequent population growth occurred early, the greater the haplotype diversity will be for a particular number of descendants. However, if the haplotype diversity is smaller for a particular number of descendants, this may indicate a more recent common ancestor, or a recent population expansion.

It is important to note that, unlike for UEPs, two individuals with a similar Y-STR haplotype may not necessarily share a similar ancestry. Y-STR events are not unique. Instead, the clusters of Y-STR haplotype results inherited from different events and different histories tend to overlap.

In most cases, it is a long time since the haplogroups' defining events, so typically the cluster of Y-STR haplotype results associated with descendants of that event has become rather broad. These results will tend to significantly overlap the (similarly broad) clusters of Y-STR haplotypes associated with other haplogroups. This makes it impossible for researchers to predict with absolute certainty to which Y-DNA haplogroup a Y-STR haplotype would point. If the UEPs are not tested, the Y-STRs may be used only to predict probabilities for haplogroup ancestry, but not certainties.

A similar scenario exists in trying to evaluate whether shared surnames indicate shared genetic ancestry. A cluster of similar Y-STR haplotypes may indicate a shared common ancestor, with an identifiable modal haplotype, but only if the cluster is sufficiently distinct from what may have happened by chance from different individuals who historically adopted the same name independently. Many names were adopted from common occupations, for instance, or were associated with habitation of particular sites. More extensive haplotype typing is needed to establish genetic genealogy. Commercial DNA-testing companies now offer their customers testing of more numerous sets of markers to improve definition of their genetic ancestry. The number of sets of markers tested has increased from 12 during the early years to 111 more recently.

Establishing plausible relatedness between different surnames data-mined from a database is significantly more difficult. The researcher must establish that the very nearest member of the population in question, chosen purposely from the population for that reason, would be unlikely to match by accident. This is more than establishing that a randomly selected member of the population is unlikely to have such a close match by accident. Because of the difficulty, establishing relatedness between different surnames as in such a scenario is likely to be impossible, except in special cases where there is specific information to drastically limit the size of the population of candidates under consideration.


First of all, PCA is a technique for dimension reduction. Basically, the goal is to compare tens of thousands of SNPs in Drosophila. Now if you only have 2 SNPs, you can plot them on a 2D scatter plot. If you have 3 SNPs, you may try a 3D plot. But now imagine you have 30,000 SNPs, but you CANNOT plot a 30000-dimensional plot. To visualize this high dimensional data, what we can do is to perform dimensional reduction like PCA. PCA tries to find a set of orthogonal coordinations that explains most of the variation in the data (if there no variation, there is no information contained in the data, which essentially means there is no data). The idea is that PC1 carries most variation can be explained, and PC2 carries the second most. For lower PCs like PC50 or PC60, they probably only carry noise in the data. Therefore, the higher PCs (PC1, PC2 and so on) effectively summarizes the useful information in the data. So you can visualize the "structure" of the data in a 2D PCA plot.

By looking at the distance between points on a PCA plot, you can tell how similar the two data points are. But if you see two populations that are perfectly separated on PCA plot, it does not mean that the 2 population differ completely at every SNP, because PCA is a summarization of all SNP included.


Single Nucleotide Polymorphism

The importance of SNPs comes from their ability to influence disease risk, drug efficacy and side-effects, tell you about your ancestry, and predict aspects of how you look and even act. SNPs are probably the most important category of genetic changes influencing common diseases. And in terms of common diseases, 9 of the top 10 leading causes of death have a genetic component and thus most likely one or more SNPs influence your risk.

These youtube video clips explain

All humans have almost the same sequence of 3 billion DNA bases (A,C,G, or T) distributed between their 23 pairs of chromosomes. But at certain locations there are differences - these variations are called polymorphisms. Polymorphisms are what make individuals different from one another. Current estimates indicate that up to .1% of our DNA may vary a bit, meaning any two unrelated individuals may differ at less than 3 million DNA positions. While many variations (SNPs) are known, most have no known effect and may be of little or no importance.

SNPedia is a collection of the subset of SNPs that have been reported to be meaningful, either medically or for other reasons (such as for genealogy). The emphasis in SNPedia is on SNPs that have significant medical consequences, are common, are reproducible (or found in meta-analyses or studies of at least 500 patients), and/or have other historic or medical significance.

This example SNP rs1234 will introduce you to the report format used within SNPedia.

The most obvious DNA-based differences are external, such as rs1805009 which affects red hair color. Most polymorphisms have far less obvious effects though, and many of these may have medical consequences. We are just beginning to learn which of the 30 million or so possible polymorphisms influence health, either individually or in sets. Many polymorphisms are likely to have either no effect at all, or to have such subtle effects that it will be many years before their consequences are understood.

Thomas Mailund explains how scientists and statisticians determine which SNPs are related to which diseases.

These sites provide helpful introductions:

A more recent discovery is larger duplications called Copy Number Variations. These CNVs are not yet as well systematized or studied as SNPs. The database dbVar is for structural variations.


شاهد الفيديو: Nucleic acid DNA u0026 RNA, Nucleotide, Nucleoside. الجمض النووي دنا, رنا (أغسطس 2022).