معلومة

تحيز البيانات في بيانات تفاعلات البروتين والبروتين

تحيز البيانات في بيانات تفاعلات البروتين والبروتين



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

تحتوي قواعد البيانات مثل STRING على الكثير من بيانات التفاعلات المتوقعة وكذلك التجريبية للعديد من الكائنات الحية. ومع ذلك ، هناك تحيز في البيانات التي لديها ؟.

أ) الأول هو التواجد الجيني المشترك الذي يشبه إلى حد كبير حجة دائرية.

ب) والثاني هو أن جميع التفاعلات التي تم توقعها حسابيًا يتم اختبارها للتفاعلات التجريبية ، وهذا يؤدي إلى تحيز في بيانات التفاعل المتاحة للكائنات الحية في سلسلة.

كيف نتغلب على تحيز البيانات هذا أثناء استخدام بيانات تفاعل STRING لغرض التحليل؟

أ) إن تجنب قنوات الأدلة على التواجد الجيني المشترك هو أحد الطرق ، فهل هناك طريقة أخرى غير ذلك؟

ب) كيف نقول إحصائيًا أن التحيز لا يحكم البيانات أو بأي طريقة لاختبار الأهمية الإحصائية لتحيز البيانات؟


أنا أحد المشرفين على STRING ، لذا آمل أن أتمكن من توضيح الأمور قليلاً.

التواجد الجيني المشترك: تعتبر طرق السياق الجينومي مفيدة جدًا للجينومات البكتيرية ، ولكنها ليست مفيدة جدًا لحقيقيات النوى. ومع ذلك ، فهي في الواقع أكثر البيانات حيادية ، حيث لا يوجد تأثير بشري (بخلاف اختيار الأنواع للتسلسل).

المرجعية: يتم قياس التفاعلات المتوقعة من التنقيب عن النصوص وما إلى ذلك مقابل قاعدة بيانات KEGG. ومع ذلك ، لا يؤدي هذا بالضرورة إلى تحيزات ، لأن هذا القياس المعياري هو في الأساس خطوة معايرة.

التحيزات الفعلية: بالنسبة لحقيقيات النوى ، تأتي معظم بيانات التفاعل من القناة التجريبية وقاعدة البيانات واستخراج النصوص. كل هذه متحيزة بطرق مختلفة: على سبيل المثال هناك تحيزات في الدراسة (ستحصل جينات المرض على مزيد من الاهتمام) والتحيزات التقنية (يصعب التعامل مع بعض البروتينات)

نظرًا لأننا لا نعرف المجموعة الفعلية لتفاعلات البروتين والبروتين ، فربما لا يمكننا اختبار التحيزات في البيانات.


شاهد الفيديو: CRP Presentation (أغسطس 2022).