معلومة

ممارسة قياسية لتوليد منحنيات الخلخلة من بيانات تسلسل الجيل التالي

ممارسة قياسية لتوليد منحنيات الخلخلة من بيانات تسلسل الجيل التالي



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

لدينا بضعة ملايين من 18S قراءة من بيئة معينة. تم تجميع القراءات في وحدة التصنيف التشغيلي (OTU) ، وتم شرح OTUs مقابل قاعدة بيانات مرجعية.

لإنشاء منحنى خلخلة ، ما أفهمه هو أن أحد العينات عشوائيًا للقراءات $ n $ حيث يتراوح $ n $ (مع بعض حجم الخطوة) من 0 إلى العدد الإجمالي للقراءات ، ويحسب عدد OTUs التي تمت ملاحظتها في كل عينة فرعية من هذا القبيل .

أي من هاتين الطريقتين ، كما تم تنفيذهما بواسطة مجموعات تحليل التسلسل مثل QIIME و Mothur ، هي ممارسة قياسية؟ أيهما أفضل للاستخدام مع الموقف أعلاه؟

  1. تعامل مع التخصيصات الأصلية للقراءات إلى OTU على أنها حقيقة ، وعند إعادة تشكيل قراءات $ n $ ، قم فقط بحساب عدد OTUs "الأصلية" التي تمت ملاحظتها في هذه العينة الفرعية.

  2. أعد تجميع قراءات العينة الفرعية ، ثم عد عدد OTUs "الجديدة" في العينة الفرعية.

إحساسي من قراءة وثائق QIIME هو أن الطريقة الأولى هي المعيار ، لكنني لست متأكدًا. كما أنني لا أفهم تمامًا سبب عدم كون الطريقة الثانية هي الطريقة الأفضل ، على الرغم من أنها ستكون أكثر تكلفة من الناحية الحسابية.


أنا في الواقع أعمل في نفس المجموعة التي يعمل بها كريس (مؤلف QIIME) ، لذلك آمل أن يساعد هذا: الشرح الذي قدمه لنا لفترة من الوقت حول أساس منحنيات الخلود هو فقط لإعطاء مؤشر عما إذا كانت أخذ العينات الخاصة بك تصل إلى تنوع مشبع ، عند مقارنة عينتين غير متساويتين.

إذا قارنت عينتين ، حيث تحتوي العينة x على معلومات أقل (قراءات / أمبليكون إلخ) تدعمها ، فلا يمكنك التأكد من أخذ عينات من كل التنوع المحتمل.

وبالتالي ، يمكنك رسم عدد OTUs التي تراها لزيادة عدد القراءات. إذا كنت تشبع التنوع يجب أن تراه في حالة استقرار.

لجعل العيّنتين متوافقتين مع "كمية البيانات الداعمة" المتوفرة لديهم ، عليك أخذ عينة عشوائية من بيانات مجموعة البيانات الأكبر ، بحيث تكون مكافئة للعينة الأصغر ، ثم قارن عدد وحدات OTU التي يبلغ عنها كلٌّ منهما.


برنامج QIIME نظرة عامة تعليمي¶

يشرح هذا البرنامج التعليمي كيفية استخدام ملف QIIME (رؤى كمية في علم البيئة الميكروبية) خط أنابيب لمعالجة البيانات من دراسات تسلسل الرنا الريباسي 16S عالية الإنتاجية. الغرض من خط الأنابيب هذا هو توفير سير عمل من البداية إلى النهاية ، بدءًا من قراءات التسلسل متعدد الإرسال والانتهاء من الملامح التصنيفية والتطور ومقارنات العينات في الدراسة. بوجود هذه المعلومات في متناول اليد ، من الممكن تحديد العوامل البيولوجية والبيئية التي تغير بيئة المجتمع الميكروبي في تجربتك.

كمثال ، سوف نستخدم بيانات من دراسة استجابة المجتمعات الميكروبية لأمعاء الفئران للصيام (كروفورد وآخرون ، 2009). لجعل هذا البرنامج التعليمي يعمل بسرعة على جهاز كمبيوتر شخصي ، سنستخدم مجموعة فرعية من البيانات التي تم إنشاؤها من 5 حيوانات تم الاحتفاظ بها في النظام الغذائي للتحكم في التغذية الإعلانية بالشهرة ، و 4 حيوانات صامت لمدة 24 ساعة قبل التضحية. في نهاية البرنامج التعليمي الخاص بنا ، سنكون قادرين على مقارنة بنية المجتمع للسيطرة مقابل الحيوانات الصائمة. على وجه الخصوص ، سنكون قادرين على مقارنة ملفات التعريف التصنيفية لكل نوع عينة ، والاختلافات في مقاييس التنوع داخل العينات وبين المجموعات ، وإجراء تحليل المجموعات المقارن للبحث عن الاختلافات الإجمالية في العينات.

لمعالجة بياناتنا ، سنقوم بتنفيذ الخطوات التالية ، كل منها موصوف بمزيد من التفصيل في خطوات تحليل البيانات:

  • تصفية قراءات التسلسل من أجل الجودة وتعيين قراءات متعددة لبدء العينات بواسطة الباركود النوكليوتيد.
  • اختر وحدات التصنيف التشغيلية (OTUs) بناءً على تشابه التسلسل داخل القراءات ، واختر تسلسلًا تمثيليًا من كل OTU.
  • قم بتعيين OTU لهوية تصنيفية باستخدام قواعد البيانات المرجعية.
  • قم بمحاذاة تسلسلات OTU وإنشاء شجرة النشوء والتطور.
  • احسب مقاييس التنوع لكل عينة وقارن بين أنواع المجتمعات ، باستخدام التخصيصات التصنيفية والتطور.
  • قم بإنشاء مخططات UPGMA و PCoA لتصوير الاختلافات بين العينات بصريًا ، والعمل ديناميكيًا مع هذه الرسوم البيانية لإنشاء أرقام جودة النشر.

الملخص

تتيح تقنية تسلسل الجيل التالي (NGS) اكتشاف جميع المتغيرات الجينية الموجودة في الجينوم تقريبًا. ومع ذلك ، قد يكون لمجموعة فرعية من هذه المتغيرات جودة تسلسل رديئة بسبب القيود في NGS أو المتصلين المتنوعين. في الدراسات الجينية التي تحلل عددًا كبيرًا من الأفراد المتسلسلين ، من الأهمية بمكان اكتشاف تلك المتغيرات ذات الجودة الرديئة وإزالتها لأنها قد تسبب نتائج زائفة. في هذه الورقة ، نقدم ForestQC ، وهي أداة إحصائية لأداء مراقبة الجودة على المتغيرات المحددة من بيانات NGS من خلال الجمع بين نهج الترشيح التقليدي ونهج التعلم الآلي. يستخدم برنامجنا المعلومات الخاصة بجودة التسلسل ، مثل عمق التسلسل وجودة التنميط الجيني ومحتويات GC ، للتنبؤ بما إذا كان من المحتمل أن يكون متغير معين إيجابيًا كاذبًا. لتقييم ForestQC ، قمنا بتطبيقه على مجموعتي بيانات تسلسل الجينوم الكامل حيث تتكون مجموعة بيانات واحدة من أفراد مرتبطين من عائلات بينما تتكون المجموعة الأخرى من أفراد غير مرتبطين. تشير النتائج إلى أن ForestQC يتفوق في الأداء على الأساليب المستخدمة على نطاق واسع لإجراء مراقبة الجودة على المتغيرات مثل VQSR لـ GATK من خلال تحسين جودة المتغيرات التي سيتم تضمينها في التحليل بشكل كبير. تعد ForestQC أيضًا فعالة للغاية ، وبالتالي يمكن تطبيقها على مجموعات بيانات التسلسل الكبيرة. نستنتج أن الجمع بين خوارزمية التعلم الآلي المدربة مع تسلسل معلومات الجودة ونهج التصفية هو نهج عملي لأداء مراقبة الجودة على المتغيرات الجينية من بيانات التسلسل.


التأثير على الإدارة السريرية

ثلاثة تطبيقات ملموسة لهذه الاستراتيجية تعالج المشاكل العالمية الملحة في الأمراض المعدية. تتمثل إحدى المشكلات في زيادة مقاومة مضادات الميكروبات ، والتي تصنفها منظمة الصحة العالمية على أنها واحدة من أكبر ثلاثة تهديدات لصحة الإنسان [35]. يقع اللوم جزئيًا على مقدمي الرعاية في الإفراط في استخدام مضادات الميكروبات وإثارة المقاومة في ناقلات المرض تحت الإكلينيكي ، حيث تقدر الدراسات الحديثة نسبة إساءة الاستخدام بين ربع ونصف جميع العلاجات [36]. تزيد المقاومة للأدوية المتعددة من معدلات الاعتلال والوفيات الناجمة عن العدوى المكتسبة من الرعاية الصحية (HAIs) ، والتي تحدث 1.7 مليون حالة سنويًا في الولايات المتحدة وتكلفة سنوية تقدر بأكثر من 30 مليار دولار [37] والتي تقزم التكلفة المحتملة لأي الجهود الوقائية القائمة على المعلوماتية. إن التهديد الواقعي للكائنات الحية المنتشرة في المجتمع المقاومة للأدوية على نطاق واسع ، والتي يكون لبعضها معدلات فشل علاجي 25٪ & # x0201329٪ [38] ، يغير تحليل المخاطر لإجراءات المستشفى التي كانت تعتبر روتينية في السابق وتدعو إلى استراتيجيات جديدة شاملة للإدارة.

تحديد المرضى المعرضين لخطر الإصابة بمرض HAI

تعتمد مكافحة عدوى المتعمقة بالرعاية الصحية على تحديد المرضى المعرضين لمخاطر عالية وتطبيق احتياطات العزل أو تقليل عوامل الخطر المعروفة أثناء دورة المستشفى. بالنسبة لـ CDI ، وهي عدوى المستشفيات الأكثر شيوعًا في الولايات المتحدة ، تظل العديد من الأسئلة حول كيفية اكتساب العدوى وكيفية إدارة المرضى المعرضين للخطر [39]. الفكرة السائدة بأن العدوى تنتقل في الغالب من شخص لآخر داخل المستشفيات [40] تتعارض مع أدلة NGS الأخيرة على أن مصادر العدوى أكثر تنوعًا [41] ، مما يشير إلى دور أكبر للمرضى المستعمرين بدون أعراض والمصادر البيئية.

يمثل كل نظام رعاية صحية بيئة فريدة من شبكات الاتصال من شخص لآخر ، والأسطح الملوثة ، والميكروبيوم ، والاستعمار بدون أعراض الذي يساهم في مخاطر CDI. يمكن للبيانات من EMRs و NGS إثبات أو دحض الانتقال بين المرضى وإطلاق العنان لأسرار عوامل الخطر القابلة للتعديل في هذه البيئة الفوضوية. تتنبأ خوارزميات ML التي تتنبأ بالمخاطر الفردية لـ CDI لمستشفى كبير بشكل أفضل (المنطقة الواقعة تحت منحنى خاصية تشغيل المستقبل [AUC] = 0.81) عند التشغيل على & # x0003e10000 متغيرات EMR غير المقيدة بدلاً من المتغيرات المنسقة لعوامل الخطر المعروفة [12]. نماذج ML المماثلة المستندة إلى بيانات EMR بين عامي 2009 و 2014 لمستشفى Mount Sinai في مدينة نيويورك ، والتي تضم 192000 مريض و 1366 تشخيص CDI ، تُظهر أداءً متساوياً (AUC = 0.80) وتستخلص ارتباطات لم يتم نشرها عادةً لـ CDI. قد تكون هذه فريدة من نوعها لبيئة Mount Sinai وتشمل فشل الجهاز التنفسي (نسبة الأرجحية [OR] ، فاصل الثقة 8.3 95٪ [CI] ، 6.6 & # x0201310.3) ، عدم انتظام التغذية (OR ، 6.6 95٪ CI ، 4.7 & # x020138 .6) ، وقلة الكريات الشاملة (OR ، 4.4 95٪ CI ، 3.1 & # x020135.5) (تيموثي أودونيل ، اتصال شخصي).

سيقوم نظام دعم القرار القائم على النموذج بفحص المرضى الذين يعانون من ارتفاع CDI أو احتمالية الاستعمار بدون أعراض ويسمح بالتشخيص والتدخل المبكر. يمكن لأحداث النقل المؤكدة من NGS والتفاعلات بين الأشخاص والمعدات التي تظهر في السجلات الطبية الإلكترونية وغيرها من البيانات أن توسع هذا النموذج الأساسي لتسليط الضوء على العوامل المشتركة وراء النقل الذي تم التحقق منه وإبلاغ التعديلات التجريبية في الوقت الحقيقي لسياسة مكافحة العدوى. من شأن التحليل المقطعي بواسطة الأنماط الظاهرية المشتقة من NGS وعوامل الخطر في EMR أن يسهل اتخاذ قرارات سريرية أكثر دقة ، على سبيل المثال ، ما إذا كان تقصير وقت المريض في وحدات العناية المركزة أو تقليل استخدام المضادات الحيوية الاستفزازية سيكون أكثر وقائية داخل البيئة المحلية. باستثناء التجارب السريرية التي ربما يكون من غير الممكن إجراؤها ، ناهيك عن التكرار عبر المؤسسات ، هناك أدلة قليلة على اتخاذ هذه القرارات في الوقت الحالي ، لذلك يمكن للنموذج الكمي المحلي أن يساعد فقط.

الكشف المبكر عن حالات تفشي المرض داخل وخارج المستشفى

تُصدر مجموعات برامج مكافحة العدوى الحالية مثل VigiLanz Dynamic Monitoring Suite و TheraDoc Infection Control Assistant بشكل أساسي تنبيهات تفشي المرض بناءً على عتبات تكرار الإصابة. يمكن جعل هذا عفا عليه الزمن من خلال NGS الروتينية لعينات الأحياء الدقيقة السريرية ، والتي تحدد بدقة كبيرة ما إذا كان حدث انتقال قد حدث [1 ، 2]. يمكن لنظام برمجي يتمتع بإمكانية الوصول إلى سجلات السجلات الطبية الإلكترونية وبيانات المستشفى الأخرى أن يبحث تلقائيًا عن العناصر المشتركة بين حالات الإرسال التي تم التحقق منها (مقدمو الرعاية أو المعدات أو الغرف) وتنبيه الموظفين لفحص هذه العناصر قبل أن ينتجوا إرسالات كافية لإطلاق تنبيه عتبة التردد. بالنظر إلى البيانات التاريخية الكافية ، يمكن أن تساعد NGS المستشفيات أيضًا في التمييز بين المجتمع المحلي والعدوى المكتسبة من المستشفيات وبالتالي تحسين المقاييس المستخدمة لتقييم سياسات مكافحة العدوى.

يمكن أن يؤدي الجهد النشط لأخذ عينات من البيئة داخل المستشفى وخارجه إلى توسيع نطاق هذه المراقبة. داخل المستشفى ، يمكن إعادة أخذ عينات & # x0201cproblemots & # x0201d التي تم تحديدها من خلال التحقيقات السابقة بشكل منتظم عبر NGS لإعادة تقييم فعالية تدابير مكافحة العدوى. يقوم المستشفى أيضًا بأخذ عينات من النظام البيئي الممرض للسكان المحليين. أبلغت المستشفيات بالفعل عن تشخيصات للعدوى شديدة العدوى والخطيرة إلى السلطات الحكومية ، ومن شأن مشاركة بيانات NGS لهذه الحالات أن تسمح بإجراء تقييم في الوقت الفعلي للمكان الذي تأتي منه مسببات الأمراض ، وكيف تتطور ، ومكان تواجد السكان الساذجين لمسببات الأمراض. يمكن تعزيز جهود رسم الخرائط والمراقبة الحالية [42] بشكل كبير من خلال المعلومات الوراثية الغنية ، مما يسمح بربط تفشي المرض عبر مناطق متباينة [3 ، 4 ، 43]. من شأن التتبع الدقيق في الوقت الفعلي لانتشار الأمراض المعدية أن يُعلم الأطباء بشكل أفضل بتشخيص وعلاج المرضى الجدد ، والوكلاء الميدانيين الذين يتتبعون الحالات والمخالطين ، وصانعي السياسات الصحية الذين يسعون إلى اتخاذ تدابير وقائية للسكان.

الإشراف على مضادات الميكروبات

تم التحقيق في أنظمة دعم القرار للعلاج بالمضادات الحيوية التجريبية لعقود [44] ، ولكن مع انتشار مقاومة مضادات الميكروبات بشكل كبير ، زادت الحاجة الملحة لتنفيذ الأنظمة التي تشجع بشكل خاص على ضبط النفس بالمضادات الحيوية [45]. الإبلاغ الانتقائي هو استراتيجية شائعة توجه مقدمي الرعاية نحو العلاجات المثلى ببساطة عن طريق حذف أسماء الأدوية غير المناسبة في تقارير الحساسية [46]. تدفع إستراتيجية أكثر شدة إنذارات الإشعاع الكهرومغناطيسي عندما يصف الأطباء علاجًا بالمضادات الحيوية يتعارض مع أفضل الممارسات [47].

تتجاهل هذه الحلول قوة السجلات الطبية الإلكترونية في تقديم أدلة تبرر أو تحسن تدخلات الإشراف على مضادات الميكروبات. على سبيل المثال ، على الرغم من أنه من المقبول جيدًا أن الإفراط في استخدام المضادات الحيوية يزيد من انتشار المقاومة ، إلا أن برامج الإشراف على مضادات الميكروبات الحالية لم تظهر أي آثار على نتائج المرضى ولا حتى أن انخفاض العلاج بالمضادات الحيوية يؤدي إلى انخفاض مقاومة المضادات الحيوية [45]. من خلال دمج بيانات NGS و EMR ، يمكن التحقيق في هذه الفرضيات بتفاصيل دقيقة داخل مجموعات كبيرة من المرضى. يمكن أن تكشف NGS وتعداد الآليات الجينية للمقاومة المنتشرة من خلال النظام الصحي. من خلال تتبع تكرار مسببات الأمراض في المجتمع المحلي ، يمكن للنظام الصحي المجهز ب NGS تحديد ما إذا كان المرضى الذين يتلقون المضادات الحيوية قد ولّدوا طفرات مقاومة للأدوية ونقلوها. يمكن ربط نظم دوائية معينة بتطور طفرات مقاومة معينة. على العكس من ذلك ، نظرًا لبيانات طولية كافية ، يمكن التحقق من صحة جهود برنامج الإشراف على مضادات الميكروبات من خلال ملاحظة انخفاض ظهور طفرات مقاومة للأدوية الموصوفة بشكل أكثر تحفظًا.


مناقشة

في هذا التقرير ، نقدم التحقق من صحة التعديلات الموفرة للوقت على مسارين شائعين لسير العمل لإعداد مكتبة NGS. من خلال تنفيذ FA-NGS ، نظهر أنه يمكننا مراقبة تضخيم كل عينة داخل مكتبة NGS ، وإجراء القياس الكمي خلال qPCR لتحديد نسب تطبيع المكتبة للتسلسل ، وإجراء مراقبة جودة بسيطة في نفس الوقت لتأكيد وجود قالب DNA المضخم.

يسمح FA-NGS بالتجميع الدقيق مباشرة بعد تفاعل البوليميراز المتسلسل ، مما يقلل من مخاطر أخطاء المستخدم. يتطلب إعداد مكتبة NGS النموذجي تنقية مكتبة فردية قبل مراقبة الجودة والتجميع (ملف إضافي 1: الشكل S1) ، مما قد يؤدي إلى اختلاط العينات أو فقدان المكتبة. بدلاً من ذلك ، يمكن تجميع المكتبات غير المنقاة وغير الكمية بكميات متساوية ، ولكن لن يكون هناك ما يشير إلى تضخيم المكتبة (زيادة إمكانية تجميع ثنائي التمهيدي الذي سيكون له تأثيرات ضارة أثناء التسلسل [23]) أو أن العينات تختلف في التركيز. لتجنب المشكلة الأخيرة ، يمكن تطبيق العديد من دورات PCR (& gt 20 cycles) لتشبع التفاعلات بالكامل ، ومع ذلك ، فإن هذا يقدم تحذيرًا من تحيز PCR المتزايد ، والذي يمكن أن يؤثر على التفسير النهائي لنتائج التسلسل. تحل FA-NGS هذه المشاكل بخطوة واحدة من التضخيم والتقدير الكمي.

يتيح MCA للمستخدمين إجراء اختبار مراقبة الجودة للمكتبة الفردية دون تنقية الحمض النووي. تفتقر العديد من مهام سير العمل ، وخاصة تحضيرات المكتبات القائمة على Nextera ، إلى اختبارات مراقبة الجودة حتى الخطوة الأخيرة من البروتوكول. عند استخدامه على أجزاء صغيرة من المكتبات المضخمة ، يؤكد MCA وجود منتج مكتبة مضخم. عند تطبيق FA-NGS ، نقترح إزالة الآبار التي تحتوي على عينات بدون مكتبة مضخمة ، كما هو محدد بواسطة MCA ، من حسابات التجميع. قد تحتوي العينات التي لا تحتوي على مكتبة مضخمة على ثنائي البادر ، والذي إذا لم تتم إزالته في اختيار الحجم النهائي يمكن أن يؤثر على جودة تشغيل التسلسل ويسبب زيادة في التجميع نظرًا لتجمع شظايا DNA الأصغر بشكل أكثر كفاءة [24]. وفقًا لهدفنا المتمثل في جعل سير عمل إعداد مكتبة NGS سهل الاستخدام للمكتبات متعددة الإرسال ، يضيف MCA خطوة مهمة لمراقبة الجودة دون تكاليف أو كواشف إضافية.

تعد استراتيجيات سير عمل NGS المعدلة الموضحة هنا أكثر فائدة لتطبيقات مكتبة NGS عالية الإنتاجية ، نظرًا لتوافقها مع أنظمة التشغيل الآلي مثل Labcyte Echo. من أجل جعل سير العمل المعدل هذا متاحًا للباحثين من خلال تدفقات عمل NGS عالية الإنتاجية ، قمنا بتوفير أداة برمجية FA-NGS على GitHub (انظر توفر البيانات والمواد) التي يمكن استخدامها لإعداد وتحليل وتجميع مكتبات FA-NGS. تنتج "أداة الإعداد" أ. ملف CSV لنقل البرايمر على نظام توزيع السائل الصوتي Echo. تتيح "أدوات التحليل" التحديد السريع لفشل العينة من قياسات RFU النهائية وقياسات منحنى الذوبان. تنتج هذه الأدوات خرائط حرارية لقيم الفلورسنت النهائية ورسومات MCA الصغيرة المتعددة في تخطيط اللوحة الذي يختاره المستخدم. نواتج "حاسبة التجميع" أ. ملف CSV ، متوافق مع نظام توزيع السائل الصوتي Echo ، لتجميع المكتبات بناءً على قيم RFU النهائية.

الهدف الشائع في تحديد العينات الفردية داخل مكتبة مجمعة هو التأكد من أن عينة معينة ليست ممثلة تمثيلا زائدا مقارنة بعينة أخرى. بسبب الاختلاف المحتمل في قص الحمض النووي أو توزيعات حجم التجزئة من إعداد مكتبة NGS ، قد يوصى بقياس تركيزات المكتبة وإجراء تحليل فردي لحجم المكتبة لتمكين التجميع بكميات متساوية. ومع ذلك ، يمكن أن يكون تحليل حجم المكتبة الفردية لتطبيقات التسلسل عالية الإنتاجية شاقًا ومكلفًا. نوضح استخدام مضان نسبي من qPCR لتطبيع تركيزات المكتبة ، دون تطبيق تحليل التحجيم الفردي ، أن توزيع التسلسل يقرأ (الشكل 4 ، ملف إضافي 7: الشكل S7 وملف إضافي 8: الشكل S8) من استخدام FA- استراتيجية القياس الكمي لمكتبة NGS كافية لإعطاء تمثيل قابل للمقارنة لـ 96 مكتبة.

لمزيد من التحقق من سير عمل FA-NGS ، أجرينا تقييم جودة التسلسل وقمنا بتضمين Illumina PhiX Library Control للمقارنة. تجاوزت جميع المكتبات درجة قيمة الجودة الموصى بها (ملف إضافي 9: الشكل S9) ، وفقًا لمواصفات Illumina للنسبة المئوية للقواعد عند Q30 أو أعلى منه ، مما يشير إلى أن سير عمل FA-NGS أنتج بنجاح قراءات تسلسل عالية الجودة.

في حين أن تنفيذ FA-NGS له العديد من الفوائد ، يجب ملاحظة المزالق الواضحة. لاحظنا أن العينات في مكتبة gDNA مع قيم RFU النهائية أقل من 700 RFU كانت غير مجمعة (الشكلان 3 ب و 4 ب). نظرًا لأن هذه العينات كانت خارج النطاق الخطي الفلوري لـ qPCR ، فمن المحتمل أن قيم النهاية الفلورية لهذه العينات لا يمكن استخدامها كبديل دقيق لتركيز الحمض النووي النسبي ، وبالتالي تم نقلها بحجم بالغ في تقدير النسبي تركيز. لم نلاحظ هذا الاتجاه مع مكتبة البلازميد. نتوقع أن الاختلاف في النسبة المئوية للقراءات لمكتبات البلازميد يمكن أن يكون تأثيرًا للتضخيم إلى ما بعد المرحلة الأسية إلى مرحلة الهضبة من qPCR ، بحيث كانت قيم الفلورسنت النهائية المستخدمة للتجميع أقل دقة (ملف إضافي 10: الشكل S10). بالنسبة إلى تدفقات عمل إعداد المكتبة القياسية التي تستخدم PCR التقليدي ، يمكن أن يكون هناك قيود قابلة للمقارنة أثناء الخطوة النهائية لتقدير المكتبة ، اعتمادًا على النطاق الخطي الفلوري لفحص الكمي للحمض النووي [25 ، 26]. بالنسبة للتطبيقات عالية الإنتاجية التي تستخدم FA-NGS ، قد يكون من الأفضل في الواقع السماح بالتضخيم لمرحلة الهضبة ، نظرًا لأن تركيزات العينة الأولية أو أنواع العينات قد تختلف وتساعد دورات qPCR الإضافية في ضمان تضخيم جميع العينات بشكل كافٍ.

تم التحقق من تسلسل المكتبات في هذا التقرير باستخدام مجموعات Illumina Miseq Nano كدليل على مبدأ سير عمل المكتبة المعدل. على الرغم من أن مجموعات Nano تعطي عدد قراءة منخفضًا نسبيًا مقارنة بمجموعات تسلسل Illumina الأخرى ، إلا أنها ولدت تغطية أكثر من كافية للبلازميدات البالغ عددها 96 (ملف إضافي 11: الجدول S1). ومع ذلك ، بالنسبة للتسلسل العميق مثل الجينوم البكتيري ، يوصى عمومًا باستخدام مجموعات MiSeq أو HiSeq أو NovaSeq الأكبر.

في هذه الدراسة ، تم تطبيق سير العمل المعدل بنجاح نحو تسلسل البلازميدات الكاملة والجينومات البكتيرية. تعمل تحضيرات المكتبة المبسطة هذه على تحسين قدرة اختبار مراقبة الجودة مع تقليل العدد الإجمالي للخطوات المطلوبة لإنشاء مكتبات.


# 13) تنوع Jackknifed بيتا والتكتل الهرمي

يستخدم سير العمل هذا نسخًا مكررة من Jackknife لتقدير عدم اليقين في مخططات PCoA والتكتل الهرمي للمجتمعات الميكروبية. يتم هنا استخدام العديد من نفس المفاهيم ذات الصلة بتنوع بيتا و PCoA. في هذا التحليل ، نستخدم البرنامج النصي jackknifed_beta_diversity.py ، والذي يقوم بالخطوات التالية:

  1. احسب مصفوفة مسافة تنوع بيتا من جدول OTU الكامل (والشجرة ، إن أمكن) (لمزيد من المعلومات ، يرجى الرجوع إلى tobeta_diversity.py)
  2. قم ببناء شجرة UPGMA من مصفوفة المسافة الكاملة (لمزيد من المعلومات ، راجع Upgma_cluster.py)
  3. إنشاء جداول OTU متخللة (لمزيد من المعلومات ، يرجى الرجوع إلى multiple_rarefactions.py)
  4. حساب مصفوفات المسافات لجداول OTU المندرجة (لمزيد من المعلومات ، راجع beta_diversity.py) & lt ../ scripts / beta_diversity.html & gt`_)
  5. قم ببناء أشجار UPGMA من مصفوفات المسافات الخالية (لمزيد من المعلومات ، راجع Upgma_cluster.py)
  6. قارن بين أشجار UPGMA النادرة وحدد دعم سكين الرافعة لعقد الأشجار. (لمزيد من المعلومات ، يرجى الرجوع إلىtree_compare.py و calling_tree.py)
  7. حساب الإحداثيات الرئيسية في كل مصفوفة مسافة مخلخلة (لمزيد من المعلومات ، يرجى الرجوع إلى main_coordinates.py)
  8. قارن مخططات الإحداثيات الرئيسية النادرة من كل مصفوفة مسافة نادرة (لمزيد من المعلومات ، راجع tomake_3d_plots.py و make_2d_plots.py)

لتشغيل التحليل ، اكتب ما يلي:

الخطوتين 1 و 2. تجميع UPGMA

طريقة مجموعة الأزواج غير الموزونة بمتوسط ​​حسابي (UPGMA) هي نوع من طرق التجميع الهرمي باستخدام متوسط ​​الارتباط ويمكن استخدامها لتفسير مصفوفة المسافة التي تنتجها beta_diversity.py.

الإخراج عبارة عن ملف يمكن فتحه باستخدام برنامج عرض الشجرة ، مثل FigTree.

توضح هذه الشجرة العلاقة بين العينات الأربعة.

الخطوات 3 و 4 و 5. قم بإجراء دعم التعزيز

لقياس مدى متانة هذه النتيجة لجهد التسلسل ، نقوم بإجراء تحليل Jackknifing ، حيث يتم اختيار عدد أقل من التسلسلات بشكل عشوائي من كل عينة ، ويتم مقارنة شجرة UPGMA الناتجة من هذه المجموعة الفرعية من البيانات مع الشجرة التي تمثل كامل المتاح مجموعة البيانات. تتكرر هذه العملية مع العديد من المجموعات الفرعية العشوائية من البيانات ، وتعتبر العقد الشجرية التي أثبتت أنها أكثر اتساقًا عبر مجموعات البيانات المزودة بسكين أكثر قوة.

أولاً ، يجب إنشاء جداول OTU ذات الرافعة ، عن طريق أخذ عينات فرعية لمجموعة البيانات الكاملة المتاحة. في هذا البرنامج التعليمي ، تحتوي كل عينة على ما بين 146 و 150 تسلسلًا ، كما هو موضح في per_library_stats.py:

لضمان اختيار مجموعة فرعية عشوائية من التسلسلات من كل عينة ، اخترنا 110 تسلسلًا من كل عينة (75٪ من أصغر عينة ، على الرغم من أن هذه القيمة هي مجرد إرشادات) ، والتي تم تحديدها بواسطة الخيار "-e" عند تشغيل البرنامج النصي لسير العمل (انظر أعلاه).

توفر المزيد من مكررات Jackknife تقديرًا أفضل للتباين المتوقع في نتائج تنوع بيتا ، ولكن على حساب وقت حسابي أطول. بشكل افتراضي ، يُنشئ QIIME 10 مكررات من نوع jackknife من البيانات المتاحة. كل تكرار هو محاكاة لجهد تسلسل أصغر (110 تسلسل في كل عينة ، كما هو محدد أدناه).

يحسب سير العمل بعد ذلك مصفوفة المسافة لكل مجموعة بيانات ذات مقابس ، ولكن الآن في وضع الدُفعات ، مما ينتج عنه مجموعتان من 10 ملفات مصفوفة مسافات مكتوبة على wf_jack / unweighted_unifrac / نادر_dm / و wf_jack / weighted_unifrac / نادر_dm / الدلائل. ثم يتم استخدام كل منها كأساس للتجميع الهرمي باستخدام UPGMA ، مكتوبًا في ملف wf_jack / unweighted_unifrac / نادر_upgma / و wf_jack / weighted_unifrac / Rare_upgma / الدلائل.

الخطوة 6. قارن بين الأشجار المقطوعة

ينتج عن تجميع UPGMA لملفات مصفوفة المسافات العشرة 10 مجموعات هرمية من 9 مجتمعات ميكروبية للماوس ، كل مجموعة هرمية تعتمد على عينة فرعية عشوائية من بيانات التسلسل المتاحة.

هذا يقارن تجميع UPGMA بناءً على جميع البيانات المتاحة مع نتائج UPGMA ذات الرافعة. ثلاثة ملفات مكتوبة ل wf_jack / unweighted_unifrac / updma_cmp / و wf_jack / weighted_unifrac / updma_cmp / :

  • master_tree.tre ، وهو مطابق تقريبًا لـ jackknife_name_nodes.tre ولكن كل عقدة داخلية لتكتل UPGMA يتم تعيين اسم فريد لها
  • jackknife_name_nodes.tre
  • jackknife_support.txt يشرح مدى تكرار احتواء العقدة الداخلية على نفس المجموعة من العينات المتفرعة في مجموعات UPGMA ذات الرافعة كما هو الحال في مجموعة UPGMA باستخدام البيانات الكاملة المتاحة. تشير القيمة 0.5 إلى أن نصف مجموعات البيانات ذات الرافعة تدعم تلك العقدة ، بينما تشير القيمة 1.0 إلى الدعم المثالي.

الخطوتين 7 و 8. قارن مؤامرات الإحداثيات الرئيسية

يمكن مقارنة مخططات PCoA المكررة ذات الرافعة لتقييم درجة الاختلاف من نسخة مكررة إلى أخرى. يعرض QIIME هذا التباين من خلال عرض أشكال بيضاوية للثقة حول العينات الممثلة في مخطط PCoA. المؤامرات الناتجة موجودة في wf_jack / unweighted_unifrac / 3d_plots ، وكذلك المقابل موزونة unifrac / و 2d_plots / المواقع. ويرد أدناه مثال على ذلك:

إنشاء شجرة Bootstrapped

jackknife_name_nodes.tre يمكن عرضها باستخدام FigTree أو برنامج عرض شجرة آخر. ومع ذلك ، كمثال ، يمكننا تصور شجرة التمهيد باستخدام make_bootstrapped_tree.py من QIIME ، على النحو التالي: (ملاحظة: يحتاج هذا الأمر إلى تمكين إعادة توجيه x11: http://ccv.brown.edu/doc/gui-software.html)

يُظهر ملف pdf الناتج الشجرة ذات العقد الداخلية الملونة ، والأحمر لدعم 75-100٪ ، والأصفر بنسبة 50-75٪ ، والأخضر بنسبة 25-50٪ ، والأزرق لدعم & lt 25٪. على الرغم من أن UPGMA تُظهر أن PC.354 و PC.593 يتجمعان معًا و PC.481 مع مجموعة PC.6xx معًا ، لا يمكننا أن نثق في هذه النتيجة. ومع ذلك ، هناك دعم ممتاز للسكاكين لجميع عينات الصيام (PC.6xx) التي تتجمع معًا ، منفصلة عن العينات غير الصائمة (PC.35x).


4. بندقية الصيد التسلسل Metagenomic و Metatranscriptomic

في حين أن طرق التسلسل المستندة إلى amplicon في كثير من الأحيان تستهدف جينًا واحدًا فقط ، فإن التسلسل الميتاجينومي للبندقية قادر على التسلسل العشوائي للعينة و # x02019s الميتاجينوم بأكمله بدون جهاز تمهيدي محدد ، مما يخفف من التحيزات من خيارات التمهيدي. بالمقارنة مع التنميط المجتمعي القائم على الجينات ، يضيف التسلسل الميتاجينومي للبندقية طبقة مفصلة إلى التوصيف التصنيفي للمجتمع من خلال توفير معلومات عن تكوين الجينات والقدرة الوظيفية لميكروبيوم الأمعاء ، على الرغم من أنه أكثر تكلفة ويستغرق وقتًا أطول من الواسم تضخيم الجينات. مع القدرة على اكتشاف الكائنات الحية من جميع مجالات الحياة ، لا يزال التسلسل الميتاجينومي للبندقية يمثل النهج الأكثر فاعلية وشمولية للحصول على كل من البيانات الهيكلية والوظيفية. يمكن أيضًا استخدام التركيب الجيني لصياغة مسارات وظيفية مفترضة. تم تطبيق التسلسل الميتاجينومي للبندقية لدراسة التغيرات الوظيفية لميكروبيوم الأمعاء في أمراض مختلفة ، مثل مرض التهاب الأمعاء [76] ومتلازمة القولون العصبي [77] ومرض الكبد المرتبط بالكحول [78،79] ومرض الكبد الدهني غير الناجم عن شرب الكحول [80،81] ، التنكس الدهني الكبدي [82] ، مرض كرون [83،84] ، سرطان الجلد [85] ، مرض باركنسون [86] ، ارتفاع ضغط الدم [87] ، والسل الرئوي [88].

يمكن تلخيص عملية التسلسل الميتاجينومي للبندقية على النحو التالي: جمع العينات وتخزينها ، واستخراج الحمض النووي ، وإعداد مكتبة الميتاجينوم ، ومراقبة الجودة ، وتحليل البيانات. مراقبة الجودة هي الخطوة الأولى في خط أنابيب التحليل الميتاجينومي للبندقية (الشكل 3) ، والذي يتضمن أدوات مختلفة مثل Trimmomatic [89] ، Ktrim [90] ، Cutadapt [91] ، MultiQC [92]. يمكن تعيين القراءات عالية الجودة الناتجة إما للإشارة إلى الجينومات المرجعية أو تجميعها باستخدام أدوات التجميع. وبالتالي ، يمكن تصنيف تحليل التسلسل الميتاجينومي للبندقية عمومًا إلى طريقتين: النهج القائم على المحاذاة والنهج القائم على التجميع. يوصى غالبًا باستخدام كلا الأسلوبين معًا للحصول على أكثر النتائج دقة [93،94].

بندقية تحليل بيانات التسلسل الميتاجينومي.

يحدد النهج القائم على المحاذاة قراءة التسلسل & # x02019 التصنيف والملف الشخصي الوظيفي من خلال تعيين القراءات إلى جينومات مرجعية ميكروبية معروفة أو البحث في قواعد بيانات لعائلات البروتين المميزة بواسطة مصممي خرائط مختلفين ، مثل Bowtie2 [95] ، DIAMOND [96] ، BBMap [97] ] ، إلخ. تتوفر قاعدة بيانات جينات واصمات مختلفة وقواعد بيانات جينية لترميز البروتين للتعليقات التوضيحية التصنيفية والوظيفية ، مثل موسوعة كيوتو للجينات والجينومات (KEGG) [98] ، وتعليقات عائلة البروتين (PFAM) [99] ، والأنطولوجيا الجينية (GO ) [100] ، مجموعات المجموعات المتعامدة (COG) [101] ، علم الأنساب التطوري للجينات: المجموعات التقويمية غير الخاضعة للإشراف (eggNOG) [102] و UniProt Reference Clusters (UniRef) [103].

يعيد النهج القائم على التجميع بناء جينومات متعددة حتى لو كان بعضها غير معروف بعد. يعتمد هذا النهج بشكل كبير على تغطية الجينوم. يقوم النهج المستند إلى التجميع بتجميع القراءات القصيرة في contigs ، مما يسمح بمحاذاة تسلسل متعددة للقراءات بالنسبة إلى تسلسل الإجماع ، ثم تجميع contigs في سقالات ، والتي تسرد ترتيب واتجاه contigs وحجم الفجوات بين contigs. المعلمة المهمة لتقييم جودة مجموعات الجينوم هي N50 ، والتي تشير إلى أصغر حجم contig في مجموعة contigs التي تمثل على الأقل 50٪ من التجميع [104]. يستخدم المجمّع Metagenomic عمومًا الأساليب القائمة على الرسم البياني ، مثل توافق التخطيط المتداخل والرسم البياني de Bruijin لتجميع قراءات أطول وأقصر ، على التوالي. نظرًا لقراءات التسلسل القصيرة التي تنتجها منصات التسلسل الشائعة ، تُستخدم المجمعات القائمة على الرسم البياني لـ de Bruijin على نطاق واسع ، مثل Meta-IDBA [105] و IDBA-UD [106] و MetaVelvet [107] و MegaHit [108] ، إلخ. تعتمد مجمعات الميتاجينوم إما على الجينوم المرجعي للتعليق التوضيحي للكائنات الدقيقة أو على أساس تجميع de novo الذي يكتشف ويعيد بناء الجينومات دون الرجوع إلى قواعد البيانات ويجعل التنبؤ الجيني أكثر موثوقية. بشكل عام ، في مجموعة de novo ، يتم تقسيم التسلسلات الميتاجينومية إلى مقاطع محددة مسبقًا من الحجم k (k-mers) والتي يتم تراكبها لتشكيل شبكة من المسارات المتداخلة ثم تشكيل contigs بشكل تفاعلي [109] ، والتي تعتبر كأساس لمخططات دي Bruijin لتجميع القراءات القصيرة [104].

يمكن تقييم جودة التجميع باستخدام أدوات مثل MetaQUAST [110]. يمكن شرح الجينومات المجمعة من خلال نظام تحديد عائلة الجينات في قواعد البيانات. يمكن أيضًا تعيين قراءات التسلسل الميتاجينومي للجينومات المجمعة لتقدير وفرتها. هناك بعض خطوط الأنابيب المؤتمتة التي تدمج خطوات مختلفة في حزمة واحدة مريحة ، مثل MEtaGenome Analyzer (MEGAN) [111] ، Metagenomic Phylogenetic Analysis (MetaPhlAn) [112] ، HMP Unified Metabolic Analysis Network (HUMAnN2) [113] ، وبعض الخوادم عبر الإنترنت مثل خادم Metagenomics RAST (MG-RAST) [114] ، والجينومات الميكروبية المتكاملة والميكروبيوم (IMG / M) [115] و JCVI Metagenomics Reports (METAREP) [116] ، والتي توفر حلاً شاملاً. Sometimes multiple metagenomic analysis methods may produce variable results even if the same databases are used. Standardization of data processing and analysis is warranted to enable further integration of shotgun metagenomic analysis into the gut microbiome research to enhance the reproducibility and application of the analysis into clinical practice.

Although metagenomics provides access to microbial gene and genome composition and pathways, it has limited roles in revealing the gene expression in the microbial community. Shotgun metagenomic sequencing is performed on genomic DNA isolated from the biological samples however, it is hard to distinguish whether this DNA comes from viable or dead cells or whether the genes are expressed under given conditions. Instead, metatranscriptomic sequencing allows scientists to identify whether a microbe is an active member of the microbiome or not, and to identify actively expressed genes in the microbial community to get a deeper understanding of the activity of the gene of interest. Metatranscriptomics complement shotgun metagenomics by elucidating what gens are actively transcribed from a potential repertoire of annotated genes as revealed by shotgun metagenomic analysis. Metatranscriptomic sequencing analysis has been used to study microbial RNA-based regulation and expressed biological signatures in several diseases such as inflammatory bowel disease [117] and rheumatoid arthritis [118]. It provides a snapshot of the gene expression profile under specific conditions and at a given moment, instead of its potential as inferred from DNA-based shotgun metagenomic analysis.

The construction of metatranscriptomic library starts with the isolation of total RNA and removal of host RNA contaminations which can occur to various degrees as well as removal of mRNA with probes targeting certain rRNA regions, followed by cDNA synthesis, adapter ligation and end repair. After that similar to the process of constructing shotgun metagenomic library, cDNA ends are repaired and adapters are ligated, followed by library cleanup, amplification and quantification, and the library is then sequenced on the sequencing platform. Due to the unstable nature and short half-life time, RNA isolation becomes the most difficult task, especially from some biological samples such as feces. The isolation process must be carefully carried out to avoid RNA degradation by contaminated ribonucleases, and multiple approaches specific to different cell types have been developed [119,120,121,122].

Similar to shotgun metagenomic analysis, comprehensive data analysis suites such as HUMAnN2 and MG-RAST also provide an end-to-end solution for metatranscriptomic analysis, which are combinations of multiple specialized tools, such as Trimmomatic for quality control, Bowtie for mapping, CuffDuff [123] for differential gene expression, etc. As always, quality control is the first step for metatranscriptomic analysis. An essential process in quality control step is to filter out non-mRNA reads, in addition to trimming of low-quality reads and host reads. The resulting good quality reads are used for the following analysis which are categorized into alignment-based approach and assembly-based approach. Alignment-based approach maps the sequencing reads to reference database. With assembly-based approach, the sequenced reads are first assembled into contigs, scaffolds, and then mapped to reference genomes. The assembly step is computationally challenging, which requires deeper sequencing depth and higher quality sequencing reads. The assembled transcripts are annotated through software such as Blast2GO [124] to align against protein databases, followed by normalization and calculation of relative gene expression levels and statistical analysis.


This article is based on course notes presented by the author at the Marine Biological Laboratory at the STAMPS course in 2013, 2014, 2015, 2016, 2017, and 2018. The author is grateful to Berry Brosi, the MBL, the STAMPS course directors, and the STAMPS participants for countless discussions on this topic. The author also thanks Thea Whitman and two referees for many thoughtful suggestions on the manuscript. This manuscript has been released as a preprint via bioRxiv (Willis, 2017).

Arbel, J., Mengersen, K., and Rousseau, J. (2016). Bayesian nonparametric dependent model for partially replicated data: the influence of fuel spills on species diversity. آن. تطبيق ستات. 10, 1496�. doi: 10.1214/16-AOAS944

Arora, T., Seyfried, F., Docherty, N. G., Tremaroli, V., le Roux, C. W., Perkins, R., et al. (2017). Diabetes-associated microbiota in fa/fa rats is modified by Roux-en-Y gastric bypass. ISME J. 11, 2035�. doi: 10.1038/ismej.2017.70

Bunge, J., Willis, A., and Walsh, F. (2014). Estimating the number of species in microbial diversity studies. Annu. Rev. Stat. تطبيق 1, 427�. doi: 10.1146/annurev-statistics-022513-115654

Chao, A., and Bunge, J. (2002). Estimating the number of species in a stochastic abundance model. القياسات الحيوية 58, 531�. doi: 10.1111/j.0006-341X.2002.00531.x

Chao, A., and Shen, T.-J. (2003). Nonparametric estimation of Shannon's index of diversity when there are unseen species in sample. بيئة. ايكول. ستات. 10, 429�. doi: 10.1023/A:1026096204727

Demidenko, E. (2004). Mixed Models: Theory and Applications. Hoboken, NJ: Wiley-Interscience. doi: 10.1002/0471728438

Fisher, R. A., Corbet, A. S., and Williams, C. B. (1943). The relation between the number of species and the number of individuals in a random sample of an animal population. J. انيم. ايكول. 12:42. doi: 10.2307/1411

Hurlbert, S. H. (1971). The nonconcept of species diversity: a critique and alternative parameters. علم البيئة 52, 577�. doi: 10.2307/1934145

Lande, R. (1996). Statistics and partitioning of species diversity, and similarity among multiple communities. Oikos 76, 5�. doi: 10.2307/3545743

Lande, R., DeVries, P. J., and Walla, T. R. (2000). When species accumulation curves intersect: implications for ranking diversity using small samples. Oikos 89, 601�. doi: 10.1034/j.1600-0706.2000.890320.x

Makipaa, R., Rajala, T., Schigel, D., Rinne, K. T., Pennanen, T., Abrego, N., et al. (2017). Interactions between soil- and dead wood-inhabiting fungal communities during the decay of Norway spruce logs. ISME J. 11, 1964�. doi: 10.1038/ismej.2017.57

McMurdie, P. J., and Holmes, S. (2014). Waste not, want not: why rarefying microbiome data is inadmissible. PLoS Comput. بيول. 10:e1003531. doi: 10.1371/journal.pcbi.1003531

Sanders, H. L. (1968). Marine benthic diversity: a comparative study. أكون. نات. 102, 243�. doi: 10.1086/282541

Shade, A. (2016). Diversity is the question, not the answer. ISME J. 11, 1𠄶. doi: 10.1038/ismej.2016.118

Shannon, C. E. (1948). A mathematical theory of communication. Bell Syst. تقنية. ج. 27, 379�. doi: 10.1002/j.1538-7305.1948.tb01338.x

Simpson, E. H. (1949). Measurement of diversity. طبيعة سجية 163:688. doi: 10.1038/163688a0

Washburne, A. D., Morton, J. T., Sanders, J., McDonald, D., Zhu, Q., Oliverio, A. M., et al. (2018). Methods for phylogenetic analysis of microbiome data. نات. ميكروبيول. 3:652. doi: 10.1038/s41564-018-0156-0

Weiss, S., Xu, Z. Z., Peddada, S., Amir, A., Bittinger, K., Gonzalez, A., et al. (2017). Normalization and microbial differential abundance strategies depend upon data characteristics. ميكروبيوم 5:27. doi: 10.1186/s40168-017-0237-y

Willis, A. (2017). Rarefaction, alpha diversity, and statistics. bioRxiv 1𠄸. doi: 10.1101/231878

Willis, A., and Bunge, J. (2015). Estimating diversity via frequency ratios. القياسات الحيوية 71, 1042�. doi: 10.1111/biom.12332

Willis, A. D., Bunge, J., and Whitman, T. (2016). Improved detection of changes in species richness in high-diversity microbial communities. J.R Stat. شركة نفط الجنوب. C Appl. ستات. 66, 963�. doi: 10.1111/rssc.12206

Willis, A. D., and Martin, B. D. (2018). Divnet: estimating diversity in networked communities. bioRxiv 1�. doi: 10.1101/305045

Zhang, Z., and Grabchak, M. (2016). Entropic representation and estimation of diversity indices. J. Nonparametr. ستات. 28, 563�. doi: 10.1080/10485252.2016.1190357

Keywords: bioinformatics, computational biology, ecological data analysis, latent variable model, reproducibility, measurement error

Citation: Willis AD (2019) Rarefaction, Alpha Diversity, and Statistics. أمام. ميكروبيول. 10:2407. doi: 10.3389/fmicb.2019.02407

Received: 19 August 2019 Accepted: 07 October 2019
Published: 23 October 2019.

David Anthony Nipperess, Macquarie University, Australia
Alex Washburne, Montana State University System, United States

Copyright © 2019 Willis. هذا مقال مفتوح الوصول يتم توزيعه بموجب شروط ترخيص Creative Commons Attribution License (CC BY). يُسمح بالاستخدام أو التوزيع أو الاستنساخ في منتديات أخرى ، بشرط ذكر المؤلف (المؤلفين) الأصليين ومالك (مالكي) حقوق الطبع والنشر وأن يتم الاستشهاد بالمنشور الأصلي في هذه المجلة ، وفقًا للممارسات الأكاديمية المقبولة. لا يُسمح بأي استخدام أو توزيع أو إعادة إنتاج لا يتوافق مع هذه الشروط.


الملخص

Anaerobic lagoons are a standard practice for the treatment of swine wastewater. This practice relies heavily on microbiological processes to reduce concentrated organic material and nutrients. Despite this reliance on microbiological processes, research has only recently begun to identify and enumerate the myriad and complex interactions that occur in this microbial ecosystem. To further this line of study, we utilized a next-generation sequencing (NGS) technology to gain a deeper insight into the microbial communities along the water column of four anaerobic swine wastewater lagoons. Analysis of roughly one million 16S rDNA sequences revealed a predominance of operational taxonomic units (OTUs) classified as belonging to the phyla Firmicutes (54.1%) and Proteobacteria (15.8%). At the family level, 33 bacterial families were found in all 12 lagoon sites and accounted for between 30% and 50% of each lagoon's OTUs. Analysis by nonmetric multidimensional scaling (NMS) revealed that TKN, COD, ORP, TSS, and DO were the major environmental variables in affecting microbial community structure. Overall, 839 individual genera were classified, with 223 found in all four lagoons. An additional 321 genera were identified in sole lagoons. The top 25 genera accounted for approximately 20% of the OTUs identified in the study, and the low abundances of most of the genera suggests that most OTUs are present at low levels. Overall, these results demonstrate that anaerobic lagoons have distinct microbial communities which are strongly controlled by the environmental conditions present in each individual lagoon.


16S rRNA gene high-throughput sequencing data mining of microbial diversity and interactions

The ubiquitous occurrence of microorganisms gives rise to continuous public concerns regarding their pathogenicity and threats to human environment, as well as potential engineering benefits in biotechnology. The development and wide application of environmental biotechnology, for example in bioenergy production, wastewater treatment, bioremediation, and drinking water disinfection, have been bringing us with both environmental and economic benefits. Strikingly, extensive applications of microscopic and molecular techniques since 1990s have allowed engineers to peep into the microbiology in “black box” of engineered microbial communities in biotechnological processes, providing guidelines for process design and optimization. Recently, revolutionary advances in DNA sequencing technologies and rapidly decreasing costs are altering conventional ways of microbiology and ecology research, as it launches an era of next-generation sequencing (NGS). The principal research burdens are now transforming from traditional labor-intensive wet-lab experiments to dealing with analysis of huge and informative NGS data, which is computationally expensive and bioinformatically challenging. This study discusses state-of-the-art bioinformatics and statistical analyses of 16S ribosomal RNA (rRNA) gene high-throughput sequencing (HTS) data from prevalent NGS platforms to promote its applications in exploring microbial diversity of functional and pathogenic microorganisms, as well as their interactions in biotechnological processes.

هذه معاينة لمحتوى الاشتراك ، والوصول عبر مؤسستك.