بازسازی توالی رونوشت نوپدید از توالی RNA با استفاده از پلتفرم ترینیتی برای تولید و تحلیل مرجع / De novo transcript sequence reconstruction from RNA-Seq: reference generation and analysis with Trinity

بازسازی توالی رونوشت نوپدید از توالی RNA با استفاده از پلتفرم ترینیتی برای تولید و تحلیل مرجع De novo transcript sequence reconstruction from RNA-Seq: reference generation and analysis with Trinity

  • نوع فایل : کتاب
  • زبان : فارسی
  • ناشر : NCBI
  • چاپ و سال / کشور: 2014

توضیحات

چاپ شده در مجله پروتکل های طبیعت – Nature Protocols
رشته های مرتبط زیست شناسی، ژنتیک، میکروبیولوژی و بیوشیمی
مقدمه توالی یابی پر بازده ژنوم ها( توالی یابی-DNA) و ترانسکریپتوم ها( توالی یابی –RNA)زمینه را برای مطالعه اطلاعات ژنتیکی و کارکردی ذخیره شده درون هر موجود با یک مقیاس و سرعت بی سابقه هموار کرده است. برای مثال توالی یابی –RNA در اصل امکان مطالعه همزمان ساختار رونوشت( نظیر اتصال جایگزین)، اطلاعات آللی( برای مثال SNP ها) و بیان با وضوح و دامنه پویایی بالا را در اختیار گذاشته است. این پیشرفت ها به نوبه خود به طور قابل توجهی منجر به تسهیل تحقیقات ژنومیک کارکردی در گونه هایی شده است که منابع ژنتیکی یا مالی آن ها محدود است از جمله بسیاری از موجودات غیر مدل- موجوداتی که اگرچه به طور گسترده ای در یک شرایط تحقیقاتی مطالعه نشده اند، با این وجود از اهمیت تکاملی یا بوم شناسی قابل توجهی برخوردارند. اگرچه بسیاری از برنامه های ژنومی از دیرباز به قابلیت دسترسی به توالی های ژنومی با کیفیت بالا متکی بوده اند، این توالی ها تنها برای بخش کوچکی از موجودات شناخته شده، تعیین شده اند. به علاوه، توالی یابی و گردایش ژنوم هنوز در بسیاری از موارد یک فرایند پر هزینه به دلیل اندازه ژنوم و محتوی تکرار است. بر عکس، از آن جا که تنها بخشی از ژنوم رونویسی می شود، داده های توالی یابی RNA می توانند یک مسیر سریع و ارزان تر را- در مقیاس هر آزمایشگاه- برای تعیین یک ترانسکریپتوم مرجع برای کاربرد های داون استریم نظیر هم تراز سازی، فیلوژنتیک(تبارزایی) یا ساخت نشانگر در اختیار بگذارند. در واقع حتی در چارچوب یک پروژه توالی یابی کل ژنوم، توالی یابی RNA به یک منبع مهم از شواهد و اطلاعات برای شناسایی ژن های رونویسی شده و تفسیر ساختار اگزون تبدیل شده است. درک پتانسیل کامل توالی یابی RNA مستلزم روش های محاسباتی ای است که می توانند یک ترانسکریپتوم را گردایش کنند حتی زمانی که توالی یک ژنوم قابل دسترس نباشد. دو روش اصلی برای تبدیل داده های خام توالی یابی RNA به توالی های رونوشت وجود دارد: از طریق هدایت توالی های ژنومی گرادیش یافته یا از طریق تجمع نوپدید. رویکرد ژنومی برای مطالعات ترانسکریپتوم سریعا به یک رویکرد استاندارد برای تحلیل توالی یابی RNA برای موجودات مدل تبدیل شده اند و چندین بسته نرم افزاری برای این منظور وجود دارد. با این حال این رویکرد را نمی توان به موجوداتی که ژنوم کامل و گرداوری شده آن ها وجود ندارد به کار برد و حتی برای موجوداتی که دارای ژنوم های به خوبی گردایش یافته(تجمع یافته) می باشند ممکن است نتایج در نسخه های گرادیش ژنومی، متغیر و متفاوت می باشند. در چنین مواردی، یک همگذار ترانسکریپتوم نوپدید نیاز است. با این حال، فرایند گردایش و تجمع یک ترانسکریپتوم، بسیاری از مفروضاتی که بر اساس آن ها هم گذار هایی برای شرایطی که داده های DNA ژنومی به آن متکی هستند را نقض کرده است. برای مثال، پوشش یکنواخت وپاردایم ” یک لوکوس( مکان ژنی)- یک کن تیگ” برای RNA معتبر نیست: یک همگذار ترانسکریپتوم دقیق تولید یک کن تیگ به ازای هر رونوشت مجزا( ایزوفرم) به جای تولید یک کن تیگ به ازای هر مکان ژنی(لوکوس) کرده و رونوشت های مختلف دارای پوشش های متفاوتی است که منعکس کننده سطوح بیان متفاوت آن هاست. چندین ابزار در حال حاضر برای گردایش و همگذاری نوپدید توالی RNA قابل دسترس می باشد. Trans-ABySS6,( ترانس- ABySS6)، Velvet-Oases(واحه های مخملی) و ترانس نوپدید SOAP همگی نسخه هایی از همگذار های ژنومی اولیه می باشند. ما قبلا، یک رویکرد جایگزین جدید را برای همگذاری ترانسکریپتوم موسوم به ترینیتی توصیف کردیم. ترینیتی، داده های توالی یابی RNA را به بسیاری از گراف های دی براین( در واقع، یک گراف به ازای هر ژن بیان شده) تقسیم کرده و از محاسبه موازی برای باز سازی رونوشت ها از این گراف ها استفاده می کند از جمله ایزوفرم های اتصال جایگزین. ترینیتی می تواند از کتاب خانه های دو طرفه ایلومینا خاص رشته ای استفاده کند ولی در عین حال می تواند داده های قرائت تک رشته ای و غیر مرتبط با رشته را نیز شامل شود.ترینیتی رونوشت ها را دقیقا با یک رابط ساده و شهودی که نیازی به تعدیل پارامتر ندارد یا نیازمند تعدیل پارامتر اندکی است باز سازی می کند. چندین مطالعه مستقل اثبات کرده اند که ترینیتی در مقایسه با روش های جایگزین بسیار موثر است( برای مثال منابع ۹-۱۱، چالش اتصال جایگزین پروژه DREAM، http://www.thedream-project.org/result/alternative-splicing). تعداد زیادی از استنادهایی که گرابهر و همکاران در یک مدت زمان نسبتا کم جمع آوری کرده اند(از زمان انتشار آنلاین آن در می ۲۰۱۱) موید عملکرد بهتر و مطلوبیت ترینیتی می باشند. کاربران ترینیتی طیف وسیعی از موجودات مدل و غیر مدل را از همه فرمانرو ها مطالعه کرده و متعلق به آزمایشگاه های کوچک و پروژه های ژنومی بزرگ( برای مثال تفسیر ژنوم شته نخود نسخه ۲: Fabrice Legeai( موسسه ملی تحقیقات زراعی(INRA) و ترنس مورفی( مرکز ملی اطلاعات بیوتکنولوژی RefSeq(NCBI)، ارتباطات شخصی با A.P). هم چنین ترینیتی دارای یک انجمن توسعه دهنده فعال می باشد که به شدت عملکرد و مطلوبیت آن را بهبود داده است( به http://trinityrnaseq. sourceforge.net مراجعه کنید). برای مثال، اگرچه عملکرد زمان اجرای اولین نسخه از نظر محاسباتی کارامد نبود، با این حال جامعه توسعه دهنده ترینیتی از آن زمان به بعد کارایی خود را توسعه داده، نیاز به حافظه را تا نصف کاهش داده و سرعت پردازش را از طریق افزایش موازی موازی سازی و الگوریتم های پیشرفته افزایش داده اند. به علاوه، ترینیتی به یک پلتفرم مدولار تبدیل شده است که به طور یکپارچه از ابزار های شخص ثالث نظیر Jellyfish برای ایجاد کاتالوگ k-mer اولیه استفاده می کنند. سایر ابزار های شخص ثالث تلفیق شده در ترینیتی، مطلوبیت ترانسکریپتوم های باز سازی شده آن را بهبود داده است. برای مثال، ترینیتی در حاصل حاضر از ابزار هایی نظیر RSEM, edgeR و DESeq پشتیبانی می کند که این ابزار ها رونوشت های خروجی را گرفته و آن ها را برای آزمون فرضیات مختلف تصحیح می کنند. با توجه به محبوبیت ترینیتی و پیشرفت های قابل توجه از زمان انتشار آن، ارایه یک سری شیوه های دقیق که ویژگی های مختلف آن ها را پوشش دهد بسیار مهم است. شیوه های ارایه شده در این جا کاربرد ترینیتی را برای مطالعات در موجودات غیر مدل توسعه می دهند.

Description

High throughput sequencing of genomes (DNA-Seq) and transcriptomes (RNA-Seq) has opened the way to study the genetic and functional information stored within any organism at an unprecedented scale and speed. For example, RNA-Seq allows in principle for the simultaneous study of transcript structure (such as alternative splicing), allelic information (e.g., SNPs), and expression with high resolution and large dynamic range1 . These advances greatly facilitate functional genomics research in species for which genetic or financial resources are limited, including many ‘non-model’ organisms, which are nevertheless of substantial ecological or evolutionary importance. While many genomic applications have traditionally relied on the availability of a highquality genome sequence, such sequences have only been determined for a very small portion of known organisms. Furthermore, sequencing and assembling a genome is still a costly endeavor in many cases, due to genome size and repeat content. Conversely, since the transcriptome is only a fraction of the total genomic sequence, RNA-Seq data can provide a rapid and cheaper ‘fast track’, within reach of any lab, to delineating a reference transcriptome for downstream applications such as alignment, phylogenetics or marker construction. Indeed, even within a whole genome sequencing project, RNA-Seq has become an essential source of evidence for transcribed gene identification and exon structure annotation. Realizing the full potential of RNA-Seq requires computational methods that can assemble a transcriptome even when a genome sequence is not available. There are primarily two ways to convert raw RNA-Seq data to transcript sequences: with the guidance of assembled genomic sequences or via de novo assembly2, 3. The genome-guided approach to transcriptome studies has quickly become a standard approach to RNA-Seq analysis for model organisms, and several software packages exist for this purpose4, 5. It cannot, however, be applied to organisms without a well-assembled genome, and even if one is present, the results may vary across genome assembly versions. In such cases, a de novo transcriptome assembler is required. However, the process of assembling a transcriptome violates many of the assumptions of assemblers written for genomic DNA. For example, uniform coverage and the ‘one locus – one contig’ paradigm are not valid for RNA: an accurate transcriptome assembler will produce one contig per distinct transcript (isoform) rather than per locus, and different transcripts will have different coverage, reflecting their different expression levels. Several tools are now available for de novo assembly of RNA-Seq. Trans-ABySS 6 , VelvetOases7 , and SOAPdenovo-trans (http://soap.genomics.org.cn/SOAPdenovo-Trans.html) are all extensions of earlier developed genome assemblers. We previously described an alternative and novel method for transcriptome assembly called Trinity8 . Trinity partitions RNA-Seq data into many independent de Bruijn graphs, ideally one graph per expressed gene, and uses parallel computing to reconstruct transcripts from these graphs, including alternatively spliced isoforms. Trinity can leverage strand-specific Illumina Paired-End (PE) libraries, but can also accommodate non-strand-specific and single-end (SE) read data. Trinity reconstructs transcripts accurately with a simple and intuitive interface that requires little to no parameter tuning. Several independent studies have demonstrated that Trinity is highly effective compared to alternative methods (e.g.9-11, The DREAM Project’s Alternative Splicing Challenge (http://www.the-dream-project.org/result/alternativesplicing)). Indicating Trinity’s utility, since its publication in May 2011, it has acquired an avid user base with ~200 citations from May 2011 to March 2013 (http:// scholar.google.com/scholar?oi=bibs&hl=en&cites=14735674943942667509). Trinity users study a broad range of model and non-model organisms from all Kingdoms, and come from small labs and large genome projects alike (e.g., the pea aphid genome annotation v2; Fabrice Legeai, INRA and Terence Murphy, RefSeq NCBI, personal communications). Trinity also has an active developer community, which has greatly enhanced its performance and utility (see http://trinityrnaseq.sourceforge.net). For example, while the runtime performance of the first release was not computationally efficient11, the Trinity developer community has since improved its efficiency, halving memory requirements and increasing processing speed through increased parallelization and improved algorithms (12; M. Ott, personal communication). Furthermore, Trinity was converted into a modular platform that seamlessly uses third-party tools, such as Jellyfish13 for building the initial k-mer catalog. Other third party tools integrated into Trinity have enhanced the utility of its reconstructed transcriptomes. For example, as described below, Trinity now supports tools (e.g., RSEM14 , edgeR15 and DESeq 16) that take its output transcripts and test for differential expression, while accounting for both technical and biological sources of variation17-19 and correcting for multiple hypothesis testing. Given Trinity’s popularity and substantial enhancements since publication, it is important to provide detailed protocols that leverage its various features. The protocols we present below will maximize Trinity’s utility to users for studies in non-model organisms, and inform the broad developer community on areas for future enhancements.
اگر شما نسبت به این اثر یا عنوان محق هستید، لطفا از طریق "بخش تماس با ما" با ما تماس بگیرید و برای اطلاعات بیشتر، صفحه قوانین و مقررات را مطالعه نمایید.

دیدگاه کاربران


لطفا در این قسمت فقط نظر شخصی در مورد این عنوان را وارد نمایید و در صورتیکه مشکلی با دانلود یا استفاده از این فایل دارید در صفحه کاربری تیکت ثبت کنید.

بارگزاری