ابزارهای بیوانفورماتیک در تحقیقات IncRNA Bioinformatics tools for lncRNA research
- نوع فایل : کتاب
- زبان : فارسی
- ناشر : الزویر Elsevier
- چاپ و سال / کشور: 2015
توضیحات
چاپ شده در مجله BBA – مکانیسم تنظیم ژن
رشته های مرتبط زیست شناسی، بیوانفورماتیک
۱-مقدمه فناوری های توالی یابی با بازدهی بالا ما را قادر به دست یابی به تعداد زیادی از IncRNA یا RNA های غیر کد کننده کرده است. با این حال، چون روش های شناسایی آزمایشی و تجربی فعلی از نظر توان و بازدهی محدودیت دارند، ابزار های بیوانفورماتیک سریع برای شناسایی IncRNA با صحت منطقی، لازم هستند. چون IncRNA یک دسته منحصر به فرد از RNA هایی است که قادر به کد کردن پلی پپتید های کارکردی نیست، اولین نقش بیو انفورماتیک، شناسایی IncRNA از طریق فیلتر رونوشت های بلندی است که به نظر نمی رسد پروتین ها را کد گذاری کند. هدف تحقیق IncRNA نه تنها یافتن RNA غیر کد کننده بلند، بلکه شناسایی وظایف و نقش آن هاست. ابزار های بیوانفورماتیک متعددی برای پیش بینی ساختار ها و نقش توالی های RNA از جمله ابزار های مختلفی که از داده های ازمایشی استفاده می کنند وجود دارند. بدیهی است که ساختار ها، به خصوص ساختار های ثانویه، از عوامل تعیین کننده نقش RNA های غیر کد کننده می باشد. بدیهی است که کارکرد ها و نقش های مشابه بین گونه ها حفظ می شوند. به این ترتیب ساختار های ثانویه و حفاظت آن ها با استفاده از ابزار های بیو انفورماتیک برای تعیین مقوله های کارکردی آن ها بررسی می شود. با این حال پیش بینی ساختار های ثانویه همیشه صحیح نیست. اگرچه استخراج ابعاد ساختاری کارکرد ها اسان نیست، با این حال حوزه های کارکردی دارای ویژگی های ساختاری می باشند. نشانه های مهم برای کارکرد های IncRNA، از جمله زمان، مکان و روش را می توان از داده های ازمایشی استخراج کرد. الگوی بیان مکانی زمانی توسط توالی RNA نشاندهنده زمان و مکان فعال سازی کارکرد هاست.اثر متقابل با پروتین ها نشان دهنده نوع نقش و کارکرد می باشد. به علاوه، باز های مکمل در دو مولکول RNA اغلب جفت باز ها را تشکیل داده و موجب تخصصی شدن توالی برای RNA هدف می شود. اثر متقابل RNA-RNA را می توان با جست و جوی توالی های مکمل معکوس، فیلتر کرد. ۲- یافتن RNA های غیر کد کننده بلند دو مرحله در شناسایی IncRNA وجود دارد.در اولین مرحله، واحد های رونویسی شده IncRNA شناسایی می شوند. قطعات توالی های RNA رونویسی شده که با استفاده از فناوری های توالی یابی نسل اینده مشاهده می شود، بر روی ژنوم مرجع نگاشته شده و برای بدست اوردن واحد های رونویسی شده RNA خلاصه سازی می شوند. دومین مرحله، واحد های رونویسی شده رابه صورت کد کننده یا غیر کد کننده طبقه بندی می کند: توالی واحد های رونویسی شده بر اساس تشابه کدون با توالی های پروتین ارزیابی می شود. قبل از ظهور فناوری های NGS، پیش بینی کاندید های RNA غیر کد کننده بر اساس توالی ها و تایید بیان آن ها از اهمیت زیادی برخوردار است. برای این پیش بینی، ویژگی های حفاظت شده توالی های کاندید در نظر گرفته می شود. این تحلیل ها برای شناسایی کارکرد های IncRNA اهمیت دارند.
رشته های مرتبط زیست شناسی، بیوانفورماتیک
۱-مقدمه فناوری های توالی یابی با بازدهی بالا ما را قادر به دست یابی به تعداد زیادی از IncRNA یا RNA های غیر کد کننده کرده است. با این حال، چون روش های شناسایی آزمایشی و تجربی فعلی از نظر توان و بازدهی محدودیت دارند، ابزار های بیوانفورماتیک سریع برای شناسایی IncRNA با صحت منطقی، لازم هستند. چون IncRNA یک دسته منحصر به فرد از RNA هایی است که قادر به کد کردن پلی پپتید های کارکردی نیست، اولین نقش بیو انفورماتیک، شناسایی IncRNA از طریق فیلتر رونوشت های بلندی است که به نظر نمی رسد پروتین ها را کد گذاری کند. هدف تحقیق IncRNA نه تنها یافتن RNA غیر کد کننده بلند، بلکه شناسایی وظایف و نقش آن هاست. ابزار های بیوانفورماتیک متعددی برای پیش بینی ساختار ها و نقش توالی های RNA از جمله ابزار های مختلفی که از داده های ازمایشی استفاده می کنند وجود دارند. بدیهی است که ساختار ها، به خصوص ساختار های ثانویه، از عوامل تعیین کننده نقش RNA های غیر کد کننده می باشد. بدیهی است که کارکرد ها و نقش های مشابه بین گونه ها حفظ می شوند. به این ترتیب ساختار های ثانویه و حفاظت آن ها با استفاده از ابزار های بیو انفورماتیک برای تعیین مقوله های کارکردی آن ها بررسی می شود. با این حال پیش بینی ساختار های ثانویه همیشه صحیح نیست. اگرچه استخراج ابعاد ساختاری کارکرد ها اسان نیست، با این حال حوزه های کارکردی دارای ویژگی های ساختاری می باشند. نشانه های مهم برای کارکرد های IncRNA، از جمله زمان، مکان و روش را می توان از داده های ازمایشی استخراج کرد. الگوی بیان مکانی زمانی توسط توالی RNA نشاندهنده زمان و مکان فعال سازی کارکرد هاست.اثر متقابل با پروتین ها نشان دهنده نوع نقش و کارکرد می باشد. به علاوه، باز های مکمل در دو مولکول RNA اغلب جفت باز ها را تشکیل داده و موجب تخصصی شدن توالی برای RNA هدف می شود. اثر متقابل RNA-RNA را می توان با جست و جوی توالی های مکمل معکوس، فیلتر کرد. ۲- یافتن RNA های غیر کد کننده بلند دو مرحله در شناسایی IncRNA وجود دارد.در اولین مرحله، واحد های رونویسی شده IncRNA شناسایی می شوند. قطعات توالی های RNA رونویسی شده که با استفاده از فناوری های توالی یابی نسل اینده مشاهده می شود، بر روی ژنوم مرجع نگاشته شده و برای بدست اوردن واحد های رونویسی شده RNA خلاصه سازی می شوند. دومین مرحله، واحد های رونویسی شده رابه صورت کد کننده یا غیر کد کننده طبقه بندی می کند: توالی واحد های رونویسی شده بر اساس تشابه کدون با توالی های پروتین ارزیابی می شود. قبل از ظهور فناوری های NGS، پیش بینی کاندید های RNA غیر کد کننده بر اساس توالی ها و تایید بیان آن ها از اهمیت زیادی برخوردار است. برای این پیش بینی، ویژگی های حفاظت شده توالی های کاندید در نظر گرفته می شود. این تحلیل ها برای شناسایی کارکرد های IncRNA اهمیت دارند.
Description
۱٫ Introduction Recent high throughput sequencing technologies have enabled us to obtain a number of candidates of long non-coding RNAs (lncRNAs). However, because the current experimental identification methods are still limited in their throughput, fast bioinformatics tools to identify and characterize lncRNAs with reasonable accuracy are required. Because non-coding RNA is an exclusive category of RNAs that do not code for functional polypeptides, the first task for bioinformatics is to identify lncRNAs by screening long transcripts that do not seem to code for proteins. The objective of lncRNA research, however, is not only to find long non-coding RNAs but also to identify their functions. There are various bioinformatics tools for predicting the structures and functions of RNA sequences, including several tools that incorporate other experimental data in the analysis, but it is not obvious which tools are most useful for any particular objective. It is known that structures, especially secondary structures, are important determinants of the functions of non-coding RNAs. It is also observed that genomic elements sharing similar functions are conserved between species. Therefore, secondary structures and their conservation are examined using bioinformatics tools to try to determine their functional categories. The predictions of secondary structures, however, are not always accurate. Nevertheless, although it is not always easy to extract concrete structural motifs related to functions, functional domains still may have structural features. Important clues for the functions of lncRNAs, including when, where and with what they are used, can be extracted from experimental data. Spatiotemporal expression patterns (in tissues, subcellular compartments, and differentiation/developmental stages) by RNA-seq or microarray indicate when and where functions are activated. Co-expression analysis with protein coding genes is useful for predicting with what, but a more direct way is to detect the interactions with proteins and other RNAs. Interactions with proteins may indicate the type of the function; furthermore, complementary bases in two RNA molecules often form base-pairs, giving high sequence specificity for the target RNAs of the functional RNAs. RNA–RNA interactions can be screened by searching reverse complementary subsequences, but precise analysis of structures both within and between RNA molecules is necessary for accurate prediction. In this paper, we review available bioinformatics tools for research into lncRNAs, including their discovery, analyses and predictions of the secondary structures, conservation, interactions with other RNAs and proteins, co-expression with protein-coding genes, tissue-specificities, and subcellular localizations. We also consider useful databases. ۲٫ Finding long non-coding RNAs There are two steps in the identification of lncRNAs. In the first step, the transcribed units of the lncRNAs are identified. The fragments of the transcribed RNA sequences, observed by using next-generation sequencing (NGS) technologies or tiling microarrays, are mapped to the reference genome and summarized to obtain the transcribed units of the RNAs. The second step classifies the transcribed units as coding or non-coding: the sequences of transcribed units are evaluated on the basis of codon statistics and similarity to known protein sequences. Before NGS technologies became available, however, it was common to predict candidates of (functional) non-coding RNAs on the basis of their sequences and to experimentally verify their expression. For this prediction, conserved features (including secondary structures) of candidate sequences are considered. These analyses are still important for characterization of the functions of lncRNAs.