Summary

使用范围,以确定潜在的监管图案协同调控基因

Published: May 31, 2011
doi:

Summary

直线前进和可靠的方法,共同调节的基因,以确定潜在的监管图案。范围并不需要任何用户参数和返回的图案代表监管信号的优秀人选。的监管信号的识别,有助于理解基本生物学。

Abstract

范围是一个集合图案取景器使用并行的三个组成部分的算法,以确定潜在的监管图案代表性和图案的位置偏好1。每个组件算法进行了优化,找到一种不同的图案。通过采取这三种方式的最佳,范围的性能优于任何单一算法, 即使在1噪声数据的存在。在这篇文章中,我们利用研究端粒维持有关的基因的范围2的网页版本。范围已纳入至少还有另外两个方案3,4图案,并已 5-8其他研究使用。

三种算法组成范围梁9,发现非退化图案(ACCGGT),棱镜10,发现变质的图案(ASCGWT),间隔11,发现较长的双边图案(ACCnnnnnnnnGGT) 。这三种算法进行了优化,找到自己的相应类型的Motif。总之,他们允许的范围,执行得非常好。

一旦基因组进行了分析,并确定候选图案,范围可以寻找其他基因包含的图案,当添加到原来的设置,将改善图案得分。这可以通过陈述或图案位置偏好发生。工作与部分基因生物验证转录因子结合位点,范围是能够识别其余大部分也由特定的转录因子调节的基因。

从范围输出显示候选图案,其重要意义,表和其他信息作为一个图形化的主题地图。常见问题及视频教程可在示波器的网站,其中还包括一个“示例搜索”按钮,允许用户进行试运行。

范围有一个非常友好的用户界面,使新手用户访问,而无需成为在生物信息学专家发现图案算法的全功率。作为输入,范围可以利用的基因,或FASTA格式的序列列表。这些都可以在浏览器中的文本字段输入,或从文件中读取。从范围的输出包含了所有与他们的成绩,出现的次数,含有基因图案的一小部分,用于识别图案的算法确定图案的列表。对于每一个图案,结果的详细信息,包括一个共识代表性的图案,序列标识,位置权重矩阵,每一个图案发生的实例列表(确切位置和“链”表示)。在浏览器窗口,也可以选择通过电子邮件返回结果。以前的论文中详细 1,2,9-11描述的范围算法。

Protocol

<p class="jove_title"> 1。准备您认为是按范围分析共调控基因的名称列表。</p><p class="jove_content">保存为文本文件列表,或将其复制到剪贴板粘贴在第3步进入范围。该文件应包含每行一个基因名称,没有额外的信息。另外,可以准备作为一个FASTA格式的文件包含实际的序列进行分析的列表。</p><p class="jove_title"> 2。启动Web浏览器并连接到URL:<a href="http://genie.dartmouth.edu/SCOPE/"> http://genie.dartmouth.edu/SCOPE/</a</p><p class="jove_title"> 3。输入范围需要的信息来进行分析。</p><p class="jove_content">的初步范围页面,如图1所示。在这一步处理不同部分。</p><ol><li>使用的“物种”弹出菜单中选择你将研究的物种。重要的是选择正确的物种,因为范围是指基因组中任何一位候选人的主题是研究计算发生的背景频率。</li><li>使用'上游序列“单选按钮,选择其中间隔或固定长度的基因间会之间的你正在寻找和前(上游)基因的基因序列分析,这将意味着,不同的上游长度,将用于每个基因选择固定长度完全相同,从目前的基因启动上游的核苷酸数量看,在这种情况下,范围将研究每个基因的上游序列的长度相同,即使延伸到以前的基因(或没有),通常情况下,800 NTS是最好的长度选择,但可以随物种。</li><li>“下一步”告诉范围是什么基因组分析粘贴到基因列表文本框,在你的基因列表,或按“选择文件”按钮选择该文件包含您先前建立的基因列表。另外,您可能粘贴在FASTA格式的序列文件到相同的文本框。</li><li>页面下一节包含一个复选框“检查其他基因的基因组包含发现图案(S)?”此选项可以添加大量的分析时间范围来评估每一个基因组中的其他基因。然而,这可以是非常有用的确定,在基因组的基因共同调节的很好的候选人的其他基因。由于范围的分析比较快的,它是建议你留在你的初步分析这一关。它可以随时被打开结果页面上重新运行分析,结果部分解释。</li><li>“结果必须包括”部分可用于输入想要的范围,包括在其分析的图案。您可能要做到这一点,如果您正在寻找寻找一个特定的主题。</li><li>页面上的最后一节,可用于输入您的电子邮件地址和一个保存与分析评论。如果是这样填写,范围将发送带有链接的网页,其中包含结果的电子邮件,它也将包括两个附件。其中之一是一个纯文本文件,可读的格式中的所有分析结果。第二个附件包含一个XML文件,每次结果,发现在一台计算机可读的格式范围。如果你想要做一些额外的分析结果,XML文件是非常有用的。这两个文件是“压缩”的电子邮件发送前。</li><li>对于本演示中,我们将开始与相同的信息。这可以很容易地实现按“示例搜索”按钮,填写必要的信息。现在按这个按钮。三种基因将被输入为您和其他领域作出适当的选择。离开这些,因为它们是设置。三个基因参与端粒维持在<em>酿酒酵母</em>。表格填写,如图2所示。按在页面底部的“运行范围”按钮开始分析。</li></ol><p class="jove_title"> 4。代表性的成果:</p><p class="jove_content"分析的主要结果是如图3所示。页面的顶部包含一个表的图案是由范围的信息。第一列包含一个被发现的图案和彩色小方格图所示的图形图案地图的图例服务列表。通过点击彩色框(或彩色框),可开启或关闭任何特定的图案显示。这是非常有用的隐藏显示高度重复的图案,可能使很难看到那么流行主题模式。</p><p class="jove_content">其他列的数据计数(发生,在整个基因组为主题的数量),SIG值(指示,图案的意义),覆盖(提交的基因包含至少一个实例的百分比序)和算法(用于检测图案的三个组成部分算法)。</p><p class="jove_content">点击上市的任何图案,将用户带到一个页面,其中包含的详细信息,图案。青色的图案,在图4(atgnnnnttg)所示的详细结果。在这一页,图案是代表在三个方面:一个序列的标志,位置权重矩阵,和列表中的所有图案与自己的立场,链和基因实例。</p><p class="jove_content">小下来页的进一步寻找含有这个图案的其他基因,结果一些额外的细节。可以看出,在这种情况下,有1344包含的主题,其实所有这些改进的SIG值时,添加到原来的基因组的其他基因。按“添加选中的基因搜索”将返回与这些基因的范围设置页面添加到原来的基因组和参数设置,因为他们以前。在这种情况下,10个额外基因添加到原来的三个。</p><p class="jove_content"图5显示了包含这个主题的额外基因的分析结果。原来的三个基因结果的底部(小写)。在这些额外的基因的上游区域的图案格局来看,清楚地表明,它们是相似的。事实上,许多这些基因都参与了端粒维持原来的三个基因。还要注意的是原始的主题是目前得分最高的主题在此设置。</p><p class="jove_content">另一个设置范围的结果如图6所示。在这种情况下,基因在酿酒酵母中的核糖体合成中涉及的那些。这些基因实际上没有核糖体的一部分,但负责组装核糖体,其中包括一些修饰酶。什么是在数字清楚的是红色和绿色的图案,形成了一个可靠的模式,很可能要在此设置的基因调控。我们正在调查这更详细的“模块”的模式将在以后出版的报告。</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig1.jpg" alt="Figure 1"><strong>图1</strong>。主要范围输入页面。此页用于输入要分析的基因,并确定物种和上游地区的长度进行审查。可选的,用户可以通过电子邮件请求的结果,或限制搜索到任何指定的图案。视频帮助也是可用的。</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig2.jpg" alt="Figure 2"><strong>图2</strong>。填充值范围主要输入页面中执行搜索。这些参数是按“示例搜索”按钮的结果。在这种情况下,发现含有范围发现的图案其他基因的复选框被选中。此选项需要更长的时间来计算(在基因组中的每一个的基因进行审查),但可以提供有趣的见解。</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig3.jpg" alt="Figure 3"><strong>图3</strong>。范围主要结果页面。这页总结的范围搜索结果。所有高得分图案和一个彩色编码的主题地图显示,在分析基因的识别图案的定位。一个带颜色的框上单击“下一步”一个图案,该图案显示或关闭的主题地图切换。除了显着性得分(SIG值),包含图案(覆盖)的基因的一小部分,用来发现图案的算法也有提供。</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig4_1.jpg" alt="Figure 4 top"><img src="/files/ftp_upload/2703/2703fig4_2.jpg" alt="Figure 4 bottom">图4</strong>。此结果的详细页面是长大当一个特定的主题,点击页面中的主要结果。它显示了个人的主题的详细信息。序列标识,位置权重矩阵,并一致序列,分别代表不同类型的图案也页面上的实例列表摘要。由于“发现,额外的基因”是在原来的搜索设置检查,也有此页面上的其他基因的基因组中包含这个主题的任何信息。从这个页面,它也可能启动另一个包括此页上的标识的额外基因的范围内运行。</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig5.jpg" alt="Figure 5">图5</strong>。此图显示了寻找额外基因图案“atgnnnnttg”如图4所示的结果。原来的三个基因是在较低的主题地图的底部的情况下。额外的基因是大写。在这些基因的上游区域的图案有一个清晰的格局。还要注意,指定的图案显示为“LOOKUP的”算法,它是如何确定的,因为这是。它实际上是相匹配的5<sup> TH</sup在这一分析的间隔>图案。</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig6.jpg" alt="Figure 6">图6</strong>。在酿酒酵母中的核糖体合成有关的基因的范围输出。注意模块组成的图案aaawtttbh“(红色)和”abctcatcd“(绿色)相隔约10-30 NTS在100-200个核苷酸的基因转录起始的上游的保守模式。</p>

Discussion

范围提供了一个功能强大的工具来使用的协调监管的基因组中潜在的监管图案鉴定研究员。用户不需要猜测Motif或者发现网站需要许多其他图案的图案出现数量的大小。这些参数基本上都是不可知的,直到确定的主题是。该接口是非常简单的,既为输入序列或基因的名称,并查看输出。

范围输出提供所确定的所有图案的详细信息,使用三个不同的图案代表的方式。在所有的基因为主题的每个实例是上市的位置和“链”的信息。图形结果的主题地图的形式提供了一个可视化的显示,是很容易理解,并提供了一​​个直观的方式看到存在的图案模式。

的范围是非常强大的数据中的噪声。通常,这需要额外基因实际上并不可能与其他基因共同调控的出发设置的形式。在微阵列实验中共同表达的基因启动时,这种情况经常发生。有时实验嘈杂,或可能有几个转录激活因素,在芯片实验所用的实验条件。这些不同的转录因子可能会在DNA上有不同的目标网站。即使在4倍(噪声信号的比例是4:1)无关的基因的存在,范围仍保持着50%的准确性,在预测网站1。

虽然范围包含超过200万基因的名称的同义词,它有时会无法识别某些基因的名称。我们不断更新我们的代名词列出,但有时会发现不同的同义词,是指同一基因。在这种情况下,我们不包括因为含糊不清的同义词。如果你有一个基因的名称,范围不被发现,它是建议你参考基因组特定的网站找到一个替代的基因名称使用范围。范围提供适当的基因名称,每个物种的例子。

范围目前包含了72种新物种被加入所有的时间。该网站包含视频以及常见问题的帮助。源代码是自由学术用户可通过书面形式向兰登书屋。

Divulgations

The authors have nothing to disclose.

Acknowledgements

这项研究是由来自美国国家科学基金会,DBI – 0445967 RHG授予支持。

References

  1. Chakravarty, A., Carlson, J. M., Khetani, R. S., Gross, R. H. A novel ensemble learning method for de novo computational identification of DNA binding sites. BMC Bioinformatics. 8, 249-249 (2007).
  2. Carlson, J. M., Chakravarty, A., DeZiel, C. E., Gross, R. H. SCOPE: a web server for practical de novo motif discovery. Nucleic Acids Res. 35, 259-264 (2007).
  3. Blom, E. J., Roerdink, J. B., Kuipers, O. P., Hijum, S. A. v. a. n. MOTIFATOR: detection and characterization of regulatory motifs using prokaryote transcriptome data. Bioinformatics. 25, 550-551 (2009).
  4. Blom, E. J. DISCLOSE : DISsection of CLusters Obtained by SEries of transcriptome data using functional annotations and putative transcription factor binding sites. BMC Bioinformatics. 9, 535-535 (2008).
  5. Bushey, A. M., Ramos, E., Corces, V. G. Three subclasses of a Drosophila insulator show distinct and cell type-specific genomic distributions. Genes Dev. 23, 1338-1350 (2009).
  6. Znaidi, S. Identification of the Candida albicans Cap1p regulon. Eukaryot Cell. 8, 806-820 (2009).
  7. Sharma, D., Mohanty, D., Surolia, A. RegAnalyst: a web interface for the analysis of regulatory motifs, networks and pathways. Nucleic Acids Res. 37, W193-W201 (2009).
  8. Znaidi, S. Genomewide location analysis of Candida albicans Upc2p, a regulator of sterol metabolism and azole drug resistance. Eukaryot Cell. 7, 836-847 (2008).
  9. Carlson, J., Chakravarty, A., Gross, R. B. E. A. M. A beam search algorithm for the identification of cis-regulatory elements in groups of genes. J Comput Biol. 13, 686-701 (2006).
  10. Carlson, J., Chakravarty, A., Khetani, R., Gross, R. Bounded search for de novo identification of degenerate cis-regulatory elements. BMC Bioinformatics. 7, 254-254 (2006).
  11. Chakravarty, A., Carlson, J. M., Khetani, R. S., DeZiel, C. E., Gross, R. H. SPACER: identification of cis-regulatory elements with non-contiguous critical residues. Bioinformatics. 23, 1029-1031 (2007).

Play Video

Citer Cet Article
Martyanov, V., Gross, R. H. Using SCOPE to Identify Potential Regulatory Motifs in Coregulated Genes. J. Vis. Exp. (51), e2703, doi:10.3791/2703 (2011).

View Video