注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Puriney's Notes

Puriney=purine+Y, my Wonderland

 
 
 

日志

 
 

【bio】PITA+RNAhybrid纯预测microRNA/target相互作用(上)  

2012-05-08 16:35:18|  分类: Bio |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
以前转贴过很多关于microRNA方面的数据库以及工具,个人一直没有机会深入使用 [1]。最近有机会摆弄一些数据,内容之一就是预测microRNA与其target相互作用。
  • 这里我只打算介绍PITA [2] 与RNAhybrid [3] 这些本地化可以使用的工具,纯粹从序列方面用计算机程序来预测。
  • 另外介绍一下ΔG和ΔΔG这两个在miRNA-mRNA预测过程中必须了解的概念。

本文为超级入门指南。

不过事先,友情声明,没有实验验证的任何信息分析,都是扯淡。

开始之前,请清楚我分析流程:
  1. 基于待研究的、你感兴趣的mRNA(或者UTR),
  2. 翻阅所有(当然也可以指定部分)microRNA,
  3. 找到可能与mRNA存在相互作用的microRNA。
这个过程很类似在你送发引物序列合成之前,用着RNAhybrid测试你用于基因沉默的miRNA是否靠谱。

======PITA=====
PITA的基本参数[4]大概是这样子的:
  • ΔΔG 小于或等于 -10 kcal/mol
  • Seed区域长度为 7-8 nt
  • 不允许 G:U配对
PITA的帮助文档如下,其中值得你关注的点我注释了出来:

syntax: pita_prediction.pl [OPTIONS]

Execute the PITA algorithm for identifying and scoring microRNA target sites.

options:
    -utr <filename>:      fasta file containing the UTRs to be scanned(以fasta格式的mRNA文件,可以是完整的mRNA,虽然我通常做法是挑取测序后reads的peak来作为被预测输入)
    -mir <filename>:      fasta file containing the microRNA sequences(相应地你的候选miRNA数据库,比如人类miRNA数据库http://www.mirbase.org/cgi-bin/mirna_summary.pl?org=hsa
    -upstream <filename>: fasta file containing the upstream sequence for each UTR. The IDs
                          in should match the IDs found int the UTR file. If less 200 bp are
                          given (or if no file is given), it is padded with Poly-A.

    -flank_up <bp>
    -flank_down <bp>:     Flank requirement in basepairs (default: zero for both)
    
    -ddG_context <bp>:    Number of bases upstream and downstream for target site that are
                          taken into account when folding the UTR (default: 70)


    -prefix <string>:     Add the string as a prefix to the output files (pita_results.tab and ext_utr.stab)(也就是输出文件的前缀,作为你识别文件的文件名)
    -gxp:        Produce a gxp (Genomica project file) output file.

    Seed matching parameters: (接下来就是你比较需要重视的参数)

    -l <num1-num2>:       Search for seed lengths of num1,...,num2 to the MicroRNA (default: 6-8)
(就是seed区域的长度,默认是6-8,这里调整为7-8)
    -gu <nums>:           Lengths for which G:U wobbles are allowed and number of allowed wobbles.
                          Format of nums: <length;num G:U>,<length;num G:U>,... (default: 6;0,7;1,8;1)
(因为不允许G:U配对,所以调整为 6;0,7;0,8;0)
    -m <nums>:            Lengths for which mismatches are allowed and number of allowed mismatches
                          Format of nums: <length;num mismatches>,<length;num mismatches>,...
                          (default: 6;0,7;0,8;1)

    -loop <nums>:         Lengths for which a single loop in either the target or the microrna is allowed
                          Format of nums: <length>,<length>,... (default: none)

PITA的标准输出结果示例如下:

UTR microRNA Start End Seed Loop dGduplex dG5 dG3 dG0 dG1 dGopen ddG
chr1-32146379 hsa-miR-339-5p 82 74 8:1:1 0 -20.89 -10.5 -10.39 -39.82 -20.46 -19.35 -1.53
chr20-48173714 hsa-let-7a 39 31 8:1:1 0 -13.4 -5.7 -7.7 -19.48 -0.43 -19.04 5.64
  • 从上述输出结果可以一窥,因为PITA没有提供一个cutoff来限制能量值,所以自行写个脚本去读取PITA的输出文件并筛出ΔΔG 小于或等于 -10 kcal/mol的案例。
  • 另外PITA也不给出miRNA-mRNA之间的配对关系,只给出位置信息,喜欢偷懒的我选择用RNAhybrid帮我去绘制配对关系图。所以RNAhybrid也就沦为我的一个绘图工具而已。


=====RNAhybrid=====
RNAhybrid对MFE(minimum free energy)有cutoff参数限制,所以这里我会选择ΔG小于或等于-20 kcal/mol [4]

Usage: RNAhybrid [options] [target sequence] [query sequence].
options:
  -b <number of hits per target>
  -c compact output
  -d <xi>,<theta>
  -f helix constraint
  -h help
  -m <max targetlength>
  -n <max query length>
  -u <max internal loop size (per side)>
  -v <max bulge loop size>
  -e <energy cut-off>
  -p <p-value cut-off>
  -s (3utr_fly|3utr_worm|3utr_human)
  -g (ps|png|jpg|all)
  -t <target file>
  -q <query file>

Either a target file has to be given (FASTA format) or one target sequence directly.
Either a query file has to be given (FASTA format) or one query sequence directly.

The helix constraint format is "from,to", eg. -f 2,7 forces
structures to have a helix from position 2 to 7 with respect to the query.

<xi> and <theta> are the position and shape parameters, respectively,
of the extreme value distribution assumed for p-value calculation.
If omitted, they are estimated from the maximal duplex energy of the query.
In that case, a data set name has to be given with the -s flag.

PS graphical output not supported.
PNG and JPG graphical output not supported.

  • 输入的miRNA和mRNA可以是单纯序列,也可以是一个fasta文件里好多个序列。
  • 输出会直接打印在终端里,所以建议你在终端以 “>" 输出保存为一个文件,所以你也能体会我为什么把它当作我下游一个绘图工具使唤了
RNAhybrid标准输出是这样子的:

target: *****(具体UTR个案为具体个案名字)
length: 30
miRNA : *****(具体miRNA个案为具体个案名字)
length: 22

mfe: -24.4 kcal/mol (MFE 即minimum free energy)
p-value: 0.001448

position  6
target 5' C   G  GG     AU        U 3'
           GAU GA   UAGG  UGGUGCUG    
           UUG CU   GUCU  ACCACGAU    
miRNA  3' A   G  AAA                5'


所以基本上呢,上述形式是不太适合发表格式的,所以建议你自制一个代码专门读取这些文件,最后这个文件会被整理成这个样子:

-24.4 kcal/mol
***        5' CCUACCACUCACCCUAGCA    3'
               |  || |||| ||||||       
********   3' AGCGGGAGAGUUGGGUCGAAAA 5'


-- end && reference
  1. 【转】miRNA数据库   http://joseph.yy.blog.163.com/blog/static/50973959201192121757343/
  2. PITA http://genie.weizmann.ac.il/pubs/mir07/mir07_data.html
  3. RNAhybrid http://bibiserv.techfak.uni-bielefeld.de/rnahybrid/%3E
  4. ?Marín, R. M., & Vanícek, J. (2011). Efficient use of accessibility in microRNA target prediction. Nucleic acids research, 39(1), 19-29. doi:10.1093/nar/gkq768
-- 随想
  • 一般预测miRNA-target相互作用关系还是需要mRNA表达图谱、miRNA表达图谱,然后正交地分析。所以这样单纯从序列上来考虑的,其靠谱程度,嗯,你懂的。不过这不失为一个好的先行预实验,毕竟茫茫miRNA大海里哪里那么轻松就找到能跟你的mRNA配对的那一个呢?
  • 虽然寂寞不那么严重了,不过,嘛时候能回到吾渔村湾大北山脚下?

  评论这张
 
阅读(4390)| 评论(3)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017