基于二次打断IPed DNA片段ChIP-Seq的模拟分析
ChIP-Seq是在全基因组水平上研究活体细胞中蛋白质和DNA相互作用谱的有效手段.近年来,随着高通量短序列DNA测序技术的快速发展,研究基于新一代DNA测序方法的ChIP-Seq分析算法已经成为热点之一.然而,目前报道的分析方法主要是基于对免疫共沉淀获得的DNA片段进行片段大小选择后的ChIP-Seq数据,也就是主要针对Solexa系统获得的数据进行分析的算法.SOLiD系统是目前测序通量最高的新一代DNA测序系统.在SOLiD系统的DNA测序文库制备过程中,采用对免疫共沉淀获得的DNA片段进行二次超声打断可以满足ePCR对序列长度的要求,因此SOLiD测序文库中的DNA测序片段较短.到目前为止,基于SOLiD系统测序特点的ChIP-Seq 研究很少报道.本文旨在研究测序文库中DNA片段的长度对ChIP-Seq分析的影响.通过真实的ChIP-Seq数据和模拟产生的ChIP-Seq数据,对目前3种主要的ChIP-Seq分析方法(CisGenome,SISSRs以及MACS)的特点进行研究.有报道表明来自Solexa系统的ChIP-Seq数据局部有明显的正负链双峰特征,而通过对真实的来自SOLiD系统的ChIP-Seq数据特征的挖掘,我们发现单个峰局部无明显的正负链双峰特征,并且峰的局部的序列分布大部分符合正态分布.基于这些特征,我们模拟了两个不同测序平台的ChIP-Seq实验.在控制了模拟实验的可比性后,我们发现当前基于Solexa文库制备方案的ChIP-Seq数据发展的算法,并不能有效地捕获来自SOLiD系统的ChIP-Seq数据特征.我们的研究还表明,误用ChIP-seq软件可能是导致部分SOLiD的ChIP-Seq实验失败的原因.因此,需要开发一种新的基于二次打断IPed DNA片段的ChIP-Seq分析策略.
蛋白质与DNA相互作用、下一代测序技术、序列方向性、乳液PCR、ChIP-Seq、SOLiD
55
Q5(生物化学)
国家自然科学基金30871393;国家高技术研究发展计划2006AA020702
2011-05-17(万方平台首次上网日期,不代表论文的发表时间)
1347-1357