论文部分内容阅读
芯片及测序技术的发展大大促进了癌症在分子层次上的研究。多组学及技术平台的联合应用提供了更多的限制条件,减少了假阳性。本文整合了包括来自测序及芯片平台的2组表观遗传学数据,3组DNA与蛋白质相互作用数据(ChIP-Seq),10组基因表达数据以及4组microRNA表达数据共计四类组学数据,对前列腺癌涉及的重要调控网络进行了一个综合性的整合分析。首先对这四类组学数据在基因和通路层次上的的两两配对分析,验证了不同数据集系统水平上的分子特征相似性要高于基因水平的相似性这一假设。另外对四类组学数据的KEGG富集通路分析发现在所有的数据集中都存在ECM-receptor interaction及Pathways in cancer通路的富集。对这四类组学数据的GeneGo富集通路分析发现了130条在四类组学数据中都存在的调控通路。值得一提的是,KEGG和GeneGo的富集通路中都有与ECM相关的通路。同时我们还发现了一些前列腺癌相关的调控网络新通路,如TGF, WNT and cytoskeletalremodeling。在多组学数据整合分析的前提下,我们还对ChIP-Seq富集位点查找(peak calling)算法软件做了深入的研究。我们搜集整理了近几年内发表的50个peak calling算法软件,并选取当前较流行的9个软件,并搜集了三种类型共10组ChIP-Seq数据对它们在查找的富集峰数,灵敏度,一致性和精确性等方面做了一个评价比较,并且在此基础上我们把这些评比的peak calling软件整合进一个基于java的软件IPC(IntegrativePeak Caller),可以自动根据用户的数据类型和参数倾向推荐最适合用户的peak calling软件,并且支持多任务队列, IPC仅供学术研究使用,可以在http://www.ibio-cn.org/softwares/IPC/index.html免费下载。