生物基因计算学促进生物燃料研发新突破

随着全球性能源危机和粮食危机的到来,生物乙醇的研究发展和生产已经引起世界各国的高度重视。以玉米、蔗糖等粮食作物为代表的生物乙醇燃料,由于存在与人争食,与粮争地的弊端,因此,近年,很多国家开始并加大倡导新型生物燃料的研制与商业化。特别是2008年金融危机后,作为国家能源战略多元化的重要渠道,各国致力于发展新型生物燃料,新的政策措施也不断出台。  

目前全球新型生物燃料的开发还未走出试验阶段,据业界专家估计,新型生物燃料的真正商业化要等到2015年。清华大学新能源研究所副所长李十中教授介绍,在技术方面,天然植物纤维很难合成高能量的生物燃料,找到新的微生物代谢过程可以帮助合成高能量的乙醇,这是技术难点之一。不同基因的表达是决定微生物代谢过程的关键。现在,全球很多研究机构和生物公司都在进行寻找新基因的工作,我国研究机构和众多企业也在加大这方面的研究和国际合作。

清华大学的研究人员希望通过创建一个大肠杆菌的基因组家族,以高通量和大规模的数据分析技术实现对基因组的基因识别,从中取得更高的识别精度以找到更佳的基因,通过转基因工程制造一种转基因大肠杆菌,(一种与食物中毒有关的细菌)其可以产生一种生物乙醇所必不可少的长链醇。这项研究的关键是要应用一种基因组树算法,叫自我组织映射多层调整树MATOM算法)。

魏宁博士在第三届生物工程及生物信息学联合会研讨会上发表了此算法。魏宁博士曾在美国俄克拉荷马州大学和德克萨斯州农工大学任副研究员,目前在陶式农业公司担任生物信息分析研究员。他一直致力于基因组分析领域的研究。

在一个半智能的方式下,MATOM算法通过评估大量基因表达数据可以构建一个多层基因家族树,该基因家族树对基因结构和功能的标示,有利于不同杆菌物种之间的比较。魏宁博士发表的此算法便于实现这种杆菌的基因家族树的构建,使得科学家们能够很容易的发现能为生物燃料生产的长链醇的关键基因。

正在合作开展的这项研究的挑战之一是,建立一个基因家族树,通过分析大量嘈杂的基因芯片数据确定其基因树的结构与关键基因的特性。博士说:我们正在非常大的基因组里寻找一种基因该基因可以指示细胞合成长链醇。MATOM算法可以帮助我们确定该基因家族树,而关键基因往往是在整个基因组系列网络的结合点处。这些资料可以帮助科学家通过生物工程的方法在大肠杆菌中制造新的蛋白质,其可以产生超过5个碳原子的长链醇。醇是不可能自然合成超过5个碳原子的,这一点对生产高密度生物燃料乙醇至关重要

常见的生物乙醇是用玉米或甘蔗制成的,只包含两个碳原子,而含碳原子越多的生物乙醇密度就越高,燃值也越大。博士解释说:为了寻找可能会影响生产高浓度的乙醇的基因,我们需要分析一个非常大的基因库。随着高通量基因芯片技术的发展,得到大量的基因表达数据并不是很困难,但是,嘈杂数据的比例很高。构造多层基因树的过程是消除嘈杂的数据,并最终建立一个树状网络.该网络表示基因家族树的结构。

虽然MATOM算法原来的设计不是用于通过基因家族树来发现新的细菌代谢途径.但是MATOM算法成功就在于在该研究项目中通过处理基因表达数据而建立一个巨大的基因家族树。博士表示满意这个算法的性能:这导致了更多通过研究植物基因组发现高密度生物燃料的可能性。由MATOM算法构建高效表达基因的网络树奠定了解这些基因的进化和结构特性的基础可以更广泛的探索转基因在合成醇中的功能。

加大新型生物燃料的研究和产业化投入的方向已列入正在制定的中国2011-2020年的新兴能源产业发展规划中。然而,在大肠杆菌和植物中发现有效的基因是在中国发展生物燃料能源工业中关键的一步。随着新兴的生物技术,可以产生极大量基因芯片数据,不理解这些数据,就不可能利用生物技术的优势发展生物燃料产业。计算方法是处理基因数据的关键,并可以提供给科学家有关基因的重要信息。生物计算学的研究方向是利用研究基因家族树的计算方法为生物工程研究和产业化提供有力的支持。