人类基因组计划

人类基因组计划的研究现状与展望------发表日期:2004年3月30日

一、研究现状

1、人类基因组测序

1990年~1998年,人类基因组序列已完成和正在测序的***计约330Mb,占人基因组的11%左右;已识别出人类疾病相关的基因200个左右。此外,细菌、古细菌、支原体和酵母等17种生物的全基因组的测序已经完成。

值得一提的是,企业与研究部门的携手,将大大地促进测序工作的完成。美国的基因组研究所(The Institute of Genome Research, TIGR)与PE(Perkin-Elmar)公司合作建立新公司,三年内投资2亿美元,预计于2002年完成全序列的测定。这一进度将比美国政府资助的HGP的预定目标提前三年。美国加州的一家遗传学数据公司(Incyte)宣布(1998年〕,两年内测定基因组中的蛋白质编码序列以及密码子中的单核苷酸的多态性,最后将绘制一幅人的10万个基因的定位图。与Incyte公司合作的HGS(Human Genome Science)公司的负责人宣称,截止1998年8月,该公司已鉴定出10万多个基因(人体基因约为12万个),并且得到了95%以上基因的EST(expressed sequence tag)或其部分序列。

1998年9月14日美国国家人类基因组计划研究所(NHGRI)和美国能源部基因组研究计划的负责人在一次咨询会议上宣布,美国政府资助的人类基因组计划将于2001年完成大部分蛋白质编码区的测序,约占基因组的三分之一,测序的差错率不超过万分之一。同时还要完成一幅“工作草图”,至少覆盖基因组的90%,差错率为百分之一。2003年完成基因组测序,差错率为万分之一。这一时间表显示,计划将比开始的目标提前两年完成。

2、疾病基因的定位克隆

人类基因组计划的直接动因是要解决包括肿瘤在内的人类疾病的分子遗传学问题。6000多个单基因遗传病和多种大面积危害人类健康的多基因遗传病的致病基因及相关基因,代表了对人类基因中结构和功能完整性至关重要的组成部分。所以,疾病基因的克隆在HGP中占据着核心位置,也是计划实施以来成果最显著的部分。

在遗传和物理作图工作的带动下,疾病基因的定位、克隆和鉴定研究已形成了,从表位→蛋白质→基因的传统途径转向“反求遗传学”或“定位克隆法”的全新思路。随着人类基因图的构成,3000多个人类基因已被精确地定位于染色体的各个区域。今后,一旦某个疾病位点被定位,就可以从局部的基因图中遴选出相关基因进行分析。这种被称为“定位候选克隆”的策略,将大大提高发现疾病基因的效率。

3、多基因病的研究

目前,人类疾病的基因组学研究已进入到多基因疾病这一难点。由于多基因疾病不遵循孟德尔遗传规律,难以从一般的家系遗传连锁分析取得突破。这方面的研究需要在人群和遗传标记的选择、数学模型的建立、统计方法的 改进等方面进行艰苦的努力。近来也有学者提出,用比较基因表达谱的方法来识别疾病状态下基因的激活或受抑。实际上,“癌肿基因组解剖学计划(Cancer Genome Anatomy Project,CGAP”就代表了在这方面的尝试。

4、中国的人类基因组研究

国际HGP 研究的飞速发展和日趋激烈的基因抢夺战已引起了中国政府和科学界的高度重视。在政府的资助和一批高水平的生命科学家带领下,我国已建成了一批实力较强的国家级生命科学重点实验室,组建了北京、上海人类基因组研究中心。有了研究人类基因组的条件和基础,并引进和建立了一批基因组研究中的新技术。中国的HGP在多民族基因保存、基因组多样性的比较研究方面取得了令人满意的成果,同时在白血病、食管癌、肝癌、鼻咽癌等易感基因研究方面亦取得了较大进展。

首先建立了寡核苷酸引物介导的人类高分辨染色体显微切割和显微基因克隆技术;已建立的17种染色体特异性DNA文库和24种染色体区特异性DNA文库及其探针;构建了人X染色体YAC图谱,已完成了人X染色体Xp11.2-p21.3跨度的约35cM STS-YAC图谱的构建;建立了YAC-cDNA筛选技术。

目前的研究工作还包括: 疾病和功能相关新基因的分离、测序和克隆的技术和方法学的创新研究;中国少数民族HLA分型研究及特种基因的分析; 人胎脑cDNA文库的构建和新基因的克隆研究。

中国是世界上人口最多的国家,有56 个民族和极为丰富的病种资源,并且由于长期的社会封闭,在一些地区形成了极为难得的族群和遗传隔离群,一些多世代、多个体的大家系具有典型的遗传性状,这些都是克隆相关基因的宝贵材料。但是,由于我国的HGP 研究工作起步较晚、底子薄、资金投入不足,缺乏一支稳定的、高素质的青年生力军, 我国的HGP 研究工作与国外近年来的惊人发展速度相比,差距还很大,并且有进一步加大的危险。如果我们在这场基因争夺战中不能坚守住自己的阵地,那么在21 世纪的竞争中我们又将处于被动地位:我们不能自由地应用基因诊断和基因治疗的权力,我们不能自由地进行生物药物的生产和开发,我们亦不能自由地推动其他基因相关产业的发展。

二、展望

1、生命科学工业的形成

由于基因组研究与制药、生物技术、农业、食品、化学、化妆品、环境、能源和计算机等工业部门密切相关,更重要的是基因组的研究可以转化为巨大的生产力,国际上一批大型制药公司和化学工业公司大规模纷纷投巨资进军基因组研究领域,形成了一个新的产业部门,即生命科学工业。

世界上一些大的制药集团纷纷投资建立基因组研究所。Ciba-Geigy 和Ssandoz合资组建了Novartis 公司,并斥资2.5亿美元建立研究所,开展基因组研究工作。Smith Kline 公司花1.25亿美元加快测序的进度,将药物开发项目的25%建立在基因组学之上。Glaxo-Wellcome 在基因组研究领域投入4,700万美元,将研究人员增加了一倍。

大型化学工业公司向生命科学工业转轨。孟山都公司早在1985年就开始转向生命科学工业。至1997年,该公司向生物技术和基因组研究的投入已高达66亿美元。1998年4月,杜邦公司宣布改组成三个实业单位,由生命科学领头。1998年5月,该公司又宣布放弃能源公司Conaco,将其改造成一家生命科学公司。Dow化学公司用9亿美元购入Eli Lilly公司40%的股票,从事谷物和食品研究,后又成立了生命科学公司。Hoechst公司则出售了它的基本化学品部门,转项投资生物技术和制药。

传统的农业和食品部门也出现了向生物技术和制药合并的趋势。Genzyme Transgenics 公司培养出的基因工程羊能以较高的产量生产抗凝血酶III,一群羊的酶产量相当于投资1.15亿美元工厂的产量。据估计,转基因动物生产的药物成本是大规模细胞培养法的十分之一。一些公司还在研究生产能抗骨质疏松的谷物,以及大规模生产和加工基因工程食品。

能源、采矿和环境工业也已在分子水平上向基因组研究汇合。例如,用产甲烷菌Methanobacterium 作为一种新能源。用抗辐射的细菌Deinococcus radiodurans清除放射性物质的污染,并在转入tod基因后,在高辐射环境下清除多种有害化学物质的污染。

2、功能基因组学

人类基因组计划当前的整体发展趋势是什么?一方面,在顺利实现遗传图和物理图的制作后,结构基因组学正在向完成染色体的完整核酸序列图的目标奋进。另一方面,功能基因组学已提上议事日程。人类基因组计划已开始进入由结构基因组学向功能基因组学过渡、转化的过程。在功能基因组学研究中,可能的核心问题有:基因组的表达及其调控、基因组的多样性、模式生物体基因组研究等。

(1)基因组的表达及其调控

1)基因转录表达谱及其调控的研究

一个细胞的基因转录表达水平能够精确而特异地反映其类型、发育阶段以及反应状态,是功能基因组学的主要内容之一。为了能够全面地评价全部基因的表达,需要建立全新的工具系统,其定量敏感性水平应达到小于1个拷贝/细胞,定性敏感性应能够区分剪接方式,还须达到检测单细胞的能力。近年来发展的DNA微阵列技术,如DNA芯片,已有可能达到这一目标。

研究基因转录表达不仅是为了获得全基因组表达的数据,以作为数学聚类分析。关键问题是要解析控制整个发育过程或反应通路的基因表达网络的机制。网络概念对于生理和病理条件下的基因表达调控都是十分重要的。一方面,大多数细胞中基因的产物都是与其它基因的产物互相作用的;另一方面,在发育过程中大多数的基因产物都是在多个时间和空间表达并发挥其功能,形成基因表达的多效性。在一个意义上,每个基因的表达模式只有放到它所在的调控网络的大背景下,才会有真正的意义。进行这方面的研究,有必要建立高通量的小鼠胚胎原位杂交技术。

2)蛋白质组学研究

蛋白质组学研究是要从整体水平上研究蛋白质的水平和修饰状态。目前正在发展标准化和自动化的二维蛋白质凝胶电泳的工作体系。首先用一个自动系统来提取人类细胞的蛋白质,继而用色谱仪进行部分分离,将每区段中的蛋白质裂解,再用质谱仪分析,并在蛋白质数据库中通过特征分析来认识产生的多肽。

蛋白质组研究的另一个重要内容是建立蛋白质相互关系的目录。生物大分子之间的相互作用构成了生命活动的基础。组装基因组各成分间的详尽作图已在T7噬菌体(55个基因)获得成功。如何在模式生物(如酵母)和人类基因组的研究中建立自动方法,认识不同的生化通路,是值得探讨的问题。

3)生物信息学的应用

目前,生物信息学已大量应用于基因的发现和预测。然而,利用生物信息学去发现基因的蛋白质产物的功能更为重要。模式生物体中越来越多的蛋白质构建编码单位被识别,无疑为基因和蛋白质同源关系的搜寻和家族的分类提供了极其宝贵的信息。同时,生物信息学的算法、程序也在不断改善,使得不仅能够从一级结构,也能从估计结构上发现同源关系。但是,利用计算机模拟所获得的理论数据,还需要经过实验经过的验证和修正。

(2)基因组多样性的研究

人类是一个具有多态性的群体。不同群体和个体在生物学性状以及在对疾病的易感性与抗性上的差别,反映了进化过程中基因组与内、外部环境相互作用的结果。开展人类基因组多样性的系统研究,无论对于了解人类的起源和进化,还是对于生物医学均会产生重大的影响。

1)对人类DNA的再测序

可以预测,在完成第一个人类基因组测序后,必然会出现对各人种、群体进行再测序和精细基因分型的热潮。这些资料与人类学、语言学的资料项结合,将有可能建立一个全人类的数据库资源,从而更好地了解人类的历史和自身特征。另外,基因组多样性的研究将成为疾病基因组学的主要内容之一,而群体遗传学将日益成为生物医药研究中的主流工具。需要对各种常见多因素疾病(如高血压、糖尿病和精神分裂症等)的相关基因及癌肿相关基因在基因组水平进行大规模的再测序,以识别其变异序列。

2)对其它生物的测序

对进化过程各个阶段的生物进行系统的比较DNA测序,将揭开生命35亿年的进化史。这样的研究不仅能勾画出一张详尽的系统进化树,而且将显示进化过程中最主要的变化所发生的时间及特点,比如新基因的出现和全基因组的复制。

认识不同生物中基因序列的保守性,将能够使我们有效地认识约束基因及其产物的功能性的因素。对序列差异性的研究则有助于认识产生大自然多样性的基础。在不同生物体之间建立序列变异与基因表达的时空差异之间的相关性,将有助于揭示基因的网络结构。

(3)开展对模式生物体的研究

1)比较基因组研究

在人类基因组的研究中,模式生物体的研究占有极其重要的地位。尽管模式生物体的基因组的结构相对简单,但是它们的核心细胞过程和生化通路在很大程度上是保守的。这项研究的意义是:1〕有助于发展和检验新的相关技术,如大规模测序、大规模表达谱检验、大规模功能筛选等;2〕通过比较和鉴定,能够了解基因组的进化,从而加速对人类基因组结构和功能的了解;3〕模式生物体间的比较研究,为阐明基因表达机制提供了重要的线索。

目前对于基因组总体结构组成方面的知识,主要来源于模式生物体的基因组序列分析。通过对不同物种间基因调控序列的计算机分析,已发现了一定比例的保守性核心调控序列。根据这些序列建立的表达模式数据库对破译基因调控网络提供了必要的条件。

2)功能缺失突变的研究

识别基因功能最有效的方法,可能是观察基因表达被阻断后在细胞和整体所产生的表型变化。在这方面,基因剔除方法(knock-out)是一项特别有用的工具。目前。国际上已开展了对酵母、线虫和果蝇的大规模功能基因组学研究,其中进展最快的是酵母。欧***体为此专门建立了一个称为EUROFAN(European Functional Analysis Network)的研究网络。美国、加拿大和日本也启动了类似的计划。

随着线虫和果蝇基因组测序的完成,将来也可能开展对这两种生物的类似性研究。一些突变株系和技术体系建立后,不仅能够成为研究单基因功能的有效手段,而且为研究基因冗余性和基因间的相互作用等深层次问题奠定了基础。小鼠作为哺乳动物中的代表性模式生物,在功能基因组学的研究中展有特殊的地位。同源重组技术可以破坏小鼠的任何一个基因,这种方法的缺点是费用高。利用点突变、缺失突变和插入突变造成的随机突变是另一中可能的途径。对于人体细胞而言,建立反义寡核苷酸和核酶瞬间阻断基因表达的体系可能更加合适。蛋白质水平的剔除术也许是说明基因功能最有力的手段。利用组合化学方法有望生产出化学剔除试剂,用于激活或失活各种蛋白质。

总之,模式生物体的基因组计划为人类基因组的研究提供了大量的信息。今后,模式生物体的研究方向是将人类基因组8~10万个编码基因的大部分转化为已知生化功能的多成分核心机制。而要获得酶一种人类进化保守性核心机制的精细途径,以及它们的紊乱导致疾病的各种途径的知识,将只能来自对人类自身的研究。

通过功能基因组学的研究,人类最终将将能够了解哪些进化机制已经确实发生,并考虑进化过程还能够有哪些新的潜能。一种新的解答发育问题的方法可能是,将蛋白质功能域和调控顺序进行重新的组合,建立新的基因网络和形态发生通路。也就是说,未来的生物科学不仅能够认识生物体是如何构成和进化的,而且更为诱人的是产生构建新的生物体的可能潜力。