文档章节

生物大数据 “行路难”

灵玖lingjoin
 灵玖lingjoin
发布于 2014/08/13 16:16
字数 1993
阅读 6
收藏 0
        虽然我国数据产生量很大,但是生物大数据与国外相比仍比较落后。

  世界杯预测、高考预测、当前哪种男性最受欢迎……这些大家所熟悉的分析都用到了大数据,但是很少人知道,大数据早将“手”伸到了生物医学领域,开始了疾病预测。

  欧美国家对生物领域发展大数据十分重视。今年3月,英国宣布,英国医学研究理事会(MRC)将投资3200万英镑资助首批5大项目,来提高医学生物信息学的能力、产能和核心基础设施。这项“医学生物信息学计划”预计总投资5000万英镑,将通过建立耦合复杂生物数据和健康记录的新方法,来解决关键的医学难题。

  早在2012年3月,美国奥巴马政府就宣布推出“大数据的研究和发展计划”,将大数据提升到了国家战略层面,承诺将投资两亿多美元。2014年,美国政府就如何充分利用生物医学大数据,又启动了Big Data to Knowledge计划。

  虽然我国企业也频频在大数据上有所动作,但是上海生物信息技术研究中心主任、中科院上海生命科学研究院生物信息中心主任李亦学对《中国科学报》记者指出:“虽然国内大数据在其他方向的发展远超国外,但是生物大数据与国外相比仍比较落后。”

  没有免费的午餐

  生物大数据发展相较国外落后,并不是因为没有数据量产生。

  据我国最早从事理论生物学和生物信息学研究的科研人员之一、中国科学院院士陈润生介绍,以华大基因为代表的基因测序机构为生物大数据的产生作出重要贡献。

  华大基因当前的测序量大约占据国际数据量的40%左右,而且随着技术发展和测序手段成本的下降,几乎所有的研究型大学和研究单位,无论是在农业、林业还是医学,都对基因测序有所涉及。

  “基因组层面的生物大数据的发展带动了蛋白质组、代谢组、生物网络等各个层级的相关生物大数据的海量产生,但是我国当前还未能建立统一的生物数据信息中心。”陈润生指出。

  李亦学也认为,生物大数据滞后于国外的最根本原因在于我国没有大型的综合生物大数据库,也没有生物大数据中心平台。

  这意味着,我国开展研究时只能向国外的大数据库“求助”。虽然这些大数据库都宣称,只要递交申请就可免费共享数据,但是,天下并没有免费的午餐。

  记者了解到,国际一些大型生物学数据库要求数据使用申请者提交详细的数据使用说明,即使数据库中已存有我国科学家所提交的相当规模的数据,但想再取出使用却绝非易事。

  李亦学称:“免费共享数据仅是从理论上而言,实际核心数据不会及时交给申请者,内行会发现获得的数据都是非核心的或不完整的。临床医学相关的大数据库则有专门委员会来审核数据申请者,如果拒绝申请,也不会给出理由。”

  因此,为了具备拿数据的资格,我国科学家们常需反复准备申请材料,却往往再也没有下文。“受制于人,非常恼火。”李亦学感叹道。

  建大平台遇“难题”

  国家级生物数据库的建立,往往带有公益色彩,需要有长期稳定的投入和专业的技术队伍。据专家介绍,上世纪90年代,我国有关部门已考虑建立国家层面的数据中心,但直到现在,仍未讨论出具体的实施方案。

  那么,为何数据中心迟迟未能建立?

  李亦学向记者算了一笔账,英美国家对数据库的建立投入了很多资金,引进的人才大部分有博士学位,每年的费用都由国会拨款支持,来源比较稳定,一年约需投入1亿美元。

  “我国如果建立一个类似的生物大数据中心,应该也要有数百人的编制和每年几亿元的长期稳定投入。这笔钱如果由政府支付,障碍仍然不小。”李亦学分析。

  陈润生也指出,建立一个国家层级的数据平台虽然在科学界是共识,但是这个中心建立的地点、呈现的方式(实体还是虚拟)、囊括的内容、涉及的权利范围以及怎么管理、由谁来管理都有很多不同的方案。

  在这样的形势下,不能集中精力、统一调配全国的生物数据成了一道难题。

  “用基因组数据得跟华大商量,用蛋白数据得跟其他人商量,小数据中心虽然有,但都是各自的,没有统一的协调管理。没有全国的生物数据中心,则无法统筹。”陈润生道出了难处。

  同时,我国生物数据虽然产出量大,但利用率远远不够。尽管产生的数据提供了很好的信息,但是挖掘其全部价值还牵扯到很多方面。如数据量很大,能否在短时间内分析和挖掘其价值是个问题。

  而且,大数据产生后需要相应的理论、技术和方法来跟进,也需要新的工具和方法。业内人士指出,国内现有的生物大数据分析能力虽然与欧美相差不大,但是在数据分析构架、软件系统与先进的IT技术接轨上有待提升。

  植根中国“土壤”

  李亦学指出,生物大数据虽然面临这些障碍,但是可以靠“抓目标、强合作”追上国际的脚步。

  他认为,中国发展生物大数据的优势在于有海量样本。

  当下应该做的,就是保护国内的生物数据资源并且寻找有价值的利用方向。

  “一是要明确生物大数据发展的目标和途径,二是敞开胸怀和国内的研究单位合作,将生物大数据这项事业做好。”李亦学强调。

  例如,我国目前实行的医联工程在上海地区已经取得了一些成果。

  三甲医院和社区医院把就诊居民的就诊记录和健康档案全部联网,建立了数据库体系,包含了3400万份电子病历和档案。

  李亦学表示,在征得病人同意后调用健康档案和检查结果,既提高了看病效率,又不会妨碍隐私保护,像小水珠一样的数据最终也能汇聚成汪洋大海,有益于生物大数据这项国家战略资源的保护与利用。

  陈润生也指出,生物大数据发展应该脚踏实地,植根于中国的“土壤”,挖掘自身特色。

  “中国的物种自身具备多样的特点,完全有可能形成有特色的生物大数据体系。在这样的形势下,瞅准问题,发展生物大数据的目的性更强一些,这才是我们要关注的。”陈润生说。

 

 



© 著作权归作者所有

灵玖lingjoin
粉丝 86
博文 2880
码字总数 4066035
作品 0
东城
私信 提问
贵州将建设“两大一超”项目深化大数据应用

27日贵州省科学技术厅与贵州省贵安新区日前签署深化大数据战略合作协议,在贵安新区共同建设“两大一超”项目,推进高性能计算领域、生物医学领域和天文大数据领域的科技基础设施建设。 记...

玄学酱
2018/03/02
0
0
【2017.8.19-20●上海】理论+实战:玩转R语言

随着生物信息、临床诊断等各个领域的信息化发展,大数据的分析与管理已经成为这个时代必然面对的机遇和挑战。数理统计学作为研究“数据智能”的科学,在数据科学领域扮演者越来越重要的角色。...

慧算学院
2017/06/06
77
0
【2017.8.19-20●上海】理论+实战:玩转R语言

随着生物信息、临床诊断等各个领域的信息化发展,大数据的分析与管理已经成为这个时代必然面对的机遇和挑战。数理统计学作为研究“数据智能”的科学,在数据科学领域扮演者越来越重要的角色。...

慧算学院
2017/06/06
32
0
Cell研究揭示生物神经元新特性,是时候设计更复杂的神经网络了

     大数据文摘作品   编译:Zoe Zuo、惊蛰、夏雅薇   深度学习(DL)或者人工神经网络(ANN)模拟了生物神经元?   这是个很大的误解。   ANN充其量模仿了一个1957年面世的低配...

大数据文摘
2018/05/10
0
0
两会聚焦 | 各地人大代表对于大数据都关心什么?

来源:网络大数据 两会的召开,各地人大代表针对各个领域、行业、产业纷纷提出了许多具有高价值的议题。针对不同地区的情况与发展势态,各地代表对于大数据的运用与发展也有着不同的意义和见...

人工智能学家
2019/03/09
0
0

没有更多内容

加载失败,请刷新页面

加载更多

NASA的10条编码规则

关于NASA的10条编程规则,他们曾表示:这些规则的作用就像汽车上的安全带:最初,它们可能有点不舒服,但过了一会儿,它们的使用就变成了第二天性,而没有使用它们就变得不可想象。 Gerard J...

京东云技术新知
2分钟前
12
0
TortoiseSVN图标未显示在Windows 7下

我似乎无法在Windows 7下显示图标,我真的很想念Windows XP。 怎么修好? #1楼 他们在这里展示得很好 您使用的是64位版本的Windows 7以及32位版本的TortoiseSVN吗? 如果是这样,那么它们只会...

javail
26分钟前
43
0
开源播放器

DPlayer

glen_xu
33分钟前
134
0
gitlab Error:Gitaly - load linguist colors - permission denied

报错信息 2020-01-20_14:35:08.43180 time=“2020-01-20T14:35:08Z” level=info msg=“Starting Gitaly” version=“Gitaly, version 0.81.0, built 20180225.183225” 2020-01-20_14:35:0......

JennerLuo
40分钟前
125
0
微信小程序的自动化测试框架

微信发布了小程序的自动化测试框架Minium,提供了多种运行验证方式,其特点: 支持一套脚本,iOS & Android & 模拟器,三端运行 提供丰富的页面跳转方式,看不到也能去得到 可以获取和设置小...

测者陈磊
52分钟前
84
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部