7.3 大数据

1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一节中,将大数据热情地赞颂为"第三次浪潮的华彩乐章"。大约从2009年开始,“大数据”成为互联网信息技术行业的流行词汇。“大数据",或称巨量数据集,是一个体量特别大,数据类别特别剧大的数据集,大到无法透过传统的软件工具,在合理时间内获取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

大数据是海量、高增长率和多样化的信息资产,最重要的现实是对大数据进行处理与分析,只有通过分析才能获取更多智能、深入、有价值的信息,可以说是决定最终信息是否有价值的决定性因素。

实现这一目的至少要经过4个步骤: 数据采集、数据导入/预处理、数据统计/分析、数据挖掘,每个步骤都隐藏着巨大的工作量和价值意义。

全球零售业巨头沃尔玛在对消费者购物行为进行大数据分析时发现,男性顾客在购买婴儿尿片时。常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的销售手段,没想到大获成功。现如今该案例已成为大数据技术应用的经典案例,被人津津乐道。2009年Google通过分析5000万条美国人最频繁检索的词汇,将之和每个疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立起一个特定的数学模型。最终Google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。

人类基因组测序能够揭示致病甚至致命的突变,帮助人群进行健康管理,帮助科学家研发致病机理和技术手段,帮助医生优化用药和治疗方案。但个体基因组数据却不是一个小数目,一个人的基因组由30亿个碱基组成,而这三十亿碱基里面只有2-3%的碱基是表达基因的(泛外显子区域),另外,人类有99. 5%以上的DNA是相同的,也就是测序之后必须通过挖掘和分析找到可能还不到 0.1%的差异才能够用来评估或治疗许多疾病,包括癌症,为了满足数据挖掘和严格分析所需要的测序覆盖度,往往要获取几十倍甚至上百倍的个人数据才能达到目的。因此,研究人员必须进行大量的挖掘和严格的分析才能在巨大的数据库中窥探到自己所需的信息。随着生物科技和医疗技术的迅猛发展,高通量测序手段的成熟,生物医疗行业的大数据急剧膨胀,不同的解析策略可能得出丰富的结果。

基因组数据是人类健康数据的基础,如果每个个体都能有一个自己的基因组数据,将对个人健康的个性化预测,预防,干预有着重要的实际作用。随着测序成本的逐年下降,基因组数据将结合个人的其他的生物、心理、生化、日常生活和环境数据的监测与分析,将为 "精准医疗”打下坚实的基础,也为计算科学带来了巨大挑战。