大数据正在改变我们今天的科学的方式。传统上,数据是手工测量,科学家收集使用显微镜或调查。这些数据可以用手或用简单的统计分析软件在PC上。
大数据改变了这一切。这些天,巨大数量的信息生成和收集通过新技术,无论是大型望远镜阵列,DNA测序仪或Facebook。
数据是巨大的,但数据的类型和格式也新。考虑每小时点击Facebook,或每日在谷歌上搜索。因此,大数据为科学家们提供了执行强大的能力分析和作出新的发现。
问题是,大数据还没有改变了许多研究者提出的科学问题。特别是在生物学,基因组测序等工具生成大量的数据,生物学家可能没有问正确的问题,大数据可以回答。
问题
问问题是科学家做的。生物学家问生活的世界,比如“有多少种?”或“老鼠之间的进化关系,蝙蝠和灵长类动物吗?”
我们问问题的方式说了很多关于我们使用的类型的信息。例如,分类学家像我这样学习的多样性和生物在进化历史上的许多物种之间的关系。
我们倾向于使用物理特性,如牙齿和骨骼,对哺乳动物分为分类组进行分类。这些共同特性使我们能够识别并确定现有的新物种。
进入大数据,和廉价的DNA测序技术。现在分类学家获得新形式的信息,如全基因组,它已经大大改变了我们所做的系统误差。但这并没有改变许多分类学家框架问题的方式。
生物学家预计从大数据大事情,但是他们发现它最初只有这么多了。而不是找出这些限制是什么以及如何塑造我们的问题,对此,许多生物学家收集越来越多的数据。简而言之:科学家一直吸引了大小。
规模很重要
量往往被视为成功的基准。你有越多,你的学习就会越好。
这种想法源于与公正的完整数据集抽样的理想主义的观点。统计学家称之为“n =所有”,代表一个数据集,其中包含的所有信息。
如果所有可用的数据,那么科学家们不会有数据缺失或损坏的问题。一个真实世界的例子是一个完整的基因组序列。
在所有的数据会告诉我们一切,对吗?不完全是。
下一篇:如何写科学呢 通过互联网的东西
责任编辑:admin