教育工作者和研究者已经开发出从大数据中提取价值的5种主要的技术。
预测(Prediction)——觉知预料中的事实的可能性。例如,要具备知道一个学生在什么情况下尽管事实上有能力但却有意回答错误的能力。
2.聚类(Clustering)——发现自然集中起来的数据点。这对于把有相同学习兴趣的学生分在一组很有用。
3.相关性挖掘(Relationship Mining)——发现各种变量之间的关系,并对其进行解码以便今后使用它们。这对探知学生在寻求帮助后是否能够正确回答问题的可靠性很有帮助。
4.升华人的判断(Distillation for human judgment)——建立可视的机器学习的模式。
5.用模式进行发现(Discovery with models)——使用通过大数据分析开发出的模式进行“元学习”(meta-study)。
实施这些技术就能够通过大数据来创建为提高学生成绩提供支持的学习分析系统。研究者们相信这些技术将帮助教育工作者更加有效地指导学生朝着更加个性化的学习进程迈进。
总而言之,通过大数据进行学习分析能够为每一位学生都创设一个量身定做的学习环境和个性化的课程,还能创建一个早期预警系统以便发现开除和辍学等潜在的风险,为学生的多年学习提供一个富有挑战性而非逐渐厌倦的学习计划。因此,有识之士经预言未来的学习将是大数据驱动的新时代。我们应该积极迎接这个新时代,通过大数据来分析学习,进一步改善教学的方式与方法,进一步促进学生学习成绩的提高。
然而现在,是时候让我们自己停止对设备效率上的担心而应该更加关注于数据本身效率的提升。
然而,除了设备的制造商们,还有谁更在乎设备本身?关注数据本身才是王道。是时候通过系统的增加智能服务来调整日常硬件设备了,这样我们可以更加专注于如何从数据中发掘出更多的价值。数据效率的意思正如其名那样,让我们所需要的数据更加方便的访问、使用和管理。这样可以让我们更加能够从中挖掘出数据的信息,这当然也是IT生产的本质。
在存储世界里,重复数据删除技术一直作为最热门的效率启动装置,连同自动精简配置技术、快照技术、虚拟化技术、多路延时技术以及数据压缩技术一同出名。它们中有些还比较新,有些则看起来出现过较长的时间。作为技术本身而言,它们都非常的重要。然而当将话题仅局限于让数据更有效时,我们更重要的应该去考虑是为什么而不是怎么办。比如说,大多数重复数据删除技术都是为备份操作而设计的,而并不是基于数据存储的操作。我们现在谈论的话题是让数据备份变得更有效率,但我们同时也需要知道的是,这仅代表了IT行业潜在价值中极小的一部分。
在过去的五年左右时间里,我们都做的不错,我们已经让我们的系统能够更为高效的存储和管理数据。我们可以对我们的物理存储设备进行自动精简配置(虚拟化)操作,这样就可以最大程度上挖掘其对用户的贡献。此外我们还是用快照技术来“虚拟化”数据。我们通过多路延时技术,使得对物理设备的访问达到最有效率。所有的这些听起来都是很不错的,然而新技术本身有着更为深远的功效,它们的存在可以发挥出更大的贡献。
数据压缩技术
数据压缩技术已经存在了一段时间,但却是在最近才开始它的复兴之旅。基本的数据压缩技术正在改变着用户所追求的效率最大化的方向。这是因为当用户能创造更有价值数据的时候,他们本身也获得着更多的价值。试想一下:如果用户初始备份的数据时100GB大小,备份了x次,到最后的时候,用户所备份的数据时 100GB大小的初始数据以及此外的备份数据。具有重复数据删除功能的备份软件有EMC公司的Data Domain,花费了大量的时间在100倍的消重比率上。当然在企业组织内的数据创建和备份间,原始数据还有其他的用途,比如像用于测试、开发或者数据仓储等等。
越早的能开始实施数据的优化越好,也是关键。从这样的角度出发,顺势而下,所有的优势也都显而易见。如果能尽早的进行数据优化,就能有更少的数据需要移动、与之相关的管理工作也随之越来越少、拷贝的数据也越来越少、复制的也是、需要备份的越来越少,需要被改变的也越来越少。总而言之,这就是意义所在。
我并不是一个天才,但是在我看来,最有效率完成这一切的方法就是协调好手中所有的相关资源。首先,尽可能的需要对数据进行压缩。通过实践证明,对于任何类型的数据来说,都可以被压缩至少50%的数据,包括数据库文件。此外,对现有数据实施消重操作。用户在压缩完数据后都可以进行消重操作。人们并不希望将所有的数据进行消重,其实这没有关系,只要选择那些你想进行消重操作的就好了。这也是最好的选择。
之后就对其进行快照操作,然后进行自动精简配置操作再拷贝出来,一句话的意思就是利用能使用的技术来让数据变得更为有效率。至少能保证我们是在优化这些数据,这样也是让数据变得越来越有效率。
最有技术含量的地方是在于实时数据压缩的时候不再被20年前的性能问题所困扰。如今这些都可以实现了。事实上我们使用了一些特殊的方法和大量的资金投入了研发领域,来专门攻克这方面的难题。仿佛这一些就是注定要发生。
将数据存储调优的价值针线从没有生机的一端穿向生机勃勃的一端不可避免的让数据再其生命周期里以最好的方式体现了它的价值。因为任何时候当数据被使用的时候,或者不管这些数据存放在任何地方,这些价值都会被体现出来。