什么是大数据,为什么大数据很重要?
什么是大数据?
大数据是由组织收集的非结构化、半结构化和结构化数据的组合,可用于机器学习项目、预测建模和其他高级分析应用程序。
大数据通常用三个V来描述:
- 在许多环境中发现的大量数据;
- 大数据系统中频繁存储的各种数据类型;和
- 数据生成、收集和处理的速度。
最近,在对大数据的不同描述中加入了其他几个V,包括准确性(veracity)、价值(value)和可变性(variability)。虽然大数据并不等同于任何特定的数据量,但随着时间的推移,大数据部署通常涉及创建和收集的tb级、pb级甚至eb级数据。
为什么大数据很重要?
公司在他们的系统中使用大数据来改善运营,提供更好的客户服务,创建个性化的营销活动,并采取其他行动,最终可以增加收入和利润。有效使用它的企业比那些不使用它的企业拥有潜在的竞争优势,因为它们能够做出更快、更明智的商业决策。
以下是企业如何使用大数据的更多例子:
- 在能源行业,大数据帮助石油和天然气公司确定潜在的钻井位置并监控管道运行;同样,公用事业公司也用它来跟踪电网。
- 金融服务公司使用大数据系统进行风险管理和实时分析市场数据。
- 制造商和运输公司依靠大数据来管理供应链和优化配送路线。
- 政府的其他用途包括应急响应、预防犯罪和智慧城市倡议。
大数据的类型
以下是大数据的类型:
非结构化
任何形式或结构未知的数据都称为非结构化数据。除了规模巨大之外,非结构化数据在从中获取价值的处理方面也面临着多重挑战。非结构化数据的一个典型例子是包含简单文本文件、图像、视频等组合的异构数据源。现在,组织拥有大量的数据,但不幸的是,由于这些数据是原始形式或非结构化格式,他们不知道如何从中获取价值。
半结构化
半结构化数据既可以包含非结构化数据,也可以包含结构化数据。我们可以看到半结构化数据在形式上是结构化的,但实际上没有定义。半结构化数据的一个例子是用可扩展标记语言(XML)文件表示的数据。
结构化
任何可以以静态和不可更改的数据(例如“固定格式数据”)的形式存储、访问和处理的数据都称为“结构化”数据。计算机处理能力已经发展到包括处理这类数据的技术,这些数据的格式是众所周知的,并且预先设置好了。如今,此类数据的大小已经增长到典型的大小在多个zb范围内。
大数据是如何工作的?
大数据给你新的见解,开辟新的机会和商业模式。开始包括三个关键动作:
- 集成
- 管理
- 分析
大数据汇集了来自许多不同来源和应用程序的数据。传统的数据集成机制,如提取、转换和加载(ETL)通常不能胜任这项任务。它需要新的策略和技术来分析太字节甚至拍字节规模的大数据集。在集成期间,您需要引入数据、处理数据,并确保对其进行格式化,并以业务分析人员可以开始使用的形式提供数据。
大数据需要存储,您的存储解决方案可以在云中,也可以在本地,或者两者兼而有之。您可以以所需的任何形式存储数据,并根据需要将所需的处理需求和必要的处理引擎添加到这些数据集。许多人根据数据当前所在的位置选择存储解决方案。云正在逐渐普及,因为它支持您当前的计算需求,并使您能够根据需要增加资源。
当你对数据进行分析并采取行动时,你对大数据的投资就会得到回报。通过对各种数据集的可视化分析,获得新的清晰度。进一步探索数据以获得新的发现。与他人分享你的发现。用机器学习和人工智能构建数据模型。让你的数据发挥作用。
总结
- 大数据:大数据是指规模巨大的数据。它是一个术语,用于描述规模巨大且可能随着时间呈指数级增长的数据集合。
- 大数据可以是非结构化、半结构化或结构化。
- 大数据特点:体量大、种类多、速度快。