什么是大数据,它为什么重要?
大数据是更大、更复杂的数据集,尤其是来自新数据源的数据。这些数据集是如此庞大,传统的数据处理软件根本无法管理它们。但是,这些海量的数据可以用来解决以前无法解决的业务问题。
发布日期:2022年5月03日
大数据的定义是什么?
大数据是组织收集的非结构化、半结构化和结构化数据的组合,这些数据可以被挖掘为信息,并用于机器学习项目、预测建模和其他高级分析应用。
大数据通常有三个V:
•在许多环境下的大量数据;
•大数据系统中频繁存储的各种数据类型;而且
•生成、收集和处理大量数据的速度。
最近,对大数据的不同描述中还加入了其他几个V,包括准确性、价值和可变性。尽管大数据并不等同于任何特定的数据量,但大数据部署通常涉及tb、pb甚至eb的数据,这些数据是随着时间的推移创建和收集的。
大数据为什么重要?
公司在系统中使用大数据来改善运营,提供更好的客户服务,创建个性化的营销活动,以及采取其他最终可以增加收入和利润的行动。有效使用它的企业比那些没有有效使用它的企业拥有潜在的竞争优势,因为他们能够更快地做出更明智的业务决策。
以下是一些企业如何使用大数据的例子:
•在能源行业,大数据可以帮助油气公司确定潜在的钻井地点,并监控管道作业;同样,公用事业公司也用它来跟踪电网。
•金融服务公司使用大数据系统进行风险管理和实时分析市场数据。
•制造商和运输公司依靠大数据来管理他们的供应链,优化配送路线。
•其他政府用途包括应急响应、预防犯罪和智慧城市倡议。
大数据的类型
以下是大数据的类型:
非结构化
任何形式或结构未知的数据都是非结构化数据。除了庞大的规模之外,非结构化数据在从其获得价值的处理方面也带来了多重挑战。非结构化数据的一个典型例子是包含简单文本文件、图像、视频等组合的异构数据源。现在的组织拥有丰富的数据,但不幸的是,他们不知道如何从中获得价值,因为这些数据是原始形式或非结构化格式。
半结构化
半结构化数据可以包含这两种形式的数据。我们可以将半结构化数据视为一种形式上的结构化数据,但它实际上没有定义。半结构化数据的一个例子是用XML文件表示的数据。
结构化
任何能够以固定格式的形式存储、访问和处理的数据都被称为“结构化”数据。在过去的一段时间里,计算机科学方面的人才在开发处理这类数据的技术方面取得了更大的成功(在这些数据中,格式是预先知道的),并从中获得价值。然而,如今,当这样的数据的大小增长到一个巨大的程度时,我们可以预见到一些问题,典型的大小在多个zettabytes。
大数据如何运作?
大数据给你新的见解,打开新的机会和商业模式。开始行动包括三个关键行动:
1.集成
大数据汇集了来自许多不同来源和应用程序的数据。传统的数据集成机制(如提取、转换和加载(ETL))通常不能胜任这项任务。它需要新的策略和技术来分析tb甚至拍字节规模的大数据集。在集成期间,您需要引入数据,对其进行处理,并确保数据以业务分析师可以开始使用的形式进行格式化和可用。
2.管理
大数据需要存储,您的存储解决方案可以在云端,也可以在本地,或者两者兼而有之。您可以以任何形式存储数据,并根据需要将所需的处理需求和必要的流程引擎带到这些数据集。许多人根据数据的当前位置来选择存储解决方案。云逐渐受到欢迎,因为它支持当前的计算需求,并使您能够根据需要旋转资源。
3.分析
当你分析和处理你的数据时,你在大数据上的投资会得到回报。通过对各种数据集的可视化分析,获得新的清晰度。进一步探索数据,以获得新的发现。与他人分享你的发现。使用机器学习和人工智能建立数据模型。让你的数据发挥作用。
总结
•大数据(Big Data):大数据是指非常庞大的数据。这是一个用来描述数据集的术语,它的规模巨大,但随着时间的增长呈指数级增长。
•大数据可以是:非结构化、半结构化、结构化。
•大数据的特点:量、品种、速度。
于2022年5月03日发布
来源:TechTarget来源:Guru99来源:甲骨文