数据准备工具:您的分析策略秘密武器

发布时间: 2022-10-18 10:11:12

要从数据分析中获得好处,首先必须准备正确的数据。对于许多企业来说,这是一个很大的瓶颈,根据Gartner最新研究,整个数据分析过程中,多达70%的时间都集中在数据准备任务上。

 

“及时地查找、访问、清理、转换和共享数据,仍然是数据管理和分析中最耗时的障碍之一。”Gartner数据分析团队高级分析师、Gartner数据准备工具市场指南的主要作者Ehtisham Zaidi说。

 

Hitachi Vantara首席营销官Jonathan Martin说:“对于希望通过数据分析来转变业务的企业而言,主要问题不在于掌握人工智能,而在于掌握数据管道。”

 

他认为,数据准备是最具挑战性的工作。“我如何确定所需要的数据在哪里?我可以建立一个投资组合吗?我是否可以设计管道,以自动、托管和受管的方式将所有的数据连接在一起,从而使我们能够将这些数据用在正确的时间、位置,以及合适的人、合适的机器?”

 

本文深入研究数据准备为何仍是重中之重的原因,新一代数据准备工具的特点,以及为企业选择数据准备工具时需要注意的问题。

   

 
01数据准备难在哪里?

多种因素加剧了数据准备的难度。

 

首先,分析计划所需的数据源和数据类型的数量和复杂性呈指数级增长。访问这些数据,包括企业内部和外部的数据源,需要大量的时间、资源、技能和工具。

 

“这是当今时代数据环境的复杂性。”IDC数据集成和完整性软件服务研究主管Stewart Bond说。“有多种不同的数据类型:事务性数据、主数据、社交媒体数据、结构化数据、非结构化数据、日志文件数据、图形数据。有各种各样的数据,也有各种各样的技术来储存这些数据。”

 

其次,对自助访问数据和集成的请求数量猛增,让IT团队不堪重负——这是集中式IT模型和数据集成不再有用的一个迹象。“IT部门需要通过易于用户使用和理解的工具来配置数据访问额集成,这是对数据准备的需求进一步上升的原因。”Zaidi说。

 

第三,数据需求不断变化。业务分析师、业务用户、数据工程师和数据科学家等等不同的角色都有不同的数据需求。这提高了数据准备的难度,我们需要让一次数据准备满足不同角色不断变化的需求。

 
02新一代数据准备工具

随着数据准备工具的成熟,痛点已经大大改变。过去的痛苦在于连接哪些数据源和准备哪些数据;现在的企业主要关注数据治理、沿袭、可跟踪性和质量。他们还需要确保具有必要技能的人员,能够使用数据准备工具访问正确的数据。

 

Bond将此归结为“数据智能”问题——关于数据的元数据。“了解数据的位置、数据的含义、谁在使用它、谁可以访问它、为什么我们拥有数据、需要多长时间保存数据以及人们如何使用它,这是一种智能。”他说。

 

值得庆幸的是,数据准备工具市场正在不断发展,出现了解决上述问题的新功能。上一代工具仅限于支持业务用户所需的简单数据转换,如今的新一代工具,具有与IT团队共享结果和准备模型的功能,以及诸如数据编录之类的数据管理功能,使用户能够查看和搜索互联的数据资产。

 

Zaidi说:“某些工具现在还嵌入了高级数据质量功能,这些是上一代工具所没有的。”这些功能包括性能分析、标记、注释、重复数据删除、模糊逻辑匹配、链接和合并功能。这些功能使IT和数据管理团队可以更轻松地提高数据质量并确保数据治理的合规性,让数据更好地适用各种模型。

 

在这里,机器学习(ML)是关键。基于ML的功能不仅可以使数据的匹配、联接、分析、标记和注释自动化,而且一些工具可以突出显示敏感属性、异常和异常值,并与元数据管理和治理工具协作,以防止敏感数据被公开。

 

Zaidi解释说:“这些机器学习增强的数据准备工具,允许不同技能水平的用户采用数据准备,同时确保治理和合规性。”

   

 
03数据准备难在哪里?

当评估数据准备工具时,Zaidi认为企业应该寻找如下关键功能:

 

•数据摄取和分析。寻找一种可视化环境,使用户能够交互式地摄取、搜索、采样和准备数据资产。

 

•数据分类和基本元数据管理。工具应支持您创建和搜索元数据。

 

•数据建模和转换。工具应支持数据混搭和混合、数据清理、过滤以及用户定义的计算、组和层次结构。

 

•数据安全。工具应包括安全性功能,例如数据屏蔽、平台身份验证以及用户/组/角色级别的安全性筛选。

 

•基本数据质量和治理支持。数据准备工具应与支持数据治理/管理以及数据质量、用户权限和数据沿袭功能的工具集成。

 

•数据充实。工具应支持基本的数据丰富功能,包括实体提取和从集成数据中捕获属性。

 

•用户协作和运营。这些工具应有助于共享查询和数据集,包括发布、共享和推广具有治理功能的模型,例如数据集用户评分。

 

此外,Zaidi还强调了要寻找的以下差异化功能:

 

•数据源访问/连接。工具应具有基于API和基于标准的连接性,包括对云应用程序和数据源的本地访问,例如流行的数据库PaaS和云数据仓库、本地数据源、关系和非结构化数据以及非关系数据库。

 

•机器学习。工具应支持使用机器学习AI来改善甚至自动化数据准备过程。

 

•混合和多云部署选项。数据准备工具需要支持云、本地或混合集成平台设置中的部署。

 

•特定领域或垂直领域的产品或模板。工具应提供针对特定领域或垂直领域的数据和模型的打包模板或产品,以加快数据准备时间。

 

请注意,您必须考虑的首要问题之一是:选择独立的数据准备工具,还是选择将数据准备嵌入到更广泛的分析/BI、数据科学或数据集成工具中的供应商。如果您有一个通用的用例,它依赖于一系列分析/BI和数据科学工具的数据集成,那么可以考虑使用独立的工具。另一方面,如果只需要在特定平台或系统中准备数据,那么使用这些工具的嵌入式数据准备功能可能更有意义。

 

来源:Thor Olavsrud

来源:https://www.fxiaoke.com/crm/information-6491.html