如今,人们生活和工作在越来越以数据为中心的业务环境中,而数据推动着科技领域的重大变革。从在工业环境中部署物联网设备到遵循欧盟的GDPR法规,“大数据”如今成为了各行业组织的数字化转型项目的核心。
大数据对于各种规模的组织来说都是一个重大挑战。而组织需要采用大数据技术挖掘潜力、平滑流程、提高效率,以及为最终用户提供服务。
人们使用“大数据”这一术语来指代位于其业务核心的大量信息。这些数据太大、太复杂且难以使用传统方法处理,因此希望利用大数据技术的组织必须使用更强大的分析工具。采用这些工具将确保组织能够处理和存储基于数据收集的数据,并实时生成结果。
大数据项目的关键要素包括数据存储、数据挖掘、数据分析和数据可视化,并且每一种关键要素都为组织提供了各种创新技术和高科技工具。
1.数据存储
以云计算为中心的存储工具是确保组织能够存储更多数据的关键,它提供了多种选项,能够让组织以安全且可访问的方式保存数据。
- Hadoop
这是一个开放源代码平台,通常通过集群存储大量数据集。Hadoop同时支持结构化和非结构化数据以及可扩展性,因此对于那些可能需要在短时间内需要额外容量的组织来说,这是一个不错的选择。该平台还可以无延迟地处理大量任务。总体而言,对于需要开发人员资源的组织来说,采用Java是一个不错的选择。
- MongoDB
对于结合使用半结构化数据和非结构化数据的组织来说,MongoDB非常有用。例如,开发移动应用程序的组织可能需要存储与产品目录相关的数据,或者用于实时存储个性化的数据。
- RainStor
Rainstor不仅可以简单地存储大数据,还可以对数据进行压缩和重复数据删除,其压缩比例甚至高达40:1。在压缩过程中不会丢失任何数据集,因此,如果组织要利用存储节省的优势,这是一个很不错的选择。Rainstor在Hadoop中是本地可用的,它使用SQL来管理数据。
2.数据挖掘
在数据存储之后,组织需要投资购买工具以帮助其找到要分析或可视化的信息。其中最重要的三个工具将帮助组织提取所需的数据,而无需人工处理所有数据(如果处理数千条或更多记录,对于人类来说无论如何都无法完成这项任务)。
- SPSS Modeler
IBM公司推出的SPSS Modeler可用于通过其可视界面而不是通过编程来构建预测模型。它涵盖了文本分析、实体分析、决策管理和优化,并允许在整个数据集中挖掘结构化和非结构化数据。
- KNIME
KNIME是一个可扩展的开源解决方案,具有1,000多个模块,可帮助数据科学家挖掘新见解,进行预测并从数据中发现关键点。文本文件、数据库、文档、图像、网络,甚至是基于Hadoop的数据都可以读取,因此,如果数据类型混合在一起就是一个完美的解决方案。它具有广泛的算法和社区贡献,可提供全套的数据挖掘和分析工具。
- RapidMiner
RapidMiner是一种开源数据挖掘工具,它使客户可以使用模板而不用编写代码。对于没有特定资源的组织或正在寻找挖掘数据工具的组织,这使其成为一种有吸引力的选择。还提供了一个免费版本,尽管它仅限于1个逻辑处理器和10,000个数据行。该工具还提供了用于机器学习、文本挖掘、预测分析、业务分析的环境,以帮助整个过程。
3.数据分析
组织如何得到需要的数据?现在是寻求强大的工具对数据进行分析的时候了,以收集对组织的业务、客户或整个世界的关键见解。以下是一些主流的数据分析工具。
- Apache Spark
Apache Spark也许是最著名的大数据分析工具之一,它将大数据放在一切工作的最前沿。它是开源的、有效的,可以与所有主要的大数据语言一起使用,包括Java、Scala、Python、R和SQL。它也是应用最广泛的数据分析工具之一,适用于各种规模的公司,从小型公司到公共部门以及苹果、Facebook、IBM和微软等科技巨头。
Apache Spark使数据分析更进一步,允许开发人员在一个地方使用大规模SQL、批处理、流处理和机器学习,以及图形处理。它也非常灵活,在Hadoop(最初是为Hadoop开发的)、Apache Meso、Kubernetes上运行,并单独作为独立的平台或者在云中运行,使它适合各种规模和所有行业的企业。
- Presto
与Apache Spark一样,Presto是一个开源工具,可以使用分布式SQL查询,设计用于对数据运行查询,并作为一个强大的交互式分析引擎。它支持两种非关系型数据源,如Hadoop分布式文件系统(HDFS)、Amazon S3、Cassandra、MongoDB和HBase,以及关系型数据源,如MySQL、PostgreSQL、Amazon Redshift、Microsoft SQL Server和Teradata,使其成为操作这两种数据库的企业的有用工具。
它也被Facebook等大公司使用。事实上,社交网络是其发展的主要贡献者,而Netflix、Airbnb和Groupon也参与了其发展,使其成为全球最强大的数据分析工具之一。
- SAP HANA
数据分析只是SAP HANA平台的一个方面,但它的功能非常出色。SAP HANA支持来自同一地点的文本、空间、图形和系列数据,并与Hadoop、R和SAS集成,以帮助组织根据宝贵的数据见解快速做出决策。
- Tableau
Tableau结合了数据分析和可视化工具,可以通过服务器或在线使用。其在线版本非常注重协作,这意味着员工可以轻松地与组织中的其他人分享其发现。交互式可视化使每个人都能轻松理解信息,并且通过Tableau Cloud的完全托管选项,并且不需要任何资源来配置服务器、管理软件升级或扩展硬件容量。
- Splunk Hunk
Splunk Hunk是一个装备齐全的数据分析工具,可以生成图表和数据的可视化表示,所有这些都可以通过一个仪表板进行管理。可以通过Splunk Hunk的界面查询原始数据,而图形、图表和仪表盘可以通过其界面快速创建和共享。它也适用于其他数据库和商店,其中包括Amazon EMR、Cloudera CDH和Hotronworks数据平台等。
4.数据可视化
并非每个人都擅长从数据点列表中获取关键见解或理解其含义。展现数据的最佳方式是将其转化为数据可视化,以便每个人都能理解它的含义。以下是一些顶级数据可视化工具:
- Plotly
Plotly支持从使用JavaScript、Python、R、Matlab、Jupyter或Excel分析的数据创建图表、演示文稿和仪表板。其强大的可视化库和在线图表创建工具使它非常简单,可以使用高效的导入和分析GUI创建美观的图形。
- DataHero
DataHero是一个简单易用的可视化工具,它可以从各种云计算服务中提取数据,并将数据注入图表和仪表板中,使组织更容易理解见解。由于不需要编程,因此适合没有雇佣数据科学家的组织使用。
- QlikView
通过提供的一套功能,QlikView允许其用户使用自助服务工具从各种数据源创建数据可视化,而无需建立复杂的数据模型。组织可以在自己的分析平台上运行QlikView,提供直观的可视化功能,其平台可以与其他人共享,因此根据数据显示的趋势做出的决策可以是协作的。
更高级的功能允许将QilkView的可视化分析嵌入到应用程序中,而仪表板可以引导使用者生成分析报告,而不需要他们了解数据科学知识。
原文标题:The best big data technologies,作者: Clare Hopping