统一的大规模数据分析引擎

开始

什么是Apache的火花吗?

Apache火花是一个多语言引擎执行数据工程,数据科学和机器学习在单节点机器或集群。
简单。
快。
可伸缩的。
统一。
批/流媒体数据
批/流媒体数据
统一批量数据的处理和实时流媒体,使用您的首选语言:Python, SQL, Scala, Java或R。
执行速度快、分布式ANSI SQL查询仪表盘和专门报告。运行的速度比大多数数据仓库。
大规模数据科学
大规模数据科学
pb级别上执行探索性数据分析(EDA)数据,而不必诉诸将采样
培训机器学习算法在笔记本电脑上使用相同的代码来扩展到容错集群成千上万的机器。
最广泛使用的可伸缩计算引擎
成千上万的公司,包括80%的财富500强,使用Apache火花
超过2000个贡献者工业和学术界的开源项目。
生态系统
Apache火花与你最喜欢的框架的集成,有助于规模上千台机器。
数据科学和机器学习
SQL分析和BI
存储和基础设施
火花的SQL引擎:
Apache火花是建立在一个先进的SQL引擎对大规模分布式数据
自适应查询执行

火花SQL适应在运行时执行计划,如自动设置的还原剂和加入算法。

支持ANSI SQL

使用相同的SQL你已经适应。

结构化和非结构化数据

火花SQL结构化工作表和非结构化数据如JSON或图像。

TPC-DS 1 tb No-Stats有与没有自适应查询执行
加速TPC-DS查询8倍
加入社区
火花欣欣向荣的开源社区,贡献者来自世界各地的建筑功能,文档和帮助其他用户。
Baidu
map