Spark

Spark 是内存密集型的分布式大数据计算引擎。Apache Spark™ is a multi-language engine for executing data engineering, data science, and machine learning on single-node machines or clusters¹.

Spark 生态圈以 Spark Core 为核心，支持从 HDFS、Amazon S3、HBase、ElasticSearch、MongoDB、MySQL、Kafka 等多种数据源读取数据。同时，Spark 支持以 Standalone、Hadoop YARN、Apache Mesos、Kubernetes 为资源管理器调度任务，从而完成 Spark 应用程序的计算任务。

搭建环境 #

首先，去官网下载 Spark，下载下来的 Spark 文件中，常见的目录有 bin、 sbin、kubernetes、data、examples，其中 bin 里面有 pyspark 、spark-submit 、spark-sql 等常用的命令。以 Python 为例，启动 ./bin/pyspark 后，可以在 Python Shell 中执行一些 Spark 操作，通过访问 http://localhost:4040 可以浏览 Spark UI 界面。

API #

Spark SQL #

pyspark.sql.dataframe.DataFrame

Pandas API on Spark #

pyspark.pandas.frame.DataFrame

DataSet #

DataSet 也是 Spark 1.6 加入的 feature。

A DataFrame is a Dataset organized into named columns, DataFrame is represented by a Dataset of Rows. The Dataset API is available in Scala and Java. 并没有针对 Python 提供 DataSet 接口。

Spark 2.0 用相似的接口统一了 DataFrame API 和 Dataset API。

DataFrame 没法做到强类型检查，而编译型语言 Scala 和 Java 可以，所以 DataSet 相对于 DataFrame 提供了强类型支持。

SQL、DataFrame 和 DataSet 区别 #

DataFrame 和 Dataset 都是基于 RDD 构建的

https://raw.githubusercontent.com/tcitry/static/master/2023/biJN7A.png

Spark 3.0 中有两种 DataFrame。PySpark 中默认的 DataFrame 其实是 Spark SQL 的 pyspark.sql.dataframe.DataFrame，这个 DataFrame 可以通过接口 pyspark.sql.DataFrame.pandas_api 转换为 pyspark.pandas.frame.DataFrame。

底层引擎 #

上层的 DataFrame API 和 DataSet API 都是由底层的 Spark SQL 引擎支撑的，Spark SQL 引擎的核心是 Catalyst 优化器和 Tungsten 项目。两者共同支撑着高层的 DataFrame API 和 Dataset API，以及 SQL 查询。

优化过程都是一样的：先是构建逻辑计划，接着是生成物理计划，最后是生成紧凑的二进制代码。

执行计划 #

Spark SQL #

Spark 允许创建两种表，有管理表和无管理表。有管理表既管理元数据，有管理文件存储上的数据。无管理表只能删除元数据，无法删除实际数据。

us_flights_df = spark.sql("SELECT * FROM us_delay_flights_tbl")
us_flights_df2 = spark.table("us_delay_flights_tbl")

repartition

部署模式 #

Spark Standalone

Mesos

YARN

Kubernetes

命令行 #

spark-shell

spark-submit

其他支持 #

Structured Streaming 流数据处理

MLlib 机器学习库

参考文档 #

Spark 2.2.x 中文官方参考文档
https://spark-reference-doc-cn.readthedocs.io/zh_CN/latest/index.html

SparkBy{Examples}
https://sparkbyexamples.com/pyspark-tutorial/

Spark 编程指南
https://doc.yonyoucloud.com/doc/spark-programming-guide-zh-cn/index.html

Spark-Programming-In-Python

Spark 快速大数据分析（第 2 版）

图解Spark 大数据快速分析实战

一些代码示例：

Spark 官网 https://spark.apache.org ↩︎

Spark

搭建环境 #

相关概念 #

执行计划 #

转化操作和行动操作 #

窄转化和宽转化 #

DAG #

RDD #

API #

Spark SQL #

Pandas API on Spark #

DataSet #

SQL、DataFrame 和 DataSet 区别 #

底层引擎 #

执行计划 #

Spark SQL #

部署模式 #

命令行 #

其他支持 #

参考文档 #

本文共 1693 字，创建于 Oct 16, 2023