Spark SQL 使用 IDEA 编程

配置环境

pom.xml 文件里加入 Spark SQL 依赖(注意版本 与 Spark Core 一致)还有所支持的 Scala 的版本

<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.11</artifactId>
    <version>2.1.1</version>
</dependency>

配置 Spark SQL 会话

这个配置会话跟 Spark Core 里的上下文连接对象(SparkContext())一个意思。

第一种单独配置 config

 // Spark 运行配置
val conf = new SparkConf().setMaster("local[*]").setAppName("a")
// 构建 Spark SQL 会话
val ss: SparkSession = SparkSession.builder.config(conf).getOrCreate()

第二种

// 构建 Spark SQL 会话
val ss: SparkSession = SparkSession.builder
            .master("local[*]")
            .appName("a")
            .getOrCreate()

小例子

文件内容

{"id":1,"name":"Bigdataboy","age": "18"}
{"id":2,"name":"Bob","age": "16"}
{"id":3,"name":"Black","age": "18"}

例子代码

// 构建 Spark SQL 会话
val ss: SparkSession = SparkSession.builder
            .master("local[*]")
            .appName("a")
            .getOrCreate()

// 读取 Json 文件
val jsonData: DataFrame = ss.read.json("indata/data.json")

// 展示 DataFrame 数据
jsonData.show()
--------------
+---+---+----------+
|age| id|      name|
+---+---+----------+
| 18|  1|Bigdataboy|
| 16|  2|       Bob|
| 18|  3|     Black|
+---+---+----------+
发表评论 / Comment

用心评论~