首页技术文章正文

如何创建Spark连接和读取数据集?【案例】

更新时间:2022-11-16 来源:黑马程序员 浏览量:

IT培训班

在类CategoryTopl0中定义main()方法,该方法是Java程序执行的入口,在main()方法中实现Spark程序,具体代码如文件1所示。

文件1 CategoryTop10.java

public class CategoryTop10{
   public static void main(String[] arg){
   //实现热门品类Top10分析
   }
}
在文件1的main()方法中,创建JavaSparkContext和SparkConf对象.JavaSparkContext对象用于实现Spark 程序,SparkConf对象用于配置 Spark程序相关参数,具体代码如下。
SparkConf conf =new SparkConf():
//设置Application 名称为topl0_category
conf.setAppName("top10_category"):
JavaSparkContext sc =new JavaSparkContext (conf);
在文件1的main()方法中,调用JavaSparkContext对象的textFile()方法读取外部文件,将文件中的数据加载到textFileRDD,具体代码如下。
JavaRDD<String> textFileRDD =sc.textFile (arg [0]);

上述代码中,通过变量arg[o]指定文件路径,目的是执行提交Spark程序到YARN集群运行的命令中,通过参数指定文件路径。

分享到:
在线咨询 我要报名
和我们在线交谈!