python – csv文件上的PySpark distinct().count()

我是新手,我正在尝试根据csv文件的某些字段创建一个distinct().count(). Csv结构(没有标题): id,country,type01,AU,s102,AU,s203,GR,s203,GR,s2 加载.csv我输入: lines = sc.textFile(test.txt) 然后对行返回3的不同计数如预期: lines.distinct().count()

pyspark 内容介绍(一)

pyspark 包介绍 子包 pyspark.sql module pyspark.streaming module pyspark.ml package pyspark.mllib package

返回顶部