首页 Python python – csv文件上的PySpark distinct().count()

python – csv文件上的PySpark distinct().count()

dawei 2020年10月19日 9:23

我是新手,我正在尝试根据csv文件的某些字段创建一个distinct().count(). Csv结构(没有标题)： id,country,type01,AU,s102,AU,s203,GR,s203,GR,s2 加载.csv我输入： lines = sc.textFile(test.txt) 然后对行返回3的不同计数如预期： lines.distinct().count()

我是新手,我正在尝试根据csv文件的某些字段创建一个distinct().count().

Csv结构(没有标题)：

id,country,type
01,AU,s1
02,s2
03,GR,s2

加载.csv我输入：

lines = sc.textFile("test.txt")

然后对行返回3的不同计数如预期：

lines.distinct().count()

但我不知道如何基于让我们说id和国家来做出明显的计数.

解决方法

在这种情况下,您将选择要考虑的列,然后计数：

sc.textFile("test.txt")\
  .map(lambda line: (line.split(',')[0],line.split(',')[1]))\
  .distinct()\
  .count()

这是为了清楚起见,您可以优化lambda以避免调用line.split两次.

本文来自网络，不代表青岛站长网立场。转载请注明出处： https://www.0532zz.com/html/kaifa/python/20201019/11464.html

作者: dawei

【声明】：青岛站长网内容转载自互联网，其相关言论仅代表作者个人观点绝非权威，不代表本站立场。如您发现内容存在版权问题，请提交相关链接至邮箱：bqsm@foxmail.com，我们将及时予以处理。

返回顶部

解决方法

作者: dawei

为您推荐

python – 如何使用输入函数和def函数？

python – 你如何从雅虎财经中提取每周的历史数据？

python – 覆盆子pi上的多个热电偶

在Python中处理不同类型的规范方法是什么？

Python 2和3之间的类型差异

python – igraph：为什么add_edge函数如此缓慢地对add_edges？