x = sc.parallelize([("a", 1), ("b", 4)]) y = sc.parallelize([("a", 2)]) sorted(x.leftOuterJoin(y).collect()) # [('a', (1, 2)), ('b', (4, None))]