목적 spark에서 json data source를 이용할 경우 json이 newline으로 구분되어있어야 json이 제대로 인식된다. 필자가 이용하는 데이터의 경우 아래와 같이 newline이 제대로 입력되어있지 않았다. {"a":"b"}{"a":"c"}{"a":"d"}{"b":"e"}... 이럴 때에 써먹을만한 간단한 파이썬 함수를 기록한다. 내용 import re import json def json_splitter(input_json): r = re.split('(\{.*?\})(?= *\{)', input_json) accumulator = '' res = [] for subs in r: accumulator += subs try: json_dict = json.loads(accumulator)..