융무의 기술블로그
article thumbnail
Published 2022. 7. 26. 22:39
AWS EMR notebook font error Data Engeneering

EMR Jupter lab 노트북에서 스파크 커널을 사용할때 한국어 문자가 표시되지 않는 문제가 발생했었다.

최근 log4J 이슈로 인해 EMR 클러스터를 재배포를 하고 5.30.1에서 5.30.2로 버전 업데이트를 하고 emr 노트북에서 pyspark를 이용하여 ETL 프로세스를 진행하는 데 있어서 폰트이슈가 생겼다.

 

이를 해결하고자 emr 서버에서 fc-list확인, locale 언어 변경 등 다양한 방법을 시도해본 결과 오류가 버전업데이트 시 설정값 문제에 있는것으로 파악되었다.

주피터 노트북에서 프레임워크를 위한 인코딩으로 ISO-8895-1이 EMR version 5.30.2에 default로 되어있어서 한글 font를 사용하려면 UTF-8 encoding으로 지정을 해줘야한다.

해결 방법은 EMR 클러스터에서 설정값을 재구성 해주면 된다. 

EMR 클러스터 -> 구성 -> 재구성(JSON에서 편집) -> 마스터인스턴스 그룹을 선택한뒤 spark-defaults 값을 편집해 주면된다.

 

[{"Classification": "spark-defaults","Properties": {
"spark.executor.extraJavaOptions" : "-Dfile.encoding=UTF-8",
"spark.driver.extraJavaOptions" : "-Dfile.encoding=UTF-8"}}]

Reference :
[1] https://issues.apache.org/jira/browse/ZEPPELIN-2641
[2] https://aws.amazon.com/blogs/big-data/modifying-your-cluster-on-the-fly-with-amazon-emr-reconfiguration/#:~:text=With%20the%20reconfiguration%20feature%2C%20you,by%20SSH%20into%20each%20node .

 

'Data Engeneering' 카테고리의 다른 글

AWS Cloud Practitioner 합격 후기  (4) 2022.03.14
profile

융무의 기술블로그

@융무

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!