파이썬 학습 과정/생활속의 파이썬_응용편

"파이썬 마법으로 다국어 워드 클라우드 생성: 텍스트 데이터를 예술로"

일일이득 2024. 6. 29. 04:17
반응형
Python으로 한국어, 중국어, 일본어, 영어를 포함한 워드 클라우드 만들기

워드 클라우드를 표현한 이미지
워드 클라우드를 표현한 이미지


안녕하세요! 오늘은 Python을 사용해 다양한 언어(한국어, 중국어, 일본어, 영어)를 포함한 워드 클라우드를 만드는 방법을 소개해드리겠습니다. 워드 클라우드는 텍스트 데이터를 시각화하는 좋은 방법으로, 특히 중요한 키워드를 쉽게 파악할 수 있습니다. 이번 포스트에서는 키워드를 입력받아 중요도를 반영하고, 지정된 폰트를 사용해 1:1 비율로 워드 클라우드를 생성하는 과정을 단계별로 설명하겠습니다.

준비물

  • Python 3.x
  • WordCloud 라이브러리
  • Matplotlib 라이브러리
  • 다양한 언어를 지원하는 폰트 파일 (예: BMDOHYEON)

Step 1: 라이브러리 설치

먼저 필요한 라이브러리를 설치합니다. 터미널이나 콘솔에서 다음 명령어를 실행하세요.


pip install wordcloud matplotlib

Step 2: 폰트 파일 준비

다양한 언어를 지원하는 폰트를 다운로드합니다. 예제에서는 BMDOHYEON 폰트를 사용합니다. 폰트 파일을 다운로드하고, 경로를 확인하세요. 예를 들어, C:\\Users\\aaa\\Downloads\\BMDOHYEON_ttf.ttf 경로에 저장합니다.

Step 3: 파이썬 코드 작성

이제 본격적으로 코드를 작성해 보겠습니다. 아래 코드를 사용하면 키워드를 입력받아 중요도를 반영하고, 1:1 비율로 워드 클라우드를 생성할 수 있습니다.


import matplotlib.pyplot as plt
from wordcloud import WordCloud

# 지정된 폰트 파일 경로
font_path = 'C:\\Users\\aaa\\Downloads\\BMDOHYEON_ttf.ttf'

# 키워드와 빈도를 입력받아 딕셔너리로 변환하는 함수
def get_keywords():
    keywords = {}
    print("키워드를 중요도 순으로 입력하고, '끝'을 입력하면 종료됩니다.")
    while True:
        keyword = input("키워드 (한국어, 중국어, 일본어, 영어 모두 가능): ")
        if keyword == '끝':
            break
        if keyword in keywords:
            keywords[keyword] += 1
        else:
            keywords[keyword] = len(keywords) + 1  # 입력된 순서대로 중요도 반영
    return keywords

# 키워드 입력 받기
keywords = get_keywords()

# 워드 클라우드 생성 (1:1 비율)
wordcloud = WordCloud(width=800, height=800, background_color='white', font_path=font_path, colormap='spring').generate_from_frequencies(keywords)

# 워드 클라우드 시각화
plt.figure(figsize=(8, 8))  # 1:1 비율을 위해 figure size를 8x8로 설정
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title("키워드 워드 클라우드", fontsize=20)
plt.show()

Step 4: 코드 실행 및 결과 확인

  1. 코드를 실행하면 터미널이나 콘솔에서 키워드를 입력하라는 메시지가 나옵니다.
  2. 중요도 순으로 한국어, 중국어, 일본어, 영어로 된 키워드를 하나씩 입력합니다.
  3. 키워드 입력이 끝나면 '끝'을 입력합니다.
  4. 입력된 키워드를 바탕으로 1:1 비율의 워드 클라우드가 생성되고 시각화됩니다.

주의 사항

  • 폰트 파일 경로는 사용자의 환경에 맞게 수정해야 합니다.
  • 한국어, 중국어, 일본어, 영어를 모두 지원하는 폰트를 사용해야 합니다. 예제에서는 지정된 폰트를 사용했습니다.

마무리

이제 여러분은 Python을 사용해 다양한 언어를 포함한 워드 클라우드를 만들 수 있습니다. 이 방법을 활용하면 텍스트 데이터를 시각적으로 분석하고, 중요한 키워드를 쉽게 파악할 수 있습니다. 다음에도 더 유용한 Python 프로젝트로 돌아오겠습니다. 감사합니다!

 

블로그를 읽어주셔서 감사합니다. 도움이 되셨다면 좋아요와 댓글 부탁드립니다. 😊

 

파이썬 실행후 입력방법은 아래 를 참고 하세요
키워드: 파이썬
키워드: 데이터 분석
키워드: 워드 클라우드
키워드: Python
키워드: 데이터 시각화
키워드: 파이썬
키워드: 데이터 분석
키워드: 끝
반응형