티스토리 뷰

반응형

요즘 리뷰나 댓글같은 경우 신조어들이 너무 많아서 

기본적으로 제공하는 okt 의 사전 데이터로는 정확한 분석이 어렵다.

따라서 사용자 사전에 신조어를 등록해 형태소분석이 잘 이루어질수 있도록 해줘야 한다. 

Mac 기준 로컬에서 간단히 수정하고 적용하는 방법을 정리해봅니다.
( contribute 하지 못해서 죄송합니다 ㅠㅠㅠ ) 

먼저 okt 패키지의 설치 위치를 확인한다.

python 콘솔로 다음 명령어를 입력하여 python package 위치를 확인한다.

import os
os.__file__

 

/usr/local/Cellar/python@3.9/3.9.7/Frameworks/Python.framework/Versions/3.9/lib/python3.9/

여기까지가 파이썬이 설치되어있는 폴더 경로이며

pip 로 설치한 패키지들은 아래의 경로가 된다.

/usr/local/Cellar/python@3.9/3.9.7/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/

패키지 내부 파일들을 살펴보면 그중 konlpy 가 있다. 

이곳 안에 태그 패키지들이 모두 들어가 있다.

전체 경로는 다음과 같다.

/usr/local/Cellar/python@3.9/3.9.7/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/konlpy/java/

이 안에 open-korean-text-2.1.0.jar 파일이 okt 패키지 이다.

편집을 위해서는 jar 파일 압축을 풀어 줘야 한다.

okt 폴더를 만들고 그 안에다가 압출을 풀어준다.

 

mkdir okt
cd okt
jar xvf ../open-korean-text-2.1.0.jar

 

cd /usr/local/Cellar/python@3.9/3.9.7/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/konlpy/java/okt/org/openkoreantext/processor/util
ls -l

사전 파일은 위의 경로에서 확인 할수 있다.

명사는 noun, substantives 폴더에 있고

조사는 josa 폴더에 있다.

형용사는 adjective 에 

동사는 verb 

부사는 adverb 

접속사, 감탄사는 auxiliary

오타는 typos 에 있다.

추가하고자 하는 단어를 각 용도에 맞는 파일에서 수정을 하되 가능한 가나다순에 맞게 편집하면 좋을것 같다.
( 공식 문서에 보면 가나다 순으로 정렬해주는 기능이 있다. 기능과 관련이 있기 때문일것으로 추측된다. ) 

예를 들어 사전에 없는 단어를 추가했는데 

'넘 이뽀' , '넘 싫어' 라는 문장에 '넘' 은 '너무' 를 줄인 표현이므로 오타로 넣어 교정이 되도록 한다.

typos/typos.txt 에 
넘 너무 

와 같이 입력을 하고 저장하면 된다.

다시 패키징을 할때는 

/usr/local/Cellar/python@3.9/3.9.7/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/konlpy/java/okt

이 폴더에서 jar 압축을 해주고 konlpy/java 폴더의 원본 jar 파일에 덮어 써주면 된다.

jar cvf open-korean-text-2.1.0.jar .
mv open-korean-text-2.1.0.jar ../

 

------------------------------------------------------------------------

리눅스 기준으로 파이썬 패키지가 설치되는 폴더는 아래와 같은 형태이다. 

~/.local/lib/python3.6/site-packages/ 

python3.6 은 파이썬 버전에 맞게끔 수정하면 된다.

-------------------------------------------------------------------------

 

3월 16일 추가.

import konlpy
konlpy.data.path

위의 코드로 플랫폼 상관없이 konlpy 데이터 폴더를 바로 확인할수 있음.

>>> import konlpy

>>> konlpy.data.path

['/Users/hcpark/konlpy_data', '/usr/share/konlpy_data', '/usr/local/share/konlpy_data', '/usr/lib/konlpy_data', '/usr/local/lib/konlpy_data', '/usr/local/lib/python3.9/site-packages/konlpy/data']

 

 

끝.

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함