티스토리 뷰
요즘 리뷰나 댓글같은 경우 신조어들이 너무 많아서
기본적으로 제공하는 okt 의 사전 데이터로는 정확한 분석이 어렵다.
따라서 사용자 사전에 신조어를 등록해 형태소분석이 잘 이루어질수 있도록 해줘야 한다.
Mac 기준 로컬에서 간단히 수정하고 적용하는 방법을 정리해봅니다.
( contribute 하지 못해서 죄송합니다 ㅠㅠㅠ )
먼저 okt 패키지의 설치 위치를 확인한다.
python 콘솔로 다음 명령어를 입력하여 python package 위치를 확인한다.
import os
os.__file__
/usr/local/Cellar/python@3.9/3.9.7/Frameworks/Python.framework/Versions/3.9/lib/python3.9/
여기까지가 파이썬이 설치되어있는 폴더 경로이며
pip 로 설치한 패키지들은 아래의 경로가 된다.
/usr/local/Cellar/python@3.9/3.9.7/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/
패키지 내부 파일들을 살펴보면 그중 konlpy 가 있다.
이곳 안에 태그 패키지들이 모두 들어가 있다.
전체 경로는 다음과 같다.
/usr/local/Cellar/python@3.9/3.9.7/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/konlpy/java/
이 안에 open-korean-text-2.1.0.jar 파일이 okt 패키지 이다.
편집을 위해서는 jar 파일 압축을 풀어 줘야 한다.
okt 폴더를 만들고 그 안에다가 압출을 풀어준다.
mkdir okt
cd okt
jar xvf ../open-korean-text-2.1.0.jar
cd /usr/local/Cellar/python@3.9/3.9.7/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/konlpy/java/okt/org/openkoreantext/processor/util
ls -l
사전 파일은 위의 경로에서 확인 할수 있다.
명사는 noun, substantives 폴더에 있고
조사는 josa 폴더에 있다.
형용사는 adjective 에
동사는 verb
부사는 adverb
접속사, 감탄사는 auxiliary
오타는 typos 에 있다.
추가하고자 하는 단어를 각 용도에 맞는 파일에서 수정을 하되 가능한 가나다순에 맞게 편집하면 좋을것 같다.
( 공식 문서에 보면 가나다 순으로 정렬해주는 기능이 있다. 기능과 관련이 있기 때문일것으로 추측된다. )
예를 들어 사전에 없는 단어를 추가했는데
'넘 이뽀' , '넘 싫어' 라는 문장에 '넘' 은 '너무' 를 줄인 표현이므로 오타로 넣어 교정이 되도록 한다.
typos/typos.txt 에
넘 너무
와 같이 입력을 하고 저장하면 된다.
다시 패키징을 할때는
/usr/local/Cellar/python@3.9/3.9.7/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/konlpy/java/okt
이 폴더에서 jar 압축을 해주고 konlpy/java 폴더의 원본 jar 파일에 덮어 써주면 된다.
jar cvf open-korean-text-2.1.0.jar .
mv open-korean-text-2.1.0.jar ../
------------------------------------------------------------------------
리눅스 기준으로 파이썬 패키지가 설치되는 폴더는 아래와 같은 형태이다.
~/.local/lib/python3.6/site-packages/
python3.6 은 파이썬 버전에 맞게끔 수정하면 된다.
-------------------------------------------------------------------------
3월 16일 추가.
import konlpy
konlpy.data.path
위의 코드로 플랫폼 상관없이 konlpy 데이터 폴더를 바로 확인할수 있음.
>>> import konlpy
>>> konlpy.data.path
['/Users/hcpark/konlpy_data', '/usr/share/konlpy_data', '/usr/local/share/konlpy_data', '/usr/lib/konlpy_data', '/usr/local/lib/konlpy_data', '/usr/local/lib/python3.9/site-packages/konlpy/data']
끝.
'Develope > Python' 카테고리의 다른 글
KoNLPy Mecab 설치 + 사용자 사전 만들기 (2) | 2022.03.16 |
---|---|
Python 개발을 편하게 iPython (0) | 2021.09.17 |
ImportError: cannot import name 'string_int_label_map_pb2' from 'object_detection.protos 에러 발생시 해결 방법 (0) | 2021.09.17 |
Ubuntu20.04 - CUDA, tensorflow 설치하기 (0) | 2021.08.27 |
Detectron - 응용편2 #validation (0) | 2021.08.04 |
- Total
- Today
- Yesterday
- mysql
- 리눅스
- 딥러닝
- 라즈베리파이
- ios
- 파이썬
- xcode
- ubuntu
- 사물인터넷
- 머신러닝
- OpenCV
- 미세먼지
- 아이폰
- object-C
- 인공지능
- 강좌
- 서버
- Python
- 엘라스틱서치
- swift
- Android
- 스위프트
- 아두이노
- Deeplearning
- diy
- php
- IOT
- 공기청정기
- 우분투
- 캠핑
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |