야메로 python을 배우다보니 기본적인 부분에서 문제가 발생하면 해결이 참 난감하다. python 3.9.x로 작업을 하고 있었는데, nltk를 import해서 word_tokenize 함수를 사용하려 할 때 문제가 발생했다.
오류가 발생할 때 문제해결에 집중해서 관련 문제가 구체적으로 무엇이었는지 찍어 놓지를 않아서 구체적인 오류 코드를 확인하지 못했다.
다만 python 3.9에 아나콘다3를 설치하고 Pycharm을 주로 사용했는데, nltk의 word_tokenize()를 쓰려고 할 때 문제가 발생했다.
문제해결 방법으로 일반적으로 추천되는 것이
nltk가 잘 인스톨 되었는지 체크하고 문제가 있다면 nltk.download()로 해결할 수 있다는 것이었다.
가령 저런 정보를 확인하고 시도해 보았다. 그러나 어떻게 된 일인지 cmd 창에서 'python'이 먹히지 않았고 python 창을 띄워서 작업하면 다음과 같은 결과가 나왔다.
nltk 라이브러리가 없어서 문제라 생각해서 pip install nltk를 입력했는데, invalid syntax 오류만 떴다. 위에서 말한 대로 'nltk_data' 폴더를 C:에 만들고 해당 패키지를 수동으로 다운로드해서 시도해 봤지만 오류는 해결되지 않았다.
어딘가에서는 [시스템 속성>고급>환경변수>path]에서 'C:\Python'과 'C:\Python\Scripts'를 추가하면 문제가 해결될 것이라 해서 그렇게 해 봤는데 역시 문제는 해결되지 않았다.
'nltk 설치 오류' 등을 찾다가 아래와 같은 설명을 만날 수 있었다.
그래서 python 3.9.x를 지우고 3.7.9를 다시 설치했다.
그러나 invalid syntax 문제는 해결되지 않았다. 계속 찾아보니 경로의 문제라는 지적이 있었다. 앞에서도 봤던 것이라 시큰둥 했는데 경로 주소가 앞서 제시한 것과는 달랐다.
C:\Users\[user_com_name]\AppData\Local\Programs\Python\Python37\
C:\Users\[user_com_name]\AppData\Local\Programs\Python\Python37\Scripts\
이걸 넣어주라는 것이었다. 이렇게 하니 pip install 명령도 적용이 되었고, nltk 라이브러리 설치도 문제가 없었다.
이것저것 찾아보니 이 환경 변수 추가 조치는 '기본'인 것 같다. 이 기본기를 몰라서 삽질 오지게 했다. 3.9의 호환성 이슈보다는 환경 변수 설정 문제였던 것 같다.
일단 pip이 먹히지 않으면 환경 변수부터 손보고 라이브러리 설치 및 호환성 문제를 따져야 할 것 같다. 개고생 하며 하나 배웠다.
코랩colab에서 작업할 때 nltk를 설치하고 punkt가 없을 시에 error가 생긴다. nltk.download('punkt')를 실행하면 문제를 해결할 수 있다. 그러면 word_tokenize()를 적용할 수 있게 된다.
기타 여러가지 패키지를 요구할 수 있는데, 그 경우에도 에러 코드에 설치 필요한 패키지를 알려 준다. 간편하게 대응할 수 있는 방법은 nltk.download('popular')이다. 인기있는 패키지를 쫙 깔아 준다.
댓글
댓글 쓰기