기본 콘텐츠로 건너뛰기

자연어 처리(Natural Language Processing, NLP)로 텍스트 다루기 (1)

디지털 자료를 다루는 데 빠뜨릴 수 없는 기술 중 하나가 자연어 처리(Natural Language Processing) 기술이다. 여기서 '자연어'란 컴퓨터 언어에 대비되는 인간의 언어를 말하는 것으로 우리가 일상에서 사용하는 말(소리, 텍스트 등)을 뜻한다. 챗봇이나 AI 스피커 등에 쓰이는 기술이 NLP 기술인데, '디지털 인문학' 분야에서 기본적으로 사용하는 분석 기법이기도 하다.

디지털 텍스트 자료를 수집해서 이를 분석한다면 바로 NLP 기술을 적용해서 해야 한다. 종교문화 연구에도 적용이 가능하리라 생각한다.

어쨌든 NLP도 웹스크래핑과 함께 공부를 시작했다. Python 공부를 하면서 수업 시간에 종종 사용했던 주피터 노트북(jupyter notebook)을 활용해서 관련 책을 보면서 연습을 했다. 

(그냥 하는 소리지만 '주피터 노트북' 이야기를 처음 들었을 때는 '노트북 컴퓨터'를 떠올렸다. 몇 번 맛을 보고 시간이 흘러 사용한 것을 까먹을 때 쯤에는 파이썬 IDE 중 하나인 파이참이나 비쥬얼 스튜디오 같은 프로그램이라고 생각했다. 수업이나 관련 책에서 '주피터 노트북'을 준비하세요라는 말을 들을 때마다 '어 어떻게 깔지'라는 생각부터 했다. 근데 컴퓨터에 이미 깔려 있어서 '뭐지?'했던 기억이... '아나콘다' 깔면서 사용할 수 있게 되었던 것인 듯.

뭐 IDE 중 하나긴 한데, 웹브라우저에서 구동해서 구글의 코랩colab 같은 종류로 느껴진다. 실제로 교육 현장에서는 jupyter나 colab을 많이 쓰는 듯. colab은 클라우드 기반이라 협업-그래서 Colaboratory의 앞글자로 colab이라 한 것-에 강점을 가진다고 한다. 참고)

━━━━━━

문장이 있으면 단어들의 일부를 뽑을 수도 있고(3행은 위 문장에서 짝수 번째 단어를 추출한 것이다), 특정 단어만 뽑을 수도 있고(아래), 글자의 순서를 뒤바꿀 수도 있다.

단어의 순서는 그대로지만 단어의 철자는 거꾸로 적히게도 만든다.

그렇다면 철자는 그대로이고 단어의 순서는 거꾸로인 것을 어떻게 만들 수 있을까? 내가 본 책에는 그런 예제는 나오지 않았다. 

여러 방법이 있겠지만 내가 생각해 본 것은 애초 word는 리스트의 배열 순서를 바꿔서 그대로 문장으로 묶어주는 것이다.

iwords = words[::-1]

print(' '.join([iword for iword in iwords]))

그러면 단어의 철자는 그대로지만 단어의 순서는 거꾸로 쓰인 문장이 완성된다. 보다 완벽하게 하려면 구두점의 위치를 바꾸도록 해야하는데, 아직 그 정도까지는...

댓글

이 블로그의 인기 게시물

태백산, 산당, 서낭당 그리고 사람들┃답사 후기

[2017년 6월에 태백산 일대의 답사를 다녀와서 쓴 글입니다. 답사는 6월 3일부터 6월 4일까지. 후기 작성일 2017. 6. 7.] · · · 태백산에 다녀왔다. 천제단, https://www.khan.co.kr/local/Gangwon/article/202204281434001#c2b 난 답사를 싫어한다. 주위 사람들은 다 알고 있다. '왜 가야 하나'에 적절한 답을 가져본 적이 없다. 학부 때는 '학술'을 가장한 MT같은 것이니 어쩔 수 없다 싶었는데, 대학원에 들어와서는 그마저도 관심이 시들해졌다. '학'은 사라지고 '술'을 위해서 가는 것이라면 또 굳이 갈 이유가 있을까 싶기도 했다. (실제 답사가 다 그런 것은 아니다. 내가 답사에서 무언가 발견할 수 없었기 때문에 그렇게 느꼈던 것 같다) 그런데 박사수료 후부터 조금 달라졌다. 이제 '그곳'에 가면 이야기가 보이기 시작한다. 그것도 재미가 있다. 왜 그런가 싶었는데, 역시 수준 높은 연구자들과 함께 가서 그런 것 같다. 혼자 갔다면 도저히 그곳의 이야기, 그곳 사람들의 이야기를 듣지 못했을 터다. ('자기 문제의식'이 명료화 되었다는 점도 중요한 것 같기는 하다) '산악신앙'은 상식적으로는 '원시신앙'으로 학술적으로는 자연신앙 내지는 마을신앙과 관련된 민속신앙으로 이야기된다. 고도의 신학적 이야기, 그래서 인생의 의미를 음미하는 따위의 것이 담겨있지 않다. 그래서 상당히 빈곤하게 이해된다. 그런데 이번에 태백산 답사를 가서, 거기에 '인간'을 들여다 보는 '어떤 창'이 있다는 것을 새삼스럽게 확인하게 되었다. 산은 '신성한 곳'이다 태백산 같이 높은 산, 주변 지역의 '중심'이 되는 산은 특히 그렇다. 그런 산들은 일단 직접적으로 인간에게 '위험'하다. 맹수로부터 목숨을 위협 받을 수 있는 곳이다. 높...

오늘이 토끼 해의 시작? - 양력 1월 1일과 계묘년 (얼룩소 글)

※ 이 글은 '얼룩소'에 2023년 1월 1일에 게재했던 글입니다. ─── ∞∞∞ ─── 양력 1월 1일이 밝았네요. 종교가 없더라도 해맞이, 떡국먹기, 덕담 등을 하게 되는 날입니다. 저도 새해 첫날 일출을 보며 올해 꼭 이루고 싶은 것을 소원으로 빌 계획입니다. 그런데 언론에서 이 시기가 되면 늘 호들갑 떨며 이야기하는 것이 있습니다.  'OOO년 새해가 밝았습니다!'  언젠가부터 우리는 위화감 없이 양력 설에 'OOO년 새해'라는 이야기를 하고 있습니다. https://www.gynews.kr/news/articleView.html?idxno=21376 2022년은 임인년(壬寅年)이었고, 2023년은 계묘년(癸卯年)입니다. '검은 토끼의 해'라고들 합니다. 일단 'OOO년'은 60갑자로 만드는 거 다 아실 겁니다. 10간: 갑을병정무기경신임 계 12지: 자축인 묘 진사오미신유술해 색은 10간에 배당되어 있죠. 오방색이라 해서 청·적·황·백·흑색을 말하죠. 각각 방위가 배당되어 있어 오'방'색이라 하는 것이죠. https://blog.naver.com/patorry '임계'에 흑색이 배당되어 있어서 '검은 토끼'하는 것입니다. 그런데 육십갑자 기년법(紀年法)과 오방색이 결합된 것은 비교적 최근의 일인 것 같습니다. 관련 분야 전문가들은 한결같이 과거 기록에서는 볼 수 없었다고 말하니 말입니다( 자료 1 ).  이걸 두고 사이비 종교나 상업주의에 물든 무지성 추종이라 핏대 세워 비판하는 경우도 있습니다만, 민속(문화)은 사실 계속 변하는 것이죠. 육십갑자 기년과 오방색을 결합해 이야기하는 것은 현대 소비문화에 최적화된 민속 관념의 현주소를 보여주는 것으로 볼 수 있습니다.   사실 그보다 흥미로운 것은 양력 체계와 음력 체계가 뒤섞였다는 점이죠 뭐 새삼스러울 것은 없습니다. 우리의 조상님들은 음력만 쓰지 않고 양력도 써 왔죠. 그래서 ...

천문학적으로 의미가 없는 1월 1일은 왜 새해 첫날이 되었을까?

천문학적 관점에서 볼 때 1월 1일은 참 애매한 날입니다. 지난 번에 '크리스마스와 동지 축제'라는 시리즈 글을 다루면서 동지가 '시간의 마디'로 인식된 측면(참고: 절기, 시간의 마디와 의례 본능 )도 이야기한 바 있습니다만, 천체의 움직임(태양이나 달)과 1월 1일은 사실 연결되어 있지 않습니다. 태양 고도의 극점(solstice)이나 평분점(equinox)은 시간 사이클 상에서 변화의 기준점 역할을 하지만 달력에는 애매한 위치에 자리잡고 있습니다. 21, 22일 혹은 22, 23일입니다(2023 춘분: 3월 21, 하지: 6월 21일, 추분: 9월 23일, 동지: 12월 22일). 왜 이렇게 되었는가를 역사적 기원으로 이야기하면 율리우스력을 이야기하게 됩니다. 율리우스 카이사르가 새로운 역법을 정할 때 1년을 365.25일로 정하고(소수점 시간은 윤년으로 처리), 춘분을 3월 23일로 정했다고 합니다. 그래서 지금의 1월 1일이 신년의 첫날이 된 것이라고 합니다. 춘분을 4월 1일로 만들었다면 어땠을까요? 그럼 동지가 1월 1일이 되었을 겁니다. 왜 그런 선택을 하지 않았을지 궁금합니다. 천문학적 기준점을 왜 새해 첫날로 삼지 않았을까라는 의문은 계속 해소되지 않습니다. 고대 로마 달력 https://www.througheternity.com/en/blog/history/beware-ides-march-assassination-julius-caesar.html 율리우스력의 기원이 되는 이집트력을 생각해 봐야 하는 것인지도 모릅니다. 이집트력은 농경 생활과 천문 지식의 결합을 통해서 만들어졌다고 볼 수 있습니다. 고대 이집트 달력 https://historicaleve.com/ancient-egyptian-calendar/ 이집트인들은 나일강의 범람 주기, 천문 현상의 변화에 대한 지식을 가지고 한 달을 30일, 1년을 365일(3개 계절-범람기Akhet, 발아기Peret, 추수기Shemu)로 하는 역법...