기본 콘텐츠로 건너뛰기

자연어 처리(Natural Language Processing, NLP)로 텍스트 다루기 (1)

디지털 자료를 다루는 데 빠뜨릴 수 없는 기술 중 하나가 자연어 처리(Natural Language Processing) 기술이다. 여기서 '자연어'란 컴퓨터 언어에 대비되는 인간의 언어를 말하는 것으로 우리가 일상에서 사용하는 말(소리, 텍스트 등)을 뜻한다. 챗봇이나 AI 스피커 등에 쓰이는 기술이 NLP 기술인데, '디지털 인문학' 분야에서 기본적으로 사용하는 분석 기법이기도 하다.

디지털 텍스트 자료를 수집해서 이를 분석한다면 바로 NLP 기술을 적용해서 해야 한다. 종교문화 연구에도 적용이 가능하리라 생각한다.

어쨌든 NLP도 웹스크래핑과 함께 공부를 시작했다. Python 공부를 하면서 수업 시간에 종종 사용했던 주피터 노트북(jupyter notebook)을 활용해서 관련 책을 보면서 연습을 했다. 

(그냥 하는 소리지만 '주피터 노트북' 이야기를 처음 들었을 때는 '노트북 컴퓨터'를 떠올렸다. 몇 번 맛을 보고 시간이 흘러 사용한 것을 까먹을 때 쯤에는 파이썬 IDE 중 하나인 파이참이나 비쥬얼 스튜디오 같은 프로그램이라고 생각했다. 수업이나 관련 책에서 '주피터 노트북'을 준비하세요라는 말을 들을 때마다 '어 어떻게 깔지'라는 생각부터 했다. 근데 컴퓨터에 이미 깔려 있어서 '뭐지?'했던 기억이... '아나콘다' 깔면서 사용할 수 있게 되었던 것인 듯.

뭐 IDE 중 하나긴 한데, 웹브라우저에서 구동해서 구글의 코랩colab 같은 종류로 느껴진다. 실제로 교육 현장에서는 jupyter나 colab을 많이 쓰는 듯. colab은 클라우드 기반이라 협업-그래서 Colaboratory의 앞글자로 colab이라 한 것-에 강점을 가진다고 한다. 참고)

━━━━━━

문장이 있으면 단어들의 일부를 뽑을 수도 있고(3행은 위 문장에서 짝수 번째 단어를 추출한 것이다), 특정 단어만 뽑을 수도 있고(아래), 글자의 순서를 뒤바꿀 수도 있다.

단어의 순서는 그대로지만 단어의 철자는 거꾸로 적히게도 만든다.

그렇다면 철자는 그대로이고 단어의 순서는 거꾸로인 것을 어떻게 만들 수 있을까? 내가 본 책에는 그런 예제는 나오지 않았다. 

여러 방법이 있겠지만 내가 생각해 본 것은 애초 word는 리스트의 배열 순서를 바꿔서 그대로 문장으로 묶어주는 것이다.

iwords = words[::-1]

print(' '.join([iword for iword in iwords]))

그러면 단어의 철자는 그대로지만 단어의 순서는 거꾸로 쓰인 문장이 완성된다. 보다 완벽하게 하려면 구두점의 위치를 바꾸도록 해야하는데, 아직 그 정도까지는...

댓글

이 블로그의 인기 게시물

"뇌 회로는 친숙한 것, 중요한 것과 단순한 배경을 식별합니다."(논문 정리)

흥미로운 신경과학 연구 소개를 봤습니다. 친숙한 것과 중요한 것을 먼저 식별하는 뇌 경로에 관한 연구입니다. '신경종교학'에 참고가 되는 논문일 것으로 판단되어, 내용을 정리해 봅니다.  *  *  * Brain Circuit Identifies What’s Familiar, Important, or Just Background┃Neuroscience News.com 요약 : 과학자들은 기억과 감정을 통합하여 감각 정보를 빠르게 평가하는 이전에 알려지지 않은 뇌 회로를 발견했습니다. 내측후각피질(entorhinal cortex)과 해마(hippocampus) 사이의 이 직접 피드백 루프를 통해 뇌는 중요한 광경과 소리를 거의 즉시 우선순위를 정할 수 있습니다. 이전에 알려진 더 느린 경로와 달리, 이 회로는 관련 자극과 배경 소음을 구별하는 데 도움이 될 수 있으며, PTSD와 자폐증과 같은 상태에 영향을 미칠 수 있습니다. 이 발견은 뇌가 정보를 걸러내는 방식에 대한 이해를 높이고 감각 및 기억 관련 장애를 치료하기 위한 새로운 전략으로 이어질 수 있습니다. ─── ∞∞∞ ───  익숙한 것을 한눈에 알아보는 뇌 회로, 해마의 비밀 우리는 왜 친숙한 얼굴이나 물건을 한눈에 알아볼 수 있을까요? 반대로 처음 보는 것은 어딘가 낯설게 느껴지곤 합니다. 이런 능력 뒤에는 우리의 기억 이 큰 역할을 합니다. 뇌의 해마(hippocampus)라는 부분이 과거의 기억을 보관하고 있다가, 현재 들어오는 감각 정보와 비교하여 이것이 익숙한지 새로운지 판단하도록 돕는 것이죠. 예를 들어, 해마는 “이건 예전에 봤던 거야” 혹은 “처음 보는 거네”라는 신호를 뇌의 다른 부분에 보내 우리의 인식을 조절합니다. 이 덕분에 우리는 중요한 새로운 정보 에 주의를 기울이고, 이미 아는 것은 배경 소음처럼 무시할 수도 있습니다. 해마는 특히 대뇌피질의 한 부분인 내후각 피질 (entorhinal cortex)과 긴밀히 소통합니다. 내후각 피질은 오감에...

태백산, 산당, 서낭당 그리고 사람들┃답사 후기

[2017년 6월에 태백산 일대의 답사를 다녀와서 쓴 글입니다. 답사는 6월 3일부터 6월 4일까지. 후기 작성일 2017. 6. 7.] · · · 태백산에 다녀왔다. 천제단, https://www.khan.co.kr/local/Gangwon/article/202204281434001#c2b 난 답사를 싫어한다. 주위 사람들은 다 알고 있다. '왜 가야 하나'에 적절한 답을 가져본 적이 없다. 학부 때는 '학술'을 가장한 MT같은 것이니 어쩔 수 없다 싶었는데, 대학원에 들어와서는 그마저도 관심이 시들해졌다. '학'은 사라지고 '술'을 위해서 가는 것이라면 또 굳이 갈 이유가 있을까 싶기도 했다. (실제 답사가 다 그런 것은 아니다. 내가 답사에서 무언가 발견할 수 없었기 때문에 그렇게 느꼈던 것 같다) 그런데 박사수료 후부터 조금 달라졌다. 이제 '그곳'에 가면 이야기가 보이기 시작한다. 그것도 재미가 있다. 왜 그런가 싶었는데, 역시 수준 높은 연구자들과 함께 가서 그런 것 같다. 혼자 갔다면 도저히 그곳의 이야기, 그곳 사람들의 이야기를 듣지 못했을 터다. ('자기 문제의식'이 명료화 되었다는 점도 중요한 것 같기는 하다) '산악신앙'은 상식적으로는 '원시신앙'으로 학술적으로는 자연신앙 내지는 마을신앙과 관련된 민속신앙으로 이야기된다. 고도의 신학적 이야기, 그래서 인생의 의미를 음미하는 따위의 것이 담겨있지 않다. 그래서 상당히 빈곤하게 이해된다. 그런데 이번에 태백산 답사를 가서, 거기에 '인간'을 들여다 보는 '어떤 창'이 있다는 것을 새삼스럽게 확인하게 되었다. 산은 '신성한 곳'이다 태백산 같이 높은 산, 주변 지역의 '중심'이 되는 산은 특히 그렇다. 그런 산들은 일단 직접적으로 인간에게 '위험'하다. 맹수로부터 목숨을 위협 받을 수 있는 곳이다. 높...

적조암 , ' 寂照 ' 로 인도하는 곳┃답사 후기

2017년 6월 초 답사 두 번째 후기 적조암으로 오르는 길의 '적조암' 소개 팻말. "여기서부터 1km"가 포인트(1km는 거친 등산로) ⓒ steinsein 최종성 선생님(서울대 종교학과)께서 꼭 가보고 싶어하셨던 곳. 적조암은 동학의 2대 교주 최시형이 피난을 와 49일 동안 기도했던 곳이라고 알려져 있다. 동학 관련 연구를 진행하시면서 최시형이 기도했다고 하는 이곳을 꼭 눈으로 확인하고 싶으셨던 것 같다. 이런 선생님의 관심과는 달리 역시 나는 아무런 관심도 없었다. 본사가 정암사인데, 박사과정 중에 그곳에 답사를 갔었던 것조차 기억하지 못했다. 돌아오는 길에 저 멀리 산 중턱의 '수마노탑'을 보고서야 그곳이 전에 와 봤던 곳임을 알았다. 정암사의 수마노탑 ⓒ steinsein 최선생님의 감상과는 달리, 이곳에서 무슨 새로운 이야기를 읽어낼 수 있을까 하는 생각을 품으며 길도 제대로 보이지 않는 길을 따라 걸어 올라갔다. '여기서부터 1km'라고 해서 아주 가벼운 마음으로...태백산 답사를 왔던 곳 중에서 단연 힘든 코스였다. 산령각 답사도 힘들긴 했지만, 그나마 그곳은 등산로가 나쁘지 않았다. 적조암 가는 길은 입구 약간만 돌계단 같은 느낌의 정비된 등산로였지, 나머지는 거의 계곡물에 휩쓸려 내려 온 듯한 제법 굵직한 짱돌들이 어지러이 널려 있는 그런 등산로였다.  1km를 고생스럽게 올라서서 본 적조암의 풍경은 흉칙했다. 가건물과 건물을 올리려는 터 정도만이 시야에 들어왔기 때문이다.  2017년 6월 4일, 적조암의 모습 ⓒ steinsein 2017년 6월 4일, 적조암의 모습 ⓒ steinsein 2017년 6월 4일, 적조암의 모습 ⓒ steinsein 2017년 6월 4일, 적조암의 모습 ⓒ steinsein 그곳은 버려진 곳이었다. 여기에서 무슨 이야기를 들을 수 있을까 하던 차 적조암 가건물 옆 공터에서 무언가 신기한 아니 신비한 느낌을 받았다.  바람이 시원하게 불어오고 있었...