기본 콘텐츠로 건너뛰기

블로그 이사와 웹스크래핑 공부 (1)

코딩, 맛만 봤던 사람으로서 참 험난한 길을 걷고 있다.

티스토리의 만행에 열폭하여 '블로그 이사'를 선언했는데, 그 실현의 길은 어렵기만 하다. 50여건의 글을 수동으로 스크래핑을 해 보았지만 남은 게시물은 여전히 800건 가까이 된다. 학부 때부터 작성해 온 게시물을 네이버 블로그에서 티스토리를 거쳐 쌓아 놓았으니 결코 적지 않은 양이다.

그 중에 '재활용'의 의미가 있는 것이 얼마나 될지는 모르겠지만 지울 건 지우고 옮겨오려 한다. 급한 마음에 문과출신스럽게 접근한다면 '계속' 수동으로 copy & paste(복사/붙이기)를 해야 할 것이다. 한 두 번 해보았다. 15건 정도를 처리하는 데 1시간 정도는 걸렸던 것 같다. 정신 차리고 빠릿빠릿하면 40분 정도가 될지도 모르지만.

수동의 길은 이렇다. 1) 티스토리 로그인, 2) 글관리 도구로 들어가서, 3) 해당 글을 띄운 뒤, 4) 글 수정 모드에서 글과 제목을 copy해서, 5) Word*에 붙여넣기하고, 6) 저장하되 7) 작성 시간과 제목으로 파일명을 부여해서 완료하고, 8) 해당 글을 과거 블로그에서 삭제하는 것으로 글의 백업을 할 수 있다.

.txt를 쓸 수도 있지만 .docx를 쓰려 한 것은 이미지도 함께 copy&paste가 되어 좋으며, 용량도 15kb-500kb 정도로 적기 때문이다. 수동 스크래핑 방법 중 가장 편리한 것은 브라우저에서 pdf로 인쇄하는 것이긴 하다. 그 경우 용량은 2mb 내외가 된다.

새로운 블로그에 글을 재게재하는 것은 또 다른 일이 된다. word 파일에서 긁어다가 붙이는 건 text만 가능하고 이미지는 별도로 업로드 해야 하니. 이런 걸 프로그래밍해서 백업 파일을 만들고, 그 백업 파일을 자동으로 업로드할 수 있다면 좋을 것이다.

그러나 지금으로서는 백업은 자동으로 하고, 업로드는 선별과 수정 작업을 거쳐야 할 것 같다. 쓸만한 옛날 글을 재활용 한다고 할 때 어색한 문장이나 바뀐 생각을 반영해서 고칠 필요가 있다. 그리고 무엇보다 그대로 옮기면 '저품질 문제'가 생긴다. 그러나...


블로그 저품질 이슈

블로그 이사에서 가장 큰 걸림돌 중의 하나가 '검색 포털'이라는 사우론의 눈이 '저품질 블로그'로 낙인 찍는 일이다. 동일한 게시물이 복제된다고 본다면 이런 검색 배제는 훌륭한 시스템이다. copy를 일삼아 창작자의 수고를 탈취하는 일을 막을 수 있기 때문이다. 

그러나 해당 작자가 자기 창작물을 다른 업체로 옮겨 게시하는 경우에도 색인 로봇의 '저품질' 평가에 노출될 수 있는 것이다.

지금 나도 그런 문제를 겪고 있다. 현재 어느 포털에서도 내 블로그 글은 검색되지 않는다. 따라서 트위터나 페이스북에 게재된 링크를 타고 들어오거나 내 블로그를 즐겨찾기 해 놓아 직접 링크를 타고 들어오는 경우로만 접근이 가능하다. 10여 년 이상 사용해 온 'steinsfactory'라는 간판을 고수하다가 생긴 문제인 듯하다.

어느 포털에서든지 'steinsfactory'를 검색하면 티스토리 블로그가 검색된다. 물론 거기에 이 블로그로 올 수 있는 링크를 걸어 놓긴 했지만. 서브 간판인 '인간학공작소'의 경우는 네이버와 구글은 티스토리 블로그를 보여주고 다음은 그마저도 보여주지 않는다.

지금 이 블로그는 2015년엔가 티스토리의 검열을 처음 겪었을 때 만든 것이긴 하다. 'steinfactory'라는 이름으로 만들어 놓았던 것이다. 그때부터 비슷한 이름이 문제가 되지 않았을까 싶다.

과거 게시물을 그대로 재활용하는 것이 저품질 이슈를 발생시킨다고 해서 시간을 두고 옮기려 했지만(사실 기술적 문제로 바로 옮길 수 없는 것이지만), 그렇게 몸을 사린 것과는 별개로 이미 저품질 문제에 빠져 있었던 것이다.

구글이나 네이버 등의 검색 문제 해결을 위해서 이용자가 할 수 있는 범위의 조치(구글 search console이나 네이버 서치어드바이저 활용)는 해 놓았지만 아직 별 변화는 없다. 10월 말까지 별달리 개선이 되지 않는다면 다시 짊을 싸야 할지도 모르겠다.


웹 스크래핑 공부를 시작하다

위기를 기회로 만들기 위한 방편으로 생각한 것이 '코딩 공부'다. 연구자로서 코딩 실력이 필요한 상황이어서 해야지 해야지 생각은 많이 했지만 실제 써먹을 수 있을 만큼 공부해 본 적은 없었다. 부트캠프나 학교에서 제공된 강의를 듣는 정도였다.

R이나 Python을 그런 기회에 컴퓨터에 깔아 놓고 있었지만, 실제 연구에 활용하지는 못했다. 지난 번 논문(19-20세기초 종교 용례 연구) 작업할 때, 그 필요성을 절실히 느끼긴 했다. 1,500여 건의 신문 자료를 검토할 때 정신이 나갈 뻔 했다. 대한민국신문 아카이브에서 '검색 결과 엑셀 내보내기' 기능을 제공해서 그나마 몸으로 때우려는 마음이라도 먹었던 것이다.

블로그 이사를 위해 스크래핑 실력이 현재 절실하니 이 기회로 웹 자료를 자동으로 수집하는 코딩 기술을 습득해보자는 원대한 포부를 세웠다. 그러나 기초가 부족하니 교육 영상이나 기작성 코드들을 이용해서 이것저것 시도해 보는 정도에 그치고 있다.

구글링해서 얻은 스크립트를 기반으로 과거 블로그에서 페이지를 스크래핑 해 보는 시도를 진행 중이다. 필요한 라이브러리가 뭔지도, 어떤 코드가 왜 필요한지도 아직 잘 모르지만, 코드를 돌려보고 결과를 확인해 보면서 수정해 가고 있다.

어제 오늘 혼자 해 본 것은 "yyyy. mm. dd. hh:mm"와 같은 시간 표시를 긁어 와서 "yyyy-mm-dd" 형태로 바꾸어 주는 코드를 짠 것 정도다. 훨씬 간단한 방법이 있겠지만, 최근에 배운 걸 총동원해서 해본 것이다. 마지막 줄에서 text로 바뀐 시간 정보에서 '.(period)'+ 'blank'를 '-(hyphen)'으로 2개까지만 바꿔 주되 뒤에서 7열은 제외하는 식으로 처리했다.

앞으로 떠듬떠듬 해야 할 일은

1. 비공개 상태에서 게시물을 스크래핑하기 위해 로그인 정보를 주고 처리하는 코드 짜기(없으면 게시글 공개 상태에서 스크래핑하기로 목표를 수정할 계획)

2. 작성된 글의 html 코드를 살려서 스크래핑하기

3. 스크랩 시에 불필요한 정보 최소화하기

4. 이미지 등도 살려서 스크래핑하기

5. 누락된 url에서 오류 나지 않게 하기

6. .docx 혹은 .txt로 스크랩된 데이터 저장하기

7. 백업 폴더에 작성글 찾기 쉽게 '날짜+제목'으로 파일 및 폴더 정리하기

이런 목표를 11월까지 처리할 수 있기를 기대하고 있다. 

지금 현재는 공개된 게시물의 날짜와 제목 그리고 본문을 html 코드를 살려서 가져오는 정도다(여기에서 코드 제거하고 text만 추출하는 건 간단하다. get_text() 함수로..). 일부 불필요한 정보를 포함하고 있어서 그마저도 만족스러운 결과물은 아니다.

.   .   .

블로그 이사와 저품질 문제를 극복할 수 있을지 모르겠다.

티스토리의 검열로 촉발된 충동적 블로그 이사가 코딩 실력 향상의 결과로 귀결된다면 뭐 충분히 남는 장사가 되긴 할 것 같다.

역시 공부는 분노의 힘이 최고다.

이걸 요즘 새삼 느끼게 된다. 지루하고 지난한 과정을 감내하며 코드 한 줄 한 줄을 실험하며... 종교 개념사에 대한 후속 연구나 '인터넷 종교성'에 대한 본격적인 연구를 수행할 수 있게 되기를 꿈꾸고 있다.

댓글

이 블로그의 인기 게시물

위로가 없는 '차가운 종교학', Science of Religion을 생각하며

※이 글은 얼룩소 글(23.7.13)을 옮겨온 것입니다. ━━━━━━ ♠ ━━━━━━ 종교라는 주제를 다루려면 '위로'가 필요하다? 이 말을 저는 곳곳에서 확인하게 됩니다. 그 이야기를 좀 해 보겠습니다. 정재승 박사가 총괄자문 및 프리젠터로 참여한 다큐 시리즈 '뇌로 보는 인간'의 마지막 '종교' 편에 제가 자문으로 참여하여 아주 짧은 시간 출연한 경험이 있었습니다. 시청률이 높았던 편이 아니라서 사람들로부터 별다른 반응을 듣지는 못했습니다. 우연히 EBS 다큐를 보던 친구가 '야, 너 나왔더라...잠깐 ㅎㅎ', 이런 반응을 보인 예가 있었을 뿐입니다. 함께 자문에 참여한 구형찬 박사(인지종교학)가 종교학자로서는 메인이었기 때문에 당연한 일이었습니다. '뇌로 보는 인간' - 종교 편의 한 장면┃저는 입을 다물고 있습니다^^ 몇 년이 지나서 그때 나왔던 미디어 비평 기사를 볼 수 있었습니다. 미디어스 기사 캡쳐 해당 다큐에 대한 내용을 정리한 다음에 이런 논평을 내 놓았습니다. 미디어스 관련 기사 '위로가 없다'는 비판 을 볼 수 있었습니다. 예 그렇습니다. 종교라는 주제를 다룰 때 사람들은 그런 것을 기대하곤 합니다. '종교의 본질', '참된 의미' 같은 것을 발견하고, 뭔가 진리의 말씀이나 인생을 통찰할 수 있는 지혜를 얻기를 기대합니다. 그런 이야기를 하는 종교학도 존재합니다. '현대인의 종교는 병들었다'는 진단을 내리며 '고대인의 지혜'를 회복해야 한다는 메시지를 내거나 모든 종교에 담겨있는 가장 고귀한 가르침(가령 황금률 같은)은 모두 상통하고 그것이 인간이 향유해야 할 소박하지만 분명한 진리라고 이야기하는 예도 있습니다. 프리드리히 막스 뮐러┃출처: Wikimedia Commons 종교학의 아버지라고 불리는 막스 뮐러는 '종교학으로의 초대(Introduction to the Science ...

"뇌 회로는 친숙한 것, 중요한 것과 단순한 배경을 식별합니다."(논문 정리)

흥미로운 신경과학 연구 소개를 봤습니다. 친숙한 것과 중요한 것을 먼저 식별하는 뇌 경로에 관한 연구입니다. '신경종교학'에 참고가 되는 논문일 것으로 판단되어, 내용을 정리해 봅니다.  *  *  * Brain Circuit Identifies What’s Familiar, Important, or Just Background┃Neuroscience News.com 요약 : 과학자들은 기억과 감정을 통합하여 감각 정보를 빠르게 평가하는 이전에 알려지지 않은 뇌 회로를 발견했습니다. 내측후각피질(entorhinal cortex)과 해마(hippocampus) 사이의 이 직접 피드백 루프를 통해 뇌는 중요한 광경과 소리를 거의 즉시 우선순위를 정할 수 있습니다. 이전에 알려진 더 느린 경로와 달리, 이 회로는 관련 자극과 배경 소음을 구별하는 데 도움이 될 수 있으며, PTSD와 자폐증과 같은 상태에 영향을 미칠 수 있습니다. 이 발견은 뇌가 정보를 걸러내는 방식에 대한 이해를 높이고 감각 및 기억 관련 장애를 치료하기 위한 새로운 전략으로 이어질 수 있습니다. ─── ∞∞∞ ───  익숙한 것을 한눈에 알아보는 뇌 회로, 해마의 비밀 우리는 왜 친숙한 얼굴이나 물건을 한눈에 알아볼 수 있을까요? 반대로 처음 보는 것은 어딘가 낯설게 느껴지곤 합니다. 이런 능력 뒤에는 우리의 기억 이 큰 역할을 합니다. 뇌의 해마(hippocampus)라는 부분이 과거의 기억을 보관하고 있다가, 현재 들어오는 감각 정보와 비교하여 이것이 익숙한지 새로운지 판단하도록 돕는 것이죠. 예를 들어, 해마는 “이건 예전에 봤던 거야” 혹은 “처음 보는 거네”라는 신호를 뇌의 다른 부분에 보내 우리의 인식을 조절합니다. 이 덕분에 우리는 중요한 새로운 정보 에 주의를 기울이고, 이미 아는 것은 배경 소음처럼 무시할 수도 있습니다. 해마는 특히 대뇌피질의 한 부분인 내후각 피질 (entorhinal cortex)과 긴밀히 소통합니다. 내후각 피질은 오감에...

한 해를 시작하는 날은 많다?│시간과 종교적 본능

※ 이 글은 '얼룩소'에 2023년 1월 2일에 게재했던 글입니다. (부제를 약간 수정) ─── ∞∞∞ ─── 1년의 시작점은 많습니다. 우리에게 익숙한 시간은 동지, 설, 정월대보름, 입춘 등입니다. 전에 이야기한 16세기 후반 프랑스의 신년 기념일들처럼( 참고 ) 같은 나라 안에서도 여러 신년 기념일이 있는 경우는 특이한 현상이 아닙니다. 왜 이렇게 되었을까요? 원래 지역적인 단일성은 있었을 겁니다. 특정 지역에서는 1월 1일이다, 이 동네는 음력 설이다, 이 동네는 입춘이다, 이렇게 말입니다. 이게 어떤 계기에 통합되는 과정을 거칩니다. 지역적으로 통일성을 가진 집단들이 묶여서 더 큰 집단으로 통합되면서 시간, 의례 등을 통합하는 과정이 뒤따르게 됩니다. 종교단체 수준에서도 진행이 되지만 국가 수준에서도 진행이 됩니다. 이 과정은 국가의 흥망성쇠, 종교단체의 흥망성쇠 등 집단 구속력의 변화에 따라서 부침을 겪으며 반복·중첩되었을 것으로 보입니다.  앞서 언급한 프랑스에서는 16세기에 신년 기념일을 단일화하려 했습니다. 한국에서는 그러한 노력이 19세기말 20세기에 시도되었습니다. 공식적인 수준에서 한 해의 시작일은 그렇게 하루 아침에 바꿀 수 있지만, 의례적으로 기념하는 첫 날은 쉽게 변화하지 않습니다. 이를 문화적 관성이라고 할 수 있습니다(선조들이 해왔던 대로 해야 한다는 의식으로 나타남). 여러 신년 기념일은 그런 통합의 힘에도 어떤 현실적 필요에 의해서 과거의 전승이 살아남아 그 흔적을 남긴 덕분입니다. 다만 해당 기념일을 현재에 활용하는 의미는 달라질 수 있습니다.  현재적 가치를 상실하게 된다면 사라질 운명을 일 겁니다. 그럴 경우 '고유한 문화를 지키자'는 운동이 표출될 수도 있습니다. 집단 정체성과 관련된 전통으로 선택되지 못하면 잊혀지는 것이고요. 동지 우리에게는 팥죽 먹는 날 정도의 의미만 남았습니다. 그러나 이 날도 과거에는 새해가 시작되는 날로 기념되었습니다. 그런 동지 축제가 신년 축제인 사례도...