기본 콘텐츠로 건너뛰기

블로그 글 백업 1단계 성공

우여곡절 끝에 텍스트 백업을 마쳤다.

글을 비공개 상태로 스크랩핑 하는 방법이나 word 파일에 텍스트와 이미지를 모두 넣어 저장하는 방법 등을 고심했지만, 현재 나의 코딩 실력으로는 하세월이었다.

검색으로 찾아 볼 수 있는 코드와 유튜브 강의들을 참고해서 노가다로 만들었다.

약 790여개*의 아티클을 word 파일로 저장할 수 있었다. 

*위 이미지에서 'range' 항목이 709-907로 되어 있는데(이 의미는 url주소의 끝 숫자가 709에서 906까지 해당 페이지에 대해서 아래의 코드를 실행) 중간 중간에 예상하지 못한 error들을 다루며 코드를 바꿔가면서 했기 때문이다. 출발한 url의 숫자는 61번이었다. 중간에 결측치가 있기 때문에 846건의 아티클을 수집한 게 아니었다.

일정한 패턴의 url 주소를 바탕으로 해당 페이지의 내용을 구문분석해서 텍스트를 추출하고 그렇게 추출된 텍스트에서 제목, 시간 정보를 추출하여 가공하고, 본문 텍스트를 뽑아 제목과 본문을 워드 파일로 저장하게 한 코드다. 

워드 파일명은 해당 게시물의 시간 정보+글 제목으로 만들었는데, 이 덕분에 가공이 더 필요했다. 제목에는 '<', '/', '?', '!', ':', '"' 등 컴퓨터 파일명에 쓸 수 없는 기호들이 담겨 있다. 이를 파일명에 쓸 수 있는 기호나 문자로 변환해 주거나 삭제할 필요가 있었다. 

파일명을 그렇게 어렵게 정하지 않았다면 코드가 더 단순해졌겠지만, 파일에 담긴 글의 정보를 손쉽게 확인하게 하기 위해서 글제목으로 파일명을 삼기로 한 기준은 포기할 수 없었다  

이 백업 데이터 중에서 무엇을 가공해서 쓸지는 또 한참 고민과 노가다가 남아 있다.

티스토리 블로그는 각 게시물의 이미지를 추출한 후에 모두 삭제할 예정이다.

조만간 티스토리와는 정말 안녕이다.

댓글

이 블로그의 인기 게시물

제임스 카메론 감독과 예수 가족의 무덤, '예수 신화'에 이야기를 더하다

 얼룩소에 2023년 8월 2일에 쓴 글입니다. *  *  * 최근에 『예수의 무덤: 역사를 뒤집을 고고학 최대의 발견』(2007)이란 책을 보게 되었습니다. 『예수의 무덤』의 표지(출처: 교보문고) 원제는 The Jesus Family Tomb: The Discovery, the Investigation, and the Evidence That Could Change History (예수 가족의 무덤: 역사를 바꿀 수 있는 발견, 조사, 그리고 증거, 2007)입니다. 이 책을 보고 '제임스 카메론'이 등장할 것을 알기는 어렵지요. 관련 논란을 미리 알았더라면, 그리 놀라지는 않았을 것 같습니다. 책을 펼치면 '추천의 글'이 있습니다. 이 글을 쓴 사람이 제임스 카메론(캐머런)이었습니다. 『예수의 무덤』 17쪽, '추천의 글' 글쓴이 그런데 이 책의 문제 의식은 상당히 인상적입니다. 역사학자, 성서학자의 '예수의 실존'에 관한 일반론에 대한 반박을 할 수 있는 결정적인 물리적 증거(예수 가족의 무덤)가 심차 자코보비치(Simcha Jacobovici)와 찰스 펠리그리노(Charles R. Pellegrino)에 의해서 발견되었다는 것입니다.  요즘 많은 전문가들이 예수가 실제로 존재하지 않았다고 주장하고는 한다. 이교도들의 신, 죽음과 부활의 신화, 1세기경 유대인들의 메시아 전통 등이 결합되어 조작된 존재로, 예수 역시 그리스 신화의 제우스처럼 역사적 실존 인물이 아니라는 주장이다. ... 그리고 대부분의 학자가 크리스마스도 동지를 축하하는 이교도의 전통을 받아들인 것으로 해석한다. 동정녀 잉태와 부활 등 예수의 이야기에서 기본적인 틀을 이루는 많은 부분이 예수의 존재보다 적게는 수백 년을 앞서고 있기 때문에, 예수가 실존 인물이 아니라 어떤 특별한 이유로 조작된 신화적 인물이라는 주장이 설득력 있게 들린다. 예수 그리스도가 실제로 이 땅에서 살았다는 물리적 증거가 하나도 없기 때문에 ...

태백산, 산당, 서낭당 그리고 사람들┃답사 후기

[2017년 6월에 태백산 일대의 답사를 다녀와서 쓴 글입니다. 답사는 6월 3일부터 6월 4일까지. 후기 작성일 2017. 6. 7.] · · · 태백산에 다녀왔다. 천제단, https://www.khan.co.kr/local/Gangwon/article/202204281434001#c2b 난 답사를 싫어한다. 주위 사람들은 다 알고 있다. '왜 가야 하나'에 적절한 답을 가져본 적이 없다. 학부 때는 '학술'을 가장한 MT같은 것이니 어쩔 수 없다 싶었는데, 대학원에 들어와서는 그마저도 관심이 시들해졌다. '학'은 사라지고 '술'을 위해서 가는 것이라면 또 굳이 갈 이유가 있을까 싶기도 했다. (실제 답사가 다 그런 것은 아니다. 내가 답사에서 무언가 발견할 수 없었기 때문에 그렇게 느꼈던 것 같다) 그런데 박사수료 후부터 조금 달라졌다. 이제 '그곳'에 가면 이야기가 보이기 시작한다. 그것도 재미가 있다. 왜 그런가 싶었는데, 역시 수준 높은 연구자들과 함께 가서 그런 것 같다. 혼자 갔다면 도저히 그곳의 이야기, 그곳 사람들의 이야기를 듣지 못했을 터다. ('자기 문제의식'이 명료화 되었다는 점도 중요한 것 같기는 하다) '산악신앙'은 상식적으로는 '원시신앙'으로 학술적으로는 자연신앙 내지는 마을신앙과 관련된 민속신앙으로 이야기된다. 고도의 신학적 이야기, 그래서 인생의 의미를 음미하는 따위의 것이 담겨있지 않다. 그래서 상당히 빈곤하게 이해된다. 그런데 이번에 태백산 답사를 가서, 거기에 '인간'을 들여다 보는 '어떤 창'이 있다는 것을 새삼스럽게 확인하게 되었다. 산은 '신성한 곳'이다 태백산 같이 높은 산, 주변 지역의 '중심'이 되는 산은 특히 그렇다. 그런 산들은 일단 직접적으로 인간에게 '위험'하다. 맹수로부터 목숨을 위협 받을 수 있는 곳이다. 높...

"뇌 회로는 친숙한 것, 중요한 것과 단순한 배경을 식별합니다."(논문 정리)

흥미로운 신경과학 연구 소개를 봤습니다. 친숙한 것과 중요한 것을 먼저 식별하는 뇌 경로에 관한 연구입니다. '신경종교학'에 참고가 되는 논문일 것으로 판단되어, 내용을 정리해 봅니다.  *  *  * Brain Circuit Identifies What’s Familiar, Important, or Just Background┃Neuroscience News.com 요약 : 과학자들은 기억과 감정을 통합하여 감각 정보를 빠르게 평가하는 이전에 알려지지 않은 뇌 회로를 발견했습니다. 내측후각피질(entorhinal cortex)과 해마(hippocampus) 사이의 이 직접 피드백 루프를 통해 뇌는 중요한 광경과 소리를 거의 즉시 우선순위를 정할 수 있습니다. 이전에 알려진 더 느린 경로와 달리, 이 회로는 관련 자극과 배경 소음을 구별하는 데 도움이 될 수 있으며, PTSD와 자폐증과 같은 상태에 영향을 미칠 수 있습니다. 이 발견은 뇌가 정보를 걸러내는 방식에 대한 이해를 높이고 감각 및 기억 관련 장애를 치료하기 위한 새로운 전략으로 이어질 수 있습니다. ─── ∞∞∞ ───  익숙한 것을 한눈에 알아보는 뇌 회로, 해마의 비밀 우리는 왜 친숙한 얼굴이나 물건을 한눈에 알아볼 수 있을까요? 반대로 처음 보는 것은 어딘가 낯설게 느껴지곤 합니다. 이런 능력 뒤에는 우리의 기억 이 큰 역할을 합니다. 뇌의 해마(hippocampus)라는 부분이 과거의 기억을 보관하고 있다가, 현재 들어오는 감각 정보와 비교하여 이것이 익숙한지 새로운지 판단하도록 돕는 것이죠. 예를 들어, 해마는 “이건 예전에 봤던 거야” 혹은 “처음 보는 거네”라는 신호를 뇌의 다른 부분에 보내 우리의 인식을 조절합니다. 이 덕분에 우리는 중요한 새로운 정보 에 주의를 기울이고, 이미 아는 것은 배경 소음처럼 무시할 수도 있습니다. 해마는 특히 대뇌피질의 한 부분인 내후각 피질 (entorhinal cortex)과 긴밀히 소통합니다. 내후각 피질은 오감에...