기본 콘텐츠로 건너뛰기

블로그 글 백업 1단계 성공

우여곡절 끝에 텍스트 백업을 마쳤다.

글을 비공개 상태로 스크랩핑 하는 방법이나 word 파일에 텍스트와 이미지를 모두 넣어 저장하는 방법 등을 고심했지만, 현재 나의 코딩 실력으로는 하세월이었다.

검색으로 찾아 볼 수 있는 코드와 유튜브 강의들을 참고해서 노가다로 만들었다.

약 790여개*의 아티클을 word 파일로 저장할 수 있었다. 

*위 이미지에서 'range' 항목이 709-907로 되어 있는데(이 의미는 url주소의 끝 숫자가 709에서 906까지 해당 페이지에 대해서 아래의 코드를 실행) 중간 중간에 예상하지 못한 error들을 다루며 코드를 바꿔가면서 했기 때문이다. 출발한 url의 숫자는 61번이었다. 중간에 결측치가 있기 때문에 846건의 아티클을 수집한 게 아니었다.

일정한 패턴의 url 주소를 바탕으로 해당 페이지의 내용을 구문분석해서 텍스트를 추출하고 그렇게 추출된 텍스트에서 제목, 시간 정보를 추출하여 가공하고, 본문 텍스트를 뽑아 제목과 본문을 워드 파일로 저장하게 한 코드다. 

워드 파일명은 해당 게시물의 시간 정보+글 제목으로 만들었는데, 이 덕분에 가공이 더 필요했다. 제목에는 '<', '/', '?', '!', ':', '"' 등 컴퓨터 파일명에 쓸 수 없는 기호들이 담겨 있다. 이를 파일명에 쓸 수 있는 기호나 문자로 변환해 주거나 삭제할 필요가 있었다. 

파일명을 그렇게 어렵게 정하지 않았다면 코드가 더 단순해졌겠지만, 파일에 담긴 글의 정보를 손쉽게 확인하게 하기 위해서 글제목으로 파일명을 삼기로 한 기준은 포기할 수 없었다  

이 백업 데이터 중에서 무엇을 가공해서 쓸지는 또 한참 고민과 노가다가 남아 있다.

티스토리 블로그는 각 게시물의 이미지를 추출한 후에 모두 삭제할 예정이다.

조만간 티스토리와는 정말 안녕이다.

댓글

이 블로그의 인기 게시물

ChatGPT에 '크리스마스와 동지'의 관계를 물어 보았다.

요즘 핫하다는 '챗GPT'에 크리스마스와 동지의 관계를 물어보았다. https://openai.com/ 나: 크리스마스가 동지와 관계가 있다고 생각하니? 챗봇: 크리스마스는 세계 여러 지역에서 전통적으로 12월 25일에 기념하는 축제일이며 종종 북반구에서 1년 중 낮이 가장 짧은 동지와 관련이 있다. 동지는 보통 12월 21일 또는 22일 경에 발생하며 태양이 하늘에서 가장 낮은 지점에 도달하는 것, 즉 일 년 중 밤이 가장 긴 날을 표시한다. 크리스마스 축제는 원래 기독교 이전의 동지 축제의 영향을 받았을 것으로 생각되며, 이는 종종 태양의 재생과 낮이 더 길어지는 시기의 복귀와 관련이 있다. 고대 로마인과 고대 켈트족을 포함한 많은 고대 문화에는 동지와 태양의 귀환을 중심으로 한 전통과 축제가 있었다. 그러나 크리스마스는 복잡한 역사를 가지고 있으며 다양한 문화 및 종교적 영향에 의해 형성되었다는 점에 유의하는 것도 중요하다. 동지가 축제일의 기원에 역할을 했을 수도 있지만, 크리스마스는 광범위한 종교적, 문화적 전통과 연관되어 현재 전 세계의 다양한 신앙을 가진 사람들이 기념하고 있다. 크리스마스와 동지의 관계에 대해서 비교적 유의미한 정보를 제공하는 것으로 보인다.  동지 축제와 관련성을 '논증'하지는 않지만, 중요한 정보(동지 축제와 관련되지만 현재는 역사/문화/종교적 설명이 복잡하게 얽혀있다거나 복잡하게 변화했다)는 대체로 잘 이야기하고 있다. 인지진화적 설명은 관련 문서가 부족하기 때문에 활용하지 못하는 것으로 보인다. 디테일이 부족한 것도 한계라 할 수 있겠지만, 간단한 답변으로서는 상당한 수준이라는 것도 부인할 수 없는 것 같다. 챗GPT가 3문단으로 설명하는 것을 나는 A4 몇 페이지로 설명했던가. 대학 등에서 학생들에게 과제나 시험문제를 내줄 때 이제 안일하게 내면 AI가 답을 써주는 시대가 되어버린 듯하다. ─── ∞∞∞

'정신병', 스캡틱, 박한선

※ 이 글은 ' 얼룩소 '에 2023년 1월 28일에 게재했던 글입니다. 본래 제목을 약간 수정하였습니다. 이 글은 Skeptic Korea의 " 정신의학의 오래된 과제, 과학적 치료와 처방 "에 관한 얼룩소글의 출처를 체크하고, 정신질환 치료의 현실에 대해 박한선 선생님께 들었던 이야기를 정래해 본 글입니다. ─── ∞∞∞ ─── 최근에 나온 글인 줄 알고 찾아봤더니 전에 나온 글이군요. 마침 어제(1/27) 정신과 의사 출신 인류학자 박한선 선생님을 통해서 관련 이야기를 듣고, 글쓴이부터 찾아 봤습니다. 다른 저자인 걸 보고, 정신의학계에서 상당히 유명한 이야기라는 걸 짐작할 수 있었습니다. 박선생님께서 정신병 진단과 치료에 '정신분석학'이 사용되고 있다고 하셔서 좀 어리둥절 했었습니다. 심리학계(실험심리가 중심이 된)에서는 배우지 않게 된 분야로 알고 있어서 의학 분야에서도 당연히 퇴출되었다고 지레짐작하고 있었습니다. '왜 인지 모르지만, 효과가 있다'는 면에서 정신과 치료가 이루어지는 현실을 생각해 보는 계기가 되었습니다. 아, '정신분석학'도 프로이트, 융 시절의 버전이 아니라 많이 업데이트가 되었다고 하더군요. 자세한 부분은 과문해서 잘 모르겠습니다만. 어제 박선생님이 들려주신 이야기도 떠올라 흥미롭게 이 스켑틱의 글을 읽다가 문득 출처가 궁금해서 찾아 보니, '한국 스켑틱'에는 14권(2018년)에 "정신의학은 과학이 될 수 있을까"라는 제목의 글로 실려있었습니다. (스켑틱에서 얼룩소에 올리는 글이 최근호에 실린 글이 아니라는 걸 이제사 깨달은 거죠) https://www.badabooks.co.kr/SKEPTIC_magazine/?idx=54 글은 14권의 68~83쪽에 실렸습니다. 이 글을 일부 발췌해서 재편집한 것이 위의 얼룩소에 실린 글이더군요.

미신과 종교라는 개념에 담긴 '너는 틀렸고, 내가 맞다'

※ 이 글은 ' 얼룩소 '에 2023년 1월 21일에 게재했던 글입니다. ─── ∞∞∞ ─── 미신이란 말을 많이 씁니다. 그게 무엇이냐 물어 본다면 우리는 어떤 행위들이나 관념을 이야기합니다. 뇌과학자 정재승 선생님도 미신 이야기를 하면서 '빨간색으로 이름 쓰는 행위가 불길하다는 미신'을 이야기했습니다. 차이나는 클라스, 정재승 편 미신이 어떤 것인가를 말할 때, 이렇게 미신에 속한 것들을 이야기하게 됩니다. '시험 볼 때 미역국을 먹지 않는다' '시험 볼 때 포크를 선물한다' '손 없는 날 이사해야 한다' '밤에 손톱을 깎으면 안 된다' '귀신을 쫓기 위해서 팥죽을 먹는다' 그럼 '미신'은 어떤 것이냐 설명해 보라면, 아마 이런 말들을 늘어 놓게 될 겁니다. https://engoo.co.kr/blog/먼나라이웃나라-세계-각국의-다양한-미신들/ 표준국어대사전에 바로 그와 같이 설명이 되어 있습니다. 표준국어대사전 '미신' 항목 그런데 이런 개념은 일상에서는 그런대로 사용할 수 있지만, 엄밀하게 따지면 쓸 수 없는 설명입니다. '비합리적이고 비과학적'인 게 너무 광범위하기 때문입니다. 도덕적, 경제적 판단과 믿음에도 그런 사례를 많이 찾아 볼 수 있습니다. 가령 '관상은 과학이다', 'ABO 혈액형 성격론', '과시적 소비' 등등. 어떤 종교적 맥락에서 '이상한 것'을 이야기하기 위해서 '미신'이란 말을 많이 사용합니다. 종교와는 다른 것으로 이야기합니다. 그런데 위 국어사전의 개념 정의는 종교도