기본 콘텐츠로 건너뛰기

python 자료의 유형

파이썬을 공부할 때, 기본 중의 기본이지만 대충 넘어간 부분이 자료형(type)에 관한 것이다.

어떤 함수는 type이 숫자만, 어떤 건 문자열만 받는다고 하는데, 머리 속에서 확실히 정리되지는 않는다. 그냥 그때그때 처리하기 바쁜데.. 사실 error 코드 보고 대처하는 수준밖에 안 된다.

공부 겸으로 한 번 정리해 본다.

근데 솔찍히 이런 그림 처음 본다. 자료형에 integer(정수), float, string(문자열), list(리스트) 정도가 익숙할 뿐이다.

파이썬 데이터 타입의 상위 분류가 '가변형', '불변형'인 것도. 강사들이 그런 이야기를 하는 경우를 듣긴 했던 것 같은데... 수업을 건성으로 들은 사람의 한계다.

그 다음으로 숫자 타입, 시퀀스 타입, 리스트 타입, 사전 타입, 세트 타입으로 나뉘고,

숫자 타입의 경우에 정수형, 소수형(실수?), 불 형(0, 1: 참, 거짓)*, 위 그림에는 없지만 복소수 형이 있다.

* 위 그림에서는 숫자 타입으로 분류하지만, 통상 불 형을 더 상위 수준 분류로 말하는 경우가 많다.

시퀀스 타입에 문자열 형, 튜플 형으로 분류되는 것도 처음 알았다(분류를 어떻게 묶느냐에 따라 다르긴 하지만).

데이터의 유형을 확인할 때 사용하는 함수 type( )은 익숙하다. 자주 사용하는 함수다.

jupyter를 이용해서 숫자 타입들을 찍어보면 다음과 같은 결과를 알 수 있다.

그동안 '복소수'는 어떻게 다루는지 몰랐는데 'a+bj' 스타일로 쓴다. 'i'는 for문에서 주로 변수로 사용해서 못 쓰게 해 놓았는지는 모르지만 'a+bi' 형태로 쓰면 type( ) 함수에서 error가 발생한다.

π 값을 어떻게 입력하는지 몰랐는데, 무한소수를 컴으로 다루는 건 한계가 있을 테니 일정 소수점에서 자른 수를 사용하고 있었다. π 값을 불러 오려면 math 라이브러리를 import해야 했다. 역시 소수니 'float' 타입으로 나온다.

불 형(Bool)은 참과 거짓을 따지는 데이터 형태를 말한다. 영국의 논리학자 조지 불(George Boole, 1815-1864)의 이름을 따 만든 용어라고 한다. 

'참', '거짓'의 2가 연산과 관련된 논리 연산 체계를 구축한 것 같다. 집합론, 명제에서 만나게 되는 ∧(논리곱), ∨(논리합), ¬(논리 부정) 등의 연산자로 구성되는 조건문을 처리하는 것이다.

위 그림에서 '가변형'의 한 종류로 리스트를 다루고 있지만, 통상적으로 '시퀀스 형'으로 분류한다. 아무래도 '가변형', '불변형'의 상위 유형 구분을 두어서 생긴 차이로 보인다. '가변', '불변'을 따지지 않는 분류에서 시퀀스 형으로 놓고 있다. 

리스트는 자주 사용하는 것이다. 대괄호로 묶인 원소의 집합이다. [1, 2, 3, 4, 5], 이런 게 리스트인데, 이렇게 '집합' 같은 의미를 갖는 게, 리스트, 튜플, 세트(집합), 사전이 있다.

리스트는 데이터를 묶어서 사용할 수 있게 해 준다. 순서, 중복도 허용된다.

[1, 2, 3]과 [1, 3, 2]는 다른 리스트이고, [1, 1, 2, 3]도 다른 것이다.

이에 비해서 세트(set)는 중괄호를 사용하고 {1, 2, 3}과 {1, 3, 2}는 같고, {1, 1, 2, 3}은 {1, 2, 3}과 같은 결과를 보여준다. 중복을 허용하지 않고, 순서도 의미가 없다. set은 합집합, 교집합, 차집합 같은 집합 연산을 하는 데 활용한다고 한다.

튜플은 소괄호()를 이용하여 집합을 표시하는데, 리스트와 대체로 비슷하지만 리스트가 요소의 수정, 생성, 삭제 등이 용이한 데 반해서 튜플은 정해진 요소를 바꿀 수 없다. 이런 특성이 어떤 활용성을 가지는지 모르겠지만, 일반적으로 임시적 매칭과 스왑에 쓰인다고 한다.

임시적 매칭은 이런 식이다.

스왑은 이런 경우다.

파이썬을 배우다 보면 튜플보다는 리스트를 많이 쓰게 되는 것 같다. 튜플에서 리스트로 전환(list( )를 이용)이나 리스트에서 튜플로의 전환(tuple( )을 이용)이 용이하기 때문에 필요한 특성을 전환해 가며 사용하면 되는 듯하다.

사전(dictionary)는 유형상 리스트, 튜플, 세트와 구분하는데, 기본 모습은 집합 형태를 가지고 있긴 하다. 큰 차이는 'key'와 'value'를 갖는다는 점일 것이다. 그래서 '매핑mapping 타입'으로 불린다.

d = {1:'a', 2:'b', 3:'c'}처럼 1과 a를 연결하여 데이터를 처리하는 경우에 사용한다. 요소를 넣고 빼고 하는 게 자유롭다. 리스트처럼 '순서'에 의미가 있는 건 아니고 key-value의 연결이 중요하다. 

print(d[1])은 a를 출력한다. print(d.get(1))도 a를 출력한다. 없는 키를 호출할 때, 가령 print(d[4])는 KeyError가 발생하고 코드가 멈추고, print(d.get(4))는 None을 출력하고 코드가 멈추지 않는다.

시퀀스 타입의 문자열string 형이 있다. 파이썬 공부할 때, 숫자형(int, float), 리스트와 함께 가장 많이 사용하는 자료 유형인 것 같다. 자연어 처리(NLP)에서도 자주 사용하기 때문에 내 연구에 가장 활용도 높은 자료 유형일 것으로 예상한다(리스트와 함께).

문장이나 단어들이 해당된다. 간혹 숫자를 문자처럼 쓰기 위해서 str( ) 함수를 사용하곤 한다. 문장을 print할 때, 계산된 숫자와 결합해서 문장을 출력하는 경우에 종종 사용했다.

코딩 처음 배울 때 출력하는 문장, 'Hello World'가 문자열의 대표적 사례다.

sent = 'Python is a wonderful tool for understanding people\'\s digital data' (문자열을 표시하는 큰따옴표나 작은 따옴표 안의 큰따옴표나 작은 따옴표는 역슬래시 혹은 \으로 감싸줘야 한다)

print(len(sent))...output은 '67'이다. 빈칸까지 센 결과다. 공백을 제거한 철자의 수는 이렇게 구할 수 있다: len(sent.replace(' ', '')). 위 문장은 58개의 철자가 쓰였다.

순서에 따라서 문자열을 따로 호출할 수도 있다. print(sent[0:6])(sent의 0행에서 5행까지 출력)는 'Python'을 반환한다. 'print(sent[:6]'으로 쓸 수도 있다. print(sent[-12:])를 실행하면 'digital data'를 반환한다.

자료형이 언제쯤 익숙해질지... 연습만이 살 길이겠지?

댓글

이 블로그의 인기 게시물

'정신병', 스캡틱, 박한선

※ 이 글은 ' 얼룩소 '에 2023년 1월 28일에 게재했던 글입니다. 본래 제목을 약간 수정하였습니다. 이 글은 Skeptic Korea의 " 정신의학의 오래된 과제, 과학적 치료와 처방 "에 관한 얼룩소글의 출처를 체크하고, 정신질환 치료의 현실에 대해 박한선 선생님께 들었던 이야기를 정래해 본 글입니다. ─── ∞∞∞ ─── 최근에 나온 글인 줄 알고 찾아봤더니 전에 나온 글이군요. 마침 어제(1/27) 정신과 의사 출신 인류학자 박한선 선생님을 통해서 관련 이야기를 듣고, 글쓴이부터 찾아 봤습니다. 다른 저자인 걸 보고, 정신의학계에서 상당히 유명한 이야기라는 걸 짐작할 수 있었습니다. 박선생님께서 정신병 진단과 치료에 '정신분석학'이 사용되고 있다고 하셔서 좀 어리둥절 했었습니다. 심리학계(실험심리가 중심이 된)에서는 배우지 않게 된 분야로 알고 있어서 의학 분야에서도 당연히 퇴출되었다고 지레짐작하고 있었습니다. '왜 인지 모르지만, 효과가 있다'는 면에서 정신과 치료가 이루어지는 현실을 생각해 보는 계기가 되었습니다. 아, '정신분석학'도 프로이트, 융 시절의 버전이 아니라 많이 업데이트가 되었다고 하더군요. 자세한 부분은 과문해서 잘 모르겠습니다만. 어제 박선생님이 들려주신 이야기도 떠올라 흥미롭게 이 스켑틱의 글을 읽다가 문득 출처가 궁금해서 찾아 보니, '한국 스켑틱'에는 14권(2018년)에 "정신의학은 과학이 될 수 있을까"라는 제목의 글로 실려있었습니다. (스켑틱에서 얼룩소에 올리는 글이 최근호에 실린 글이 아니라는 걸 이제사 깨달은 거죠) https://www.badabooks.co.kr/SKEPTIC_magazine/?idx=54 글은 14권의 68~83쪽에 실렸습니다. 이 글을 일부 발췌해서 재편집한 것이 위의 얼룩소에 실린 글이더군요.

ChatGPT에 '크리스마스와 동지'의 관계를 물어 보았다.

요즘 핫하다는 '챗GPT'에 크리스마스와 동지의 관계를 물어보았다. https://openai.com/ 나: 크리스마스가 동지와 관계가 있다고 생각하니? 챗봇: 크리스마스는 세계 여러 지역에서 전통적으로 12월 25일에 기념하는 축제일이며 종종 북반구에서 1년 중 낮이 가장 짧은 동지와 관련이 있다. 동지는 보통 12월 21일 또는 22일 경에 발생하며 태양이 하늘에서 가장 낮은 지점에 도달하는 것, 즉 일 년 중 밤이 가장 긴 날을 표시한다. 크리스마스 축제는 원래 기독교 이전의 동지 축제의 영향을 받았을 것으로 생각되며, 이는 종종 태양의 재생과 낮이 더 길어지는 시기의 복귀와 관련이 있다. 고대 로마인과 고대 켈트족을 포함한 많은 고대 문화에는 동지와 태양의 귀환을 중심으로 한 전통과 축제가 있었다. 그러나 크리스마스는 복잡한 역사를 가지고 있으며 다양한 문화 및 종교적 영향에 의해 형성되었다는 점에 유의하는 것도 중요하다. 동지가 축제일의 기원에 역할을 했을 수도 있지만, 크리스마스는 광범위한 종교적, 문화적 전통과 연관되어 현재 전 세계의 다양한 신앙을 가진 사람들이 기념하고 있다. 크리스마스와 동지의 관계에 대해서 비교적 유의미한 정보를 제공하는 것으로 보인다.  동지 축제와 관련성을 '논증'하지는 않지만, 중요한 정보(동지 축제와 관련되지만 현재는 역사/문화/종교적 설명이 복잡하게 얽혀있다거나 복잡하게 변화했다)는 대체로 잘 이야기하고 있다. 인지진화적 설명은 관련 문서가 부족하기 때문에 활용하지 못하는 것으로 보인다. 디테일이 부족한 것도 한계라 할 수 있겠지만, 간단한 답변으로서는 상당한 수준이라는 것도 부인할 수 없는 것 같다. 챗GPT가 3문단으로 설명하는 것을 나는 A4 몇 페이지로 설명했던가. 대학 등에서 학생들에게 과제나 시험문제를 내줄 때 이제 안일하게 내면 AI가 답을 써주는 시대가 되어버린 듯하다. ─── ∞∞∞

절기, 시간의 마디와 의례 본능

‘크리스마스와 동지 축제’라는 타이틀의 시리즈물의 마지막 글이다. 이전 글까지 확인하려고 했던 것은 ‘크리스마스’가 동지라는 ‘시간의 마디’에 이루어지는 의례였고, 지금도 그 특성이 유지되고 있다는 것이다. 그 다음에 물을 수 있는 것은 '이런 시간의 마디에서 인간은 왜 의례 행동을 하는가'가 될 것이다. 동지 축제의 주요 요소라고 할 만한 것들이 ‘주술-종교적 목적의 행동’이라는 점을 지난 글( 핼러윈, 크리스마스, 만우절의 공통점 )에서 언급했다. 팥죽과 주술-종교적 위험 회피 우리의 동지 축제 때 관습으로 ‘팥죽 먹기’가 있는데, 그것도 동지 축제에서 많이 보는 주술-종교적 행동이다. 동지에 팥죽을 먹는 풍습에 대한 ‘한국민족문화대백과사전’의 설명을 보자. 동짓날에는 동지팥죽 또는 동지두죽(冬至豆粥)·동지시식(冬至時食)이라는 오랜 관습이 있는데, ... 팥죽에는 축귀(逐鬼)하는 기능이 있다고 보았으니, 집안의 여러 곳에 놓는 것은 집안에 있는 악귀를 모조리 쫓아내기 위한 것이고, 사당에 놓는 것은 천신(薦新)의 뜻이 있다. ... 동짓날에 팥죽을 쑤어 사람이 드나드는 대문이나 문 근처의 벽에 뿌리는 것 역시 악귀를 쫓는 축귀 주술행위의 일종이다. ‘악귀를 쫓는 축귀 주술행위’로 팥죽을 쑤어 먹는다는 것이다. 이런 동기는 이 풍습이 관습화되면서 많이 약화되고 새해에 떡국을 먹는 것처럼 ‘한 살을 먹는다’는 의미 정도로 축소되었다. 세계 도처의 ‘동지 축제 풍습’, 또 신년 의례를 보면 시간이 변하는 시점에 귀신이나 악령이 출몰하고 이들로부터 인간이 액, 살과 같은 좋지 않은 영향을 받을 수 있다는 관념이 폭넓게 퍼져 있다는 것을 알 수 있다. 그리고 그것을 막기 위한 모종의 행동(의례)을 수행하는 것을 확인할 수 있다. 참고로 시간의 ‘경계’만큼이나 공간의 ‘경계’에서도 인간의 종교적 상상력은 활발히 작동한다. 그 대표적인 예가 누석단이다. 영어권에서는 cairn이라고 말하는 것이다. 새로운 공간으로 진입할 때 사람들은 민감하게 초자연적