기본 콘텐츠로 건너뛰기

python 자료의 유형

파이썬을 공부할 때, 기본 중의 기본이지만 대충 넘어간 부분이 자료형(type)에 관한 것이다.

어떤 함수는 type이 숫자만, 어떤 건 문자열만 받는다고 하는데, 머리 속에서 확실히 정리되지는 않는다. 그냥 그때그때 처리하기 바쁜데.. 사실 error 코드 보고 대처하는 수준밖에 안 된다.

공부 겸으로 한 번 정리해 본다.

근데 솔찍히 이런 그림 처음 본다. 자료형에 integer(정수), float, string(문자열), list(리스트) 정도가 익숙할 뿐이다.

파이썬 데이터 타입의 상위 분류가 '가변형', '불변형'인 것도. 강사들이 그런 이야기를 하는 경우를 듣긴 했던 것 같은데... 수업을 건성으로 들은 사람의 한계다.

그 다음으로 숫자 타입, 시퀀스 타입, 리스트 타입, 사전 타입, 세트 타입으로 나뉘고,

숫자 타입의 경우에 정수형, 소수형(실수?), 불 형(0, 1: 참, 거짓)*, 위 그림에는 없지만 복소수 형이 있다.

* 위 그림에서는 숫자 타입으로 분류하지만, 통상 불 형을 더 상위 수준 분류로 말하는 경우가 많다.

시퀀스 타입에 문자열 형, 튜플 형으로 분류되는 것도 처음 알았다(분류를 어떻게 묶느냐에 따라 다르긴 하지만).

데이터의 유형을 확인할 때 사용하는 함수 type( )은 익숙하다. 자주 사용하는 함수다.

jupyter를 이용해서 숫자 타입들을 찍어보면 다음과 같은 결과를 알 수 있다.

그동안 '복소수'는 어떻게 다루는지 몰랐는데 'a+bj' 스타일로 쓴다. 'i'는 for문에서 주로 변수로 사용해서 못 쓰게 해 놓았는지는 모르지만 'a+bi' 형태로 쓰면 type( ) 함수에서 error가 발생한다.

π 값을 어떻게 입력하는지 몰랐는데, 무한소수를 컴으로 다루는 건 한계가 있을 테니 일정 소수점에서 자른 수를 사용하고 있었다. π 값을 불러 오려면 math 라이브러리를 import해야 했다. 역시 소수니 'float' 타입으로 나온다.

불 형(Bool)은 참과 거짓을 따지는 데이터 형태를 말한다. 영국의 논리학자 조지 불(George Boole, 1815-1864)의 이름을 따 만든 용어라고 한다. 

'참', '거짓'의 2가 연산과 관련된 논리 연산 체계를 구축한 것 같다. 집합론, 명제에서 만나게 되는 ∧(논리곱), ∨(논리합), ¬(논리 부정) 등의 연산자로 구성되는 조건문을 처리하는 것이다.

위 그림에서 '가변형'의 한 종류로 리스트를 다루고 있지만, 통상적으로 '시퀀스 형'으로 분류한다. 아무래도 '가변형', '불변형'의 상위 유형 구분을 두어서 생긴 차이로 보인다. '가변', '불변'을 따지지 않는 분류에서 시퀀스 형으로 놓고 있다. 

리스트는 자주 사용하는 것이다. 대괄호로 묶인 원소의 집합이다. [1, 2, 3, 4, 5], 이런 게 리스트인데, 이렇게 '집합' 같은 의미를 갖는 게, 리스트, 튜플, 세트(집합), 사전이 있다.

리스트는 데이터를 묶어서 사용할 수 있게 해 준다. 순서, 중복도 허용된다.

[1, 2, 3]과 [1, 3, 2]는 다른 리스트이고, [1, 1, 2, 3]도 다른 것이다.

이에 비해서 세트(set)는 중괄호를 사용하고 {1, 2, 3}과 {1, 3, 2}는 같고, {1, 1, 2, 3}은 {1, 2, 3}과 같은 결과를 보여준다. 중복을 허용하지 않고, 순서도 의미가 없다. set은 합집합, 교집합, 차집합 같은 집합 연산을 하는 데 활용한다고 한다.

튜플은 소괄호()를 이용하여 집합을 표시하는데, 리스트와 대체로 비슷하지만 리스트가 요소의 수정, 생성, 삭제 등이 용이한 데 반해서 튜플은 정해진 요소를 바꿀 수 없다. 이런 특성이 어떤 활용성을 가지는지 모르겠지만, 일반적으로 임시적 매칭과 스왑에 쓰인다고 한다.

임시적 매칭은 이런 식이다.

스왑은 이런 경우다.

파이썬을 배우다 보면 튜플보다는 리스트를 많이 쓰게 되는 것 같다. 튜플에서 리스트로 전환(list( )를 이용)이나 리스트에서 튜플로의 전환(tuple( )을 이용)이 용이하기 때문에 필요한 특성을 전환해 가며 사용하면 되는 듯하다.

사전(dictionary)는 유형상 리스트, 튜플, 세트와 구분하는데, 기본 모습은 집합 형태를 가지고 있긴 하다. 큰 차이는 'key'와 'value'를 갖는다는 점일 것이다. 그래서 '매핑mapping 타입'으로 불린다.

d = {1:'a', 2:'b', 3:'c'}처럼 1과 a를 연결하여 데이터를 처리하는 경우에 사용한다. 요소를 넣고 빼고 하는 게 자유롭다. 리스트처럼 '순서'에 의미가 있는 건 아니고 key-value의 연결이 중요하다. 

print(d[1])은 a를 출력한다. print(d.get(1))도 a를 출력한다. 없는 키를 호출할 때, 가령 print(d[4])는 KeyError가 발생하고 코드가 멈추고, print(d.get(4))는 None을 출력하고 코드가 멈추지 않는다.

시퀀스 타입의 문자열string 형이 있다. 파이썬 공부할 때, 숫자형(int, float), 리스트와 함께 가장 많이 사용하는 자료 유형인 것 같다. 자연어 처리(NLP)에서도 자주 사용하기 때문에 내 연구에 가장 활용도 높은 자료 유형일 것으로 예상한다(리스트와 함께).

문장이나 단어들이 해당된다. 간혹 숫자를 문자처럼 쓰기 위해서 str( ) 함수를 사용하곤 한다. 문장을 print할 때, 계산된 숫자와 결합해서 문장을 출력하는 경우에 종종 사용했다.

코딩 처음 배울 때 출력하는 문장, 'Hello World'가 문자열의 대표적 사례다.

sent = 'Python is a wonderful tool for understanding people\'\s digital data' (문자열을 표시하는 큰따옴표나 작은 따옴표 안의 큰따옴표나 작은 따옴표는 역슬래시 혹은 \으로 감싸줘야 한다)

print(len(sent))...output은 '67'이다. 빈칸까지 센 결과다. 공백을 제거한 철자의 수는 이렇게 구할 수 있다: len(sent.replace(' ', '')). 위 문장은 58개의 철자가 쓰였다.

순서에 따라서 문자열을 따로 호출할 수도 있다. print(sent[0:6])(sent의 0행에서 5행까지 출력)는 'Python'을 반환한다. 'print(sent[:6]'으로 쓸 수도 있다. print(sent[-12:])를 실행하면 'digital data'를 반환한다.

자료형이 언제쯤 익숙해질지... 연습만이 살 길이겠지?

댓글

이 블로그의 인기 게시물

미신과 종교라는 개념에 담긴 '너는 틀렸고, 내가 맞다'

※ 이 글은 '얼룩소'에 2023년 1월 21일에 게재했던 글입니다. ─── ∞∞∞ ─── 미신이란 말을 많이 씁니다. 그게 무엇이냐 물어 본다면 우리는 어떤 행위들이나 관념을 이야기합니다. 뇌과학자 정재승 선생님도 미신 이야기를 하면서 '빨간색으로 이름 쓰는 행위가 불길하다는 미신'을 이야기했습니다. 차이나는 클라스, 정재승 편 미신이 어떤 것인가를 말할 때, 이렇게 미신에 속한 것들을 이야기하게 됩니다. '시험 볼 때 미역국을 먹지 않는다' '시험 볼 때 포크를 선물한다' '손 없는 날 이사해야 한다' '밤에 손톱을 깎으면 안 된다' '귀신을 쫓기 위해서 팥죽을 먹는다' 그럼 '미신'은 어떤 것이냐 설명해 보라면, 아마 이런 말들을 늘어 놓게 될 겁니다. https://engoo.co.kr/blog/먼나라이웃나라-세계-각국의-다양한-미신들/ 표준국어대사전에 바로 그와 같이 설명이 되어 있습니다. 표준국어대사전 '미신' 항목 그런데 이런 개념은 일상에서는 그런대로 사용할 수 있지만, 엄밀하게 따지면 쓸 수 없는 설명입니다. '비합리적이고 비과학적'인 게 너무 광범위하기 때문입니다. 도덕적, 경제적 판단과 믿음에도 그런 사례를 많이 찾아 볼 수 있습니다. 가령 '관상은 과학이다', 'ABO 혈액형 성격론', '과시적 소비' 등등. 어떤 종교적 맥락에서 '이상한 것'을 이야기하기 위해서 '미신'이란 말을 많이 사용합니다. 종교와는 다른 것으로 이야기합니다. 그런데 위 국어사전의 개념 정의는 종교도 포함된다고 볼 수 있습니다. 미신과 종교가 구분되지 않는다면, 어딘지 이상하게 느껴집니다. '미신'은 과학적 개념은 아니다 우리가 일상에서 당연시하는 많은 개념은 편견의 산물인 경우가 많습니다. 정상과 비정상의 구분에서 그런 게...

미신에 대한 중립적 개념은 무엇일까?

※ 이 글은 '얼룩소'에 2023년 1월 25일에 게재했던 글입니다. 본래 제목을 약간 수정하였습니다. ─── ∞∞∞ ─── 미신, 사이비, 이단 이 말들은 종교의 대척점에 있는 개념들입니다. 미신은 종교적 의식(儀式)이지만, 종교적 수준에 이르지 못한 것을 지칭하는 경향이 있습니다. 물론 모든 비과학적인 믿음을 통칭할 때 사용하기도 합니다. 사이비(似而非), 말뜻은 ‘비슷하지만 틀린 것’이죠. 영어의 ‘pseudo-’에 대응되는 말입니다. 사이비 종교를 ‘pseudo religion’이라고 하지요. ‘가짜’라는 의미가 두드러집니다. '사이비'란 말은 『맹자(孟子)』, 「진심장구하(盡心章句下)」 편에 수록된 말입니다.  孔子曰: 惡似而非者(공자왈: 오사이비자) 공자께서 말씀하시길, "나는 비슷해 보이지만 실제로는 아닌 것을 싫어한다." 출처: 다락원 페이스북(https://www.facebook.com/darakwonchild) 이 언급의 자세한 맥락은 다음의 글을 참고하세요( 사이비-나무위키 ). 겉만 그럴 듯하고 속은 빈 경우를 말합니다. 사이비란 말은 참된 종교와 거짓 종교를 말하는 맥락에서 많이 쓰이게 되면서 애초 의미에서 '거짓 가르침'으로 변하였습니다(사이비과학, 사이비종교 등등). 이단(異端), 말뜻은 ‘끝이 다르다’이고, 의미상으로 ‘사이비’와 큰 차이가 없습니다.  『맹자집주』의 주자주(朱子註) 중 '맹자는 양주와 묵적과 같은 이단에게서 유교를 지켰다'라는 표현이 나옵니다. 유교의 맥락에서 '이단'의 대표주자는 '양주와 묵적'입니다. 양주는 '위아설'(나만 위하면 돼), 묵적은 '겸애설'(모두 무차별적으로 사랑하라)로 이야기됩니다. 유가들이 곡해해서 '무부무군(無父無君)의 가르침'으로 평가되는 것이지, 그리 허무맹랑한 가르침은 아니라고 평가되고 있습니다(참고: 양주(전국시대)-나무위키 ...

한 해를 시작하는 날은 많다?│시간과 종교적 본능

※ 이 글은 '얼룩소'에 2023년 1월 2일에 게재했던 글입니다. (부제를 약간 수정) ─── ∞∞∞ ─── 1년의 시작점은 많습니다. 우리에게 익숙한 시간은 동지, 설, 정월대보름, 입춘 등입니다. 전에 이야기한 16세기 후반 프랑스의 신년 기념일들처럼( 참고 ) 같은 나라 안에서도 여러 신년 기념일이 있는 경우는 특이한 현상이 아닙니다. 왜 이렇게 되었을까요? 원래 지역적인 단일성은 있었을 겁니다. 특정 지역에서는 1월 1일이다, 이 동네는 음력 설이다, 이 동네는 입춘이다, 이렇게 말입니다. 이게 어떤 계기에 통합되는 과정을 거칩니다. 지역적으로 통일성을 가진 집단들이 묶여서 더 큰 집단으로 통합되면서 시간, 의례 등을 통합하는 과정이 뒤따르게 됩니다. 종교단체 수준에서도 진행이 되지만 국가 수준에서도 진행이 됩니다. 이 과정은 국가의 흥망성쇠, 종교단체의 흥망성쇠 등 집단 구속력의 변화에 따라서 부침을 겪으며 반복·중첩되었을 것으로 보입니다.  앞서 언급한 프랑스에서는 16세기에 신년 기념일을 단일화하려 했습니다. 한국에서는 그러한 노력이 19세기말 20세기에 시도되었습니다. 공식적인 수준에서 한 해의 시작일은 그렇게 하루 아침에 바꿀 수 있지만, 의례적으로 기념하는 첫 날은 쉽게 변화하지 않습니다. 이를 문화적 관성이라고 할 수 있습니다(선조들이 해왔던 대로 해야 한다는 의식으로 나타남). 여러 신년 기념일은 그런 통합의 힘에도 어떤 현실적 필요에 의해서 과거의 전승이 살아남아 그 흔적을 남긴 덕분입니다. 다만 해당 기념일을 현재에 활용하는 의미는 달라질 수 있습니다.  현재적 가치를 상실하게 된다면 사라질 운명을 일 겁니다. 그럴 경우 '고유한 문화를 지키자'는 운동이 표출될 수도 있습니다. 집단 정체성과 관련된 전통으로 선택되지 못하면 잊혀지는 것이고요. 동지 우리에게는 팥죽 먹는 날 정도의 의미만 남았습니다. 그러나 이 날도 과거에는 새해가 시작되는 날로 기념되었습니다. 그런 동지 축제가 신년 축제인 사례도...