posts list

2016년 10월 5일 수요일

루치아노 플로리디: 정보-통신의 수학적 이론



통신의 수학적 이론(MTC)

정보의 어떤 특징들은 직관적으로 수량화할 수 있다. 광대역 연결망은 초당 최대의 정보량을 전송할 수 있을 뿐이다. 컴퓨터는 유한한 양의 정보만을 포함할 수 있는 하드 디스크를 장착한다. 더 일반적으로, 우리는 물리적 신호처럼 특정한 양으로 코드화되고전송되며저장되는 정보에 익숙하다. 또한 우리는 정보가 비스킷과 동전처럼 가법적이라고 예상하는데, 내가 정보 a + 정보 b를 제시하면 나는 정보 a + b를 제시한 것이다. 그리고 우리는 정보가 결코 이 아니라고 이해한다. 확률 및 이자율과 마찬가지로 정보는 영 미만이 될 수 없는데, 이것은 내 은행 계좌나 옥스퍼드의 온도와 다르다. 존이 이웃에게 질문을 했을 때 최악의 시나리오는 그가 아무 대답도 받지 못하거나 틀린 대답을 받는 것일 것인데, 그것은 새로운 정보를 전혀 전달하지 못할 것이다.

이것들과 정보의 다른 양적 특성들은 다양한 성공적인 수학적 접근 방식에 의해 탐구된다. 지금까지 통신의 수학적 이론(MTC)이 가장 중요하고 영향력이 있으며 널리 알려진 접근 방식이다. 확률론의 이 갈래에 대한 이름은 클로드 섀넌(Claude Shannon)의 획기적인 저작에서 비롯된다. 그가 벨 연구소의 다른 연구자와 동료들이 수행한 이전 작업의 중요성을 인정했더라도, 섀넌은 정보에 관한 수학적 연구 분야의 선구자로서 그 분야의 주요한 결과들 가운데 많은 것을 이루었다. 섀넌 이후에 MTC는 정보 이론으로 알려지게 되었다. 오늘날 섀넌은 '정보 이론의 아버지'로 간주되며, 그리고 MTC가 다루는 정보의 종류는 흔히 섀넌 정보로 불린다. '정보 이론'이라는 술어는 호소력이 있지만 불행한 명칭인데, 그것은 계속해서 끝없는 오해를 초래한다. 섀넌은 그것의 광범위한 보급을 후회하게 되었고, 그래서 나는 이 맥락에서 그것을 자제할 것이다.

MTC는 데이터 코드화와 전송를 포함하는 현상의 배후에 놓여 있는 이론이다. 자체적으로 그것은 다양한 종류의 정보에 대한 분석에 심대한 영향을 끼쳤는데, 전문적 어휘를 비롯하여 최소한 초기의 개념적 틀을 제공했다. 최소한 MTC의 주요 골자를 파악하지 않은 채 정보의 본성을 이해하는 것은 불가능할 것이다. 이것이 이 장의 과업이다.

MTC는 정보를 데이터 통신으로 취급하는데, 일차 목표는 데이터를 코드화하고 전달하는 효율적인 방식들을 고안하는 것이다. 그것은 통신 한계에 관한 연구로서 전기공학이라는 분야에서 비롯되었고 정보에 대한 수량적 접근 방식을 개발한다.


그 접근 방식에 대한 직관적 감각을 얻기 위해 우리 사례로 돌아가자. 존이 정비 기사와 전화로 나눈 대화를 상기하자. 그림 8에서 존은 정보 제공자(informer), 정비 기사는 정보 수신자(informee), '배터리가 방전되었다'는 존에 의해 송신된 (의미론적) 메시지(informant)이고, 언어(영어), 통신 채널(전화 체계) 그리고 어떤 가능한 소음(송신되지 않았지만 수신되는 원치 않은 데이터)를 통한 코딩 절차와 디코딩 절차가 존재한다. 정보 제공자와 정보 수신자는 사용 가능한 기호들의 집합체(전문적으로 알파벳으로 알려져 있는데, 이 경우에는 영어이다)에 관한 동일한 배경 지식을 공유한다.

MTC는 그림 8에 나타낸 자원들의 효율적인 사용에 관한 것이다. 존이 정비 기사와 나눈 대화는 꽤 현실적이고, 그래서 단순화된 사례보다 모형화하기가 더 어렵다. MTC를 소개하기 위해 그 대신에 단 하나의 기호를 산출할 수 있는 매우 지루한 소자를 가정하자. 에드거 앨런 포(Edgar Alan Poe, 1809-1849)는 까마귀 한 마리가 어떤 질문에도 오직'네버모어(nevermore)'라고 대답할 수 있는 내용을 담은 단편을 적었다. 포의 까마귀는 단항 소자(unary device)라고 불린다. 존이 정비소에 전화를 걸고 포의 까마귀가 응대한다고 가정하자. 이런 기본적인 층위에서도 섀넌의 단순한 통신 모형은 여전히 적용된다. 그 까마귀(단항 소자)는 영에 해당하는 정보량을 제공하는 것이 분명하다. 단순화했을 때, 존은 그 통신 교환의 결과를 이미 알고 있는데, 그가 무엇을 묻던 간에 그 대답은 항상 '네버모어'이다. 그래서, 예를 들면, '제가 배터리를 충전할 수 있을까요?"라는 질문으로 표현되는 그의 무지는 감소될 수 없다. 그의 정보적 상태가 무엇이든 간에, 그 까마귀에게 적절한 질문들, 예를 들면, '제가 자동차의 시동을 걸 수 있겠습니까?', '자동차를 수리하러 오실 수 있습니까?' 같은 질문들을 묻는 것은 아무 차이도 만들어내지 못한다. 충분히 흥미롭게도, 이것이 <<파이드로스>>에서 글로 쓰여진 텍스트가 제공하는 의미론적 정보의 가치에 반대하는 플라톤의 유명한 논증의 기초라는 점을 인식하자.

[소크라테스]: 파이드로스, 글쓰기에는 뭔가 이런 기이한 점이 있으니, 그것은 사실 그림 그리기와 똑같네. 거기서 생겨난 것들은 살아 있는 생물처럼 보이지만, 자네가 어떤 질문을 던지면 무겁게 침묵한다네. (글로 쓰인) 말들도 똑같지. 자네에게는 그것들이 마치 무언가 생각을 가지고 말하는 것처럼 보일 수도 있겠지만, 그 글에 담긴 것들 가운데 무언가 배우고 싶은 것이 있어서 질문을 던지면 글은 언제나 똑같이 하나만을 가리킨다네[우리 술어로 그것은 단항 소자이다]. 일단 [275e] 글로 쓰이고 나면, 모든 말은 장소를 가리지 않고 그것을 이해하는 사람들 주변과 그 말이 전혀 먹히지 않는 사람들 주변을 똑같이 맴돌면서, 말을 걸어야 할 사람들과 그렇지 않은 사람들을 가려 알지 못하네. 잘못된 대우를 받고 부당하게 비판을 당하면 언제나 아비의 도움을 필요로 하지. 혼자서는 자신을 지킬 수도 없고 자신을 도울 힘도 없기 때문이라네. [플라톤, <<파이드로스>>(조대호 역, 문예출판사, 2008), pp. 143-4.]

플라톤이 잘 깨닫고 있듯이, 단항 원천은 모든 질문에 침묵 아니면 메시지가 아니라 항상 단 하나의 메시지로 대답하는데, 2장에서 이해했듯이, 침묵도 하나의 메시지로 간주되기 때문이다. 당연히 완전히 침묵하는 원천 역시 단항 원천으로 간주될 수 있다. 그리고 어떤 원천을 침묵시키는 것(검열)이 원천으로 하여금 아무 정보도 제공하지 못하게 하는 메스꺼운 방법이라면, 늑대가 나타났다고 소리치는 것(환경에 상관없이 동일한 메시지를 항상 반복하는)은 정보를 제공하는 원천이 아무 정보도 제공하지 못하는 단항 소자로 퇴화하는 고전적 사례라는 것이 잘 알려져 있다.

이제 확률이 같은 두 가지 기호, 즉 앞면과 뒷면 {h, t}를 갖는 공평한 동전 A처럼, 또는 '오직 너희 말은 옳다 옳다, 아니라 아니라 하라 이에서 지나는 것은 악으로 좇아나느니라'라는 마태 복음 5:37의 구절이 시사하듯이, 두 가지 메시지를 산출할 수 있는 이항 소자를 고찰하자. 동전을 던지기 전에 정보 수신자(예를 들면, 컴퓨터)는 그 소자가 실제로 어떤 기호를 산출할지 '알지' 못하는데, 그것은 영보다 큰 데이터 부족(data deficit) 상태에 놓여 있다. 섀넌은 '불확실성'이라는 전문 용어를 사용하여 그런 데이터 부족을 가리킨다. 비수학적 맥락에서 이것은 이 용어의 강한 심리학적 함의들 때문에 오해를 불러 일으킬 수 있고, 그래서 그 용어를 자제하기를 바랄 것이다. 정보 수신자가 단순한 기계일 수 있고, 그래서 심리적 또는 심적 상태가 분명히 무관하다는 것을 상기하자. 일단 동전을 던지고 나면, 그 체계는 가능한 결과―이 경우에는 확률이 같은 두 개의 기호―의 함수이며 그것이 제거하는 데이터 부족에 해당하는 양의 정보를 산출한다. 이것은 일 비트의 정보이다. 이제 두 개의 공평한 동전 A와 B로 이루어진 약간 더 복잡한 체계를 구축하자. AB 체계는 네 가지 결과, 즉 <h, h>, <h, t>, <t, h>, <t, t>를 산출할 수 있다. 그것은 네 단위의 데이터 부족을 생성하는데, 각 쌍은 원천 알파벳에서 기호 <_,_>로 산정된다. AB 체계에서 각 기호 <_,_>의 발생은 A 체계에서의 어떤 기호의 발생보다 더 높은 데이터 부족을 제거한다. 다시 말해서, 각 기호는 더 많은 대안들을 배제함으로써 더 많은 정보를 제공한다. 동전 한 개를 더하면 여덟 단위의 데이터 부족을 제공할 것인데, ABC 체계에서는 각 기호 <_,_,_>에 의해 운반되는 정보량이 더 증가한다. 기타 등등.

기본 착상은 데이터 부족의 감소(섀넌의 '불확실성')라는 견지에서 정보가 수량화될 수 있다는 것이다. 한 개의 동전은 일 비트의 정보를, 두 개의 동전은 이 비트의 정보를, 세 개의 동전은 삼 비트의 정보를 산출한다. 기타 등등. 불행하게도 실제 동전은 항상 편향되어 있다. 그것들이 실제로 얼마나 많은 정보를 산출하는지 계산하기 위해서는 일련의 유한한 동전 던지기에서 나타나는 기호들의 발생 빈도에 의거하거나, 또는 동전 던지기가 무한정 계속된다면 그것들의 확률에 의거해야 한다. 공평한 동전에 비해서 약간 편향된 동전은 일 비트보다 적은 정보를 틀림없이 산출하지만, 여전히 영 비트보다는 크다. 일련의 '네버모어'의 발생은 정보를 제공하지 않기(더 직관적이지만 심리학적인 섀넌의 어휘를 사용하면 놀랍지 않기) 때문에 까마귀는 도대체 아무 정보도 산출하지 않으며, 그런 이유 때문에 '네버모어'의 발생 확률은 최대이고, 그래서 완전히 예측할 수 있다. 마찬가지로, 편향된 동전에 의해 산출되는 정보량은 h 또는 t 발생의 평균 정보성(informativeness)에 의존한다. 결과들 가운데 하나가 발생할 확률이 더 높을수록, 그 결과를 들을 때 우리는 덜 놀랄 것이고, 결국 정보량이 더욱 더 적을 것이다. 동전이 대단히 편향되어 항상 같은 기호를 산출한다면, 그것은 아무 정보도 제공하지 못하고 까마귀나 늑대가 나타났다고 소리치는 소년처럼 거동한다.

방금 묘사한 정량적 접근 방식은 코딩 이론과 암호학 및 데이터 저장과 전송 기술에서 근본적인 역할을 수행한다. MTC는 주로 데이터를 기록할 수 있고 전송할 수 있는 신호로 효율적으로 암호화할 수 있는 코드와 통신 채널의 특성들에 대한 연구이다. 통신 분석 및 메모리 관리에 있어서 중추적인 역할을 수행하는 두 개념, 즉 중복성(redundancy)과 소음은 매우 중요하여 간략히 설명할 가치가 있다.

―― 루치아노 플로리디(Luciano Floridi), <<정보: 매우 짧은 입문(Information: A Very Short Introduction)>>(2010), pp. 37-42. 

댓글 없음:

댓글 쓰기