데이터 이해하기
Understanding data
데이터의 가장 근본적인 본성을 드러내는 좋은 방법은 데이터를 지우고, 훼손하거나 상실하는 것이 무엇을 의미하는지 이해하려고 시도하는 것이다. 우리가 모르는 언어로 쓰여진 어떤 책의 페이지를 상상하자. 데이터는 그림 문자의 형태로 존재한다고 가정하자. 규칙적인 유형들은 어떤 구조적 구문론을 따른다는 것을 시사한다. 우리에게 모든 데이터가 있지만, 우리는 그것들의 의미를 알지 못하고, 그래서 우리는 아직 아무 정보도 갖고 있지 않다. 이제 그림 문자들 가운데 절반을 지우자. 우리가 그 데이터를 반으로 나누었다고도 말할 수 있을 것이다. 이 과정을 계속 진행하여 단 하나의 그림 문자가 남게 되면, 데이터는 어떤 종류의 표상들을 필요로 하거나, 또는 그것들과 동일할 것이라고 말하고 싶어질 것이다. 그런데 이제 그 마지막 그림 문자도 지우자. 하얀 페이지가 남게 되지만, 아직은 전적으로 데이터가 없지는 않다. 하얀 페이지와 그 위에 무언가가 쓰여져 있거나 쓰여질 수 있는 페이지 사이에 차이가 존재하는 한, 하얀 페이지의 존재가 여전히 하나의 데이터이기 때문이다. 이것을 '묵시적 동의'라는 흔한 현상과 비교하자. 이진 체계의 0의 열과 꼭 마찬가지로 침묵, 또는 지각할 수 있는 데이터의 결여는 어떤 소음의 존재만큼이나 하나의 데이터일 수 있다. 앞의 사례에서 존이 자기 자동차의 엔진에서 아무 소리도 듣지 못했을 때 갖게 되는 우려를 떠올리자. 그런 소음의 결여는 정보를 제공한다. 사실은 모든 데이터의 정말로 완전한 소거는 모든 가능한 차이들을 제거함으로써 이루어질 수 있을 뿐이라는 것이다. 이런 이유 때문에 데이터는 궁극적으로 균일성의 결여(lack of uniformity)로 환원될 수 있다는 것이 분명해진다. "정보는 차이를 만들어내는 구별짓기이다'라고 적었을 때 도널드 맥크리먼 맥케이(Donald MacCrimmon MacKay, 1922-1987)는 이 중요한 점을 강조했다. 그의 뒤를 이어 그레고리 베이트슨(Gregory Bateson, 1904-1980)은 덜 정확하지만 더 유명한 슬로건을 제시했다. '사실상 정보―정보의 기본 단위―가 의미하는 것은 차이를 만들어내는 차이이다'. 더 형식적으로, 차이적 해석(diaphoric interpretation)[디아포로(diaphora)는 '차이'를 가리키는 그리스어 낱말이다]에 따르면, 하나의 데이터[데이텀(datatum)]에 대한 일반적 정의는 다음과 같다.
하나의 데이터 = y와 구별되는 x. 여기서 x와 y는 두 개의 미해석된 변수들이고 '구별되는 상태'의 관계와 정의역은 후속적인 해석에 열려 있다.
데이터에 대한 이 정의는 세 가지 주요한 방식으로 적용될 수 있다.
첫째, 현실 세계에서 데이터는 균일성의 결여일 수 있다. 그런 '야생의 데이터'를 가리키는 특정한 명칭은 존재하지 않는다. 그런 데이터는 그리스어로 '데이터'를 나타내는 데도메나(dedomena)로 부를 수 있을 것이다('데이터'라는 낱말은 제목이 <<데도메나>>라는 유클리드 저작의 라틴어 번역본에서 유래되었다는 것을 인식하자). 데도메나는 뒤에 다루게 될 환경적 정보(environmental information)와 혼동하지 말아야 한다. 데도메나는 순수한 데이터, 즉 해석되거나 인지 절차를 겪기 전의 데이터이다. 데도메나는 직접 체험되는 것이 아니라, 그것의 존재는 체험으로부터 경험적으로 추론되고 체험에 의해 요구되는데, 우리의 정보가 도대체 가능하기 위해서는 데도메나가 세계에 존재해야 하는 것이기 때문이다. 그래서 데도메나, 즉 세계 속 균일성의 결여라면 무엇이든 데이터(우리 같은 정보적 유기체들에 그렇게 보이는 것)의 원천인데, 예를 들면, 어두운 배경에서 빛나는 적색 빛이 있다. 5장에서 나는 이 문제를 다시 다룰 것인데, 정보는 물질적 본성을 지니고 있어야 한다는 테제를 거부하면서 데이터가 없다면 아무 정보도 있을 수 없다는 테제를 수용할 수 있는 연구자들이 있다는 것을 알게 될 것이다.
둘째, 데이터는 어떤 체계의 최소 두 개의 물리적 상태 또는 신호 사이에 존재하는 균일성의 결여일 수 있다. 예를 들면, 배터리의 더 높은 충전 상태 또는 더 낮은 충전 상태, 전화 통화에서 가변적인 전기 신호, 또는 모스 알파벳의 점과 선이 있다.
마지막으로, 데이터는 두 기호 사이에 존재하는 균일성의 결여일 수 있는데, 예를 들면, 라틴어 알파벳에서 문자 B와 P가 있다.
해석에 따라, (1)의 데도메나는 (2)의 신호와 동일하거나, 아니면 신호를 가능하게 만드는 것이고, (2)의 신호는 (3)에서 기호의 코드화를 가능하게 하는 것이다.
구문론적으로 잘 구성된 데이터의 발생에 대한 정보의 의존성, 그리고 물리적으로 다양하게 실행될 수 있는 차이 발생에 대한 데이터의 의존성이 정보가 자체의 기체(基體)로부터 매우 쉽게 분리될 수 있는 이유를 설명한다. 데이터 및 정보를 코드화하는 현실적 형태, 매체 그리고 언어는 흔히 무관하고 무시될 수 있다. 특히, 영어로 코드화되든 어떤 다른 언어로 코드화되든, 기호로 표현되든 그림으로 표현되든, 아날로그이든 디지털이든 간에, 동일한 데이터/정보가 종위 위에 인쇄될 수 있거나 화면에 표시될 수 있다. 아날로그와 디지털 사이의 구별짓기가 가장 중요하고 얼마간 분명히 할 가치가 있다.
―― 루치아노 플로리디(Luciano Floridi), <<정보: 매우 짧은 입문(Information: A Very Short Introduction)>>(2010), pp. 22-25.
댓글 없음:
댓글 쓰기