본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

프로그래머들이 스스로에게 하는 9가지 거짓말

OSS 게시글 작성 시각 2017-04-04 01:05:53 게시글 조회수 4019

2017년 4월 1일 (토)

ⓒ ITWorld, Peter Wayner | InfoWorld



프로그래머들은 자부심을 갖고 있다. 나쁘게 말하면 교만하다. 그도 그럴 것이 다른 사람들에게는 데이터베이스에 손을 뻗어 현실을 바꿀 힘이 없다. 세상이 작동하는 방식을 정립하기 위해 컴퓨터에 더 많이 의지할수록 프로그래머의 영향력도 커진다.

그러나 '교만'은 '나락'의 선봉이다. 우리 모두가 공유하는 힘은 진짜이다. 그러나 절대적인 힘은 아니며, 때론 공허하다. 사실 항상 공허하다. 완벽한 코드란 존재하지 않기 때문이다. 때론 행운을 빌고, 한계를 정한다. 컴퓨터는 실수를 하기 때문이다. 컴퓨터에 지나칠 정도로 많은 오류가 발생할 수 있다. 우리 모두 직접 경험해 잘 알고 있는 사실이다.

물론 프로그래머들의 잘못된 가정이 초래한 문제는 정말 많다. 프로그래머의 가정은 보통 한 때는 진실이지만, 언제까지나 진실인 것은 아니다. 마크 트웨인은 "뭔가를 몰라서가 아니라, 뭔가를 확실히 안다고 착각해 곤경에 빠진다."고 말했다.

케빈 델디케(Kevin Deldycke)가 기트허브(GitHub)에 올린 '프로그래머들이 철석 같이 믿는 착각' 목록은 사이버공간과 현실이 얼마나 동떨어져 있는지 보여준다. 이는 다른 사람들이 계속 추가하면서 항목이 계속 늘어날 그런 목록이다. 'Remember, Caesar, thou art mortal(황제여, 당신도 필멸의 존재라는 점을 명심하라!)'에 해당하는 수 많은 사례를 멋지게 정리한 목록이다.

필자가 가장 좋아하는 항목은 전화번호에 대한 착각이다. 특정 전화번호를 저장하는 것이 7자리 또는 10자리의 번호를 데이터베이스에 입력하는 간단한 일이라고 생각할지 모르겠다. 그러나 이는 착각이다. 국가 코드, 사용하지 않는 번호 등 전화번호를 계속 기록하는 것을 어렵게 만드는 요소가 10여 개에 달한다. 작은 검은색 책자에 전화번호를 적어놓는 러다이트(Luddite)는 얼굴에 만족스러운 미소를 짓고 있을 것이다.

프로그래머들이 사실이라고 확신하는 착각들을 정리해봤다.

질문들의 답은 하나이다.
데이터베이스 테이블은 컬럼으로 가득하고, 각 컬럼에는 정보가 입력되어 있거나 입력되어 있지 않다. 또 가득 차 있거나 비어 있다. 모든 질문에 대한 하나의 답을 찾기가 어려운 이유는 무엇일까?

때론 답이 하나 이상이기 때문이다. 이 경우, 테이블이 문제를 일으키기 시작한다. 한 사람이 별장 전화번호 등 하나 이상의 전화번호를 가지고 있을 수 있다. 데이터베이스 설계자는 여러 답을 저장할 수 있는 다대일, 일대다 매핑으로 이에 대한 해결책을 찾았다. 최신 NoSQL 솔루션은 여러 태그를 첨부한 가능성이 있는 답들을 하나로 통합하는 도큐먼트 모델을 이용한다.

훨씬 더 나은 솔루션이지만, 이 또한 한계를 갖고 있다. 짧은 시간 동안에만 유효한 답들이 있다. 예를 들어, 러시아워인 오후 4시~6시를 제외한 시간에 합법적으로 주차할 수 있는 주차 구역이 존재할 수 있다.

각 날짜마다 테이블에 1개 슬롯을 추가하는 것으로 충분하다고 생각할지 모르겠다. 그러나 오전 7시~9시, 오후 4시~6시 예외들이 여럿 존재하는 경우도 있다는 점을 명심해야 한다. 여기에 주말에는 다른 규칙이 적용되는 때도 있다. 예를 들어, 미국 워싱턴 DC에서는 일요일에는 무료로 주차를 할 수 있지만, 토요일은 아니다. 연방 공휴일, 지역 별로 규정된 휴일에 차이가 있을 수 있다.

시간에만 해당하는 이야기가 아니다. 이런 예외 사항은 계속된다. 데이터베이스는 제 아무리 간단한 질문이라도 절대적인 최종 답을 저장해 현실을 모델링할 수 없다. 이는 불가능한 일이다.

Null은 수용 가능하다
때론 필자가 쓴 자바 코드 절반에서 포인터가 널(Null)인지 확인한다고 생각한다. 피곤한 경우 라이브러리 주변에 경계선을 그려 엔트리 메소드(Entry Method)에서만 Null을 테스트한다. API가 나머지 코드에 개방되어 있는 지점들이다. 이렇게 하면 조금 단순해진다. 그러나 결국에는 라이브러리에 손을 뻗어 거기에 있는 작은 메소드를 사용하고 싶어진다. 어이쿠. 이제 이것도 Null인지 아닌지 테스트해야 하고, 처음 정했던 경계는 무너졌다. 또 장벽을 세우는 것 Nullity를 테스트해야 한다. 경계선이 돌파됐다. 장벽을 건축하는 것과 유사하다.

현대적인 언어 설계에서 이 문제를 처리할 방법을 찾는 것은 큰 문제이다. 일부 언어는 '?'로 Null 여부를 확인하는 영리한 방법으로 약간 도움을 주지만, 문제가 사라지지는 않는다. Null은 객체 지향형 프로그래밍을 훨씬 더 복잡하면서도 장황하게 만든다.

사람의 관계를 코드화할 수 있다
동성 결혼이 합법화되었을 때, 유능한 데이터베이스 관리자 한 명은 이것이 Y2K보다 더 큰 문제라는 것을 깨달았다. Y2K는 프로그래머들에게 연도에 새로운 숫자 2개를 추가하도록 하면서 나라 전체를 마비시켰다. 이 데이터베이스 관리자(DBA)는 문제를 해결하기 위해 이전보다 더 정교한 14개의 데이터베이스 스키마로 이 과제를 처리할 방법을 고민했다. 그러나 결국에는 동성 결혼을 금지하는 것이 가장 간단한 해결책이라는 결론을 내렸다.

누가 누구와 결혼하는지 추적하는 것은 시작에 불과하다. 교육기관을 위해 방과 후 아이들을 데려올 수 있는 성인, 아스피린을 줄지 말지 결정할 수 있는 성인을 판단하는 데이터베이스 테이블을 구축한다고 가정하자. 친부모는 쉽다. 그러나 계부, 계모는? 방학이라 집에 잠깐 들른 이복 손위 형제자매는 어떨까? 지난 여름 부모의 결혼식에서 이복 동생을 만난 것을 겨우 기억하는 손위 형제자매이다.

페이스북을 꺼내 '복잡하다!'고 불평하고 싶을 것이다. 그러나 그렇게 불평만 할 수 있는 문제가 아니다. 코드가 정확하지 않을 경우 소송을 초래할 수 있는 법적 문제이다. 법을 정확히 준수해야 한다는 의미이다. 국회가 얼마나 정확히 법을 제정할 수 있는지 의문이 들 것이다. 그러나 워싱턴을 비난하는 것은 잊어라! 아이에게 아스피린을 줘야 한다. 이때 데이터베이스는 뭐라고 말할까?

'유니코드'는 만국 공통의 커뮤니케이션이다
사람의 커뮤니케이션을 규정하는 그림 목록에 포함시킬 이모티콘을 결정하기 위해 자주 회의를 가지는 성실한 위원회가 있다. 이 위원회는 일부 이모티콘을 과감하게 버리는 결정을 내려 누군가의 감정을 상하게 만들기도 한다.

이모티콘이라는 비유전적 문화 요소가 폭증하고 있는 것은 이를 만드는 프로세스가 얼마나 무익한지 알려준다. 갑자기 세상이 이모티콘에 제약이 너무 많다는 점을 알게 되어, 문자와 문화를 상징하는 사진을 섞는 방법을 쓴다면, 이들 이모티콘 가운데 쓸만한 것이 있을까?

이모티콘의 폰트 문제도 있다. 특정 폰트에서는 귀엽지만, 다른 폰트에서는 추악할 수 있다. 친구에게 보낼 귀여운 이모티콘을 선택했고, 휴대폰이 성실하게 유니코드 바이트를 전송했다. 그런데 친구의 휴대폰은 제조업체가 다르고, 이 휴대폰은 다른 폰트를 사용해 전송된 이모티콘을 추악하게 만들어 버릴 수 있다.

숫자는 정확하다
이 글을 쓰고 있는 지금, 최근 들어 가장 규모가 큰 폭풍 때문에 산악 지역에는 곳곳에 눈이 내리고 있다. 일기예보를 확인하니 오늘 날씨는 맑게 갠 날씨로, 스키를 즐기기에 안성맞춤이다. 그러나 일부 스키 슬로프는 닫혀 있다. 왜 그럴까? 새로 내린 눈 때문에 눈사태가 일어날 가능성이 있기 때문이다. 스키장 직원들이 폭발물로 위험 요소를 정리하기 전까지 슬로프를 개장할 수 없다.

일기예보의 기본적인 수치(온도, 구름 양, 습도 등)에는 이런 특수한 세부 사항들이 빠져 있다. 눈 사태를 전문으로 연구하는 학자들은 눈 사태가 발생할 시기를 꽤 정확히 예측하는 정교한 모델을 갖고 있다. 그러나 일기예보라는 수치는 일부 정보만 제공하는 것이 현실이다. 스키 회사들이 만약을 위해 눈 사태를 촉발할 팀을 보내는 이유가 여기에 있다.

빅 데이터가 인기를 끌면서, 컴퓨터 산업은 갈수록 더 숫자에 초점을 맞추고 있다. 하드디스크는 헤아릴 수 없이 많은 숫자들로 가득하다. 이들 숫자에서 지능적인 무엇인가를 추출할 알고리즘이 있어야 한다. 현실에서 숫자는 아주 구체적인 것만 말해줄 수 있다. 유용한 때가 많지만, 아주 정확하지는 않다.

사람의 언어는 일관성이 있다
개발자들이 즐겨 사용하는 방법 중 하나는 텍스트 필드를 만들고, 사용자가 자신이 원하는 것으로 이 필드를 채우도록 하는 것이다. 이런 개방된 코멘트 섹션은 사람을 위한 것이다. 알고리즘으로 해석하는 경우는 드물다. 따라서 문제의 일부가 아니다.

문제는 구조적인 텍스트 필드에 존재한다. 필자의 GPS는 'Saint'로 시작되는 이름을 가진 도로를 선택해 주행하도록 지시할 때 'Turn onto Street Johns Road'라고 말한다. 생략 부호를 가진 도로명은 여러 형태로 표시된다. “St. John’s Road"를 “Saint Johns,” “St. Johns,” “Saint John’s,” 심지어 복수형인 “Saint Johns”로 표시하는 때가 많다. 미국 우정국은 추가 문자가 없는 정규 주소 목록을 갖고 있다. 또 일정하지 않은 주소를 표준형으로 바꿔주는 정교한 알고리즘을 운영하고 있다.

시간은 일관성이 있다
시간은 일정한 속도로 흐른다. 컴퓨터에 문제가 되지 않는 부분이다. 이런 규칙을 엉망으로 만들고, 프로그래머를 난처하게 만드는 것은 인간이다. 하루는 24시간이라고 생각할 것이다. 그러나 이것이 항상 사실이라고 가정해 코드를 작성하면 안 된다. 예를 들어, 동부 해안에서 서부 해안으로 비행한 사람들의 하루는 27시간이다.

시간대는 시작에 불과하다. 서머 타임제(Daylight saving time) 때문에 시간이 증가하거나 감소한다. 매년 서머 타임제가 적용되는 주말이 바뀐다. 2000년, 미국은 4월에 적용했고, 올해는 3월 둘째 주 일요일이다. 유럽의 경우, 3월 마지막 주 일요일이다.

여기서 그치지 않는다. 미국 애리조나 주는 서머 타임제를 사용하지 않는다. 그러나 예외가 있다. 나바호 인디언 자치구는 애리조나 영토에 위치해 있지만 독립된 행정 구역이다. 그리고 서머 타임제를 적용한다.

이것이 끝이라고 생각하지 말기 바란다. 나바호 인디언 자치구 내부에 위치한 호피 인디언 자치구 또한 독립된 행정 구역이다. 그리고 호피 자치구는 서머 타임제를 사용하지 않는다. 슬슬 지겹겠지만, 또 있다. 나바호 인디언 자치구 내부 호피 자치구 내부에 지리적 좌표를 이용해, 애리조나 시간을 정확히 적용하기 힘든 지역이 있다. 미국 인디애나 주는 더 복잡하니 묻지 말기 바란다.

파일은 일관성이 있다
컴퓨터가 데이터를 처리할 수 있다고 생각할지 모르겠다. 정보에 수 많은 논리적, 형태적 불일치, 철자 오류, 숫자 오류가 있어도 정보를 회수할 수 있어야 한다. 그러나 실제는 그렇지 않다.

맥에 파일 시스템을 확인, 오류를 수정하라고 명령할 때마다 사용자를 위해 충실하게 수리해 줄 아주 긴 '승인 오류' 목록이 표시된다. 그런데 사용자가 승인 권한을 주지 않았는데, 어떻게 소프트웨어가 파일 액세스 권한을 변경할 권한을 획득했단 말인가? 필자에게 묻지 말기 바란다.

문제는 더 심각하다. 맥에 탑재된 백업 소프트웨어인 타임 머신(Time Machine)은 6개월마다 모든 백업 사본이 손상되었으며, 이를 수정하는 유일한 방법은 전체를 재구축하는 것이라고 공표한다. 메인 컴퓨터가 폭발하고 모든 데이터를 잃어버리기 직전인 것이다.

이는 파일 시스템이 사용자(전기를 공급하는 사용자)와 머신(전기가 필요한) 사이의 맹약을 존중하지 않는 2가지 사례에 불과하다. 프로그래머라면 들어 있어야 할 것이 들어있지 않는 파일에 대해 수 많은 사례를 이야기 할 수 있을 것이다. 데이터베이스 업체들은 데이터를 일관되게 쓰기 위해 많은 투자를 한다. 이 경우에도 문제가 발생한다. 그러면 엉망이 된 테이블을 고치기 위해 컨설턴트에게 많은 돈을 지불해야 한다.

우리가 통제하고 있다
명령문으로 컴퓨터가 해야 할 일을 지시한다고 믿고 있으며, 이에 교만한 자부심을 갖고 있다. 그러나 이것이 사실이 아닌 때가 있다.

아마 "프로그래머가 아닌 보통 사람이라면 모를까, 논리와 산수의 마법사인 우리에게 해당되지 않는 이야기이다"라고 반박할 사람이 있을 것이다. 그렇지 않다. 우리 모두 힘이 없다. 머신이 주는 것이라면 무엇이든 고맙게 받아야 하는 힘 없는 걸인들이다. 사실은 운영체제가 코드 실행 여부를 결정하는 지배자이다.

무로부터 리눅스 커널을 개발하고, 우리가 면밀히 조사한 코드만 설치한 경우라면? 그 경우는 우리가 지배자일까? 그렇지 않다. 컴퓨터보다 우선하는 권리를 갖고 있는 BIOS가 코드를 변경할 수도 있다. 클라우드의 경우 하이퍼바이저가 더 큰 힘을 갖고 있다.

BIOS를 직접 개발한 부트 로더로 대체하면? 조금 나을 것이다. 그러나 머신 깊숙이 숨겨진 수 많은 펌웨어들이 있다. 디스크 드라이브, 네트워크 카드, 비디오 카드 모두 스스로 생각할 능력을 갖고 있으며, 가장 먼저 귀를 기울이는 대상은 자신의 펌웨어이다.

작은 플래시 드라이브에도 프로세서와 직접 결정을 내릴 수 있는 코드가 들어 있다. 이런 임베디드 프로세서 모두가 ‘악마의 코드’를 감추고 있다. 슬프게도 머신의 구성 요소 중 사용자의 부하처럼 부릴 수 있는 구성 요소는 없다.



※ 본 내용은 한국IDG(주)(http://www.itworld.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒITWORLD. 무단전재 및 재배포 금지


[원문출처 : http://www.itworld.co.kr/news/104165]

맨 위로
맨 위로