바이오인포매틱스 관련 모음 자료

바이오인포매틱스 관련 모음 자료

 

 

1. 바이오인포매틱스를 위한 제안

 

홍순찬

한국과학기술정보연구원

바이오인포매틱스사업실장

20세기 후반 IT 혁명의 물결에 이어 21세기는 생명공학시대라고 일컬어지고 있지만 올해 종결된 인간유전체 프로젝트도 IT 없이는 불가능했다. 21세기가 BT시대만은 아니라는 것이다. 최근의 학문적 성과가 어느 한 분야의 기술만으로 이뤄질 수 없듯이 생물학도 마찬가지다. 지금부터 50년 전 DNA 구조 발견도 생물학자인 왓슨과 물리학자인 크릭의 팀워크에 의한 것으로 학제적인 상호협력의 역사는 이미 오래 전부터 시작됐다고 볼 수 있다.

인간유전체 프로젝트는 생물학을 정보과학으로 변화시켰다. 많은 생물학자에게는 DNA 서열을 알아내는 것이 지루한 작업이었으나 컴퓨터의 관점에서 보면 그리 어렵지 않은 연산문제일 수 있다. 선진 몇 개국의 컨소시엄으로 시작된 인간유전체사업이 생각보다 지지부진하자 자신의 기술이 받아들여지지 않은 벤터 박사가 스스로 회사를 만들어 자기의 이상을 실현하고자 했다. 농구장 크기의 2배 정도나 되는 방에 당시 세계에서 컴퓨터 성능으로 두 번째인 기종을 들여와 자신의 꿈을 실현시켰다.

현재 국내에서도 재작년부터 정부의 지원으로 BT와 IT 융합기술에 대한 연구과제들이 추진되고 있다. 바이오인포매틱스를 번역한 이른바 생물정보학에 대한 투자가 본격화된 지 만 2년째를 맞고 있다. 과기부․복지부에서 시작된 이에 대한 연구개발 투자가 정통부․산자부 등의 관련 부처에까지 확대돼 많은 생물학 및 정보과학 관련 연구기관이나 대학․기업체에서 관심을 보이고 나름대로 연구 실적을 쌓아가고 있다. 이런 국내 생물정보학 분야의 지속적인 발전을 위해서는 우선 단기적으로 가시적인 성과를 바라지 말고 장기적으로 꾸준히 투자를 계속해야 한다. 이는 정부의 연구개발 투자뿐만 아니라 연구기관 및 연구자들이 일시적인 유행에 편승하지 않고 이 분야의 중요성을 인식하고 연구실적을 쌓아가는 자세가 필요하다. 둘째, 기존 생물학 분야의 기득권을 주장하지 말고 관련 분야의 자유로운 참여 분위기가 조성돼야 한다. 이를 위해서는 진정한 의미의 학제적 협력 분위기가 필요하며 생물학 및 정보과학뿐만 아니라 수학․통계학․물리학․화학 및 기타 관련 분야의 연구자들을 포용하고 습득된 지식 및 생물정보 데이터를 공유하는 열린 자세가 요망된다. 마지막으로 범부처적인 협력 및 조정기구가 필요하다. 연구개발 투자에 대한 사전 조정, 국내 생산 데이터에 대한 의무등록 및 유통서비스, 생물정보학 분야의 장기 마스터플랜 수립 등과 같은 범부처적 협력사항에 대한 조정기구의 설치가 필요하고 궁극적으로는 국가적으로 통합된 생물정보학 연구 및 공공서비스를 담당할 독립기관이 설치돼야 한다.

생물정보학은 최근 갑자기 나타난 학문이 아니라 여러 가지 형태로 오래 전부터 축적돼온 학문이다. 그것이 인간유전체 프로젝트라는 세인의 이목을 집중시킨 사건으로 인해 중요한 역할로 부각됐을 뿐이다. 이제는 우리도 일회성의 유행을 좇는 학문적 양태를 지양하고 백년대계를 내다보는 혜안으로 생물정보학의 발전을 위해 다같이 노력하자는 필자의 제안이 혼자만의 바람은 아니기를 기원한다.

 

 

2. 바이오인포매틱스.. 생명 데이터 유전자 정보도 판다

 

지난 2월 12일 본격적인 바이오혁명의 시작을 알리는 역사적인 발표가 있었다. 미국․영국 등 6개국 국제컨소시엄인 휴먼게놈프로젝트(HGP)와 미국 생명공학 벤처기업인 셀레라의 연구팀이 워싱턴․파리․런던․베를린․도쿄 등에서 공동 기자회견을 열고 인간게놈 지도를 공개한 것이다.이날 인간 게놈지도 발표는 인류 제4의 물결인 바이오혁명이 본격적으로 막을 올렸음을 알리는 신호탄이다. 연구진이 지금까지 인간 게놈 관련 연구결과를 분석해 구체적으로 공개함으로써 전세계 과학자들은 이를 활용한 후속연구에 착수할 수 있게 됐다. 암과 알츠하이머 등 유전병을 치료할 수 있는 길이 열리고 질병의 발병 시점 예측 등이 가능해진 것이다. 국제컨소시엄은 지금까지 해독된 정보 가운데 오류를 수정하고 해독이 안된 1%의 텔레미어(염색체의 끝부분)에 대한 해독작업을 거쳐 오는 2003년 인간 게놈지도를 최종 완성할 계획이지만 이번 발표로 세계는 이미 포스트 게놈시대를 준비하고 있다.

포스트 게놈시대를 맞이해 새롭게 떠오르는 분야가 바로 바이오 인포매틱스, 일명 생명정보학이다. 바이오 인포매틱스는 컴퓨터를 이용해 각종 생명정보를 처리하는 학문이다. 컴퓨터와 소프트웨어를 활용해 유전자의 염기서열 데이터를 분석하고 활용함으로써 밝혀낸 유전자들의 기능을 재구성해 생명공학에 다양하게 응용하게 해주는 것이다. 생명현상은 정보가 방대해 개체간 특이성을 찾는 것이 난해해 정보학적인 접근이 불가피하기 때문에 싹튼 새로운 학문이다. 인간유전자를 구성하는 30억개 염기를 초당 하나씩 읽으려면 100년이 걸린다. 염기 1천~수만개가 모여 유전자 1개를 구성하는데 인간 유전자 10만개중 어느 유전자, 유전자 중 어느 부분의 이상으로 유전병이 일어나는지 밝혀내려면 처리해야 할 정보량이 천문학적 규모로 방대해진다. 이를 위해 필수적으로 정보기술이 동원되는 것이다.

바이오 인포매틱스를 실현하려면 바이오 칩으로 불리는 첨단 반도체의 개발이 선행돼야 한다. 바이오 칩은 반도체 칩 위의 바이오 실험실이라고 할 수 있다. 인체의 유전자에 대한 정보가 저장되어 있는 바이오 칩을 이용할 경우 한번에 수천 가지 유전자의 특성을 읽어냄으로써 질병의 조기 진단과 치료가 가능해진다. 바이오 칩이 본격적으로 실용화되면 개인의 유전자 변이나 이상 여부를 쉽게 진단할 수 있게 된다. 예를 들어 사람의 피 한 방울을 칩 위에 떨어뜨리면 그 속에서 얻을 수 있는 온갖 건강정보를 순식간에 읽어내서 분석해 주는 것이 바이오칩이다. 손톱 크기의 칩 위에 수백에서 수만개의 유전자를 빼곡하게 배열해 유전정보를 탐색하게 해주는 DNA칩, 지금의 DNA칩과 달리 별도의 기기 없이도 DNA를 분리하고 검증하는 과정 일체를 처리할 수 있는 차세대 DNA칩인 랩온어칩등이 모두 여기에 포함된다. 미국 애피메트릭스는 컴퓨터 칩 제조에 이용되는 기술을 이용, 수만개의 각기 다른 염기를 하나의 유리 위에 직접 합성하는 유전자 칩을 만드는 기술을 개발해 세계 각국에 특허 출원했다. 또 유전자 칩뿐만 아니라 암과 에이즈와 관련된 유전자를 밝혀내는 칩을 개발해 바이오 칩분야에서 선두에 나섰다. 이외에 셀로믹스, 사이퍼젠 바이오시스템 등도 바이오 칩 분야의 대표적인 기업으로 주목받고 있다. 미국 모토롤러는 바이오 칩에 천문학적 액수의 예산과 인력을 투입해 극도의 보안 속에 개발계획을 진행중이다. 바이오칩 개발 외에 또하나의 중요한 분야가 각종 생명정보를 체계적으로 저장하고 찾아볼 수 있는 생명정보 데이터베이스 구축 작업이다. 세계적으로 많은 기업이 바이오칩이 실용화될 시기를 대비해 현재 생명정보 데이터베이스 구축작업에 착수했다. 생물의 유전자 정보를 판매해 대규모 매출을 올리는 회사는 이미 등장했다. 대표적인 회사인 인사이트 파마슈티컬스(Incyte Pharmaceuticals)는 지난 1991년 설립된 후 94년 매출액 1500만 달러에서 98년에는 1억3500만 달러로 급성장했다. 노바티스, 화이저 등 대형 제약기업이 이 회사의 주 고객. 이 회사 주력제품 중 하나인 라이프섹(LifeSeq)에는 인간 세포와 조직으로부터 해석한 유전자 DNA의 배열 등 250만 종류의 정보가 채워져 있다. 바이오 산업이 21세기 가장 유망한 시장으로 떠오르면서 국내 대학에서도 바이오 인포매틱스 과목을 신설하는 곳이 늘고 있다. 부산대는 박사과정 학생들을 대상으로 생물정보학협동과정을 개설했고, 전남대는 전산학 박사과정에서 바이오 인포매틱스를 다루고 있다. 포항공대, 고려대, 한국과학기술원도 관련 강의를 개설해 운영하고 있다. 바이오 인포매틱스 전문벤처 설립과 대기업의 이 분야 진출도 잇따르고 있다. IDR․스몰소프트․마크로젠 등 벤처기업이 이 분야에서 두각을 나타내고 있고 삼성종합기술원, 제일제당, LG화학 등 대기업도 앞다퉈 바이오 인포매틱스 시장에 뛰어든 상황이다.

 

 

3. KISTI, 바이오인포매틱스센터

 

유전체 연구로 얻어지는 결과물은 생물학적 물질이나 현상의 발견이 아닌 DNA 염기서열과 같은 생물학적 정보다. 무수히 쏟아져나오는 DNA나 단백질 정보는 제대로 처리하지 못하면 그 가치를 활용하기 어렵다. 인간 게놈프로젝트(HGP)가 완성된 후 동물, 식물, 미생물 등 각 분야의 유전체 연구가 활발해지면서 이 과정에서 발생하는 방대한 정보를 처리하는 기술의 중요성이 커지고 있다. 이런 기술을 바이오인포매틱스 또는 생물정보학이라고 부르는데 컴퓨터와 소프트웨어로 유전자의 염기서열 데이터를 분석, 활용함으로써 유전자의 기능을 밝혀내는 것이다.

한국과학기술정보연구원(KISTI) 바이오인포매틱스센터(CCBB 센터장 조영화)는 전산학적인 기술을 이용해 생명현상을 연구하는 곳이다. 지난해 바이오인포매틱스 사업실에서 출발해 올해부터는 생물정보시스템개발실과 생물정보시스템지원실․생물정보자원실 등 3실 규모로 커졌다. 바이오인포매틱스센터의 역할은 컴퓨터를 활용해 생물학적인 데이터를 수집, 관리하고 저장․평가․분석하는 것이다. 이 센터는 국내 바이오인포매틱스 분야의 기반을 마련하는데 주력하고 있다. 이미 진뱅크(Gene Bank)나 PDB, DB EST와 같은 세계의 주요 바이오인포매틱스 DB를 국내에서 이용할 수 있도록 하고 있다. 또 유럽의 시퀀싱 DB와 각국이 갖고 있는 DB들을 연계해 서비스할 계획이다. 센터중 생물정보시스템개발실은 생물정보학의 초기단계에서 필수적인 생물정보 DB 구축을 비롯해 FTP사이트 구축 및 서비스, 검색시스템 개발이나 단백질 구조의 가시화 프로그램 개발 등 바이오인포매틱스와 관련된 시스템 개발을 수행하고 있다.

우선 DB구축의 경우 센터는 미국 NIH산하 국립생물정보센터(NCBI)의 주요 공개 DB들을 가져와 서비스함으로써 굳이 NCBI 웹사이트에 접속하지 않고도 주요 DB들을 활용할 수 있도록 하고 있다. 또 KISTI가 지속적으로 기술을 진전시켜온 검색시스템인 크리스탈 2.0버전을 토대로 파일시스템을 이용해 DB검색이 가능한 엔진 개발을 추진중이다. 바이오인포매틱스 관련 DB는 워낙 양이 방대해 NCBI를 통해 실험결과를 검증할 경우 시간이 오래 걸리고 전문가의 자문을 받기가 쉽지 않다. 생물정보시스템개발실은 또 3차원 단백질 구조를 PC상에서 확대해 볼 수 있는 가시화 프로그램 개발도 진행중이다. 이미 BioMole이란 이름의 가시화 프로그램 프로토 타입을 개발한 바 있어, 이를 토대로 여러개의 단백질 구조를 보여주거나 유전자 수준의 코드를 불러 비교해 볼 수 있는 기능을 추가할 계획이다. 생물정보시스템지원실은 5~6월께 바이오인포매틱스 전용 슈퍼컴퓨터를 도입해 국내에서 본격적으로 이분야 연구를 수행할 수 있는 컴퓨팅 인프라 구축에 적극적이다.

여기에 BLAST나 FASTA와 같은 바이오인포매틱스 소프트웨어를 운용할 클러스터 PC를 확보할 계획이다. 생물정보자원실은 생물다양성 및 생물자원 정보의 체계적인 수집과 분석, 가공을 위한 사실(Fact) DB 구축을 추진중이고 한국인의 인체영상 DB 구축 연구도 수행하고 있다. 바이오인포매틱스센터는 이밖에 한국생명공학연구원내 위치한 국가유전체정보센터의 협력기관으로 공동연구도 진행하고 있다. 손현석 생물정보시스템개발실장은 “바이오인포매틱스는 유전병의 진단이나 치료, 신약개발에 핵심적인 인프라 기술”이라며 “국내 바이오인포매틱스 연구기반을 마련하는데 노력하겠다 “고 말했다.

 

 

4. 링컨 스타인과의 인터뷰

펄이 바이오인포매틱스에 지대한 공헌을 했다는 사실은 널리 알려져 있으나 이에 비해 바이오인포매틱스가 펄과 월드 와이드 웹에 공헌한 바는 덜 알려졌다. 현재 가장 널리 사용되고 있는 펄 모듈인 CGI.pm이 게놈 지도를 만들고자 했던 한 연구자에 의해 써졌다는 것만 보아도 바이오인포매틱스가 펄에 공헌한 바는 무시할 수 없다. 다시 말해 CGI.pm 모듈은 정적 페이지의 디렉토리에서 동적인 데이터베이스구동 매체로 웹 개발을 도왔다. 텍스트를 관리하는 빠르면서 쉽고 저렴한 도구는 링컨 스타인이라는 연구자에 의해 그 사용방법이 극대화되었으며 그 결과 펄과 바이오인포메틱스 사이의 결합은 결실을 맺기 시작했다.

현재 링컨 스타인은 뉴욕, 콜드 스프링 하버에 있는 콜드 스프링 하버 실험실(Cold Spring Harbor Laboratory)에서 연구자로 근무하고 있으며 프로그래머이자 소프트웨어 저작자이다. 펄과 웹에 끼친 의미심장한 공헌 이외에도 그는 생물학적 데이터베이스, 데이터 분석 및 시각화, 결과 공유를 위해 소프트웨어를 쓰고 있다. 또한 「Web Techniques」와 「The Perl」에 기사를 쓰고 있으며 이런 주제와 관련된 책을 몇 권 쓰기도 했다.

링컨은 오라일리에서 주최할 바이오인포매틱스 기술동향 컨퍼런스에서 기조 연설을 하게 될 것이다. 우리는 그가 현재 진행하고 있는 프로젝트, 생물학 특허 문제와 관련한 그의 의견에 대해 이야기를 나누었으며 왜 펄이 바이오인포매틱스에 필요한 프로그래밍 언어로 선택되었는지에 대해서도 물어보았다.

 

스튜어트: 언제 처음으로 바이오인포매틱스에 관심을 갖게 되셨습니까?

스타인: 완전히 우연한 기회에 관심을 갖게 되었습니다. 그 당시 나는 기생충의 배아기 발달 단계를 연구하는 세포 생물학과 대학원생이었죠. 나는 기생생활을 하지않고 독립생활을 하는 곤충의 형태에서 감염 매개 곤충으로 전환하는 단계에 있는 유전자를 순서대로 배열했습니다. 나는 유전자를 배열하고 그 유전자를 어셈블하는 서열 분석 소프트웨어(다양한 종류의 유전자 조각 단편들을 전체 유전자로 재어셈블하기도 하는 소프트웨어)를 사용해보고 싶었습니다만 그 당시 학과에 비치된 VAX를 사용하는데 한 달에 15달러나 지불하라고 하더군요. 유감스럽게도 그 당시 제게는 그렇게 많은 돈을 지불할 만한 여유도 없었구요. 그때 나는 워드 프로세서용으로 사용하던 매킨토시를 가지고 있었고 서열 분석을 하는 프로그램을 만드는 일이 그렇게 어려운 일은 아닐 것이라고 생각했었죠. 그래서 서열 어셈블러를 쓰기 위해 68000 어셈블리 언어를 배웠습니다. 그 어셈블러로 내가 발견한 서열들을 어셈블하고 내 학위 논문을 발표하고 그 이후로도 계속해서 행복하게 살고있죠…….

스튜어트: 전산학자와 생물학자 중 누가 더 다른 분야를 배우는데 힘들어할까요? 그리고 그 이유는 무엇이라고 생각하십니까?

스타인: 글쎄요… 생물학자가 컴퓨터를 배우는 것보다는 전산학자가 생물학을 공부하는데 훨씬 더 어려운 시간을 보낼 것 같습니다. 왜냐하면 실험적인 학문이라는 생물학의 특성상 전산학자들이 생물학을 이해하기 위해서는 전반적인 패러다임의 전환 단계를 반드시 거쳐야 하기 때문이죠. 대조적으로 물리학자들이 생물학을 배우는 데는 아무 문제가 없습니다. 오늘날 생물학자에게 있어 소프트웨어 개발은 그저 습득해야 할 새로운 기술 중에 하나일 뿐입니다.

스튜어트: 그렇군요. 그러면 이제부터는 현재 선생님께서 진행하고 계시는 프로젝트와 관련된 질문을 시작해보겠습니다. AcePerl과 AceBrowser이 무엇인지 간략하게 설명해주시기 바랍니다.

스타인: AcePerl은 Acedb 데이터베이스를 위한 API의 일을 하는 펄 모듈입니다. Acedb는 생물학 데이터 모델링 뿐만 아니라 지리학적 데이터베이스와 같은 기타 특정 영역에서 널리 사용되는 객체지향 데이터베이스 입니다. AcePerl 이전의 유일한API는 C였습니다. 이와 관련된 프로젝트로는 자바 API를 다루는 Jade가 있습니다.

AceBrowser는 Acedb로 연결되는 웹기반 전위로서 유저가 웹을 통해 Acedb 데이터베이스를 브라우징 할 수 있게 해줍니다.

스튜어트: BoulderIO 프로젝트에 대해서도 조금만 말씀해 주십시오.

스타인: 간단한 tag/value 구문을 사용하여 웹으로 생물학적 객체를 전송하고자 하는 목표로 진행되던 이 프로젝트는 안타깝게도 더 이상 진행되지 않습니다. 이 프로젝트는 XML로 대체되었으며 XML은 거의 똑같은 일을 할 수 있는 능력을 가졌죠.

스튜어트: 방금 말씀하신 것이 지금 실제로 일어나고 있는 현상에 대한 것입니까? 선생님께서는 생물학적 데이터는 축적되어 있으나 서로 전혀 다른 방식으로 데이터베이스화 되어있는 현재 상황과 관련된 문제점들에 대한 해답을 XML이 제시해주고 있다고 생각하십니까?

스타인: XML은 지금 생물학적 데이터베이스 사이에서 정보를 적절하게 교환해주는 솔루션으로 가장 선호되고 있습니다. 물론 XML이 마치 마법처럼 문제를 해결해 주고있다고는 볼 수 없지만 그러한 해답을 가능하게는 해주고 있죠.

스튜어트: 지금 가장 흥미를 갖고 진행중인 프로젝트로는 무엇을 들고 싶은가요?

스타인: 제가 특히 관심이 많은 프로젝트는 분산 서열 주석 첨부 시스템(DAS: Distributed Sequence Annotation System)을 들 수 있습니다. 그것은 유전자의 주석(여기서 유전자의 주석이 의미하는 것은 유전자의 위치처럼 특정 지역에 있는 게놈의 존재 이유를 설명한 것을 뜻함)이 서로 공유될 수 있도록 해줍니다. 그것은 게놈 서열 표시기를 쓸 수 있고 근본적인 데이터베이스나 데이터 모델과는 상관 없이 그것이 서로 다른 다중 데이터베이스에서 작동할 수 있는 내가 알고있는 유일한 예제 입니다.

스튜어트: 현재 바이오인포매틱스에서 사용되고 있는 도구를 개선하기위해 어떤 조치들이 취해질 수 있습니까?

스타인: 소프트웨어 엔지니어링에 대한 좀더 많은 관심이 필요하죠. 가령 표준 순응성, 품질 관리, 문서화 작업등이 그런 것들이 되겠지요. 저는 또한 오픈 소스 활동의 강력한 옹호자입니다. 만약 바이오펄과 바이오자바 프로젝트가 그려내는 선을 따라 좀더 다양한 바이오인포매틱스 소프트웨어가 조직화된다면 우리는 확실히 현재보다 훨씬 더 개선된 세상에 살게 될 것이 분명합니다. 그러나 현재 개방, 폐쇄, 독점 소프트웨어의 불협화음으로 어울리지 않는 컴포넌트, 반쪽짜리 솔루션, 버그로만 이루어진 소프트웨어 등등 아뭏튼 바이오인포매틱스계는 여러 가지가 뒤죽박죽 섞인 채 혼란상태에 빠져있습니다.

스튜어트: 선생님께서는 펄을 오래 전부터 사용해오고 계셨습니다. 바이오인포매틱스에서 사용될 주요 언어로 펄이 선정된 이유가 무엇이라고 생각하십니까?

스타인: 펄은 텍스트 데이터를 잘 다루는 언어입니다. 그리고 바이오인포매틱스 연구의 대부분을 차지하는 DNA와 단백질 서열은 대부분이 텍스트로 이루어져있죠.

스튜어트: 최근 이완 버니씨와 인터뷰를 한 적이 있습니다. 그 분도 웹 개발의 많은 부분이 실제적으로는 바이오인포매틱스 특히 선생님의 CGI.pm 모듈로 인해 육성되었다고 말씀하셨습니다. CGI.pm은 현재 사용되고 있는 펄 모듈 중에서 아마 가장 널리 사용되는 펄 모듈일 것입니다. 이 모듈을 작성하게 된 특별한 계기가 있었습니까? 혹시라도 미래에 CGI.pm을 변경할 계획은 있으신지요?

스타인: CGI.pm은 내가 MIT 게놈 연구 센터인 Whitehead 연구소에 있을 때 작성한 것입니다. 나는 이 연구소의 게놈 지도를 발표하기위한 펄 모듈이 필요했었죠. 그때 GD 모듈도 같이 작성했었습니다. CGI.pm은 월드 와이드 웹 프로토콜의 변화에 발맞추어 꾸준히 업데이트 되어왔습니다. 예를 들어 가장 최신에 배포된 것은 P3P 쿠키를 지원하고 있지요.

스튜어트: 오픈 소스, 오픈 사이언스 및 상업적인 사업간의 관계에 대해 어떻게 생각하십니까?

스타인: 만약 바이오인포매틱스 연구 단체가 어떤 소프트웨어를 사용한 출력 결과에 바탕을 둔 성과를 발표할 경우 그 소프트웨어에 해당하는 소스 코드는 검증 대상으로 이용될 수 있어야 합니다. 이것은 생물학의 모든 측면에 적용되는 실증성과 재생성에 대한 아주 기본적인 사항입니다. 이것은 모든 바이오인포매틱스 소프트웨어가 오픈 소스 개발 모델을 사용해서 개발되어야 한다거나 로열티를 지급하지 않는 기준에 따라 사용되어야 한다는 뜻은 아닙니다. 그러나 만약 연구자가 내가 작업하고자 하는 결과의 일부를 발표할 생각이라면 나는 그들이 작업한 것을 재생산 하도록 격려하고 싶습니다.

스튜어트: 유전자 특허는 인정되어야 합니까? 단백질 특허는 어떻습니까? 자연 발생하는 단백질은요?

스타인: 나는 자연적 발생 산물인 유전자나 단백질의 새로운 사용에 대해서는 특허를 인정할 수 있다고 생각하지만 유전자나 단백질 그 자체에 대해서는 특허를 인정할 수 없다고 봅니다.

스튜어트: 바이오인포매틱스와 관련된 풀리지 않은 문제들 중에서 미래에 위대한 과학적 진보를 낳을만한 이슈들에는 어떤 것들이 있다고 생각하십니까?

스타인: 글쎄요… 어떻게 유전자들이 규제를 받는지, 어떻게 단백질이 하위세포 목적지로 설정되는지, 어떻게 뇌가 기억을 저장하는지… 이런 것들이 밝혀진다면 과학이 엄청난 성과를 거두어 들였다고 말할 수 있을지도 모르겠네요…

스튜어트: 오라일리에서 추최하는 바이오인포매틱스 컨퍼런스 기조 연설에서 무엇에 대해 말씀하실 생각이십니까?

스타인: 글쎄요… 저도 아직 모르는 바이오인포매틱스의 풀리지 않는 문제에 대해 이야기해 볼까요?

 

 

5. 오라일리 주최 바이오인포메틱스 컨퍼런스 기조연설자 이완 버니와의 인터뷰

 

이완 버니(Ewan Birney)는 오라일리가 주최하는 바이오인포메틱스 기술동향 컨퍼런스에서 기조 연설을 하게 될 생물학자이다. 준비된 생물학자이자 독학 프로그래머인 그는 현재 유럽 바이오인포메틱스 연구소(European Bioinformatics Institute)에서 유전체 연구팀의 리더로서 활동하고 있다.

그는 옥스포드 밸리올 대학에서 생화학을 전공하였으며 캠브리지 대학교와 연계되어 있는 상거 센터(Sanger Centre)에서 박사학위를 받았다. 오픈 소스 바이오인포메틱스 분야에서 ‘치어리더 대장’으로 알려져 있는 것처럼 바이오펄과 기타 바이오로 시작하는 각종 프로젝트에서 소스 코드와 리더쉽을 보여주고 있는 등 왕성한 활동을 하고 있다. 또한 상거 센터와 유럽 바이오인포메틱스 연구기관이 협력해서 연구하고 있는 프로젝트인 Ensembl의 리더 중 한 사람으로 인간 유전체에 대해 완전히 자유로운 견해를 전 세계에 제시하고 있다.

우리는 이완 버니가 참여하고 있는 프로젝트 및 오픈 소스 바이오인포메틱스의 미래에 대해 이야기를 나누었다.

 

스튜어트: 언제부터 바이오인포메틱스에 대해 관심을 갖게 되셨습니까?

버니: 1970년 이래로 분자 생물학 분야에서는 선구자적 역할을 하고 있는 실험실 중 하나인 콜드 스프링 하버 실험실에서 일을 한 적이 있습니다. 그 당시 나는 업무 수행상 어려운 점이 있었는데 그것은 컴퓨터로 사람들의 흥미를 끌어 모으기 힘들다는 것이었습니다. 마침 바이오인포메틱스에 푹 빠져있던 친구 한 명이 나에게 케리건과 리치의 『The C Programming Language』라는 책을 가져다 주었는데 저도 공부해볼 생각은 하지 않았습니다. 내가 처음으로 만든 프로그램 중 일부는 괴팍한 유닉스 시스템 기반에서 작성되었으며 나중에 알게 된 사실이지만 약간은 까다로운 언어인 포스트스크립트를 만들어 냈습니다. 프로그램을 테스트하기 위해 내가 할 수 있었던 유일한 것은 그 프로그램을 출력해 보거나 프린트나 시동을 걸었을 때 문제가 발생하는지 아닌지 정도를 확인하는 것 뿐이었습니다. 굉장히 극단적인 디버깅 경험이었다고 할 수 있죠. 바이오인포메틱스에 대한 실제적인 변화 그러니까 새로운 타개책이라고 할 수 있나요? 아뭏튼 바이오인포메틱스에 대한 새로운 변화는 그 이듬해 여름에 일어났습니다. 옥스퍼드 학사 과정에 있으면서 CSHL에서 아르바이트를 하고 있을 때였죠. 최초의 대용량, DNA 서열 발생을 자동화 해주는 EST 데이터베이스가 처음으로 나왔을 때였습니다. 내가 관심 있는 단백질은 단백질체 내부에서도 RNA 결합 단백질이었는데 그것만 찾아 낼 수 있는 도구를 만들 수 있는 사람이 아무도 없더군요. 그래서 나는 빌 피어슨이 쓴 ‘효소학에서의 방법론’이라는 챕터에서 진도를 멈추고 동적 프로그래밍에 대해 독학을 시작했습니다. 동적 프로그래밍으로 대부분의 DNA 서열 분석에 대한 기본 원리는 알 수 있었으니까요. 그때 제가 공부했던 부분은 제가 수행하는 작업에 성공을 가져다 주었습니다. 결국 나는 EST 데이터베이스로부터 RNA 결합 단백질을 찾아낼 수 있었으니까요. 그러나 더 중요한 점은 프로그램 내부의 DNA에서 프래임시프트(DNA에 하나 또는 그 이상의 뉴클레오티드가 부가 되거 나 혹은 결실됨으로써 유전 암호의 해독틀이 이동하여 어긋나 일어나는 돌연 변이) 에러를 대처할 수 있게 되었다는 것입니다. 요즘에는 그런 것이 기본이지만 1993년으로 거슬러 올라가 생각해보면 꽤 혁신적인 것이었습니다. 특히나 20살짜리 대학생에게는 믿을 수 없을 정도로 신나는 일이었죠. 원래는 ‘PairWise’라고 명명되던 프로그램은 결국 ‘GeneWise’가 되었고 그 프로그램은 지금 내가 완전히 빠져있는 알고리즘입니다. 물론 그 프로그램 덕택에 내가 이 분야에서 내가 경력을 쌓을 수 있었죠.

 

스튜어트: 현재 바이오인포메틱스에서 개발 되고 있는 가장 흥미로운 도구 및 기술에는 어떤 것이 있습니까?

버니: 뭐라고 딱 꼬집어 말씀 드리기는 어렵군요! 바이오인포메틱스는 결코 평범하다고는 볼 수 없지만 밖에서 보기에는 평범하게 보이는 ‘데이터베이스 디자인’에서부터 최첨단 알고리즘까지 그 영역을 넓혀왔습니다. 내가 EBI에서 일하기 좋아하는 이유는 방금 말씀 드린 모든 기술이 제시되고 있기 때문입니다. 우리는 ‘임의 접속을 위해 2 테라바이트의 정보를 적절하게 저장하는 법’에서부터 ‘200여 개의 표현형 분석 결과를 얻어 이것으로 무엇을 해야 할 것인지’까지의 모든 일을 합니다. 나는 바로 옆 실험실의 앨비스 브라즈마가 이끄는 그룹에 대해 강한 인상을 받았습니다. 그들은 표현형에 대해 작업을 하고 있었으며 ArrayExpress 데이터베이스를 관리했습니다. 더 중요한 사실은 그들이 갖고 있는 데이터베이스를 실제로 사용하고 있었다는 것입니다. 전산 정보에 대해서 민도리 해리스가 유전자 존재론 프로젝트(Gene Ontology project)와 같은 작업을 한 것은 굉장히 훌륭한 일이라고 생각합니다. 그것은 제가 마치 이상한 곳에서 오래된 만화 영화를 보고 있는 듯한 착각에 빠지게 합니다. 형체도 없는 생물학의 개념을 유전자 존재론 프로젝트 멤버들이 각각 ‘바코딩한’ 하나의 구체적인 형태로 만들어 내니까요. 집으로 향하면서 마이클 클램프와 발 쿠웬은 상거 센터에 있는 나에게 들러서 내 알고리즘을 알려달라고 했습니다. 그리고 그 알고리즘을 어떻게 하면 인간 유전체에서 실제적으로 구동할 수 있을지 알아냈습니다. 저를 정말 감동시켰죠.

스튜어트: 현재의 도구를 개량하기위해 어떤 조치가 취해져야 합니까?

버니: 모든 조치를 다 취해야 한다고 봅니다. 분산된 소프트웨어 개발 그룹에서처럼 우리는 충분히 코드를 재사용 하고 있지 않습니다. 바이오 펄이나 바이오 자바와 같은 프로젝트에 노력을 기울임에도 불구하고 기본적인 주제에 대해 같은 발명을 해내는 소모적인 일을 해왔지요. 더욱 근본적으로 우리는 하드웨어와 알고리즘의 한계로 다가서기 위한 거대한 바이오인포메틱스 설치 작업을 시작했습니다. 한 컨설턴트가 우리의 시스템을 보고 난 후 우리가 가동하고 있는 설비 수준에 매우 충격을 받았다고 말했습니다. (그때 모든 설비들은 완전 가동되고 있었으며 우리는 매일 1년 치에 달하는 CPU 사이클을 한꺼번에 돌려 약 2만개의 프로세스가 시간 추적을 하도록 했다.) 그 컨설턴트는 놀라서 입을 다물지 못하더군요. 다음 수준으로 옮겨갈 때마다 즉각적이지는 않았지만 우리는 하드웨어, 네트워크, 운영체제, 알고리즘 확장성을 발견했습니다.

스튜어트: 인터넷이 유전체 처리에 얼마나 많은 영향을 끼쳤다고 생각하십니까?

버니: 아주 엄청나게 영향을 끼쳤지요. 매일매일 유럽의 EBI, 미국의 NCBI, 일본의DDBJ는 인터넷을 통해 전 세계 DNA 데이터베이스를 동기화 시킵니다. 인터넷의 민주화야말로 실제적으로 함께 작업하고 있는 100,000개에 달하는 개별적인 실험실로부터 데이터를 얻어내기 위한 이상적인 방법이라고 생각합니다. 바이오인포메틱스는 천문학과는 아주 다릅니다. 우리는 메시지를 뽑아내고 실제적인 데이터를 교환하기위한 웹을 가지고 있어야만 합니다. 그것은 양 갈래길 같습니다. 바이오인포메틱스에 의해 많은 웹 개발이 실제로 이루어지고 있습니다. 링콜른 스테인과 같은 사람도 그 자신이 바이오인포메틱스를 필요로 했기 때문에 웹을 접하는 가장 흔한 방법일 수도 있는 CGI.pm을 썼습니다. 그리고 지난 10여년간에 걸쳐 인터넷 접속성을 업그래이드 시킨 이유 중 하나가 분자생물학의 필요성이라는 것을 보여 줍니다. 재미있게도 인터넷은 이제 우리를 위해 확장을 합니다. NCBI, EBI와 상거 센터가 있는 힝스톤은 대서양을 가로질러 가공되지 않은 DNA 파일을 서로 맞바꿉니다. 불행하게도 아마 인터넷으로 서로 연결되어 있지 않았다면 우리는 인터넷대신에 DAT 테이프를 사용해야만 했을 것 입니다. 테라바이트 정도가 서로 교환될 때에는 DHL로 붙어진 테이프가 일반 섬유보다는 더 높은 광대역폭을 가집니다.

스튜어트: EBI와 NCBI의 연구자들 사이에는 어떤 종류의 협력형태가 존재합니까?

버니: NCBI와 EBI사이에는 긴밀한 협력이 이루어지고 있습니다. 전 세계적으로 공유되는 주요 데이터세트인 DNA 데이터베이스는 밤에 데이터를 동기화 시킵니다(여기에는 물론 일본의 DDBJ도 포함됨). 내가 일하고 있는 지역에서는 인간 유전체 ‘완료(finishing)’를 추적하기 위한 리소스를 제공하는 것에 대해 NCBI와 아주 밀접하게 협력합니다 (finishing은 여기에서 ‘완료하다’라는 일상적인 의미 외에도 기술적인 방법을 뜻하는 것으로 쓰였음). 다른 지역에서는 누가 최고냐를 가려내려고 하는 것처럼 서로 배타적으로 연구합니다. 하지만 여기서는 서로에게 호의적인 방식으로 협력해서 일합니다(이 분야에 관심이 있다면 물론 EBI가 최고라고 말씀 드리는 바이지만…).

스튜어트: 오픈 소스, 오픈 사이언스 및 특정 사업 기관들의 관계를 어떻게 보고 계십니까?

버니: 어떤 면에 있어서 그러한 관계는 항상 있어 왔던 대로 존재합니다. 과학은 모두에게 개방되어야 합니다. 그리고 그 개방된 정보는 연구와 개발분야에 인프라스트럭처를 제공해야 합니다. 하지만 우리가 가지고 있는 정보가 점차 중요하다고 생각되는 방향으로 나아감에 따라 사람들은 과도하게 투자비를 지출하면서까지 정보를 보호하려고만 합니다. 따라서 제 개인적인 생각으로 DNA 서열은 정보의 연구와 개발을 위해 인프라스트럭처로 완전히 개방되어야 한다고 생각합니다. 하지만 DNA 서열이라고 하더라도 진단 수준의 발견에 해당하는 것(특정 질병의 발현에 있어서 단백질의 역할과 같은 것)은 좀더 특별히 생각해야 한다고 봅니다. 그러한 고수준의 것들은 실제적이고 유용한 제품 개발을 유도해 낸다는 취지에서 특허권을 허용해야 한다고 생각합니다. 소프트웨어도 마찬가지 입니다. 인프라스트럭처와 특히 라이브러리는 공개되어야만 합니다. 즉 어떤 장벽 없이 우리는 그 라이브러리를 공유하고 재이용 할 수 있어야 한다는 말입니다. 예를 들어 어떤 제품의 외양에 대해 불평하기 시작해서 그 외양이 바뀌기를 기대한다면 사람들은 차차 그 외양을 바꾸기 시작할 것입니다. 이와 같이 소프트웨어에서도 나는 사람들이 소프트웨어 그 자체가 아니라 개발자들이 프로젝트를 끝내기 위해 기울인 ‘노력과 시간’에 관심을 가져야 한다고 생각합니다. 그런 의미에서 나는 에릭 레이몬드나 리차드 스톨만 보다 내가 더 진정한 오픈 소스 신봉자라고 생각합니다. 내가 발명해낸 알고리즘은 GPL(일반 공용 라이센스)이지만 BSD 스타일로 라이센스를 등록했습니다. 제가 지금까지 말한 저의 철학을 반영해서 말이죠.

스튜어트: 그렇다면 특허에 대해 좀더 이야기해 보도록 하죠. 유전체 특허가 인정되어야 한다는 말씀이십니까?

버니: 단지 DNA의 서열을 임의로 배열해 놓았다는 사실로는 유전체 특허를 주어서는 안된다고 생각합니다. 어떤 유전체가 어떤 질병에서 무슨 특정한 역할을 한다는 것을 발견해낸 것과 같은 사실에 대해서만 특허를 인정해야 하죠. 그리고 그런 구분은 꽤 확실하게 나눌 수 있다고 생각합니다. 나는 사람들이 왜 이와 같은 문제로 서로 싸우는지 이해할 수 없습니다. 극단적인 두 파로 나뉘어서 말이죠. 모든 것에 특허를 주어야 한다는 것과 절대 특허는 인정할 수 없다는 극우파와 극좌파로 나뉘어서 말이죠. 저는 그런 흑백론에서 멀어지려고 노력합니다. 이 외에도 나는 Welcome Trust(영국의 자선단체로 인간 게놈 프로젝트의 약 3분의 1에 해당하는 연구비를 지원)에 의해 입수된 DNA 수열에 대해 매우 고맙게 생각해야 한다고 생각합니다. 지난 5년간의 과학자로서 그들은 데이터의 개방성에 대해 이성적인 결정을 할 수 있었습니다. 그리고 유전체 연구결과를 공개 방침 유지를 취하겠다는 그러한 입장은 상거 센터를 대표하는 존 슬스톤에 의한 것이었습니다. 만약 Wellcome Trust가 없었다면 아마도 오늘날 우리는 다른 세상을 살고 있을 겁니다.

스튜어트: 바이오 펄 프로젝트에도 참여하고 계신 걸로 알고 있습니다. 바이오 펄의 목적과 나아갈 방향에 대해 말씀해 주시겠습니까?

버니: 바이오 펄의 목적은 바이오인포메틱스에 재이용할 수 있는 펄 컴포넌트를 만들어 내는 것입니다. 솔직히 말해 그러한 것들은 실제 우리가 갖고 있는 능력보다 더 거만해 보이기도 하지만 말입니다. 이 프로젝트는 바이오인포메틱스에서 펄을 코드로 사용하는 사람들의 모임이고 실제로도 코드를 공유하기를 원합니다. 다른 비공식적인 해커 그룹처럼 우리도 초창기에는 재미있는 이야기 거리를 갖고 있었습니다. 예를 들어 우리가 발명한 첫번째 기계가 명령어를 무시하고 지나치는 것으로부터 구출된 이야기라던가… 크리스의 침실에서 기계를 돌렸던 이야기라든가…(크리스의 사생활에 대해서는 물어보지 말기를… 걱정이 되기까…) 그 프로젝트는 온라인상에서 서로 협력하는 진정한 커뮤니티였으며 그 곳을 통해 나는 진짜 좋은 친구들을 사귈 수도 있었습니다. 우리는 조금 더 진지해질 필요가 있습니다. 자매 프로젝트인 바이오 자바와 바이오 파이썬은 같은 서버에 함께 있었습니다(최근에 썬 마이크로시스템즈 하드웨어로 업그레이드 되었으며 우리에게 이런 도움을 준 썬에게 매우 감사하다는 말을 꼭 전하고 싶다). 우리는 자선 단체로 등록해야 했습니다. 이렇게 함으로써 우리는 더 일관성을 유지할 수 있었고 오라일리와 전자 유전학의 도움으로 곧 조직화 될 ‘hackathon’과 같은 단체에서 일을 할 수 있게 되었습니다. 그리고 그곳에서 우리는 바이오인포메틱스를 위한 진정한 인프라스트럭처를 만들어내기 위해 핵심 오픈 소스 해커들과 함께 협력할 수 있을 것입니다. 장비의 설치와 위치를 커스터마이즈 해주는 것은 물론 글로벌화 해주는 인프라스트럭처로 부트스트랩 하기 위한 바이오인포메틱스 도구의 필요성이 부각됨에 따라 나는 이러한 프로젝트를 바이오인포메틱스를 위한 ~프로젝트라고 명명할 것입니다. 펄은 이러한 프로젝트들의 할아버지가 됩니다. 그리고 아마도 올해 말까지는 버전 1.0을 내놓을 수 있을 것으로 예상합니다. 우리가 바이오인포메틱스에서 서열 분석을 완료하기까지는 버전 1.0에 대해 발표하고 싶지는 않습니다. 우리가 아직 너무 어리다고 생각하시는 분들께는 우리가 이 일을 시작한지가 벌써 7년이나 되어가고 우리가 개발한 코드가 전 세계에서 널리 사용된다고 말씀드리고 싶습니다. 우리는 버전과 관련된 숫자에 대해 조심스러운 입장을 취하려고 합니다. 그저 업그래이드 되는 숫자나 발표하는 가벼운 행동을 하기는 원치 않습니다.

스튜어트: 참여하고 계신 또 다른 프로젝트로 ‘Ensembl 인간 유전체 서버’라는 프로젝트가 있다고 하던데요. Ensembl이 무엇인지 자세히 설명해 주시겠습니까?

버니: Ensembl에서는 많은 일을 합니다. 분자 생물학자들에게 그들이 웹에서 인간과 쥐의 유전체에 대해 질문할 수 있는 첫번째 장소가 되기를 바랍니다. 우리는 분자 생물학자들이 엉망진창인 데이터를 추적하느라 아까운 시간을 소비하지 않고 그들에게 흥미로운 것들을 신속히 발견하고 그래서 실제적인 실험을 계획하고 진행할 수 있도록 그들이 훌륭한 웹 사이트에서 시간을 보낼 수 있기를 바랍니다. 위에서 언급했던 웹 사이트 지원과 함께 우리는 국내외를 모두 포괄하는 흥미진진한 여러 프로젝트의 ‘인프라스트럭처’를 지원합니다. 예를 들어 상거 센터에서 마이크 스트래턴이 이끄는 그룹은 암 유전자를 찾고 있습니다. 하지만 그들이 진행하는 한 두 종류의 암에 대한 한 두 가지 유전자가 아니라 모든 암과 관련된 모든 유전자 입니다. 놀랍지 않습니까? 저는 분명 모든 암에 대한 모든 유전자라고 말했습니다. 위와 같은 사항에 기본을 두고 웹 사이트나 인프라스트럭처를 만들기 위해서 우리는 우선 심각한 소프트웨어의 문제점부터 개선해야 합니다. 유전체 자체도 거대한 것이고 어쨌든 50년간 데이터를 수집하고 확인했기 때문에 인간 유전체를 가지고 작업을 한다는 것은 정말이지 힘든 작업임에는 분명합니다. 이러한 힘든 작업을 위해 앞에서도 언급했지만 우리는 영국의 자선기관으로 등록된 Wellcome Trust에 바이오인포메틱스에 대한 지원금을 타기 위해 입찰지원을 하러 갔습니다(예산은 8백만 파운드였지만 이 수치는 유전체 서열 분석에 드는 총 비용과 비교해 보았을 때 아주 작은 수치임). 다행스럽게도 우리는 지원금을 받아낼 수 있었고 1년 후면 생물학에 헌신하는 가장 큰 전산 리소스 중 하나인 30여명의 바이오인포메틱스 전문가로 이루어진 팀을 이룰 수 있을 겁니다. ‘왜 그렇게 많은 사람이 필요한 건가?’라고 의아하게 생각할 수도 있지만 아까도 말했듯이 인간 유전체를 다루는 일(데이터 사이즈, 데이터 리소스의 범위라는 측면에서 볼 때)과 관련된 모든 일들이 워낙 고된 작업이기 때문입니다. 우리는 이러한 일을 해내기 위해 녹초가 되도록 일하고 있지만 여전히 넘어야 할 산은 많습니다. Ensembl은 저를 포함해 마이클 클램프와 팀 허바드, 이렇게 3명이서 시작했습니다. 그리고 우리는 처음부터 ‘이 프로젝트를 오픈 소스로 만들어갈 것이다’라는 의도 하에 시작했습니다. 우리의 모토는 ‘모든 수준에서 가능한 한 개방한다’입니다. 기타 다른 훌륭한 오픈소스처럼 여러분은 익명의 CVS를 통해 우리의 코드를 볼 수 있으며 ensembl-dev@ebi.ac.uk에서 벌어지고 있는 토론에 참가할 수 있습니다. 우리가 가지고 있는 모든 데이터는 물론 오픈 소스 데이터베이스인 가공되지 않은 MySQL과 인터넷으로 접속 가능한 MySQL 서버(kaka.sanger.ac.uk, 유저네임은 익명, 데이터베이스 네임은 ‘current’)에서 이용할 수 있습니다. 우리는 미국의 UCSC 게놈 그룹(짐 켄트라는 프로그래머와 함께 유전체 초안을 그려냈으며 우리과 규칙적으로 전자메일을 교환하고 있음)과 NCBI와 같은 다른 오픈 데이터 그룹과도 협력합니다. 이러한 개방성은 우리 주위의 실제적인 커뮤니티를 육성했습니다. 우리는 전 세계적인 공헌을 했으며 Ensembl에서 만들어낸 코드는 모든 종류의 구문에서 재사용되어 왔습니다. 가장 신나는 일 중에 하나는 우리가 정말로 전 세계를 향해 나아가고 있다는 것입니다. 내가 이끄는 그룹의 멤버 중 한 명인 엘리아 스툽카는 싱가포르에서 식용 복어 유전체 분석 프로젝트(Fugu annotation project)를 이끌 것입니다. 이것은 엘리아가 Ensembl을 떠남으로써 우리에게 손실을 입히는 것이 아니라 싱가포르에서의 Ensembl을 강화시키는 것입니다. 엘리아와 그가 속해있는 그룹은 똑같은 CVS 코드 기반의 작업(우리 메일링 리스트에 흥미로운 토론거리를 추가해 줄 것으로 예상됨)을 계속해서 해나갈 것이며 싱가포르가 영국보다 7시간 앞서있기 때문에 신속한 응답을 받을 수 있을 것으로 기대됩니다. 개인적인 수준에서 Ensembl은 코드 재사용을 위해 바이오 펄 인프라스트럭처를 재사용 합니다. 바이오 펄이 알고리즘의 사용에 무리를 주어 결국 나는 GeneWise(마이클과 발이 부리는 마법이 없으면 이용하기 불가능 하기는 하지만)로 빠져 들었습니다. 그리고 나는 ‘또 다른 Ensembl 해커’로서 프로젝트로부터 많은 즐거움을 얻습니다.

스튜어트: 커뮤니티 그룹 사람들이 생각하는 것 중에서 바이오인포메틱스의 어떤 문제가 가장 위대한 과학적 진보를 낳게 될까요?

버니: 글세요… 질문하신 분이 한번 골라봐 주시겠어요? 단백질 단위? 표현형? 규정? 계통 생물학? 인터넷으로 50GB를 정말로 통과시킬 수 있게 되는 것? 정말… 누가 알겠습니까? 저는 앞으로 일어나게 될 중대 사건 중 하나는 분자 생물학이 생화학과 결합했던 것과 똑같이 바이오인포메틱스가 분자 생물학과 결합하게 될 것 이라고 생각합니다. 그것은 ‘어떻게 생물학을 하려고 하는지’에 대한 단면만을 보여주는 것입니다. 분자 생물학 과정이 기본 정보학으로서 강제적인 의무사항이 될 때 그때 바로 우리는 진정한 발전을 만들어 갈 수 있을겁니다.

스튜어트: 마지막으로 오라일리에서 개최하는 바이오인포메틱스 컨퍼런스 기조연설에서는 무엇을 말씀하실 계획이십니까?

버니: 바이오인포메틱스에서 사용되는 오픈 소스 소프트웨어에 대해 말하려고 합니다. 제가 지금까지 한 작업에서 3가지 예를 들어 설명하게 될 것 같습니다. Genewise (알고리즘에 관한 프로젝트), 바이오 펄(프래임워크에 과한 오픈 해커 프로젝트), Ensembl(거대 인프라스트럭처를 위한 기금 프로젝트), 이 3가지가 되겠지요. 나는 기술적 측면의 어떤 부분이 흥미로운지 그리고 생물학적 측면의 어느 부분이 흥미로운지에 대해 하나하나 언급할 생각입니다.

 

조상환

Leave a Reply

*

captcha *