는 말을 한 번쯤 들어본 적이 있을 겁니다. 어딘가 묘하게 불편하면서도 반박하기 어려운 숫자입니다.
그런데 그 "99%"가 어떻게 측정된 숫자인지 아는 사람은 많지 않습니다.
인간 침팬지 유전자 유사성에 관한 이 숫자는 1975년 처음 등장했습니다.
당시 과학자들은 단백질 서열을 비교해 "약 99%가 같다"는 결론을 냈고,
이 숫자는 이후 교과서에 정착했습니다.
문제는 이 비교가 단백질을 만드는 유전자 부분만 분석한 것이었다는 점입니다.
인간 게놈의 약 1.5%에 해당하는 부분만 들여다본 결과였습니다.
나머지 98.5% 유전자 발현을 조절하는 비암호화 DNA(non-coding DNA), 반복 서열, 구조적 변이 구간
다른 구간은 처음부터 비교 대상에 포함되지 않았습니다.
그리고 바로 이 부분에서 인간과 침팬지의 진짜 차이가 만들어집니다.
🧬 "99%"는 어떻게 측정된걸까?
2005년 네이처에 발표된 침팬지 게놈 초안 비교 연구는 당시 가장 정밀한 분석이었습니다.
이 연구에서 단일염기다형성(SNP, Single Nucleotide Polymorphism)
즉 DNA 사슬의 한 글자 차이만 비교했을 때
인간과 침팬지의 유사도는 약 98.77%로 나타났습니다.
한 글자씩 비교하면 거의 같다는 뜻입니다.
그런데 여기에 삽입과 결실(indels)이라는 돌연변이를 포함시키면 이야기가 달라집니다.
같은 연구에서 삽입·결실 변이는 전체 게놈의 약 3%를 차지했습니다.
이것은 마치 두 문장을 비교할 때
철자 오류만 세느냐, 아니면 빠진 단어와 추가된 단락까지 세느냐의 차이입니다.
철자 오류만 보면거의 같은 문장이지만,
빠진 단어와 추가된 단락까지 포함하면 꽤 다른 문서가 됩니다.
더 나아가 구조적 변이(structural variation)
염색체 내 수백만 개 염기서열이 통째로 뒤집히거나 복제되거나 삭제되는 현상
까지 포함하면 유사도는 96% 수준으로 떨어집니다.
2020년 PMC에 발표된 검토 연구는 이 구조적 변이가
두 종의 단백질 기능과 유전자 발현 방식에 실질적인 차이를 만든다는 것을 확인했습니다.
"99%"는 특정 분석 방법 하나의 결과일 뿐, 전체 유전자를 반영한 숫자가 아닙니다.
🔬 같은 악보를 전혀 다르게 연주한다
서열이 비슷하다는 것은 악보가 비슷하다는 뜻입니다.
그런데 연주 방식이 완전히 다르다면 결과물은 전혀 다른 음악이 됩니다.
유전자 발현(gene expression)이 바로 그 연주에 해당합니다.
같은 유전자라도 언제, 어디서, 얼마나 강하게 발현되느냐에 따라
세포의 기능이 완전히 달라집니다.
2023년 PMC에 발표된 단일세포 전사체 비교 연구는
인간과 침팬지의 뇌에서 동일한 유전자들이 매우 다른 패턴으로 발현된다는 것을 확인했습니다.
특히 인간 뇌의 피질 확장과 연결된 유전자들이
침팬지에서는 다른 시점에, 다른 세포 유형에서, 다른 강도로 발현됐습니다.
전체 영장류 유전자 중 약 1% 미만이
인간에서만 독특한 발현 패턴과 공발현 관계를 보이며,
이 유전자들이 인간 특유의 인지 기능과 연관된다는 결과도 나왔습니다.
서열의 차이보다 발현 방식의 차이가
인간과 침팬지를 나누는 더 결정적인 변수일 수 있습니다.
⚠️ "99% 같다"는 말. 뭐가 문제인거지?
"99% 같다"는 말이 퍼진 것이 문제가 되는 이유는 이 숫자가 틀렸기 때문이 아닙니다.
맥락 없이 유통됐기 때문입니다.
이 숫자는 처음부터 "단백질 암호화 서열을 SNP 기준으로 비교했을 때"라는
조건이 붙어있었습니다. 그런데 조건은 사라지고 숫자만 남았습니다.
실제로 침팬지 게놈 전체와 인간 게놈 전체를 비교하면 어떻게 될까요?
삽입·결실, 구조적 변이, 반복 서열 차이, 비암호화 DNA 구간의 차이까지 포함하면
유사도 추정치는 96%에서 더 낮아질 수 있다는 것이
현재 활발히 연구 중인 주제입니다.
특히 2020년대 들어 완전한 게놈 서열 비교가 가능해지면서
이전에 무시됐던 반복 서열 구간과 구조적 변이 구간에서
두 종 간의 차이가 예상보다 크다는 결과들이 나오고 있습니다.
그렇다면 인간과 침팬지는 얼마나 다른가요?
이 질문에 하나의 숫자로 답하는 것 자체가 문제입니다.
어떤 부분을 비교하느냐에 따라 96%도 되고 99%도 됩니다.
중요한 것은 숫자가 아니라,
어느 구간에서 어떤 방식으로 차이가 생겼느냐입니다.
💡 진짜 차이는 어디서 만들어지는걸까?
인간과 침팬지를 실질적으로 나누는 것은 유전자 서열 차이가 아니라
Human Accelerated Regions(HARs)라는 특수한 구간입니다.
HAR은 수억 년간 포유류 전체에서 거의 변하지 않다가
인간 계통에서만 유독 빠르게 진화한 게놈 구간입니다.
전체 게놈의 0.1%도 안 되는 이 구간이
뇌 발달, 피질 확장, 신경 분화를 조절하는 유전자 스위치 역할을 합니다.
2023년 PubMed에 발표된 연구에서 HAR이 위치한 게놈 구간의 3차원 구조가
인간과 침팬지에서 다르게 접히며,
이 차이가 신경발달 관련 유전자들의 발현 방식을 바꾼다는 것이 확인됐습니다.
2025년 Science Advances에 발표된 연구는
HAR123이라는 단 하나의 442염기 구간이
인간 신경전구세포 형성을 촉진하고 인지 유연성에 영향을 미친다는 것을 밝혔습니다.
서열 99%가 같아도, 단 1%의 조절 구간이 비로소 인간을 만든 것입니다.
비암호화 DNA가 생물학적으로 의미 없는 "정크(junk)"라는 오래된 통념도 무너진 지 오래입니다.
유전자를 켜고 끄는인핸서(enhancer), 발현 타이밍을 조절하는 조절 서열,
염색체 구조를 결정하는 구간들이 모두 비암호화 영역에 있으며,
이 구간의 차이가 두 종의 발생 과정과 뇌 구조를 갈라놓습니다.
인간과 침팬지의 차이는 글자 수가 아니라,
글자들이 배열되는 방식과 읽히는 순서에 있었습니다.
"99%가 같다"는 말은 틀리지 않았습니다. 다만 더 중요한 이야기를 생략했습니다.
숫자는 맥락 없이 유통될 때 오해를 만들고,
과학은 그 맥락을 복원하는 작업입니다.
인간과 침팬지의 차이는 1%의 글자 오류가 아니라,
게놈 전체가 언제, 어떻게, 어떤 순서로 읽히느냐의 차이에 있습니다.
생명은 서열이 아니라 조절로 작동합니다.
같은 재료로도 전혀 다른 건물을 지을 수 있듯,
자연은 수백만 년에 걸쳐 같은 유전자를 다르게 읽는 방법을 진화시켰습니다.
그 미세한 조절의 차이가 지금 이 글을 쓰고 읽는 인간을 만들었습니다.
📚 참고문헌
게놈 유사성 & SNP & 구조적 변이 묶음 (비평 포인트 연관)
* The Chimpanzee Sequencing and Analysis Consortium — Initial sequence of the chimpanzee genome and comparison with the human genome (Nature, 2005) 🔗 https://www.nature.com/articles/nature04072
* Pääbo S et al. — Differences between human and chimpanzee genomes and their implications in gene expression, protein functions and biochemical properties (PMC, 2020) 🔗 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7488140/
* Keough KC et al. — Three-dimensional genome rewiring in loci with human accelerated regions (PubMed, 2023) 🔗 https://pubmed.ncbi.nlm.nih.gov/37104607/
* Tan K et al. — An ancient enhancer rapidly evolving in the human lineage promotes neural development and cognitive flexibility (Science Advances, 2025) 🔗 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC12346275/