Introduction
구강 내에는 700여 종 이상의 세균이 존재하는 것으로 보고되어 있 고 이들은 다양한 요인들에 의해 영향을 받으며 복잡하게 구성되어 있 다[1]. 이 가운데 400에서 500여 종의 세균이 치은연하에서 보고되었 고 혀, 치아 표면, 구강 점막, 연구개, 경구개 등 다양한 환경에 따라 각 기 독특한 미생물 군집을 형성하고 있다[2,3]. 많은 미생물의 경우 구 강 내 다양한 위치에서 동시에 발견되기도 하지만, Streptococcus, Gemella, Granulicatella, Neisseria, Prevotella와 같은 일부 미생물 의 경우 특정한 곳을 보다 선호하기도 한다. 예를 들어 Streptococcus salivarius의 경우 혀에 주로 군락을 형성하는 반면 Treponema는 주로 치하연하 틈새를 선호한다[3]. 구강 내에 군락을 이루는 미생물 중 일부 는 충치, 치주질환, 치수병변, 구취, 치원성 감염 등의 구강 질환과 깊은 관련성을 갖는다[4-8]. 뿐만 아니라 구강 미생물 가운데 일부는 당뇨 [9], 크론병[10], 심장질환[11], 조기분만[12]과 같은 전신 질환도 깊은 관련성을 갖는다.
DNA 염기서열 분석법의 발달은 구강 미생물 군집 분석에 획기적인 변화를 가져왔다. 미생물은 16S rRNA의 염기서열을 분석함으로써 분 류할 수 있다[13]. 차세대염기서열 분석(next generation sequencing, NGS)의 도입은 수많은 염기서열을 동시에 분석함과 동시에 분석 비용을 획기적으로 낮춤으로써 질병[14], 항생제[15], 유산균[16], 식습 관[17]의 영향 등 다양한 분야에서 미생물 군집의 분석을 가능하게 하 였다. 그러나, 연구자들은 NGS 분석을 통해 얻어지는 엄청난 양의 데 이터와 함께 데이터 분석에 사용되는 다양한 분석 도구와 기법에 노출 되어 당황하게 된다. 다른 연구와 마찬가지로 미생물 군집 연구 또한 연 구 방법, 환경 인자 및 분석 방법에 따라 결과에 영향을 끼칠 수 있다. 미생물 군집 연구에서 데이터 수집과 분석의 표준화는 아직 도입단계지 만 현재 시행되는 분석으로도 상당히 유의한 결과를 얻을 수 있다. 비록 미생물 군집 분석에 대해 모두 고찰하는 것은 어렵지만, 여기에서는 미 생물 군집 분석을 위한 실험과 결과 분석에 대해 소개하고자 한다.
Main Body
1. 16S rRNA 유전자 분석을 통한 미생물 군집 분석
16S rRNA 분석을 통한 미생물 분류는 기존에 분리 배양에 의한 분류 법에 비하여 다양한 환경에서 미생물 군집을 분석하는 데 획기적인 변 화를 가져왔다[18]. 구강 미생물 연구에서도 16S rRNA 염기서열 비 교는 기본적인 연구 방법으로 사용되고 있다. 순수 배양된 세균의 경우 16S rRNA 유전자(대략 1,500 bp)를 증폭하여 Sanger sequencing 법으로 염기서열을 분석한다[19]. 치태와 같이 다양한 세균에서 분리된 경우 16S rRNA 유전자를 증폭한 후 증폭된 유전자를 대장균에 복제하 였다. 그리고 복제한 16S rRNA 염기서열을 분석하여 미생물 군집을 분석하였다[20]. 일반적으로 98.5% 상동성을 보이는 경우 동일한 종으 로 간주된다.
다양한 NGS의 도입은 수많은 16S rRNA 염기서열을 동시에 분석하 는 것을 가능하게 하였다. 그러나, NGS는 전체 16S rRNA를 분석하는 대신 미생물 분류군 간에 변이가 큰 구간을 분석하여 미생물 분류군을 분류하고 있다. 16S rRNA에는 크게 9개의 초가변 구역(hypervariable region)이 존재하는데 미생물 군 분류에는 V3-V4 구간이 가장 효과가 좋은 것으로 보고되었다[21]. 그러나, V1-V3도 세균의 다양성을 연구 하거나[22], Bifidobacteria의 분포가 높은 시료의 경우에도 유용하다 는 보고가 있다[23].
2. 실험 계획
실험 계획은 의미 있는 데이터를 생성하는 분석의 중요한 첫 단계이 다. 미생물 군집 연구는 동물실험, 단면 조사 연구, 환자 대조군 연구, 코호트 연구 등 다양한 모델에서 적용될 수 있다. 미생물 군집 분석에 대한 일반적인 접근 방식은 시료 출처와 상관없이 적용 가능하다. 그러 나, 분석의 특정 세부 사항은 시료의 종류에 따라 다를 수 있다. 예를 들 어, 16S rRNA의 증폭 구간 선정은 시료 채취 부위에 따라 다양한 결과 가 보고되는 경우가 있다[24].
다른 고려 사항으로는 실험 계획과 시료 수집이다. 미생물 군집 분석 에서 정확하고 의미 있는 결과를 얻기 위해 세심한 실험 설계는 매우 중 요하다. 많은 요소들이 통제되지 않으면 미생물 군집 데이터의 패턴을 모호하게 할 수 있다. 메타 데이터의 세심한 자료 정리, 적절한 대조군 과 관심 변수에 영향을 끼칠 수 있는 다양한 인자들에 대한 신중한 계획 이 가장 중요하다.
먼저 실험 범위를 정의하고 관심 있는 문제에 적합한 실험을 설계 선 택해야 한다. 예를 들어, 단면 연구는 건강한 사람과 질병을 가진 사람 또는 다른 지리적 지역에 사는 사람과 같은 다른 집단 사이의 미생물 군 집의 차이를 찾는 데 유용하다. 그러나 개인 간의 미생물 군집의 큰 차 이와 생활 양식[25], 식습관[26], 약물[27] 등의 영향으로 인해 관심 있 는 질병 이외의 요인으로 인해 집단 간의 차이가 발생할 수 있다. 질병 발병 전에 기준선 샘플을 수집하는 전향적 코호트 연구는 연구 비용이 비록 많이 들지만 이러한 문제를 해결하는 데 도움이 될 수 있다.
분석 계획과 조사하고자 하는 주제로 연구를 설계하면 표본 크기를 결정하는 데 도움이 될 수 있다. 기술적 변동성과 실제 생물학적 결과를 식별하기 위해 통계적 검정력을 평가하는 적절한 방법을 사용해야 한 다. 그러나, 통계적 검증력과 효과크기 분석은 미생물 군집 연구에서 아 직도 도전 분야로 남아 있다. 현재 통계적 검증력과 효과크기 분석에 사 용되는 방법으로는 PERMANOVA [28], Dirichlet Multinominal [29] 또는 Random forest 분석[30] 기반 방법들이 사용되고 있다. 특정 실 험 설계 고려 사항에 대해서는 유사한 샘플 유형과 원하는 결과로 다른 성공적인 연구의 설계를 검토하는 것이 가장 좋은 것으로 여겨진다.
대조군과 제외 기준을 명확히 하는 것이 좋다. 연구에 포함되거나 제 외되는 명확한 기준을 정의하면 데이터 해석에 혼동을 줄 수 있는 변수 들을 제한시킬 수 있다. 예를 들어, 개인 간 항생제 복용 후 미생물 군집 회복 시간의 변화는 지난 6개월 동안 항생제로 치료받은 개인은 대부분 의 미생물 군집 연구에서 제외되어야 함을 시사한다[31]. 대조군 실험 연구의 경우 대조군은 적절히 선택하고 실험군과 일치시켜야 한다. 나 이, 성별은 보편적인 기준이고 약물이나 식습관 등은 결과에 중요한 영 향을 끼칠 수 있는 변수로 작용할 수 있다.
3. 샘플링 방법, 보관, DNA 추출
DNA 추출과 염기서열 분석 방법에 따라 기술적인 오차가 생기게 된 다[32]. 따라서 동일한 연구 내에서는 동일한 시약을 사용하여 분석하 는 것이 필수적이고 추적 연구의 경우 시점 간의 고유 변동성을 평가하 기 위해 기준선 샘플을 여러 번 수집하는 것이 좋다. 시료 및 시약의 오 염 여부를 확인하기 위하여 빈 시료를 시료 채취, DNA 추출, 중합효소 연쇄반응(polymerase chain reaction, PCR), 염기서열 분석 시에 추 가하는 것이 좋다. 시료는 채취 즉시 가능하면 –80℃에 보관하는 것이 좋다. 그러나, 야외 연구로 인해 얼리는 것이 불가능할 경우 95% 에탄 올이나 RNAlater와 같은 시약을 사용하여 보관하는 것이 좋다[33]. 구 성이 이미 알려진 인공 미생물 군집을 분석에 추가하는 경우 실험 간의 결과를 표준화하여 도움을 줄 수 있다[34].
4. 차세대 유전체 분석 플랫폼
미생물 군집 분석에는 16S rRNA 분석법을 이용한 연구가 활발히 진 행되고 있는데, 신속하고 경제적인 면에서 장점을 갖는다. 이 분석법은 조직과 같이 숙주의 DNA에 오염된 시료나 소량의 샘플의 경우에도 사 용할 수 있다. 그러나, PCR primer가 증폭하는 구역의 유전자 염기서 열이 동일하지 않을 수 있기 때문에 표적 염기서열에 primer가 동일하 게 결합하지 않을 수 있어 PCR 증폭 과정에서 편향된 결과가 유도될 수 있다. 다른 내재적 편향의 요인으로는 가변 구역의 선정, 증폭된 유전 자 크기, PCR 싸이클 등이 있다. 소량의 샘플은 특히 과증폭으로 인한 편향된 데이터에 취약한데 이는 PCR 싸이클이 증가함에 따라 오염된 미생물이 과도하게 증폭되어 표현될 수 있기 때문이다. 이러한 편향은 primer를 적절하게 선택함으로써 최소화할 수 있으나 이를 위해서는 표적 미생물 군의 구성에 대한 사전 지식이 필요하다. 최근 널리 보급되 어 사용되는 NGS는 대량의 염기서열을 분석함으로 미생물 군집 연구 에 획기적인 변화를 가져왔다. 다음에 소개할 방법들은 가장 많이 이용 되고 있는 NGS 플랫폼이다.
1) 454 파이로시퀀싱
이 방법은 유화액 내 비드에 DNA 조각을 증폭하면서 파이로시퀀싱 을 통하여 염기서열을 분석하였다[35]. 한 번 운영하였을 때 최대 700 bp 길이로 400,000개의 염기서열을 분석할 수 있다. 초기 미생물 군집 연구에 가장 많이 사용되었으나 지금은 다른 플랫폼에 비하여 한 번에 생산할 수 있는 데이터 양이 제한적이기 때문에 많이 사용하고 있지는 않다.
2) 일루미나
DNA 조각을 칩에 부착하고 형광으로 표지된 dNTP를 이용해 염기 서열을 합성하면서 동시에 서열을 분석한다[36]. 분석에 사용되는 기종 에 따라 생산되는 데이터 양에 차이는 있지만 한 번 운영하였을 때 최소 한 수천만 개의 염기서열을 분석할 수 있다. 일루미나 제품에는 MiSeq, HiSeq, NextSeq, NovaSeq, iSeq 등 다양하게 있으며 최근 가장 많 이 사용되고 있다. 특히, MiSeq은 2×300 bp를 읽을 수 있어서 16S rRNA 분석에 많이 사용되고 있다[37].
3) Pacific Biosciences (PacBio)
Single molecule real-time (SMRT) technology라는 기술을 적 용한 제품으로 이 기술의 가장 큰 특징은 PCR을 통한 DNA 증폭을 생 략하였다는 것이다. DNA를 한 분자 상태에서 그대로 시퀀싱하여 염기 서열을 분석함으로써 10,000 bp 이상을 읽을 수 있는 장점을 갖는다 [38]. PacBio 플랫폼은 참고 유전체 자료 없이 전체 유전체를 분석할 때 많이 이용된다.
4) Ion Torrent
Ion Torrent는 반도체 소자 기반 제품으로 DNA 합성 중 발생되는 수 소이온에 의한 Ph 변화를 전기 신호로 변환하여 염기서열을 분석한다 [39]. 장점으로는 낮은 분석비용과 빠른 분석 속도에 있다. 그러나, 반 복되는 염기서열의 길이가 길어지는 경우 정확도가 떨어지는 단점을 갖 는다. 최근 400 bp까지 분석할 수 있는 제품을 개발하여 16S rRNA 분 석에도 사용하려는 시도가 있다.
5. 데이터 분석 방법
모든 NGS 분석에는 광범위한 생물정보학적 기능과 관련된 데이터 품 질 관리, 양질의 판독을 위한 필터링, 양호한 참조 게놈에 대한 정렬 및 매핑, 키메라 제거, 의미 있는 해석을 위한 표본 및 모집단 간의 정규화 등이 필요하다.
미생물 군집 분석에 가장 많이 사용되는 16S rRNA 분석도 정확한 분 류를 위해 적절한 프로그램과 분석 기법을 사용해야 한다. 데이터 분석 의 첫 번째 단계는 시퀀싱 오류를 제거하는 것이다. 시퀀싱 오류율이 매 우 낮음에도 불구하고(예를 들어, Illumina 시퀀싱에서 그 오류율은 뉴 클레오티드당 ~0.1%), 시퀀스 다양성의 대부분은 시퀀싱 오류에서 발 생한다[40]. 최근까지 유사한 시퀀스를 operational taxonomic unit (OUT)로 클러스터링하여 이 문제를 해결하였다. OTU 선택이라고 불리 는 이 과정은 시퀀스들을 OUT 단위로 클러스터링하여 오류에 의해 발 생되는 시퀀스 변형을 포함하여 유사한 시퀀스들을 임계값(보통 유사도 97%) 기준으로 묶음으로써 단일 특징으로 통합할 수 있다[41].
그러나 이 방법은 단일 OTU로 통합되는 과정에서 단일염기다형성 (single nucleotide polymorphism, SNP)과 같이 미묘하고 실제적인 생물학적 시퀀스 변동을 놓칠 수 있는 단점이 있다[41]. Oligotyping은 16S rRNA 시퀀싱의 위치별 정보를 포함시켜 미묘한 뉴클레오티드 변 동을 식별하고 밀접하지만 구별되는 미생물 종을 구별함으로써 전통적 인 OTU 선택을 개선하였다[42]. Deblur 및 DADA2와 같은 알고리즘 은 오류 프로파일을 사용하여 시퀀스 데이터를 정확한 시퀀스 특징군으 로 분류한다[43,44].
가장 중요한 분석 단계 중 하나는 데이터의 미생물 시퀀스에 분류 학적 이름을 할당하는 것이다. 분류법은 일반적으로 naïve Bayesian classifier인 RDP classifier와 같은 기계 학습 접근법에 의해 할당된다 [45]. QIIME, Mothur와 같은 인기 있는 미생물 군집 분석 패키지는 분 류학 분류에 대한 지원을 제공한다[46]. 원칙적으로 참조 데이터베이스 (가장 특징적이고 자주 사용되는 데이터베이스 중 세 가지는 Greengenes, RDP, Silva)와 정확히 일치해야 보다 정확하게 분류할 수 있다.
분류된 데이터는 각 샘플별 미생물의 리딩 수를 보여주는 커다란 테 이블을 생산한다. 이 결과는 매우 간단하다. 미생물 군집 데이터는 종종 수천 가지의 미생물 종을 포함하는 다차원 결과로 의미 있는 결과를 도 출하기 위해 세심한 통계적 처리가 필요하다. 미생물 군집의 전반적인 패턴은 일반적으로 알파와 베타 다양성으로 평가된다.
알파 다양성은 개별 표본 내의 형상 다양성을 수량화하고 표본 그룹 간에 비교할 수 있다. 예를 들어, 질병이 있는 표본을 건강한 대조군과 비교할 때 알파 다양성을 사용하여 두 표본 사이의 평균 종의 다양성을 비교할 수 있다. 종의 다양성 측정(예를 들어, Chao1)은 표본당 샘플의 수에 민감하지만 다양성과 균등성을 평가하는 경우(Shannon index)는 비교적 영향을 덜 받는다.
베타 다양성은 각 샘플 쌍 간의 특성 차이를 비교하여 모든 샘플 쌍 간의 거리 메트릭스를 생성한다. 메트릭스 선택은 획득한 결과에 영향 을 미칠 수 있으며 생물학적 데이터 해석을 염두에 두고 선택해야 한다 [47]. 정량적 메트릭스(Bray-Curtis, Canberra, weighted UniFrac) 는 미생물의 비율 데이터를 계산에 사용하는 반면, 정성적 메트릭스 (Jaccard, unweighted UniFrac)는 미생물의 유무만을 고려한다. 알파 및 베타 다양성 계산을 수행하기 위한 소프트웨어에는 QIIME, Mabur 및 R 등이 있다. 그룹 간 유의한 베타 다양성 클러스터링을 평가하기 위 해 PERMANOVA와 ANOSIM이 있지만, PERMANOVA가 그룹 내에 서 다양한 분산을 갖는 데이터의 경우 더 잘 수행될 수 있다[48]. 베타 다양성 데이터를 시각화하기 위해 주좌표 분석(principal coordinates analysis, PCoA) 또는 주성분 분석(principal component analysis, PCA)과 같은 순서 지정 기법이 일반적으로 사용된다. 이러한 방법은 크 고 복잡한 거리 행렬을 축소하여 시각적으로 관리할 수 있는 2차원 또 는 3차원 표본 거리 표현으로 만든다.
또 다른 일반적인 분석 접근법은 관심 있는 비교 그룹(즉, 치료 대 대 조군)에서 미생물의 비율을 분석하는 것이다. 미생물 군집 데이터는 고 차원적(즉, 수천 개의 종을 포함)이고 희소성을 갖는 데이터가 많기 때 문에 비교하고자 하는 그룹 간의 차이를 설명할 수 있는 미생물을 찾는 것은 특히 어려운 일이다. 기계 학습은 미생물 군집 데이터를 사용하여 현재 상태를 기준으로 표본을 분리하거나 미래 상태를 예측하는 방법을 결정하는 데 특히 유용한 기법으로 떠오르고 있다[49]. 예를 들어, 개인 의 구강 미생물에 근거하여 치주염의 심각성과 민감성을 모델링하는 것 이 가능하다[50]. 중요한 것은 기계 학습 분석은 상당한 표본 크기를 필 요로 하며 항상 교차 검증, 독립 시험 세트 또는 다른 실험 및 생물학적 확인과 결합되어야 한다는 점이다.
Conclusions
이 고찰에서는 실험 설계부터 시료 수집 및 저장, 시퀀스 데이터의 시 각화에 이르기까지 마이크로바이옴 연구를 수행하는 모든 단계가 결과 와 그들의 생물학적 해석에 실질적으로 영향을 미치는 것에 대해 논의 하였다. 표본 크기가 충분하지 않거나 검증(validation) 과정과 같은 실 수를 피하고, 적절한 표준(standard) 시료, 시료 처리의 표준화 및 기타 실수를 줄이는 노력을 한다면 미생물 군집 연구의 진전을 촉진할 수 있 을 것이다. 기술의 표준화를 높이고 편견과 오류가 낮은 실험 방법의 보 급은 미생물 군집 영역의 능력을 크게 증가시켜 실험실 규모의 연구에 서부터 임상, 자연환경에 대한 응용 가능성을 높일 것이다.
Conflicts of Interest
No potential conflict of interest relevant to this article was reported.