Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 1226-7155(Print)
ISSN : 2287-6618(Online)
International Journal of Oral Biology Vol.43 No.2 pp.101-111
DOI : https://doi.org/10.11620/IJOB.2018.43.2.101

Multiscale Clustering and Profile Visualization of Malocclusion in Korean Orthodontic Patients : Cluster Analysis of Malocclusion

Seo-Rin Jeong1, Sehyun Kim2,3, Soo Yong Kim4, Sung-Hoon Lim1*
1Department of Orthodontics, School of Dentistry, Chosun University, Gwangju, Korea
2Natural Science Research Institute, Korea Advanced Institute of Science and Technology, Daejeon, Korea
3Korea electronic power corporation, Naju, Jeollanam-do, Korea
4Department of Physics, Korea Advanced Institute of Science and Technology, Daejeon, Korea
Correspondence to: Sung-Hoon Lim, Department of Orthodontics, School of Dentistry, Chosun University, 303, Pilmun-daero, Gwangju, Korea. Tel: 82-62-220-3870 E-mail: shlim@chosun.ac.kr
May 1, 2018 May 17, 2018 May 28, 2018

Abstract


Understanding the classification of malocclusion is a crucial issue in Orthodontics. It can also help us to diagnose, treat, and understand malocclusion to establish a standard for definite class of patients. Principal component analysis (PCA) and k-means algorithms have been emerging as data analytic methods for cephalometric measurements, due to their intuitive concepts and application potentials. This study analyzed the macro- and meso-scale classification structure and feature basis vectors of 1020 (415 male, 605 female; mean age, 25 years) orthodontic patients using statistical preprocessing, PCA, random matrix theory (RMT) and k-means algorithms. RMT results show that 7 principal components (PCs) are significant standard in the extraction of features. Using k-means algorithms, 3 and 6 clusters were identified and the axes of PC1~3 were determined to be significant for patient classification. Macro-scale classification denotes skeletal Class I, II, III and PC1 means anteroposterior discrepancy of the maxilla and mandible and mandibular position. PC2 and PC3 means vertical pattern and maxillary position respectively; they played significant roles in the meso-scale classification. In conclusion, the typical patient profile (TPP) of each class showed that the data-based classification corresponds with the clinical classification of orthodontic patients. This data-based study can provide insight into the development of new diagnostic classifications.



초록


    © The Korean Academy of Oral Biology. All rights reserved.

    This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

    서 론

    교정치료에 있어서 가장 중요한 것은 치료계획을 세 우는 것이며, 치료계획을 세우는 데 있어서 가장 중요한 것은 진단이라고 할 수 있다[1]. 정확한 진단을 위해 부 정교합 환자의 분류에 대한 연구가 많이 이루어졌다. 가 장 널리 쓰이는 Angle의 부정교합의 분류는 치열의 전 후방적 부조화만을 기준으로 하므로[2] 부정교합을 분류 하는 데 한계가 있어 포괄적인 해부학적 구조를 반영한 분류가 필요했다.

    치의학을 포함한 생물의학(biomedicine)에서 다변량으 로 표현되는 여러 생물학적 데이터에 대하여 주성분 분석 (principal component analysis, PCA)과 같은 차원 감소 (dimension reduction) 기법이나 k-평균(k-means) 알고리즘 과 같은 머신러닝(machine learning, ML) 기법을 적용하려 는 시도가 있었다[3]. 예를 들어 치아 이동시 유전자 발현 프로파일(gene expression profile)에 대한 연구, 유전자 발 현 수준을 기저로 한 암의 하위유형분류(subtyping), 아미 노산 서열 또는 구조로부터 단백질의 상동관계를 파악하 는 연구 등에 이용되었다[4-7]. 이렇게 유사성을 기준으로 그룹을 나누는 군집 분석(cluster analysis)과 고차원 데이 터의 차원 감소를 통한 분석 기법은 생물학과 기초 치의 학 분야에서 이미 활발하게 이용되고 있다.

    또한 이러한 접근은 부정교합 환자의 진단에 있어서 환자군의 분류에도 적용되고 있으며 주로 측모 두부계 측방사선사진 계측치(cephalometric measurements)에 대한 연구가 많이 이루어졌다[8-16]. 측모 두부계측방사선사진 의 분석은 치열 관계뿐만 아니라 골격적 요소인 두개저, 상악골의 위치, 하악골의 위치, 그리고 이들에 대한 치 열의 위치 관계 등을 포함하고 있어 구강 악안면 영역 의 해부학적 구조에 대해 포괄적으로 고려할 수 있다. 이들 과거 연구에서는 정상교합자, III급 부정교합자, II 급 부정교합자, 비대칭 환자, 전체 부정교합자를 대상으 로 환자군의 분류에 데이터 분석 기법들을 적용 하였고, 이를 통해 해부학적 구조물의 위치에 따라 단순 분류하 던 기존의 방법을 고도화 하였으며, 분류에 있어서 주요 하게 기여하는 해부학적 요소를 밝혔다.

    그러나 지금까지의 연구는 주성분 분석을 적용하는 데 있어서 유의미한 주성분을 경험적으로 선택하였다는 한 계가 있고, 군집 분석에 있어서 환자 유형의 분류 및 아 분류에 대한 구조 연구가 부족했다. 이러한 부분들을 개 선하기 위해서는 주성분 분석에서 과학적 준거(criteria)의 적용이 필요하고, 다중 축적(multiscale)에서의 환자 분류 구조 및 기준에 대한 연구가 필요하며, 이를 위해 충분한 수의 표본에 대한 분석이 필요하다. 따라서 본 연구에서 는 이러한 부분을 보완하여 부정교합 환자군의 분류에 있 어서 주요하게 기여하는 해부학적 기준에 대해 연구하고, 이를 바탕으로 환자군의 분류 구조에 대해 보다 세밀하게 밝히고자 하였다.

    연구 대상 및 방법

    1 연구대상

    본 연구는 조선대학교 치과병원 교정과에 내원하여 진단검사를 시행한 환자 중 만 16세 이상의 환자 1020 명(남자 415명, 여자 605명, 평균 나이 25.0세)을 대상 으로 하였다. 대상 선정 요건은 병리적 소견이 없고, 이전에 교정치료나 악정형 치료를 받지 않았던 환자로 하였다.

    2 연구방법

    본 연구는 조선대학교 치과병원 연구윤리위원회의 심 의를 거친 후 시행되었다. (CUDHIRB 1706 003) 실험군의 측모 두부계측방사선사진은 PM 2002 Proline (Planmeca, Helsinki, Finland)을 이용하여 촬영하였다. 촬영시 관전류 12 mA, 관전압 70~80 kV, 노출시간 0.8 ~ 1.6 초의 조건으 로 촬영하였고, 방사선 사진은 PACS (Picture Archiving and Communication System) 서버에 저장되었다.

    1) 측모 두부계측방사선사진의 분석

    측모 두부계측방사선사진에서 다른 연구[8, 12, 14, 15]에 서도 널리 사용되고 있는 값들을 계측하였으며, 이들은 Table 1과 같다. 계측에는 V-ceph 7.0 (Osstem, Seoul, Korea) 을 사용하였다.

    2) 신뢰도 검증

    연구에 사용된 측모 두부계측방사선사진의 계측시 조사 자 내 오차를 확인하기 위해 무작위로 20개를 추출하여 재 계측하였다. 얻어진 분석치를 소프트웨어(SPSS 20.0, IBM SPSS, Chicago, IL, USA)를 이용하여 통계처리하였다. 통계 학적 유의성은 0.05로 하였다. 계측값들의 신뢰도검정을 위 한 급내상관계수값은 0.949에서 0.999의 값을 보였다. 따라 서 두 번의 계측에서 모든 변수에 대하여 높은 신뢰도를 보임을 확인하였다. 달버그 식(Dahlberg formula)을 이용한 오차값은 각도를 측정한 값에서는 0.31~2.81°, 길이를 측정 한 값에서는 0.26~1.60mm이었다.

    3) 데이터의 통계적 전처리 및 분석

    분석에 앞서 각각의 변수에 대해 동일하게 분석할 수 있도록 N 명의 환자에 대한 38개의 계측값에 대해 통계 적 전처리 과정을 거쳤다. 먼저 각기 다른 단위를 제거 하여 무차원으로 만들고 계측치별, 남녀별 다른 기준을 보정하기 위해 한국인 남⋅녀 각각의 평균 및 표준편차 [17, 18]로 개별 데이터를 다음과 같이 표준화하였다. i 번째 환자의 j 번째 계측치 xij 는 해당 환자와 동일한 성별(k)의 한국인 평균 Xjk 와 표준편차 jk

    x i j * = x i j X j k j k ,

    와 같이 표준화하였다.

    그 이후 특정 계측치의 표준편차가 상대적으로 클 경우 분석에 있어서 다른 계측치보다 과도하게 큰 영향력을 주게 되므로 이 효과를 제거할 필요가 있고, 또한 주성분 분석에 있어서도 상관 행렬을 얻기 전에 필요한 과정으로, 각각의 표준화된 계측치 x i j * 에 대해 전체 환자의 데이터의 평균 x j * = 1 N i x i j * 와 표준편차 σ j * = 1 N i ( x i j * x j * ) 로 다 시 표준화하여서

    x i j = x i j * x j * σ j *

    와 같이 전처리된 데이터를 분석에 활용하였다. 이렇게 전처리된 환자 데이터의 남녀의 차이에 대해서는 독립 t- 검정을 시행하였으며 통계학적 유의성은 0.05로 하였다.

    4) 주성분 분석과 무작위 행렬이론(random matrix theory, RMT)

    빅데이터 분석에 있어서 차원 감소는 주요한 접근 방 식 중 하나로, 고차원 데이터를 저차원으로 옮겨서 시스 템의 특성을 분석하고 시각화하는 시도는 다양한 분야 에서 이루어지고 있다[19]. 측모 두부계측방사선사진 계 측치의 분석에도 많이 활용[8, 13-15]되고 있는 주성분 분석은 대표적인 차원 감소 기법으로 고차원 데이터를 직교 선형 변환(orthogonal linear transformation)하여 주성 분(principal components, PC) 공간으로 전환하여 나타내 는 방법이다. 이 과정을 통해 m-차원으로 이루어진 시 스템에 대하여 분산(variance)를 최대화 하는 순서대로 새로운 기저인 m개의 주성분을 얻고, 이중 주요한 몇 개의 기저(basis)만으로 시스템의 상당부분을 설명함으로 써 차원 감소 목적을 이루게 된다. 실제 활용에 있어서 는 전처리된 데이터를 이용하여 계측치 간의 상관행렬 (correlation matrix)

    C = ( c 11 c 1 m c m 1 c m m ) ,

    where c j j = 1 N i = 1 N x i j and j = 1 m

    을 구하고, 이 행렬의 고유 벡터(eigenvector)와 고유 값 (eigenvalue)을 얻어서 수행하게 되는데, 이 고유 벡터는 새로운 기저인 주성분을 나타낸다. 또한 시스템의 차원 (m = 38) 대비 특정 고유 벡터에 해당하는 고유 값의 비 율은 전체 시스템에서 해당 고유 벡터 방향의 분산 비 율을 의미하는데, 만약 특정 고차원 데이터에서 몇 개의 고유 벡터만으로 시스템의 상당 부분을 설명할 수 있다 면, 그 시스템은 주성분 분석을 통해 차원을 감소시켜 고차원 데이터를 쉽게 이해하는 것이 가능하다.

    주성분 분석에 있어서, 고유 값이 큰 고유 벡터 중 몇 개를 시스템 분석에 활용해야 하는가는 중요한 문제 이며 무작위 행렬 이론을 통해 이를 해결할 수 있다[20, 21]. 측모 두부계측방사선사진의 경우, m 개의 계측치를 N 명의 환자에 대하여 측정하였다고 하면, m -차원으로 이루어진 데이터는 N × m 행렬로 표현된다. 이 데이터 에 대해 주성분 분석의 결과로 얻어지는 고유값의 확률 밀도 함수(probability density function, PDF)를 동일한 크 기의 무작위 행렬에 대한 분석 결과와 비교함으로써 유 의미한 고유 벡터의 개수를 결정할 수 있다. 무작위 행 렬 이론에 의한 확률밀도 함수는

    P D F r a n d ( λ ) = Q 2 π ( λ + λ ) ( λ λ ) λ

    where Q = N m , λ ± = 1 + 1 Q ± 2 1 Q a n d λ λ λ +

    가 되고, 실제 계측한 데이터의 경우 λ + 보다 큰 고유 값에 해당하는 고유 벡터에 대해서만 유의미한 해석이 가능하다. 이를 이용하여 주성분 분석의 결과 중 고려해 야할 고유 벡터의 수를 정할 수 있다.

    5) k-평균 알고리즘을 활용한 군집 분석

    k-평균 알고리즘은 머신러닝에서 대표적인 비지도 학습 방법론으로 m -차원으로 이루어진 세트에 대하여 유사한 데이터끼리 군집화하여 k개의 그룹으로 나누는 군집 분석 기법이다[22, 23]. 각각의 군집 중심으로부터 군집에 속하 는 데이터까지의 거리의 제곱의 합(the sum of the squared error, SSE)을 최소화 하는 방향으로 데이터를 군집화하며, 이 과정에서 적절한 k 값의 설정과 거리의 정의를 어떻게 정할 것인지가 실제 활용에서의 관건이라 할 수 있다. k 값을 정하는 데 있어서 다양한 과학적 준거가 존재하나 아 직 완벽한 준거는 밝혀지지 않았고, 본 연구에서는 결과의 해석에 있어서 임상적 경험에 근거한 k값의 선택(a number of heuristics)[24]에 따라 분석하였다. 또한 데이터 사이의 거리는 마할라노비스 거리(Mahalanobis distance), 맨해튼 (Manhattan) 거리, 해밍(Hamming) 거리, 코사인(cosine) 거 리, 상관계수(correlation) 등 각각의 연구 별로 데이터의 특 성이나 용도에 따라 다양한 방식이 활용될 수 있으나, 본 연구에서는 데이터의 통계적 전처리를 통해 데이터를 표 준화하였으므로 가장 널리 쓰이는 유클리드 거리 (Euclidean distance)를 이용하였다.

    결 과

    남녀간의 차이에 대한 p-value가 Table 2에 나타나 있 으며, 전체 38개의 변수 중 20개에서 남녀 사이에 유의 한 차이가 있었다. 즉 이 결과로부터 해당 계측치들의 경우 한국인의 남녀 평균 및 표준편차로 표준화하여 단 위를 제거하고 스케일을 맞추어도 교정 환자 남녀간 분 포에 유의한 차이가 있음을 의미한다. 다만, 이러한 분 포의 차이는 개별 계측치에 대한 남녀간 비교에서 통계 적으로 유의하다. 전체 계측치 데이터에 대한 주성분 분 석 및 군집 분석에 있어서 남녀간의 차이는 본 연구에 서 밝힌 주요한 특징에 비하여 두드러지지 않았다.

    Fig. 1은 주성분 분석을 통해 얻은 고유값의 확률밀도 함수를 나타낸 그래프로, 먼저 실제 환자 데이터를 계측 치 별로 무작위로 뒤섞은 후 주성분 분석을 한 결과와 무작위 행렬 이론의 이론값을 비교함으로써 두 결과가 일치함을 내부 그래프에서 확인할 수 있다. 또한 무작위 행렬 이론과의 비교를 통해 실제 환자 데이터에서 유의 미한 해석이 가능한 주성분의 개수가 7개임을 확인하였 다. 이 7개의 주성분이 38개의 전체 변수 중 81.2%에 해당하는 분산을 설명하였다. 그 중에서도 첫 번째 고유 값에 해당하는 고유벡터가 전체 분산의 29.8%를 설명하 고, 두 번째와 세 번째 고유값에 해당하는 고유벡터가 각각 15.4%, 11.9%의 분산을 설명하며, 그 다음 4개의 고유값에 해당하는 고유벡터가 4.6% ~ 7.7%(4개를 합산 하면 24.2%)의 분산을 설명하였다.

    또한 전체 환자 군에 대한 주성분 분석결과가 시간에 대하여 일정한 양상을 보여야 앞으로의 환자에 대해서 도 유효한 것으로 추정할 수 있기 때문에 시간에 따라 결과가 일정한 지에 대해 검증이 필요하다. Fig. 2가 나 타내는 바와 같이 시간을 기준으로 전반기와 후반기로 나눈 환자 군에 대해서 주성분 분석의 결과가 견고함을 확인할 수 있다.

    시간을 기준으로 두 그룹으로 나눈 환자 군 각각에 대해 주성분 분석을 했다. 이를 통해 얻은 고유벡터들의 행렬 u ˜ v ˜ 를 이용하여 중복 행렬(overlapping matrix), M o v e r l a p = | u ˜ T v ˜ | 을 히트맵(heatmap)으로 표현하였다 [20]. Fig. 2-(a)에서 전반적으로 대각 성분의 값이 높은 것에서부터 시간에 대하여 현재의 주성분 분석의 결과는 견고함을 확인할 수 있다. 특히 Fig. 2-(b)에서 주요한 7개 의 주성분 중 5번째와 6번째 주성분의 순서가 바뀌기는 하였지만 시간에 대해 견고함이 있음을 확인할 수 있다.

    Fig. 3은 고유값이 큰 순서대로 7개의 유의미한 고유 벡터(주성분 1~7)의 성분 그래프이며, 이들에서 눈에 띄 게 나타나는 변수들은 Table 3에 정리되어 있다. 주성분 1의 주요성분은 APDI, ANB 등 악골의 전후방적 크기 차이와 SNB, Pog to N-perp 등과 같이 하악골의 전후방 적 위치에 관한 것이고, 주성분 2의 주요성분은 Facial height ratio, Sum, FMA 등과 같이 수직적인 성분에 관 한 것이었으며, 주성분 3의 주요성분은 SNA, A point - N-perp. 등과 같은 상악의 위치나 상하악 전치의 치축 등에 관한 것이었다.

    Fig. 6에서 전체 환자를 k-평균 알고리즘을 활용하여 군집의 개수 3개로(k=3) 군집화한 결과를 주성분 분석한 주성분 1~7축 위에 시각화하였다. 이 경우 주성분 1과 주성분 2만이 군집을 구분하는데 있어서 유의미한 기저 가 되며 환자군의 구분이 가능함을 확인하였다. 즉, 주 성분 3~7은 환자의 세부적 특징을 표현하는 데에 의미 가 있지만, 거시적 분류에 있어서는 주성분 1, 2로 충분 하였다. 군집화된 3개의 환자 그룹에 대하여, 주성분 1 에 투영한 값을 기준으로 양의 값으로 치우친 환자군을 ‘타입 A’, 음의 값으로 치우친 환자군을 ‘타입 C’, 그 중 간에 있는 환자군을 ‘타입 B’라 지칭하기로 하였다.

    Fig. 5는 앞서 세 개의 군집으로 나눈 환자군의 대표 환자 프로파일(Typical Patient Profile, TPP)이다. 각각의 군집에 해당하는 환자들의 프로파일의 평균이며, 표준편 차를 오차 막대 형태로 함께 표기하였다. 또한 회색 상 자로 주성분 1의 주요한 계측값들을 나타내었다. 앞선 Fig. 4에서 확인 하였듯이 주성분 1은 이 세 그룹의 분 류에 충분한 기준이 되고, Fig. 5에서 각각의 군집 별 명확한 양상의 차이가 주성분 1의 주요 계측치에서 나 타난다는 점에서 이 두 결과는 서로 부합한다.

    1의 주요성분은 APDI, ANB 등 악골의 전후방적 크기 차이와 SNB, Pog to N-perp 등과 같이 하악골의 전후방 적 위치에 관한 것이고, 주성분 2의 주요성분은 Facial height ratio, Sum, FMA 등과 같이 수직적인 성분에 관 한 것이었으며, 주성분 3의 주요성분은 SNA, A point - N-perp. 등과 같은 상악의 위치나 상하악 전치의 치축 등에 관한 것이었다.

    Fig. 6은 6개의 군집(k=6)으로 전체 환자를 군집화한 결과이다. Fig. 4와 동일하게 주성분 1~7에 대하여 시각 화 한 결과 주성분 1~3에서 군집이 유의미하게 분류되 었고, 주성분 4~7은 이 경우에서도 군집의 분류에 기준 으로서 역할을 하지 못하였다.Fig. 5

    Fig. 4의 타입 A와 C에서 일부 경계선의 환자들이 Fig. 6에서 타입 B로 분류되었으나 기존 군집의 동질성 이 유지됨은 Fig. 7에서 확인 할 수 있으므로 A’와 C’로 명명하였다. 또한 타입 B는 주성분 2를 기준으로 녹색 (B-3) > 노랑과 회색(B-1) > 하늘색(B-2)으로 분류가 되 었고, Fig. 6의 오른쪽 그림에서 B-1은 주성분 3을 기준 으로 노랑(B-1-1)과 회색(B-1-2)으로 나뉘었다.

    Fig. 7은 여섯 개의 군집(k=6)으로 나눈 각 그룹의 대 표 환자 프로파일이다. 타입 A’과 C’은 Fig. 6에서 설명 하였듯이 k=3인 경우의 타입 A, C와 군집의 특징이 각 각 유지됨을 확인할 수 있다. 환자군 B-1, 2, 3으로 명명 된 그룹은 기존 타입 B의 하위 분류에 해당하며 주성분 2의 주요 계측치로 구분됨을 확인할 수 있다. 마지막으 로 주성분 3의 주요 계측치를 기준으로 B-1-1과 B-1-2가 구분됨을 확인하였다.

    고 찰

    주성분 분석은 다른 연구에서도 교정 환자의 분류를 위해 여러 번 이용되었다. 여기서 몇 개의 주성분을 선 택할 것인가가 문제가 되는데 Kim 등[12]은 18개의 변 수에 대해 주성분 분석한 결과 고유값 1.0 이상인 성분 을 두 가지 선택하였다. Bui 등[8]은 다섯 가지의 주성 분이 분산의 67%를 설명한다고 하였으나 처음 세 주성 분을 이용하였고, 그 이유는 그들이 해부학적 설명에 직 접적이기 때문이라고 하였다. 본 연구에서는 무작위행렬 이론을 이용하여 몇 개의 주성분을 선택할 것인지를 결 정하였고, 이는 경험적으로 주성분을 선택하였던 기존의 논문에 비하여 과학적 준거를 적용하였다고 할 수 있다.

    정상교합자를 대상으로 한 Kim 등[12]의 연구에서 첫 번째 주성분은 전후방적 성분, 두 번째 주성분은 수직적 성분으로 확인되었다. III급 부정교합자를 대상으로 한 연구에서 Bui 등[8]은 첫 번째 주성분은 시상면적 성분 들로 구성되었고, 두 번째 성분은 수직적 계측이 유의하 다고 하였다. Li 등[13]의 연구에서는 첫 번째 주성분은 수직적 길이계측으로 구성되었고, 두 번째 주성분은 두 개저에 대한 하악의 시상면적 위치에 속하였으며, 세 번 째 성분은 하악전치의 돌출과 경사도를 표현하였다. Moreno 등[15]은 III급 연구에서 두개저에 대한 하악의 전후방적 위치, 상하악의 수평적 크기 차이, 하악 전치 의 위치와 그로 인한 하순의 돌출도가 표본의 절반 이 상의 분산을 설명한다고 하였고, II급 연구에 대하여는 하악평면의 각도, 상악 전치의 각도, 하악골의 수평적, 수직적 길이가 분산의 50% 정도를 설명한다고 하였으 며, 특히 두 번째 주성분인 상악 전치의 각도는 II급 부 정교합의 아분류를 분류하므로 흥미롭다고 하였다[14]. 본 연구에서는 전체 부정교합자를 대상으로 하여 첫 번 째 주성분이 악골의 전후방적 부조화와 두개저에 대한 하악의 전후방적 위치 관계, 두 번째 주성분이 수직적 위치 관계, 세 번째 주성분이 상악의 위치나 상하악 전 치의 치축에 관한 것으로 분석되었으며, 이는 환자군에 따라 분산을 설명하는 특징적 계측치가 다를 수 있음을 보인다고 하겠다.

    군집 분석은 교정환자의 분류를 위해 많이 사용되어 온 방법의 하나이나, 별도의 시각화가 필요하다. 이에 본 연구에서는 주성분 분석한 결과를 축으로 하는 주평 면(principal plane)에 군집 분석의 결과를 시각화 하였고, 이 결과 부정교합의 분류 및 아분류에 대해 보다 직관 적인 결과를 나타낼 수 있었다. 3개 또는 6개의 군집으 로 나누었을 때, Fig. 46에서 보여지는 것처럼 주성 분 1~3만이 군집의 분류에 의미있고, 4~7은 군집의 분 류의 기준이 되지 못한다. 그 이유는 앞서 고유값이 주 성분 1에서 매우 크고, 주성분 2와 주성분 3에서 적당히 크며, 주성분 4~7은 무작위 행렬이론으로는 에러영역을 넘어선 고유값을 갖기는 하지만, 앞선 고유벡터에 비하 면 고유값이 매우 작기 때문으로 추정된다. 보다 세부적 으로 분류된 환자군에 대해서는 주성분 4~7도 유의미한 분류 기준이 될 수 있으나, 과도하게 세분화된 환자군의 경우 동일성이 높은 주요 군집도 분리되어서 유의미한 군집 구조를 파악하기 어려워진다. 즉 주성분 4~7은 환 자의 특징을 나타내는 기준으로서는 유효하나, 교정환자 군의 분류에 있어서는 적용에 한계가 있다고 하겠다. 그 러므로 본 연구에서는 거시 규모 분류(k=3)와 중규모 분 류(k=6)에 대해 분석하였다.

    k-평균 군집 분석의 결과, 3개의 군집으로 나누었을 때 타입 A의 환자는 하악골이 작으며, ANB가 큰 양상 의 골격성 II급에 해당하며, 타입 B의 환자는 골격성 I 급, 타입 C의 환자는 하악이 큰 골격성 III급에 해당한 다고 볼 수 있다. 즉 주성분 1이 악골의 전후방적인 위 치관계와 하악골의 위치를 주성분으로 하는 것을 고려 하였을 때 이에 따라 분류된 것으로 보인다.

    주성분 2는 수직적 성분을 설명하므로, 타입 B는 이 에 따라 나뉘어졌다고 볼 수 있으며, 대표 환자 프로파 일에서 보이는 것처럼 타입 B-1은 normodivergent 한 유 형, 타입 B-2는 hypodivergent, 타입 B-3은 hyperdivergent 한 유형으로 볼 수 있다. 주성분 3은 상하악 치아의 돌 출도가 주성분이라 할 수 있으며, 대표 환자 프로파일 역시 타입 B-1-1은 상악이 크고, 상하순이 돌출된 유형, 타입 B-1-2는 하악이 약간 작고 상악 전치가 설측경사 된 II급 2류 또는 I급 부정교합으로 볼 수 있다.

    결국 지금까지 분석을 보면 주성분 1~3이 전후방적, 수직적 요소를 평가하여 환자군을 분류하는 주요 기준 이고, 군집 분석 및 이 결과를 주성분 분석으로 시각화 한 결과를 보면 환자군은 A, B, C로 크게 나뉘며, 더 세부적으로는 A’, B-1(B-1-1 및 B-1-2), B-2, B-3, C’으로 나눌 수 있다.

    대표 환자 프로파일에서 확인할 수 있듯이 각각의 군집의 특징을 요약하면, 타입 A'는 하악이 작고, hyperdivergent한 골격성 II급 부정교합, 타입 B-1-1은 상악이 크고, 상하순이 돌출된 normodivergent한 중등도의 골격성 II급 부정교합, 타 입 B-1-2는 하악이 약간 작고, 상악 전치가 설측경사된 normodivergent한 I급 또는 경도의 II급부정교합, 타입 B-2는 상하악이 약간 큰 hypodivergent한 수평성장형 I급 부정교합, 타입 B-3은 상악이 작고 hyperdivergent인 경도의 III급 부정 교합, 타입 C는 하악이 크고 normodivergent한 골격성 III급 부정교합이라고 할 수 있다.

    본 연구에서는 전체 부정교합자를 대상으로 주성분 분석과 군집 분석을 시행하여, 그 결과를 바탕으로 빅데 이터 시각화 기법과 대표 환자 프로파일을 이용해 교정 환자군의 분류 및 아분류에 대한 체계와 기준을 연구하 였으며 각각 환자군의 대표 프로파일을 시각화하였다. 본 연구 결과를 기반으로 추후 각각의 환자군의 특징에 대한 추가적인 분석 및 새로운 환자 샘플의 진단에 활 용하는 방안을 연구하면 흥미로운 결과를 얻을 수 있을 것으로 생각된다. 또한 이러한 빅데이터 시각화 기법을 다양한 분야의 치의학 연구에 도입하면 연구 결과를 시 각화 하는 데 도움이 될 것으로 기대된다.

    결 론

    성인 교정 환자 1020명의 측모 두부계측방사선사진에 서 측정된 38가지 계측치를 통계적 전처리, 주성분 분 석, 무작위 행렬분석, k-평군 알고리즘을 활용한 군집 분석을 통해 분석하였다. 이를 통해 환자의 특징을 나타 내는 일곱 가지 주성분(PC)을 밝혔고, 환자군의 분류 및 아분류의 구조를 밝혔으며, 이때 주성분 1~3만이 기준 이 됨을 확인하였다. 또한 거시적 관점에서 분류된 환자 군(타입. A~C)의 대표 환자 프로파일과 중규모 관점에 서 분류된 환자군(타입 A’, B-1-1, B-1-2, B-2, B-3, C’)의 대표 환자 프로파일을 밝혔다. 그리고 이러한 연구 결과 가 특정 기간의 환자군에 국한되지 않고 지속적으로 관 찰되는 결과임을 확인하였다. 이러한 데이터 기반의 환 자 분류 연구는 교정 환자 진단 기술의 발전에 토대가 될 것으로 기대된다.

    Figure

    IJOB-43-101_F1.gif

    Eigenvalue probability density functions (PDF). The red solid lines denote theoretical values of PDF estimated by using random matrix theory (RMT). Inlet, the eigenvalue PDF of shuffled data of real measurements agrees with theoretical values. Because the shuffling of measurements was implemented 30 times, this result is significantly reliable. Outlet, in case of real measurements, the 7 eigenvectors corresponding to largest 7 eigenvalues are meaningful as revealed by comparison with the theoretical one. So, in spite of 38 measurements for each patient, only the 7 basis of principal component analysis (PCA) are considerable for uncovering features of patients.

    IJOB-43-101_F2.gif

    Overlapping matrices of (a) all principal components and (b) effective 7 ones. For patient classification, the stability of the components of eigenvectors has to be guaranteed. To test whether the significant principal components have robustness, an overlapping matrix is considered. First of all, patients are divided into two sets based on time, and then the principal component analysis is performed for each group. The two eigenvector matrices, u˜ and v˜ , are used to calculate the overlapping matrix, Moverlap=|u˜T⋅v˜| The white box, Mij=1 , denotes stability of the first set’s i−th eigenvector which is similar to j−th one of the second set. So, one can verify the time robustness of major principal components in these results.

    IJOB-43-101_F3.gif

    Eigenvector components of 7 significant principal components.

    IJOB-43-101_F4.gif

    Visualization of clustered patients by k-means on major principal components (k=3). The 38-dimensional measured data of patients is clustered by k-means algorithm. Because of statistical preprocessing, the Euclidean distance is used without considering relative variable scales. The clustering results are visualized on principal planes obtained from PCA and RMT. Even though the PC3 ~ 7 are meaningful features of patients, only the PC1 & 2 are significant for macroscopic classification (k=3). We set the name of groups, type A ~ C, based on the expression values projected on PC1.

    IJOB-43-101_F5.gif

    Typical patient profiles(TPPs) of ‘Type. A~C’. The TPP of each group is visualized using mean and standard deviation of clustered patient profiles. The significant differences occur on major variables of PC1. The order of measurements is same with the Fig. 3.

    IJOB-43-101_F6.gif

    Visualization of clustered patients by k-means on PC1~3 (k=6). Only the PC1~3 are significant for mesoscopic classification (k=6). Left, considering distribution of clusters on principal plane (PC1-PC2) and typical patient profiles in Fig. 7, we make the subset structure of patient groups, B-1~3. Right, we can verifiy that one of the groups, ‘Type B-1’, is separated to two subtypes by PC3.

    IJOB-43-101_F7.gif

    Typical patient profiles (TPPs) of subtypes. The TPP of each group is also visualized using mean and standard deviation of clustered patient profiles. The significant differences of subgroups occurs on major variables of PC2 and PC3. The order of measurements is also same with the Fig. 3.

    Table

    Cephalometric measurements

    Differences between sexes.

    *<i>p</i> < 0.05, independent t - test.

    Variables explaining 7 principal components

    PC, principal component.

    Reference

    1. WR.F.H Proffit , DM Sarver (2013) Contemporary orthodontics., Mosby,
    2. EH Angle (1899) Classification of malocclusion., Dental Cosmos., Vol.41 ; pp.248-264-350-357
    3. C Wiwie , J Baumbach , R Rottger (2015) Comparing the performance of biomedical clustering methods., Nat. Methods, Vol.12 (11) ; pp.1033-1038
    4. P Wirapati , C Sotiriou , S Kunkel , P Farmer , S Pradervand , B Haibe-Kains , C Desmedt , M Ignatiadis , T Sengstag , F SchA1/4tz , DR Goldstein , M Piccart , M Delorenzi (2008) Meta-analysis of gene expression profiles in breast cancer: toward a unified understanding of breast cancer subtyping and prognosissignatures., Breast Cancer Res., Vol.10 (4) ; pp.R65
    5. T Wittkop , D Emig , A Truss , M Albrecht , S Böcker , J Baumbach (2011) Comprehensive cluster analysis with Transitivity Clustering., Nat. Protoc., Vol.6 ; pp.285-295
    6. R Rottger , P Kalaghatgi , P Sun , C Soares Sde , V Azevedo , T Wittkop , J Baumbach (2013) Density parameter estimation for finding clusters of homologous proteins-tracing actinobacterial pathogenicity lifestyles., Bioinformatics, Vol.29 (2) ; pp.215-222
    7. EK Choi , JH Lee , SH Baek , SJ Kim (2017) Gene expression profile altered by orthodontic tooth movement during healing of surgical alveolar defect., Am. J. Orthod. Dentofacial Orthop., Vol.151 (6) ; pp.1107-1115
    8. C Bui , T King , W Proffit , S Frazier-Bowers (2006) Phenotypic characterization of Class III patients., Angle Orthod., Vol.76 ; pp.564-569
    9. WJ Hirschfeld , RE Moyers , DH Enlow (1973) A method of deriving subgroups of a population: A study of craniofacial taxonomy., Am. J. Phys. Anthropol., Vol.39 ; pp.279-290
    10. SX Hong , CK Yi (2001) A classification and characterization of skeletal class III malocclusion on etio-pathogenic basis., Int. J. Oral Maxillofac. Surg., Vol.30 ; pp.264-271
    11. HS Hwang , IS Youn , KH Lee , HJ Lim (2007) Classification of facial asymmetry by cluster analysis., Am. J. Orthod. Dentofacial Orthop., Vol.132 ; pp.279.e271-279.e276
    12. J-Y Kim , S-J Lee , T-W Kim , D-S Nahm , Y-I Chang (2005) Classification of the skeletal variation in normal occlusion., Angle Orthod., Vol.75 ; pp.311-319
    13. C Li , Y Cai , S Chen , F Chen (2016) Classification and characterization of class III malocclusion in Chinese individuals., Head Face Med., Vol.12 ; pp.31
    14. LM Moreno Uribe , SC Howe , C Kummet , KC Vela , DV Dawson , TE Southard (2014) Phenotypic diversity in white adults with moderate to severe Class II malocclusion., Am. J. Orthod. Dentofacial Orthop., Vol.145 ; pp.305-316
    15. LM Moreno Uribe , KC Vela , C Kummet , DV Dawson , TE Southard (2013) Phenotypic diversity in white adults with moderate to severe Class III malocclusion., Am. J. Orthod. Dentofacial Orthop., Vol.144 ; pp.32-42
    16. KS Ahn , HS Baik , KH Kim , BI Kim , KJ Lee (2011) Subclassification of Skeletal Class II Malocclusion of Korean Adults Using Cluster Analysis., Korean J Cleft Lip and Palate., Vol.14 ; pp.1-18
    17. IC Park , D Bowman , L Klapper (1989) A cephalometric study of Korean adults., Am. J. Orthod. Dentofacial Orthop., Vol.96 ; pp.54-59
    18. The faculty of department of orthodontics. (2014) Textbook of Orthodontics. 3rd ed. Seoul, Korea: Jisung, Daehannarae publishing,,
    19. ST Roweis , LK Saul (2000) Nonlinear Dimensionality Reduction by Locally Linear Embedding., Science, Vol.290 ; pp.2323-2326
    20. P Gopikrishnan , B Rosenow , V Plerou , HE Stanley (2001) Quantifying and interpreting collective behavior in financial markets., Phys. Rev. E Stat. Nonlin. Soft Matter Phys., Vol.64 ; pp.035106
    21. L Laloux , P Cizeau , J-P Bouchaud , M Potters (1999) Noise Dressing of Financial Correlation Matrices., Phys. Rev. Lett., Vol.83 ; pp.1467-1470
    22. AK Jain (2010) Data clustering: 50 years beyond K-means., Pattern Recognit Lett., Vol.31 ; pp.651-666
    23. S Lloyd (1982) Least squares quantization in PCM., IEEE Trans. Inf. Theory, Vol.28 ; pp.129-137
    24. R Tibshirani , G Walther , T Hastie (2001) Estimating the number of clusters in a data set via the gap statistic., J. R. Stat. Soc. Series B Stat. Methodol., Vol.63 ; pp.411-423