발행년 : | 2019 |
---|---|
구분 : | 학위논문 |
학술지명 : | 학위논문(석사)-- 숭실대학교 대학원 : 생명정보학과(일원) 생명정보학 2019. 2 |
관련링크 : | http://www.riss.kr/link?id=T15015822 |
기계학습을 통하여 암을 분류하는 유전자 집단 확인
= Identification of gene set for cancer classification with machine learning approach
저자[authors] 임수정
발행사항 서울 : 숭실대학교 대학원, 2019
형태사항[Description] 19 ; 26 cm
일반주기명[Note] 지도교수: 김상수
학위논문사항[Dissertation] 학위논문(석사)-- 숭실대학교 대학원 : 생명정보학과(일원) 생명정보학 2019. 2
발행국(발행지)[Country] 서울
출판년[Publication Year] 2019
소장기관[Holding] 숭실대학교 도서관 (211044)
초록[abstracts]
암은 전 세계 사망 원인 1위의 질병이며, 각 국가에 존재하는 암 컨소시엄 뿐만 아니라 다양한 기관에서 연구가 활발히 진행되고 있다. 또한 개인의 특성으로 질병을 예측하고 치료하는 ‘맞춤의료’ 시대에 들어서면서 암 치료에 대한 관심이 높아지고 있다. 최근 빅데이터와 인공지능 분야와 접목시킨 연구 또한 많아지고 있다. 이에 유전체 분석에서도 인공지능과 연관된 연구가 활발히 진행되는 추세이다.
유전자 발현 데이터를 활용하여 암 특이적인 유전자들이 많이 발견되었다. 하지만 고차원의 유전자 발현 데이터에 대한 한계점이 존재하고 있는 상황이다. 이러한 한계점의 해결책은 기계학습 분야에서 다양한 방법론들이 존재한다.
이에 본 연구는 기존 유전자 발현 데이터를 활용한 분석 방법과는 달리 기계학습 분야에 적용하여 기존 연구들의 한계점을 극복하고자 하였다. 즉, 기계학습 방법론에 적용시켜 암과 정상 샘플을 잘 구분해주는 유전자 집단을 찾는데 목적을 두었다.
차원 축소 알고리즘과 변수들의 기여도를 통해 유의미한 특징을 찾았다. 이 방법을 통해 HRGs(High Ranked Genes) 라는 총 362개의 유전자 집단을 발견하였고, 기존 분석방법보다 좀 더 좋은 분류 결과를 나타내었다.
추후 좀 더 다양하고 많은 데이터들을 사용하여 이 유전자 집단에 대한 정확한 검증이 필요하다. 이 검증이 확인된다면, HRGs 가 암 구분에 특이적인 새로운 유전자 집단이 될 가능성을 기대해본다
목차[Table of content]
국문초록 ⅴ
영문초록 ⅶ
제 1 장 Introduction 1
1.1 Cancer Study 1
1.2 Machine Learning 1
1.2.1 Dimension Reduction 1
제 2 장 Materials and Methods 3
2.1 Materials 3
2.1.1 Gene Expression Data 3
2.2 Methods 3
2.2.1 Overview 3
2.2.2 Pre-processing 3
2.2.2.1 Re-sampling 4
2.2.3 Feature Extraction 4
2.2.3.1 Auto-encoder 5
2.2.3.2 Principle Component Analysis(PCA) 5
2.2.3.3 Linear Discriminant Analysis(LDA) 6
2.2.3.4 Differential Expressed Genes(DEG) 6
2.2.4 Classification 6
2.2.5 Weight Analysis 7
2.2.5.1 Previous Study 7
2.2.5.2 Garson’s Algorithm 8
2.2.5.3 Connection Weight Algorithm 9
제 3 장 Results 10
3.1 Compare of Each Methods Performance 10
3.2 Functional Analysis 10
3.2.1 Gene Ontology 10
3.2.2 Pathway Analysis 12
제 4 장 Discussion 14
참고문헌 16