발행년 : | 2014 |
---|---|
구분 : | 학위논문 |
학술지명 : | 울산대학교 대학원 : 의학과의과학전공 (석사) |
관련링크 : | http://www.riss.kr/link?id=T13374630 |
연구윤리 및 규정 준수를 위한 익명화 시스템 개발과 타당성 검증 = Development and Validation of De-identification System for Research Ethics and Regulations
일반주기 :
지도교수: 이무송
생명윤리법 전면개정에 따라 연구환경이 연구윤리와 규정의 준수가 강조되고 있으며 이에 대한
대응으로 익명화시스템 도입에 대한 관심이 높아지고 있다. 개정된 생명윤리 및 안전에 관한 법률은 기존에 배아 및 유전자 관련 사항으로 제한되어
있는 생명윤리정책의 영역을 확대하여 인간대상연구, 인체유래물연구에 대한 심사제도를 도입함으로써 피험자 등의 권리와 건강을 보호하는데 있다 .
이러한 연구윤리와 규정강화에 대한 대응으로 익명화 시스템 개발이 추진되고 국내외 선진사례에 대해 조사한다.본 연구에서는 인간대상연구에서 필요한
익명화 시스템의 요구사항을 도출하고 이를 바탕으로 익명화 시스템 설계 및 개발한다. 그리고 개발된 익명화 시스템의 신뢰성을 과학적으로 검증하여
연구윤리와 연구규정을 준수할 수 있는 지 평가한다.
익명화 시스템의 요구사항 도출은 연구규정 분석, 국내외 연구기관 방문조사 그리고
서울아산병원 연구자에 대한 설문을 통해 이뤄졌으며 가장 핵심적인 요구사항은 “IRB 심의 의무화와 개인식별정보의 익명화” 에 대한 사항이다.
이런 요구사항을 만족하기 위해서는 EMR에 있는 모든 식별자는 제거되어야 한다. 식별자를 제거하기 위해서 먼저 익명화기술을 개발하는 한편,
Cohort Discovery 도구, 익명차트리뷰도구, 익명자료추출도구 등의 익명화 시스템의 개발과 개발된 익명화시스템에 대한 정확성 검증이
추진되었다. 익명화시스템은 Cohort Discovery 도구, 익명차트리뷰도구, 자료추출도구 등의 3부분으로 구성된다. Cohort
Discovery 도구는 연구설계시점에서 환자수의 규모를 산정하는 도구이며 익명차트리뷰도구는 익명으로 다양한 진료기록을 리뷰 하여 연구에 포함
또는 제외할 수 있게 리뷰 하는 도구이다. 자료추출도구는 상세한 자료를 추출하여 자료를 내보내기 할 수 있는 도구이다. 환자의 진료정보에는 많은
식별자를 포함하며 식별자에 대한 정의는 HIPAA(Health Insurance Portability and Accountability
Act)에서 규정한 18개의 PHI(Protected Health Information)를 기본으로 서울아산병원에서 정의한 20개의
개인식별정보를 대상으로 하였다. 텍스트로 기록된 진료기록에서 식별자를 제거하는 방법으로는 정규표현식을 사용하였으며 익명차트리뷰도구의 식별자 제거
결과에 대해서 과학적인 진단법 평가를 이용하여 검증하였다. 진단법 평가를 이용한 검증에서는 식별자를 정확하게 식별자로 인식했는지(민감도,
식별자인식률)와 인식된 식별자를 정확하게 제거했는지(양성예측도, 식별자제거률) 에 대한 검증작업을 Training Data Set과
Validation Data Set 등 2개로 나눠 각각 실시 하였다. 익명차트리뷰도구에서 식별자를 정확히 찾고 지우는 지에 대한 결과의 판단은
모두 수작업으로 2번씩 확인하였으며 Training Data Set의 구성은 총 6,039개 20종의 기록지와 Validation Data
Set의 5,000개 33종의 기록지를 대상으로 하였다.
국내 대형병원의 방문조사 결과 연구자료요청 시 연구계획서의 IRB
승인번호를 확인하는 곳은 2곳으로 파악됐고, 이 중 1개 병원은 초록인 경우 IRB 승인번호가 필요 없고 논문만 필요한 것으로 확인 됐다.
연구자의 연구자료 요청에 대한 자료제공 시 익명화 처리는 1곳에서만 대량자료 제공 시 Serial No 형태로 제공하는 있는데 전반적으로
국내에서는 연구자료 제공 시 익명화가 지켜지지 않는 것으로 파악됐다. 연구자 설문은 전체 대상자 1,322명 중 143명이 설문에 답을 해줘서
약 10.8%이었으며 “ 진료정보를 연구 등의 2차 이용 시 개인식별정보를 제거하여 익명화한 형태로 이용해야 한다는 것을 알고 계십니까?”에
대한 질문에 23.8%가 “모른다” 로 응답했는데 아직 많은 연구자들이 연구수행 시 익명화를 해야 한다는 것을 모르고 있는 것으로 파악됐다.
“연구에 필요한 자료가 익명화된 경우 연구활용이 가능하다고 생각하십니까?” 에 대한 질문에 35.7%가 “그렇지 않다” 로 응답했는데 이는
익명화된 자료로 연구수행이 어렵다고 생각하는 연구자가 많았으며 아직 국내에서 연구자들이 익명화된 형태로 연구를 수행할 만큼의 충분한 연구인프라가
부족함을 의미했다. 진단법 평가를 적용하여 익명차트리뷰도구의 익명성에 대한 정확성 검증 결과 EMR기록지에 포함된 식별자의 분포는
Training Data Set에서는 평균 0.15개(922개/6,039 기록지), Validation Data Set에서는 0.07
개(327개/5,000개 기록지)가 분포를 하고 있는 것으로 나타났다. 서울아산병원에서 정의한 20개의 개인식별정보 중 이름, 주소, 전화번호,
병원등록번호 등 4개만이 사용되고 있었으며 가장 출현 빈도가 높았던 식별자는 전화번호였다. 기록지별로 보면 Training Data Set의
20종의 기록지 중 11종에서 식별자가 사용되고 있었으며 식별자가 가장 많았던 기록지는 응급실의 Emergency room nursing
note에서 사용된 전화번호였다. Validation Data Set에서는 33종의 기록지 중 12종에서 식별자가 사용되고 있었으며 식별자가
가장 많았던 기록지는 입원환자의 Consultation report 기록지에서 사용된 전화번호인 것으로 나타났다. 개발된 익명화 시스템의
검증에서 식별자인 이름은 실제 EMR 기록에 다양하게 기록되고 있었는데 환자의 이름을 직접 쓰기도 하지만, “누구의 지인” 등처럼 대부분은
병원의 직원 또는 의료진의 이름을 사용하여 표현하고 있었다. 따라서 검증작업도 1)이름을 환자의 이름으로 한정한 결과와 2)이름에 직원의 이름이
포함된 형태 등 2가지로 각각 분석하였다. 1)이름을 환자의 이름으로만 한정한 경우Training Data Set의
양성예측도(익명화성공률)는98.25% 이며(Fig.16) 민감도(식별자인식률)는 100%로 나타났고 Validation Data Set의
양성예측도(익명화성공률)는 100%이었으며 민감도(식별자 인식률)는 97.12%(Fig.17) 로 나타났다. 2)이름에 직원이름이 포함된 경우
Training Data Set의 양성예측도(익명화성공률)은 98.25%이며 민감도(식별자인식률)은 97.29%로 나타났고 Validation
Data Set의 양성예측도(익명화성공률)은 100%, 민감도(식별자인식률)은 92.97%로 나타났으며 이 수치는 기존에 유사하게 진행된
연구결과와 비슷하거나 우수한 것으로 판단되었다.
개발된 익명화 시스템의 개발과 타당성 검증을 통해 식별자가 포함된 진료정보를 익명화
시스템을 통해 연구윤리 및 규정을 준수하며 연구에 활용할 수 있음을 확인하였다.
국문요약
표및그림목차
서론
연구대상 및 방법
연구결과
고찰
결론
참고문헌
Summary