Cited 0 times in Scipus Cited Count

Classification of ICD-O-3 codes from pathology report using natural language processing

DC Field Value Language
dc.contributor.advisor박, 래웅-
dc.contributor.author김, 현미-
dc.date.accessioned2023-11-16T05:44:00Z-
dc.date.available2023-11-16T05:44:00Z-
dc.date.issued2023-
dc.identifier.urihttp://repository.ajou.ac.kr/handle/201003/26869-
dc.language.isoko-
dc.titleClassification of ICD-O-3 codes from pathology report using natural language processing-
dc.title.alternative자연어 처리 기술을 활용한 병리보고서의 암진단코드 분류 알고리즘 개발-
dc.typeThesis-
dc.identifier.urlhttp://dcoll.ajou.ac.kr:9080/dcollection/jsp/common/DcLoOrgPer.jsp?sItemId=000000032631-
dc.subject.keywordICD-O-3-
dc.subject.keywordKCD-
dc.subject.keywordpathology-
dc.subject.keyworddeep learning-
dc.subject.keywordtext classification-
dc.subject.keywordnatural language processing-
dc.subject.keywordCRF-Named entity recognition-
dc.subject.keywordNamed entity recognition-
dc.subject.keyword자연어처리-
dc.subject.keyword딥러닝-
dc.subject.keyword텍스트분류-
dc.subject.keyword진단코드-
dc.subject.keyword개체명 인식-
dc.description.degreeMaster-
dc.contributor.department대학원 의학과-
dc.contributor.affiliatedAuthor김, 현미-
dc.date.awarded2023-
dc.type.localTheses-
dc.citation.date2023-
dc.embargo.liftdate9999-12-31-
dc.embargo.terms9999-12-31-
dc.description.tableOfContentsI. 서 론 1

A. 연구의 배경 및 필요성 1

1. 국내 암환자 현황 및 암등록자료의 중요성 1

2. 암환자등록 대상 및 용어 정의 4

3. 암환자 질병분류코드 4

(A) 종양학국제질병분류 ICD-O-3 코드 구조와 형식 4

(B) ICD-O-3 코드와 KCD-8 (ICD-10 기반) 코드 체계 비교 6

4. 암진단코드 분류 복잡성 7

5. 기존 암진단코드 분류 방법 및 한계 9

B. 연구의 목적 10

Ⅱ. 연구대상 및 방법 11

A. 분석 대상 데이터 11

1. 연구대상 선정기준 11

2. 데이터 추출 및 선별 11

3. NLP 파이프라인 모델 개발 및 주석 처리 15

(A) 암 진단 정보 항목 정의 15

(B) 레이블링 작업 16

(C) 암 진단 텍스트 용어 추출 16

B. 데이터 전처리 17

1. 데이터 정제 17

2. 정답 코드 작성 (Human labeled) 17

C. 실험 설계 24

1. 데이터셋 24

2. 실험 환경 설정 27

D. 암진단코드 분류 모델 개발 28

1. 딥러닝 기반의 ICD-O-3 M-code 분류 모델 28

(A) Bi-directional LSTM 모델 28

(B) CNN 모델 30

(C) 학습과 추론 방법 31

(D) Hyper parameter 설정값 33

2. 규칙 기반의 ICD-O-3 T-code 및 KCD-8 code 분류 모델 34

(A) 5개 암 분류 34

(B) 위암 분류 35

(C) 대장/직장암 분류 38

(D) 간담췌암 분류 39

(E) 유방암 분류 41

(F) 갑상선암 분류 47

E. 평가 척도 48

1. F1-score 48

2. AUROC score (The Area under the Receiver Operating Characteristics Curve) 49

Ⅲ. 결과 50

A. ICD-O-3 M code 분류 결과 50

B. ICD-O-3 T code 분류 결과 52

C. KCD-8 code 분류 결과 53

Ⅳ. 고찰 54

Ⅴ. 결론 57

참고문헌 58
-
Appears in Collections:
Theses > School of Medicine / Graduate School of Medicine > Master
Files in This Item:
There are no files associated with this item.

qrcode

해당 아이템을 이메일로 공유하기 원하시면 인증을 거치시기 바랍니다.

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse