Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụngPhân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụngPhân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụngPhân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụngPhân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích liệu văn dựa học máy giới mở ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thông tin Hà Nội, 12/2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích liệu văn dựa học máy giới mở ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thông tin Cán hướng dẫn: PGS.TS Hà Quang Thụy HÀ NỘI - 2019 LỜI CẢM ƠN Đầ u tiên, em xin gửi lời biế t ơn chân thành và sâu sắ c nhấ t đế n thầ y giáo PGS TS Hà Quang Thụy, người đã đô ̣ng viên, nhiê ̣t tình hướng dẫn và ta ̣o mo ̣i điề u kiê ̣n tố t nhấ t cho em hoàn thành đươc̣ luâ ̣n văn Em xin chân thành cảm ơn các thầ y cô, các anh chi ̣ em phòng thí nghiê ̣m Công nghê ̣ và tri thức đã giúp đỡ và đô ̣ng viên tinh thầ n thời gian em ho ̣c tâ ̣p và công tác Em chân thành cảm ơn quý Thầ y, Cô Khoa Công Nghê ̣ Thơng Tin nói riêng trường đa ̣i ho ̣c Công Nghê ̣ - Đa ̣i ho ̣c Quố c Gia Hà Nơ ̣i nói chung đã tâ ̣n tình truyề n đa ̣t kiế n thức quý báu quá trình ho ̣c tâ ̣p ta ̣i Trường Cuố i cùng, em xin cảm ơn người thân yêu của em, đă ̣c biê ̣t là chồ ng em đã đô ̣ng viên, ta ̣o điề u kiê ̣n tố t nhấ t cho em quá trình ho ̣c tâ ̣p và hoàn thành luâ ̣n văn Em xin chân thành cảm ơn! Luâ ̣n văn này đươc̣ thực hiê ̣n khuôn khổ đề tài Nafostef mã số : 102.052016.14 “Nghiên cứu và phát triển các mô hình ho ̣c máy tiên tiế n phát hiê ̣n và trích xuấ t mố i quan ̣ tác dụng phụ của th́ c/hóa chấ t và bê ̣nh từ văn bản y-sinh”, năm 2016 i LỜI CAM ĐOAN Tôi xin cam đoan luâ ̣n văn tha ̣c sĩ công nghê ̣ thông tin “Phân tích liê ̣u văn bản dựa ho ̣c máy thế giới mở và ứng dụng” là công trình nghiên cứu của riêng tôi, không chép la ̣i của người khác Trong toàn bô ̣ nô ̣i dung của luâ ̣n văn, điề u đã đươc̣ trình bày hoă ̣c là của chính cá nhân hoă ̣c là đươc̣ tổng hơp̣ từ nhiề u nguồ n tài liê ̣u Tấ t cả các nguồ n tài liê ̣u tham khảo đề u có xuấ t xứ rõ ràng và hơp̣ pháp Tôi xin hoàn toàn chiụ trách nhiê ̣m và chiụ mo ̣i hình thức kỷ luâ ̣t theo quy đinh ̣ cho lời cam đoan này Hà Nô ̣i, ngày 15 tháng 12 năm 2019 Ho ̣c viên Pha ̣m Thi Quỳnh ̣ Trang ii Mục Lục LỜI CẢM ƠN i LỜI CAM ĐOAN ii TÓM TẮT iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT v DANH SÁCH BẢNG vi DANH SÁCH HÌNH ẢNH vii Mở đầ u Chương Ho ̣c máy thế giới mở và bài toán chuẩn hóa tên thực thể bê ̣nh 1.1 Ho ̣c máy truyề n thố ng 1.2 Ho ̣c máy suố t đời 1.2.1 Đinh ̣ nghĩa ho ̣c máy suố t đời 1.2.2 Các hướng nghiên cứu LL 12 1.3 Ho ̣c máy thế giới mở 12 1.4 Mục tiêu của luâ ̣n văn 15 Kế t luâ ̣n Chương 17 Chương Ho ̣c sâu thế giới mở cho văn bản 18 2.1 Ho ̣c thế giới mở không gian đơn giản trung tâm 18 2.1.1 Tăng cường câ ̣p nhâ ̣t mơ hình ho ̣c CBS 18 2.1.2 Kiểm tra mơ hình ho ̣c CBS 20 2.1.3 Ho ̣c CBS cho phát hiê ̣n lớp chưa thấ y 20 2.2 Ho ̣c sâu thế giới mở phân lớp văn bản 21 2.2.1 CNN lớp chuyển tiế p của DOC 22 2.2.2 Tầ ng 1- với-phầ n còn la ̣i 23 2.2.2 Giảm rủi ro không gian mở 23 Kế t luâ ̣n Chương 24 Chương 3: Ứng dụng mơ hình DOC vào chuẩn hóa tên bê ̣nh 25 3.1 Ứng dụng chuẩn hóa tên thực thể bê ̣nh 25 3.2.1 Mô hình đề xuấ t 27 Bô ̣ phân giải viế t tắ t 28 Ma ̣ng nơ ron ho ̣c sâu thế giới mở 28 Kế t luâ ̣n Chương 30 Chương 4: Thực nghiê ̣m và đánh giá 31 4.1 Dữ liê ̣u thực nghiê ̣m chuẩn hoá tên bê ̣nh 31 4.2 Môi trường và các công cụ thực nghiê ̣m 32 4.3 Kế t quả và đánh giá 32 Kế t luâ ̣n 36 Tài liê ̣u tham khảo 37 TĨM TẮT Phân tích liệu văn dựa học máy giới mở ứng dụng Phạm Thị Quỳnh Trang Khóa ho ̣c: QH-2013- I/CQ Ngành: Hê ̣ thớ ng thơng tin Tóm tắt: Ho ̣c máy suố t đời (Lifelong Machine Learning: LML) là mô ̣t tiế p câ ̣n ho ̣c máy liên tục, trić h cho ̣n và lưu giữ tri thức từ quá khứ để sử dụng giải quyế t các bài toán ho ̣c mới Ho ̣c thế giới mở, mô ̣t da ̣ng của ho ̣c máy suố t đời, có lực phát hiê ̣n các trường hơ ̣p chưa thấ y để hiǹ h thành các bài toán mới Phân lớp thế giới mở thực hiê ̣n ba bài toán thành phầ n là (i) Phát hiê ̣n thực thể mới, thuô ̣c vào các lớp hiê ̣n có, (ii) Xây dựng mô hiǹ h phân lớp cho các lớp mới, và (iii) hiêụ chin̉ h các mô hiǹ h phân lớp vớ n có để nâng cao hiêụ bơ ̣ phân lớp có thêm các lớp mới Dựa mô hiǹ h phân lớp ho ̣c sâu thế giới mở DOC (Deep Open Classification) của L Shu và cô ̣ng sự, luâ ̣n văn đề nghi ̣ mô hiǹ h ứng dụng phân lớp ho ̣c sâu thế giới mở cho bài toán chuẩn hoá thực thể tên và phân lớp quan ̣ văn bản y sinh Viê ̣c trić h xuấ t tự đô ̣ng tri thức từ văn bản đóng vai trò quan tro ̣ng ho ̣c ś t đời Nó bao gờ m ba bước chiń h: nhâ ̣n da ̣ng các thực thể tên, chuẩn hoá thực thể tên và phân loa ̣i quan ̣ chúng Hai bước sau thường hay xuấ t hiê ̣n các đố i tươ ̣ng mới, đă ̣c biê ̣t là lĩnh vực y sinh Các kế t quả thực nghiê ̣m bô ̣ liêụ chuẩn đã chỉ tiń h hiê ̣u quả của mô hiǹ h đề xuấ t vấ n đề nhâ ̣n da ̣ng đươ ̣c các đố i tươ ̣ng mới chưa xuấ t hiê ̣n huấ n luyê ̣n mô hiǹ h vấ n đề chuẩn hoá tên Đă ̣c biê ̣t, mơ hiǹ h chuẩn hoá thực thể tên đạt giá tri đô ̣ ̣ đo F1 = 80%, tố t của các phương pháp cùng thể loa ̣i tiń h đế n thời điểm hiê ̣n ta ̣i Từ khóa: Học máy suốt đời, học giới mở, học sâu, chuẩn hoá tên thực thể bệnh iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT SVM Support Vector Machines/Máy vector hỗ trợ CNN Convolutional neural network/Ma ̣ng nơ ron tích châ ̣p LL Life long learning/Ho ̣c suố t đời ML Machine learning/Ho ̣c máy DOC Deep Open Classification/Phân lớp mở sâu CBS Center Based Similarity/Đô ̣ tương tự dựa trung tâm NNO Nearest Non-Outlier/Không ngoa ̣i lai gầ n nhấ t v DANH SÁCH BẢNG Bảng 1.1: Bảng 1.1 - Một ví dụ toán chuẩn hoá tên bệnh 17 Bảng 3.1 - Một ví dụ tốn chuẩn hố tên thực thể thuốc 27 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh .33 Bảng 4.2: Các công cụ thực nghiệm .34 Bảng 4.3: So sánh kết sử dụng dữ liệu câu dữ liệu SDP số lớp biết khác tập dữ liệu SemEval-2010 Task 37 Bảng 4.4: Tổng hợp kết mô hình DOC chuẩn hóa thực thể tên bệnh 38 Bảng 4.5: Kết thực nghiệm so sánh 38 vi DANH SÁCH HÌNH ẢNH Hình 1.1: Kiến trúc mơ hình học máy cổ điển Hình 2.1: Kiến trúc tổng quan hệ thống học suốt đời 10 Hình 2.1: Mơ hình tổng quan DOC .22 Hình 2.2: Mơ hình tổng quan DOC .23 Hình 3.1: Định danh, tên hay dùng tên đồng nghĩa bệnh MEDIC 27 Hình 3.1: Mơ hình đường ống chuẩn hố thực thể tên bệnh .28 Hình 3.2: Kiến trúc hệ thống chuẩn hoá tên thực thể y sinh dựa mạng nơ ron tích chập Cho cợng đề xuất [9] 28 vii Hình 2.2: Rủi ro khơng gian mở hàm sigmoid [13] Ước tính đô ̣ lê ̣ch chuẩn σi cả điểm hiê ̣n có và các điểm giả đươc̣ ta ̣o Trong thố ng kê, nế u mô ̣t giá tri/điểm ̣ liê ̣u nằm ngoài khoảng xung quanh kỳ vo ̣ng mô ̣t số nhấ t đinh ̣ (α =3) lầ n đô ̣ lê ̣ch chuẩn đươc̣ coi là mơ ̣t điểm ngoa ̣i lai Do đó, ngưỡng xác suấ t đươc̣ thiê ̣t lâ ̣p theo công thức ti = max (0.5, – ασi), α = Kết luận Chương Dựa mục tiêu đươc̣ đề Chương 1, Chương trình bày chi tiế t về hai phương pháp ho ̣c thế giới mở đươc̣ giới thiê ̣u gầ n đây, là: (i) mơ hình phân lớp thế giới mở dựa phương pháp ho ̣c không gian tương tự dựa trung tâm Fei và Liu đề xuấ t năm 2015 (ii) mô hình phân lớp mở dựa kỹ thuâ ̣t ho ̣c sâu (DOC) sử dụng mơ hình ho ̣c sâu Shu cô ̣ng đề xuấ t năm 2017 Cả hai phương pháp này đề u sử dụng khái niê ̣m “Rủi ro khơng gian mở” có khả giải qú t vấ n đề phát hiê ̣n liê ̣u mới chưa xuấ t hiê ̣n lúc huấ n lu ̣n mơ hình Chúng đã đươc̣ tác giả thực nghiê ̣m cho kế t quả tố t cho toán phân loa ̣i văn bản mở Tuy nhiên vẫn chưa có nghiên cứu về hiê ̣u quả ứng dụng của chúng cho toán chuẩn hóa thực thể tên, tốn quan tro ̣ng có xuấ t hiê ̣n của nhiề u tên mới (đă ̣c biê ̣t lĩnh vực y sinh), thiế t yế u viê ̣c trích xuấ t tri thức đươc̣ viế t (ở da ̣ng phi cấ u trúc) văn bản Chương tiế p theo giới thiê ̣u mơ ̣t mơ hình ứng dụng DOC vào toán chuẩn hoá quan tro ̣ng 24 Chương 3: Ứng dụng mơ hình DOC vào chuẩn hóa tên bệnh 3.1 Ứng dụng chuẩn hóa tên thực thể bệnh Khai phá tri thức từ y văn đóng mơ ̣t vai trò quan tro ̣ng đớ i với các nhà nghiên cứu y sinh cũng các nhà khoa ho ̣c liê ̣u năm gầ n Nó đã giúp nhà nghiên cứu đẩy nhanh trình nghiên cứu, khám phá các tri thức mới của ho ̣, qua giúp giảm chi phí nghiên cứu lĩnh vực y sinh hiê ̣n rấ t tố n Lấ y ví dụ, theo [15], mô ̣t loa ̣i thuố c mấ t trung bình khoảng 14 năm và hai tỷ đô la Mỹ để đươc̣ phát triển thành công, xuấ t hiê ̣n thi ̣ trường Quá trình tố n này đươc̣ cải thiê ̣n ma ̣nh mẽ nế u các tác dụng phụ gây bê ̣nh của th́ c đươc̣ phát hiê ̣n nhanh mô ̣t cách tự đô ̣ng từ mô ̣t khố i lươṇ g khổng lồ văn bản y sinh Viê ̣c phát hiê ̣n chuẩn hóa thực thể y sinh rấ t quan tro ̣ng để khám phá quan ̣ mới, quan tro ̣ng các thuố c và các bê ̣nh không đươc̣ mô tả cùng mô ̣t bài báo y sinh [2] Chuẩn hóa thực thể tên bê ̣nh (Named Entity Normalization) là mô ̣t các phầ n thiế u ́ u của trích x́ t thơng tin, đă ̣c biê ̣t có ý nghĩa cho các nghiên cứu y sinh và ứng dụng lâm sàng Nó thực hiê ̣n viê ̣c liên kế t mô ̣t tên bê ̣nh đươc̣ nhắ c đế n tài liê ̣u y sinh đế n đinh ̣ dang tương ứng của đươc̣ lưu sẵn bơ ̣ từ vựng y sinh hiê ̣n có [8] (Xem Bảng 3.1) Bài toán NEN cho các tên thực thể bê ̣nh có rấ t nhiề u thách thức: 1) nhâ ̣p nhằng: cùng mơ ̣t tên bê ̣nh có nhiề u đinh ̣ danh; 2) phong phú: nhiề u cách đă ̣t tên cho mô ̣t [đinh ̣ danh] bê ̣nh [9] Hơn nữa, tên bê ̣nh là đươc̣ đă ̣t tên theo nhiề u cách, tùy thuô ̣c vào vi ̣ trí giải phẫu, triê ̣u chứng, điề u tri,̣ v.v Bên ca ̣nh đó, các tên bê ̣nh thường dài phức ta ̣p, thâ ̣m chí là viế t tắ t Nhiề u nghiên cứu đã sử dụng thuâ ̣t toán dựa luâ ̣t để giải quyế t vấ n đề chuẩn hoá tên bê ̣nh, không hiê ̣u quả viê ̣c xử lý tấ t cả thuâ ̣t ngữ bê ̣nh tài liê ̣u y sinh Ví dụ, cả hai từ “carcinoma” và “cancer" đề u đề câ ̣p đế n bê ̣nh “tăng trưởng bất thường tế bào di căn”; Từ KMS là từ viế t tắ t của hô ̣i chứng Kabuki (Kabuki make up syndrome) hoă ̣c hô ̣i chứng Kallmann (Kallmann syndrome), là hai hô ̣i chứng rố i loa ̣n hoàn toàn không liên quan đế n Với bài toán chuẩn hoá tên bê ̣nh, các nghiên cứu thế giới đề u sử dụng bô ̣ từ vựng MEDIC (MErged DIsease voCabulary) [4], đươc̣ trì Cơ sở liê ̣u đố i sánh 25 Toxicogenomics [4], mô ̣t ̣ CSDL về tác đô ̣ng của viê ̣c tiế p xúc với môi trường đố i với sức khỏe người MEDIC đươc̣ ta ̣o cách tích hơp̣ CSDL OMIM (Mendel trực tuyế n di truyề n người), mô ̣t bô ̣ từ vựng đươc̣ kiểm soát về các bê ̣nh di truyề n người và mô ̣t số phầ n của MeSH, là mô ̣t bô ̣ từ vựng đươc̣ tổ chức theo thứ bâ ̣c thành 16 nhánh Trong số các nhánh này, nhánh bê ̣nh và nhánh phụ của Rối loạn tâm thần nhánh Tâm lý học chứa các khái niê ̣m bê ̣nh đươc̣ sử dụng để xây dựng MEDIC [4] Document Intravenous administration of a single 50-mg bolus of lidocaine in a 67-year-old man resulted in profound depression of the activity of the sinoatrial and atrioventricular nodal pacemakers The patient had no apparent associated conditions which might have predisposed him to the development of bradyarrhythmias; and, thus, this probably represented a true idiosyncrasy to lidocaine Input Output lidocaine D008012 depression D003866 bradyarrhythmias Unknown Bảng 3.1 - Một ví dụ tốn chuẩn hoá tên thực thể thuốc MEDIC đươc̣ câ ̣p nhâ ̣t hàng tháng, hiê ̣n ta ̣i có 9.664 khái niê ̣m (đinh ̣ danh) bê ̣nh, với tổng số 67.782 tên bê ̣nh Trung bình, bê ̣nh có 7.01 tên đồ ng nghĩa, bao gồ m tên tên đờ ng nghĩa 91% bê ̣nh có tên đờ ng nghĩa với tên 47% bê ̣nh có đinh ̣ nghĩa hoă ̣c mơ tả về các khái niê ̣m này Mô ̣t ví dụ về bê ̣nh MEDIC đươc̣ đưa Hình 3.2 Bê ̣nh này có đinh ̣ danh MESH:D009369, (ban đầ u xuấ t phát từ MeSH) Bê ̣nh có tên Neoplasms, tên hay đươc̣ sử dụng, và chín thuâ ̣t ngữ khác đờ ng nghĩa Có thể thấ y các th ̣t ngữ từ đờ ng nghĩa là tên thay thế cho tên chính, hoă ̣c là các biế n thể của tên chính hoă ̣c các từ đồ ng nghĩa khác, ví dụ Neoplasm, Benign Benign Neoplasm Trong mơ ̣t sớ trường hơp̣ , cũng là từ viế t tắ t của các tên khác của bê ̣nh, hoă ̣c tên với tính từ bổ nghĩa kèm 26 Hình 3.1 Định danh, tên hay dùng tên đồng nghĩa bệnh MEDIC 3.2.1 Mơ hình đề xuất Tổng quan về mô hình đề xuấ t đươc̣ minh ho ̣a Hình 3.3 Nó là mơ ̣t mơ hình đường ố ng bao gồ m ba thành phầ n: • Mô đun tiề n xử lý và phân giải viế t tắ t • Mơ-đun khớp từ điển để đẩy nhanh viê ̣c chuẩn hoá • Ma ̣ng nơ ron ho ̣c sâu thế giới mở để chuẩn hoá tên bê ̣nh (không đươc̣ tìm thấ y từ điển) thành đinh ̣ danh của bơ ̣ từ vựng Hình 3.2: Mơ hình đường ống chuẩn hố thực thể tên bệnh 27 Bộ phân giải viết tắt Trong tài liê ̣u y sinh, có rấ t nhiề u thực thể tên bê ̣nh dài, và thường đươc̣ go ̣i cách sử dụng các từ viế t tắ t Khơng có mơ ̣t quy tắ c thớ ng nhấ t nào để phân giải đươc̣ từ viế t tắ t thành tên đầ y đủ tài liê ̣u khác mơ ̣t từ viế t tắ t có ý nghĩa khác và/ngươc̣ la ̣i các từ khác có cùng ý nghĩa Đớ i với các thực thể tên bê ̣nh, luâ ̣n văn sử dụng công cụ Ab3P (Abbreviation Plus Pseudo-Precision) [14] để phân giải từ viế t tắ t Ab3p đươc̣ sử dụng để xác đinh ̣ từ viế t tắ t tài liê ̣u và đưa danh sách các từ đầ y đủ cho cùng với xác suấ t kèm Ví dụ, nế u thực thể PFS xuấ t hiê ̣n tài liê ̣u, Ab3P phát hiê ̣n trả về kế t quả: PFS| progression-free survival (sống sót không có tiến triển) | 0.999408; PFS tên viế t tắ t, progression-free survival là tên đầ y đủ và 0,999408 là xác suấ t của tên viết tắ t cho tên đầ y đủ Ngồi ra, để phục vụ cho mơ đun tìm kiế m từ điển, các tên bê ̣nh (đươc̣ đề câ ̣p văn bản cũng tâ ̣p từ vựng MEDIC) đươc̣ chuyển về chữ thường Các ký tự chấ m câu và các ký tự đă ̣c biê ̣t bi ̣ loa ̣i bỏ Các tên đươc̣ chuyển về da ̣ng gớ c của công cụ Snowball Mạng nơ ron học sâu giới mở Với thực thể tên bê ̣nh m tài liê ̣u đươc̣ gán nhãn đinh ̣ danh IDm, ta ̣o ra: Mô ̣t tâ ̣p Nm+ gồ m các tên bê ̣nh từ vựng (n+) có nhãn đinh ̣ danh là IDm Că ̣p đươc̣ xem là mô ̣t ví dụ dương Mô ̣t tâ ̣p Nm-, có kích cỡ của Nm+, gồ m các tên bê ̣nh từ vựng (n-) mà khơng có nhañ đinh ̣ danh là IDm Các tên bê ̣nh n- này là tên giố ng với m nhấ t, đươc̣ tính theo đô ̣ đo tích vơ hướng của vector TF-IDF(m) TFIDF(n-), TF-IDF(.) là vector tầ n số từ-tầ n số tài liê ̣u ngươc̣ Că ̣p đươc̣ xem là mô ̣t ví dụ âm Đă ̣t M = {m1, m2, , mn} tâ ̣p chứa tấ t cả các thực thể tên bê ̣nh xuấ t hiê ̣n văn bản tâ ̣p huấ n luyê ̣n Tâ ̣p liê ̣u huấ n luyê ̣n dương và âm (tương ứng gồ m các că ̣p ví dụ dương và âm) đươc̣ ta ̣o từ tấ t cả các thực thể mi M Điề u tương tự cũng đươc̣ ta ̣o cho tấ t cả văn bản tâ ̣p liê ̣u kiểm đinh ̣ (Validation) để tinh chỉnh mơ hình 28 Luâ ̣n văn sử dụng mô hình chuẩn hoá tên thực thể y sinh dựa ma ̣ng nơ ron tích châ ̣p (CNN) Cho và cô ̣ng giới thiê ̣u năm 2017 [3] Luâ ̣n văn ứng dụng ho ̣c thế giới mở cách thay tầ ng softmax cuố i cùng tầ ng 1-so-với-còn la ̣i sigmoids, đươc̣ sử dụng mô hình DOC Mô hình Cho và cô ̣ng giới thiê ̣u nhâ ̣n đầ u vào là tâ ̣p Nm+ Nm- đươc̣ mô tả Mỗi mô ̣t că ̣p đươc̣ qua tầ ng nhúng từ (embedding) để ta ̣o ma trâ ̣n các vector biễu diễn cho các từ mention m và tên (name) n Ở tầ ng tích chập (convolution) tiế p theo các bô ̣ lo ̣c (filter) với kích thước khác đươc̣ áp dụng đô ̣c lâ ̣p mention m và tên n để ta ̣o các bản đồ đă ̣c trưng châ ̣p (convolution feature maps) Các bản đồ đă ̣c trưng m và n đươc̣ qua hai tầ ng pooling trước đươc̣ gô ̣p la ̣i với ta ̣i tầ ng gô ̣p (join layer) Ngoài ra, đầ u của hai tầ ng pooling còn đươc̣ qua tầ ng so khớp giố ng (similarity matching) để ta ̣o mô ̣t đă ̣c trưng thể hiê ̣n giố ng của m và n Đă ̣c trưng này cũng đươc̣ gô ̣p vào với đă ̣c trưng pooling tầng gô ̣p Đầ u từ tầ ng gô ̣p đươc̣ cho qua mô ̣t tầ ng ẩn kế t nố i đầ y đủ trước cho qua tầ ng softmax cuố i cùng Kiế n trúc tổng thể của mô hình của Cho và cô ̣ng đươc̣ thể hiê ̣n Hình 3.3 Hình 3.3 Kiến trúc hệ thống chuẩn hoá tên thực thể y sinh dựa mạng nơ ron tích chập Cho cộng đề xuất [3] 29 Kết luận Chương Chương giới thiê ̣u mơ ̣t mơ hình ứng dụng DOC vào toán quan tro ̣ng, thiế t ́ u cho q trình trích x́ t tự đô ̣ng tri thức (đươc̣ viế t dưới da ̣ng phi cấ u trúc) văn bản y sinh, là (i) chuẩn hóa thực thể tên bênh ̣ Đây là bài toán thường có xuấ t hiê ̣n của các đố i tươṇ g liê ̣u thuô ̣c lớp mới chưa xuấ t hiê ̣n lúc huấ n luyê ̣n mô hình, đă ̣c biê ̣t là lĩnh vực y sinh Chương sau trình bày kế t quả thực nghiê ̣m của mơ hình ứng dụng 30 Chương 4: Thực nghiệm đánh giá 4.1 Dữ liệu thực nghiệm chuẩn hoá tên bệnh Thực nghiê ̣m vào bài toán chuẩn hoá tên thực thể thuố c (disease normalization) với bô ̣ liê ̣u chuẩn NCBI disease nhóm nghiên cứu từ bô ̣ khoa ho ̣c công nghê ̣ sinh ho ̣c Mỹ (NCBI) cung cấ p Đây là bô ̣ liê ̣u chuẩn vàng đươc̣ sử dụng các mô hình chuẩn hoá tên thực thể bê ̣nh khác thế giới Bô ̣ liê ̣u gồ m tâ ̣p con: tâ ̣p train, tâ ̣p development, tâ ̣p test có sớ lươṇ g abstract (tóm tắ t bài báo y sinh) tương ứng là 593, 100, 100 Trong sớ lươṇ g các disease mentions (các đoa ̣n text tên bê ̣nh), và số lươṇ g tên bê ̣nh khác đươc̣ cho sau: Corpus NCBI Subset Articles Mentions Uniques Training 593 5145 1710 Development 100 787 368 Test 100 960 203 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh Mô hình đề xuấ t của luâ ̣n văn sử dụng vector biễu diễn từ có 300 chiề u, đươc̣ cung cấ p miễn phí (gờ m triê ̣u từ khác nhau) Pyysalo cô ̣ng [11] ho ̣ huấ n luyê ̣n mô hình word2vec tâ ̣p tấ t cả các văn bản tóm tắ t CSDL PubMed toàn văn CSDL PMC [11] Có 59/203 (30%) mã đinh ̣ danh (IDs) tâ ̣p test không xuấ t hiê ̣n tâ ̣p train + dev 31 4.2 Môi trường công cụ thực nghiệm Bảng sau giới thiê ̣u chi tiế t về công cụ, môi trường và phầ n mề m thực nghiê ̣m STT Phầ n mềm Ý nghĩa Nguồn Pycharm Môi trường phát triển https://www.jetbrains.com/pycharm Python 2.7 Ngôn ngữ phát triển https://www.python.org/ Tensorflow Thư viê ̣n cho ho ̣c sâu Sklearn Thư viê ̣n hỗ trơ ̣ các công cụ ho ̣c máy https://www.tensorflow.org/ http://scikit-learn.org/ Bảng 4.4: Các công cụ thực nghiệm 4.3 Kết đánh giá Mô hình đươc̣ đánh giá và so sánh dựa đô ̣ đo F1 mức mã đinh ̣ danh Giả sử tâ ̣p {A, B, C, D} là tâ ̣p tấ t cả các đinh ̣ danh khác đươc̣ gán cho tấ t cả các tên bê ̣nh tâ ̣p kiểm tra và tâ ̣p {A, B, E, F} là tâ ̣p tấ t cả các đinh ̣ danh khác đươc̣ dự đoán mô hình cho tấ t cả các tên bê ̣nh tâ ̣p kiểm tra Khi A và B là TP (True Positive), C D FN (False Negative), E F FP (False Positive) Mô hình đươc̣ cho cha ̣y 20 lầ n và micro F1 đươc̣ tính để đo hiê ̣u quả của mô hình Sử dụng sigmoids (100% nhan ̣ luâ ̣n văn thu ̃ ), và cả ngưỡng T=0.5 mă ̣c đinh đươc̣ đô ̣ đo trung bình F1=78% Dùng công thức điề u chỉnh ngưỡng của mô hình DOC (Ti = max(0.5; - alpha*stdi; alpha =3), 1-alpha*stdi rấ t nhỏ (=0.09) nên Ti vẫn 0.5 mă ̣c đinh ̣ cho sigmoids), luâ ̣n văn vẫn thu đươc̣ F1 trung bình 78% (xem Bảng 4.5) Kế t quả này xấ p xỉ với kế t của của mô hình chuẩn hoá thực thể tên bê ̣nh của [3] 32 100% Ti=0.5 mă ̣c đinh ̣ Ti = max(0.5; – 3*std) Ti = max(0; - 3*std) F1 78% 78% 78.6 Bảng 4.5: Bảng tổng hơp̣ kế t quả mô hình DOC chuẩn hoá thực thể tên bê ̣nh Luâ ̣n văn đã sử dụng công thức điề u chỉnh ngưỡng của mô hình DOC công thức Ti = max(0.5; - alpha*stdi), từ thu đươc̣ ngưỡng mới T1 = 0,09 T2 = 0.7 Với hai ngưỡng mới này, mô hình chuẩn hoá thực thể tên bê ̣nh của luâ ̣n văn đa ̣t trung bình F1 = 78.6% Thực nghiê ̣m với sigmoid, mô hình chuẩn hoá thực thể tên bê ̣nh của luâ ̣n văn có khả đa ̣t tới giá tri ̣ trung bình F1 = 80.2%, tố t kế t quả của mơ hình Cho và ̣ng sự, mơ hình tớ t nhấ t đế n thời điểm hiê ̣n ta ̣i và cùng thể loa ̣i với mô hình đề xuấ t của luâ ̣n văn Model micro F1 Chỉ sử dụng Khớp từ điển 66.10 Mơ hình luận văn 80.2% Cho & cô ̣ng sự, 2017 [3] 78.80 Wright, 2019 [16] 87.8% Phan & cô ̣ng sự, 2019 [10] 87.7% Bảng 4.6 Kết thực nghiệm so sánh Mô hình đề xuấ t của luâ ̣n văn hiê ̣n có kế t quả chuẩn hoá tên thực thể bê ̣nh hai mô hình chuẩn hoá tên thực thể bê ̣nh đươc̣ giới thiê ̣u gầ n nhấ t (2019) của Wright 33 [16] và Phan & cô ̣ng [10] Tuy vâ ̣y, khác với mô hình đề xuấ t của luâ ̣n văn, cả hai mô hình đề u sử dụng thêm thông tin biểu diễn các tên bê ̣nh từ viê ̣c tích hơp̣ thêm bô ̣ mã hoá dựa ma ̣ng nơ ron hồ i quy hai chiề u bidirectional Long Short Term Memory Với thực nghiê ̣m sử dụng phiên bản rút go ̣n của bô ̣ từ vựng MEDIC tức tâ ̣p từ vựng chỉ chứa các ID bê ̣nh (cùng các tên đồ ng nghĩa) xuấ t hiê ̣n tâ ̣p train+dev Dùng sigmoid mô hình luâ ̣n văn cho kế t quả micro F1 = 76.1 phát hiê ̣n 22/59 IDs mới (unknown/rejection) 34 Kết luận Chương Chương này trình bày giới thiê ̣u về mô ̣t bô ̣ liê ̣u chuẩn vàng mà mơ hình ứng dụng Chương đươc̣ thực nghiê ̣m Các kế t quả thực nghiê ̣m, với so sánh và đánh giá đươc̣ giới thiê ̣u, chứng tỏ hiê ̣u quả của mơ hình ứng dụng ho ̣c thế giới mở dựa kỹ thuâ ̣t ho ̣c sâu tốn chuẩn hóa thực thể tên bê ̣nh 35 Kết luận Luâ ̣n văn đã trình bày chi tiế t về Ho ̣c máy thế giới mở, là mô ̣t nô ̣i dung quan trọng của lĩnh vực ho ̣c máy suố t đời Ho ̣c máy thế giới mở không yêu cầ u giả đinh ̣ thế giới đóng; có khả phát hiê ̣n các trường hơp̣ của các lớp không nhìn thấ y quá trình thử nghiê ̣m hoă ̣c ứng dụng mô hình, và tăng dầ n các lớp mới để câ ̣p nhâ ̣t các lớp mới mô hình mà không đào ta ̣o la ̣i toàn bô ̣ mơ hình từ đầ u L ̣n văn đã trình bày mô ̣t mô hình đề xuấ t ứng dụng ho ̣c thế giới mở dựa kỹ thuâ ̣t ho ̣c sâu (cụ thể là ma ̣ng nơ ron tích châ ̣p CNN) cho bài toán chuẩn hoá thực thể tên (là vấ n đề gă ̣p nhiề u đố i tươṇ g mới) Chuẩn hoá tên thực thể có rấ t nhiề u thách thức, đã và nhâ ̣n đươc̣ nhiề u quan tâm nghiên cứu của các nhóm nghiên cứu lớn thế giới Luâ ̣n văn đã cho ̣n miề n văn bản y sinh là miề n ứng dụng có rấ t nhiề u tên mới xuấ t hiê ̣n Bài toán chuẩn hoá thể bê ̣nh tên bê ̣nh là vấ n đề có nhiề u ý nghĩa cho ̣ng đờ ng nghiên cứu y-sinh-dươc̣ Các kế t quả thực nghiê ̣m bô ̣ liê ̣u chuẩn tên bê ̣nh đã chỉ tính hiê ̣u quả của mô hình đề xuấ t vấ n đề nhâ ̣n da ̣ng đươc̣ các tên mới chưa xuấ t hiê ̣n h́ n lụn mơ hình vấ n đề chuẩn hoá thực thể tên bê ̣nh Đă ̣c biê ̣t, mô hình chuẩn hoá thực thể tên đa ̣t giá tri ̣ ̣ đo F1 = 80%, tố t của các phương pháp cùng thể loa ̣i tính đế n thời điểm hiê ̣n ta ̣i Trong năm 2019 có hai cơng trình mới nhấ t đã đươc̣ giới thiê ̣u cho bài toán chuẩn hóa thực thể tên bê ̣nh từ y văn với kế t quả rấ t ấ n tươṇ g (F1=90%) Tuy vâ ̣y, cả hai mô hình mới này đề u khơng có khả phát hiê ̣n các tên mới chưa xuấ t hiê ̣n lúc ho ̣c Chúng sử dụng thêm ma ̣ng BiLSTM để nâng cao hiê ̣u mô hình Mô ̣t hướng nghiên cứu tiế p theo khả quan của luâ ̣n án là tích hơp̣ BiLSTM vào mơ hình thê giới mở dựa kỹ thuâ ̣t ho ̣c sâu chuẩn hóa tên bê ̣nh của l ̣n văn Ć i cùng, tiế p tục cải tiế n mơ hình phân lớp mở quan ̣ sử dụng các kỹ thuâ ̣t ho ̣c sâu (thế giới đóng) mới nhấ t cũng là mô ̣t hướng nghiên cứu khả quan tiế p theo của luâ ̣n văn 36 Tài liệu tham khảo Bendale A., Boult T.E Towards open world recognition CVPR 2015: 1893-1902 Chen Z., and Liu B Lifelong Machine Learning (2nd edition) Morgan & Claypool, 2018 Cho H., Choi W., and Lee H., A method for named entity normalization in biomedical articles: application to diseases and plants In BMC Bioinformatics, 2017 Davis A.P., Wiegers T C., Rosenstein M C., and Mattingly C J MEDIC: a practical disease vocabulary used at the Comparative Toxicogenomics Database In Database, 2012 Fei F., Wang S., Liu B., Learning Cumulatively to Become More Knowledgeable KDD 2016: 1565-1574 Fei G., Liu B., Breaking the Closed World Assumption in Text Classification HLT-NAACL 2016: 506-514 Kim Y., (2014) Convolutional neural networks for sentence classification ArXiv Preprint ArXiv:1408.5882 DOI: 10.3115/v1/d14-1181 Leaman R., Doğan R.I., and Lu Z., “DNorm: disease name normalization with pairwise learning to rank”, Bioinformatics 29, 2013, no 22, pp 2909-2917 Li H., Chen Q., Tang B., Wang X., Xu H., Wang B., and Huang D., “CNN-based ranking for biomedical entity normalization”, BMC bioinformatics, 2017, no 11, vol 18, pp 385 10 Phan, M.C., Sun, A and Tay, Y., 2019, July Robust Representation Learning of Biomedical Names In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp 3275-3285) 11 Pyysalo S., Ginter F., and Moen H., “Distributional semantics resources for biomedical text processing”, LBM 2013, pp 39-44 12 Scheirer W.J., Rocha A.d.R., Sapkota A., and Boult T.E., (2013) Toward open set recognition Pattern Analysis and Machine Intelligence, IEEE Transactions on, 35(7), pages 1757–1772 DOI: 10.1109/tpami.2012.256 13 Shu L., Xu H., and Liu B., (2017) DOC: Deep open classification of text documents In EMNLP DOI: 10.18653/v1/d17-1314 14 Sohn S, Comeau DC, Kim W, Wilbur WJ BMC Bioinformatics 2008 Sep 25;9:402 PubMed ID: 18817555 15 Wei C.H., Peng Y., Leaman R., Davis A.P., Mattingly C.J., Li J., Wiegers T.C., and Lu Z., “Overview of the BioCreative V chemical disease relation (CDR) task”, 37 Proceedings of the fifth BioCreative challenge evaluation workshop, 2015, pp 154-166, Spain: Sevilla 16 Wright, D., 2019 NormCo: Deep disease normalization for biomedical knowledge base construction (Doctoral dissertation, UC San Diego) 38 ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích liệu văn dựa học máy giới mở ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY... giới mở dựa kỹ thuâ ̣t ho ̣c sâu 17 Chương Học sâu giới mở cho văn 2.1 Học giới mở không gian đơn giản trung tâm G Fei và cô ̣ng [5] đã giới thiê ̣u mô ̣t mô hình phân lớp thế giới mở dựa. .. t luâ ̣n 36 Tài liê ̣u tham khảo 37 TĨM TẮT Phân tích liệu văn dựa học máy giới mở ứng dụng Phạm Thị Quỳnh Trang Khóa ho ̣c: QH-2013- I/CQ Ngành: Hê ̣ thớ ng thơng