Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích liệu văn dựa học máy giới mở ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thông tin Hà Nội, 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích liệu văn dựa học máy giới mở ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thông tin Cán hướng dẫn: PGS.TS Hà Quang Thụy HÀ NỘI - 2019 LỜI CẢM ƠN Đầu tiên, em xin gửi lời biết ơn chân thành và sâu sắc nhất đến thầy giáo PGS TS Hà Quang Thụy, người đã động viên, nhiệt tình hướng dẫn và tạo mọi điều kiện tốt nhất cho em hoàn thành được luận văn Em xin chân thành cảm ơn các thầy cô, các anh chị em phòng thí nghiệm Công nghệ và tri thức đã giúp đỡ và động viên tinh thần thời gian em học tập và công tác Em chân thành cảm ơn quý Thầy, Cơ Khoa Cơng Nghệ Thơng Tin nói riêng trường đại học Công Nghệ - Đại học Quốc Gia Hà Nợi nói chung đã tận tình trùn đạt kiến thức quý báu quá trình học tập tại Trường Cuối cùng, em xin cảm ơn người thân yêu của em, đặc biệt là chồng em đã động viên, tạo điều kiện tốt nhất cho em quá trình học tập và hoàn thành luận văn Em xin chân thành cảm ơn! Luận văn này được thực hiện khuôn khổ đề tài Nafostef mã số: 102.052016.14 “Nghiên cứu và phát triển các mô hình học máy tiên tiến phát hiện và trích xuất mối quan hệ tác dụng phụ của th́c/hóa chất và bệnh từ văn bản y-sinh”, năm 2016 i LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ công nghệ thông tin “Phân tích liệu văn bản dựa học máy thế giới mở và ứng dụng” là công trình nghiên cứu của riêng tôi, không chép lại của người khác Trong toàn bộ nội dung của luận văn, điều đã được trình bày hoặc là của chính cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan này Hà Nội, ngày 15 tháng 12 năm 2019 Học viên Phạm Thị Quỳnh Trang ii Mục Lục LỜI CẢM ƠN i LỜI CAM ĐOAN ii TÓM TẮT iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT v DANH SÁCH BẢNG vi DANH SÁCH HÌNH ẢNH vii Mở đầu Chương Học máy thế giới mở và bài toán chuẩn hóa tên thực thể bệnh 1.1 Học máy truyền thống 1.2 Học máy suốt đời 1.2.1 Định nghĩa học máy suốt đời 1.2.2 Các hướng nghiên cứu LL 12 1.3 Học máy thế giới mở 12 1.4 Mục tiêu của luận văn 15 Kết luận Chương 17 Chương Học sâu thế giới mở cho văn bản 18 2.1 Học thế giới mở không gian đơn giản trung tâm 18 2.1.1 Tăng cường cập nhật mơ hình học CBS 18 2.1.2 Kiểm tra mơ hình học CBS 20 2.1.3 Học CBS cho phát hiện lớp chưa thấy 20 2.2 Học sâu thế giới mở phân lớp văn bản 21 2.2.1 CNN lớp chuyển tiếp của DOC 22 2.2.2 Tầng 1- với-phần còn lại 23 2.2.2 Giảm rủi ro không gian mở 23 Kết luận Chương 24 Chương 3: Ứng dụng mơ hình DOC vào chuẩn hóa tên bệnh 25 3.1 Ứng dụng chuẩn hóa tên thực thể bệnh 25 3.2.1 Mô hình đề xuất 27 Bộ phân giải viết tắt 28 Mạng nơ ron học sâu thế giới mở 28 Kết luận Chương 30 Chương 4: Thực nghiệm và đánh giá 31 4.1 Dữ liệu thực nghiệm chuẩn hoá tên bệnh 31 4.2 Môi trường và các công cụ thực nghiệm 32 4.3 Kết quả và đánh giá 32 Kết luận 36 Tài liệu tham khảo 37 TĨM TẮT Phân tích liệu văn dựa học máy giới mở ứng dụng Phạm Thị Quỳnh Trang Khóa học: QH-2013- I/CQ Ngành: Hệ thớng thơng tin Tóm tắt: Học máy suốt đời (Lifelong Machine Learning: LML) là một tiếp cận học máy liên tục, trích chọn và lưu giữ tri thức từ quá khứ để sử dụng giải quyết các bài toán học mới Học thế giới mở, một dạng của học máy śt đời, có lực phát hiện các trường hợp chưa thấy để hình thành các bài toán mới Phân lớp thế giới mở thực hiện ba bài toán thành phần là (i) Phát hiện thực thể mới, thuộc vào các lớp hiện có, (ii) Xây dựng mơ hình phân lớp cho các lớp mới, và (iii) hiệu chỉnh các mô hình phân lớp vớn có để nâng cao hiệu bợ phân lớp có thêm các lớp mới Dựa mô hình phân lớp học sâu thế giới mở DOC (Deep Open Classification) của L Shu và cộng sự, luận văn đề nghị mô hình ứng dụng phân lớp học sâu thế giới mở cho bài toán chuẩn hoá thực thể tên và phân lớp quan hệ văn bản y sinh Việc trích xuất tự động tri thức từ văn bản đóng vai trò quan trọng học śt đời Nó bao gờm ba bước chính: nhận dạng các thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ chúng Hai bước sau thường hay xuất hiện các đối tượng mới, đặc biệt là lĩnh vực y sinh Các kết quả thực nghiệm bộ liệu chuẩn đã chỉ tính hiệu quả của mô hình đề xuất vấn đề nhận dạng được các đối tượng mới chưa xuất hiện huấn luyện mô hình vấn đề chuẩn hoá tên Đặc biệt, mơ hình chuẩn hoá thực thể tên đạt giá trị độ đo F1 = 80%, tốt của các phương pháp cùng thể loại tính đến thời điểm hiện tại Từ khóa: Học máy suốt đời, học giới mở, học sâu, chuẩn hoá tên thực thể bệnh iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT SVM Support Vector Machines/Máy vector hỗ trợ CNN Convolutional neural network/Mạng nơ ron tích chập LL Life long learning/Học suốt đời ML Machine learning/Học máy DOC Deep Open Classification/Phân lớp mở sâu CBS Center Based Similarity/Độ tương tự dựa trung tâm NNO Nearest Non-Outlier/Không ngoại lai gần nhất v DANH SÁCH BẢNG Bảng 1.1: Bảng 1.1 - Một ví dụ tốn chuẩn hố tên bệnh 17 Bảng 3.1 - Một ví dụ toán chuẩn hoá tên thực thể thuốc …………………….27 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh 33 Bảng 4.2: Các công cụ thực nghiệm 34 Bảng 4.3: So sánh kết sử dụng dữ liệu câu dữ liệu SDP số lớp biết khác tập dữ liệu SemEval-2010 Task 37 Bảng 4.4: Tổng hợp kết mơ hình DOC chuẩn hóa thực thể tên bệnh 38 Bảng 4.5: Kết thực nghiệm so sánh 38 vi DANH SÁCH HÌNH ẢNH Hình 1.1: Kiến trúc mơ hình học máy cổ điển Hình 2.1: Kiến trúc tổng quan hệ thống học suốt đời 10 Hình 2.1: Mơ hình tổng quan DOC 22 Hình 2.2: Mơ hình tổng quan DOC 23 Hình 3.1: Định danh, tên hay dùng tên đồng nghĩa bệnh MEDIC 27 Hình 3.1: Mơ hình đường ống chuẩn hố thực thể tên bệnh 28 Hình 3.2: Kiến trúc hệ thống chuẩn hoá tên thực thể y sinh dựa mạng nơ ron tích chập Cho cợng đề xuất [9] 28 vii Hình 2.2: Rủi ro khơng gian mở hàm sigmoid [13] Ước tính độ lệch chuẩn σi cả điểm hiện có và các điểm giả được tạo Trong thống kê, nếu một giá trị/điểm liệu nằm ngoài khoảng xung quanh kỳ vọng một số nhất định (α =3) lần độ lệch chuẩn được coi là một điểm ngoại lai Do đó, ngưỡng xác śt được thiệt lập theo cơng thức ti = max (0.5, – ασi), α = Kết luận Chương Dựa mục tiêu được đề Chương 1, Chương trình bày chi tiết về hai phương pháp học thế giới mở được giới thiệu gần đây, là: (i) mơ hình phân lớp thế giới mở dựa phương pháp học không gian tương tự dựa trung tâm Fei và Liu đề x́t năm 2015 (ii) mơ hình phân lớp mở dựa kỹ thuật học sâu (DOC) sử dụng mơ hình học sâu Shu cợng đề xuất năm 2017 Cả hai phương pháp này đều sử dụng khái niệm “Rủi ro không gian mở” có khả giải quyết vấn đề phát hiện liệu mới chưa xuất hiện lúc huấn luyện mơ hình Chúng đã được tác giả thực nghiệm cho kết quả tớt cho tốn phân loại văn bản mở Tuy nhiên vẫn chưa có nghiên cứu về hiệu quả ứng dụng của chúng cho tốn chuẩn hóa thực thể tên, tốn quan trọng có xuất hiện của nhiều tên mới (đặc biệt lĩnh vực y sinh), thiết yếu việc trích xuất tri thức được viết (ở dạng phi cấu trúc) văn bản Chương tiếp theo giới thiệu mợt mơ hình ứng dụng DOC vào toán chuẩn hoá quan trọng 24 Chương 3: Ứng dụng mơ hình DOC vào chuẩn hóa tên bệnh 3.1 Ứng dụng chuẩn hóa tên thực thể bệnh Khai phá tri thức từ y văn đóng mợt vai trò quan trọng đối với các nhà nghiên cứu y sinh cũng các nhà khoa học liệu năm gần Nó đã giúp nhà nghiên cứu đẩy nhanh trình nghiên cứu, khám phá các tri thức mới của họ, qua giúp giảm chi phí nghiên cứu lĩnh vực y sinh hiện rất tốn Lấy ví dụ, theo [15], một loại th́c mất trung bình khoảng 14 năm và hai tỷ đô la Mỹ để được phát triển thành công, xuất hiện thị trường Quá trình tớn này được cải thiện mạnh mẽ nếu các tác dụng phụ gây bệnh của th́c được phát hiện nhanh một cách tự động từ một khối lượng khổng lồ văn bản y sinh Việc phát hiện chuẩn hóa thực thể y sinh rất quan trọng để khám phá quan hệ mới, quan trọng các thuốc và các bệnh không được mô tả cùng một bài báo y sinh [2] Chuẩn hóa thực thể tên bệnh (Named Entity Normalization) là mợt các phần thiếu ́u của trích x́t thơng tin, đặc biệt có ý nghĩa cho các nghiên cứu y sinh và ứng dụng lâm sàng Nó thực hiện việc liên kết một tên bệnh được nhắc đến tài liệu y sinh đến định dang tương ứng của được lưu sẵn bộ từ vựng y sinh hiện có [8] (Xem Bảng 3.1) Bài toán NEN cho các tên thực thể bệnh có rất nhiều thách thức: 1) nhập nhằng: cùng mợt tên bệnh có nhiều định danh; 2) phong phú: nhiều cách đặt tên cho một [định danh] bệnh [9] Hơn nữa, tên bệnh là được đặt tên theo nhiều cách, tùy thuộc vào vị trí giải phẫu, triệu chứng, điều trị, v.v Bên cạnh đó, các tên bệnh thường dài và phức tạp, thậm chí là viết tắt Nhiều nghiên cứu đã sử dụng thuật toán dựa luật để giải quyết vấn đề chuẩn hoá tên bệnh, không hiệu quả việc xử lý tất cả thuật ngữ bệnh tài liệu y sinh Ví dụ, cả hai từ “carcinoma” và “cancer" đều đề cập đến bệnh “tăng trưởng bất thường tế bào di căn”; Từ KMS là từ viết tắt của hội chứng Kabuki (Kabuki make up syndrome) hoặc hội chứng Kallmann (Kallmann syndrome), là hai hội chứng rối loạn hoàn toàn không liên quan đến Với bài toán chuẩn hoá tên bệnh, các nghiên cứu thế giới đều sử dụng bộ từ vựng MEDIC (MErged DIsease voCabulary) [4], được trì Cơ sở liệu đối sánh 25 Toxicogenomics [4], một hệ CSDL về tác động của việc tiếp xúc với môi trường đối với sức khỏe người MEDIC được tạo cách tích hợp CSDL OMIM (Mendel trực tuyến di truyền người), một bộ từ vựng được kiểm soát về các bệnh di truyền người và một số phần của MeSH, là một bộ từ vựng được tổ chức theo thứ bậc thành 16 nhánh Trong số các nhánh này, nhánh bệnh và nhánh phụ của Rối loạn tâm thần nhánh Tâm lý học chứa các khái niệm bệnh được sử dụng để xây dựng MEDIC [4] Document Intravenous administration of a single 50-mg bolus of lidocaine in a 67-year-old man resulted in profound depression of the activity of the sinoatrial and atrioventricular nodal pacemakers The patient had no apparent associated conditions which might have predisposed him to the development of bradyarrhythmias; and, thus, this probably represented a true idiosyncrasy to lidocaine Input Output lidocaine D008012 depression D003866 bradyarrhythmias Unknown Bảng 3.1 - Một ví dụ tốn chuẩn hố tên thực thể thuốc MEDIC được cập nhật hàng tháng, hiện tại có 9.664 khái niệm (định danh) bệnh, với tổng sớ 67.782 tên bệnh Trung bình, bệnh có 7.01 tên đờng nghĩa, bao gờm tên tên đờng nghĩa 91% bệnh có tên đờng nghĩa với tên 47% bệnh có định nghĩa hoặc mô tả về các khái niệm này Một ví dụ về bệnh MEDIC được đưa Hình 3.2 Bệnh này có định danh MESH:D009369, (ban đầu x́t phát từ MeSH) Bệnh có tên Neoplasms, tên hay được sử dụng, và chín tḥt ngữ khác đờng nghĩa Có thể thấy các tḥt ngữ từ đờng nghĩa là tên thay thế cho tên chính, hoặc là các biến thể của tên chính hoặc các từ đồng nghĩa khác, ví dụ Neoplasm, Benign Benign Neoplasm Trong một số trường hợp, cũng là từ viết tắt của các tên khác của bệnh, hoặc tên với tính từ bổ nghĩa kèm 26 Hình 3.1 Định danh, tên hay dùng tên đồng nghĩa bệnh MEDIC 3.2.1 Mơ hình đề xuất Tổng quan về mô hình đề xuất được minh họa Hình 3.3 Nó là mợt mơ hình đường ớng bao gờm ba thành phần: • Mơ đun tiền xử lý và phân giải viết tắt • Mơ-đun khớp từ điển để đẩy nhanh việc chuẩn hoá • Mạng nơ ron học sâu thế giới mở để chuẩn hoá tên bệnh (không được tìm thấy từ điển) thành định danh của bợ từ vựng Hình 3.2: Mơ hình đường ống chuẩn hoá thực thể tên bệnh 27 Bộ phân giải viết tắt Trong tài liệu y sinh, có rất nhiều thực thể tên bệnh dài, và thường được gọi cách sử dụng các từ viết tắt Khơng có mợt quy tắc thớng nhất nào để phân giải được từ viết tắt thành tên đầy đủ tài liệu khác một từ viết tắt có ý nghĩa khác và/ngược lại các từ khác có cùng ý nghĩa Đới với các thực thể tên bệnh, luận văn sử dụng công cụ Ab3P (Abbreviation Plus Pseudo-Precision) [14] để phân giải từ viết tắt Ab3p được sử dụng để xác định từ viết tắt tài liệu và đưa danh sách các từ đầy đủ cho cùng với xác suất kèm Ví dụ, nếu thực thể PFS xuất hiện tài liệu, Ab3P phát hiện trả về kết quả: PFS| progression-free survival (sống sót khơng có tiến triển) | 0.999408; PFS tên viết tắt, progression-free survival là tên đầy đủ và 0,999408 là xác suất của tên viết tắt cho tên đầy đủ Ngồi ra, để phục vụ cho mơ đun tìm kiếm từ điển, các tên bệnh (được đề cập văn bản cũng tập từ vựng MEDIC) được chuyển về chữ thường Các ký tự chấm câu và các ký tự đặc biệt bị loại bỏ Các tên được chuyển về dạng gớc của công cụ Snowball Mạng nơ ron học sâu giới mở Với thực thể tên bệnh m tài liệu được gán nhãn định danh IDm, tạo ra: Một tập Nm+ gồm các tên bệnh từ vựng (n+) có nhãn định danh là IDm Cặp được xem là một ví dụ dương Một tập Nm-, có kích cỡ của Nm+, gờm các tên bệnh từ vựng (n-) mà khơng có nhãn định danh là IDm Các tên bệnh n- này là tên giống với m nhất, được tính theo độ đo tích vơ hướng của vector TF-IDF(m) TFIDF(n-), TF-IDF(.) là vector tần số từ-tần số tài liệu ngược Cặp được xem là một ví dụ âm Đặt M = {m1, m2, , mn} tập chứa tất cả các thực thể tên bệnh xuất hiện văn bản tập huấn luyện Tập liệu huấn luyện dương và âm (tương ứng gồm các cặp ví dụ dương và âm) được tạo từ tất cả các thực thể mi M Điều tương tự cũng được tạo cho tất cả văn bản tập liệu kiểm định (Validation) để tinh chỉnh mơ hình 28 Luận văn sử dụng mô hình chuẩn hoá tên thực thể y sinh dựa mạng nơ ron tích chập (CNN) Cho và cộng giới thiệu năm 2017 [3] Luận văn ứng dụng học thế giới mở cách thay tầng softmax cuối cùng tầng 1-so-với-còn lại sigmoids, được sử dụng mơ hình DOC Mô hình Cho và cộng giới thiệu nhận đầu vào là tập Nm+ Nm- được mô tả Mỗi một cặp được qua tầng nhúng từ (embedding) để tạo ma trận các vector biễu diễn cho các từ mention m và tên (name) n Ở tầng tích chập (convolution) tiếp theo các bộ lọc (filter) với kích thước khác được áp dụng độc lập mention m và tên n để tạo các bản đồ đặc trưng chập (convolution feature maps) Các bản đồ đặc trưng m và n được qua hai tầng pooling trước được gộp lại với tại tầng gộp (join layer) Ngoài ra, đầu của hai tầng pooling còn được qua tầng so khớp giống (similarity matching) để tạo một đặc trưng thể hiện giống của m và n Đặc trưng này cũng được gộp vào với đặc trưng pooling tầng gộp Đầu từ tầng gộp được cho qua một tầng ẩn kết nối đầy đủ trước cho qua tầng softmax cuối cùng Kiến trúc tổng thể của mô hình của Cho và cộng được thể hiện Hình 3.3 Hình 3.3 Kiến trúc hệ thống chuẩn hoá tên thực thể y sinh dựa mạng nơ ron tích chập Cho cợng đề xuất [3] 29 Kết luận Chương Chương giới thiệu mợt mơ hình ứng dụng DOC vào tốn quan trọng, thiết ́u cho q trình trích x́t tự đợng tri thức (được viết dưới dạng phi cấu trúc) văn bản y sinh, là (i) chuẩn hóa thực thể tên bệnh Đây là bài toán thường có x́t hiện của các đới tượng liệu thuộc lớp mới chưa xuất hiện lúc huấn luyện mô hình, đặc biệt là lĩnh vực y sinh Chương sau trình bày kết quả thực nghiệm của mơ hình ứng dụng 30 Chương 4: Thực nghiệm đánh giá 4.1 Dữ liệu thực nghiệm chuẩn hoá tên bệnh Thực nghiệm vào bài toán chuẩn hoá tên thực thể thuốc (disease normalization) với bợ liệu chuẩn NCBI disease nhóm nghiên cứu từ bộ khoa học công nghệ sinh học Mỹ (NCBI) cung cấp Đây là bộ liệu chuẩn vàng được sử dụng các mô hình chuẩn hoá tên thực thể bệnh khác thế giới Bộ liệu gồm tập con: tập train, tập development, tập test có sớ lượng abstract (tóm tắt bài báo y sinh) tương ứng là 593, 100, 100 Trong sớ lượng các disease mentions (các đoạn text tên bệnh), và số lượng tên bệnh khác được cho sau: Corpus NCBI Subset Articles Mentions Uniques Training 593 5145 1710 Development 100 787 368 Test 100 960 203 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh Mơ hình đề xuất của luận văn sử dụng vector biễu diễn từ có 300 chiều, được cung cấp miễn phí (gồm triệu từ khác nhau) Pyysalo cộng [11] họ h́n lụn mơ hình word2vec tập tất cả các văn bản tóm tắt CSDL PubMed toàn văn CSDL PMC [11] Có 59/203 (30%) mã định danh (IDs) tập test không xuất hiện tập train + dev 31 4.2 Môi trường công cụ thực nghiệm Bảng sau giới thiệu chi tiết về công cụ, môi trường và phần mềm thực nghiệm STT Phần mềm Ý nghĩa Nguồn Pycharm Môi trường phát triển https://www.jetbrains.com/pycharm Python 2.7 Ngôn ngữ phát triển https://www.python.org/ Tensorflow Thư viện cho học sâu Sklearn https://www.tensorflow.org/ Thư viện hỗ trợ các http://scikit-learn.org/ công cụ học máy Bảng 4.4: Các công cụ thực nghiệm 4.3 Kết đánh giá Mô hình được đánh giá và so sánh dựa độ đo F1 mức mã định danh Giả sử tập {A, B, C, D} là tập tất cả các định danh khác được gán cho tất cả các tên bệnh tập kiểm tra và tập {A, B, E, F} là tập tất cả các định danh khác được dự đoán mô hình cho tất cả các tên bệnh tập kiểm tra Khi A và B là TP (True Positive), C D FN (False Negative), E F FP (False Positive) Mô hình được cho chạy 20 lần và micro F1 được tính để đo hiệu quả của mô hình Sử dụng sigmoids (100% nhãn), và cả ngưỡng T=0.5 mặc định luận văn thu được độ đo trung bình F1=78% Dùng công thức điều chỉnh ngưỡng của mô hình DOC (Ti = max(0.5; - alpha*stdi; alpha =3), 1-alpha*stdi rất nhỏ (=0.09) nên Ti vẫn 0.5 mặc định cho sigmoids), luận văn vẫn thu được F1 trung bình 78% (xem Bảng 4.5) Kết quả này xấp xỉ với kết của của mô hình chuẩn hoá thực thể tên bệnh của [3] 32 100% Ti=0.5 mặc định Ti = max(0.5; – 3*std) Ti = max(0; - 3*std) F1 78% 78% 78.6 Bảng 4.5: Bảng tổng hợp kết quả mô hình DOC chuẩn hoá thực thể tên bệnh Luận văn đã sử dụng công thức điều chỉnh ngưỡng của mô hình DOC công thức Ti = max(0.5; - alpha*stdi), từ thu được ngưỡng mới T1 = 0,09 T2 = 0.7 Với hai ngưỡng mới này, mô hình chuẩn hoá thực thể tên bệnh của luận văn đạt trung bình F1 = 78.6% Thực nghiệm với sigmoid, mô hình chuẩn hoá thực thể tên bệnh của luận văn có khả đạt tới giá trị trung bình F1 = 80.2%, tốt kết quả của mô hình Cho và cợng sự, mơ hình tớt nhất đến thời điểm hiện tại và cùng thể loại với mô hình đề xuất của luận văn Model micro F1 Chỉ sử dụng Khớp từ điển 66.10 Mơ hình luận văn 80.2% Cho & cộng sự, 2017 [3] 78.80 Wright, 2019 [16] 87.8% Phan & cộng sự, 2019 [10] 87.7% Bảng 4.6 Kết thực nghiệm so sánh Mô hình đề xuất của luận văn hiện có kết quả chuẩn hoá tên thực thể bệnh hai mô hình chuẩn hoá tên thực thể bệnh được giới thiệu gần nhất (2019) của Wright 33 [16] và Phan & cộng [10] Tuy vậy, khác với mô hình đề x́t của ḷn văn, cả hai mơ hình đều sử dụng thêm thông tin biểu diễn các tên bệnh từ việc tích hợp thêm bộ mã hoá dựa mạng nơ ron hồi quy hai chiều bidirectional Long Short Term Memory Với thực nghiệm sử dụng phiên bản rút gọn của bộ từ vựng MEDIC tức tập từ vựng chỉ chứa các ID bệnh (cùng các tên đồng nghĩa) xuất hiện tập train+dev Dùng sigmoid mô hình luận văn cho kết quả micro F1 = 76.1 phát hiện 22/59 IDs mới (unknown/rejection) 34 Kết luận Chương Chương này trình bày giới thiệu về mợt bợ liệu chuẩn vàng mà mơ hình ứng dụng Chương được thực nghiệm Các kết quả thực nghiệm, với so sánh và đánh giá được giới thiệu, chứng tỏ hiệu quả của mơ hình ứng dụng học thế giới mở dựa kỹ tḥt học sâu tốn chuẩn hóa thực thể tên bệnh 35 Kết luận Luận văn đã trình bày chi tiết về Học máy thế giới mở, là một nội dung quan trọng của lĩnh vực học máy suốt đời Học máy thế giới mở không yêu cầu giả định thế giới đóng; có khả phát hiện các trường hợp của các lớp không nhìn thấy quá trình thử nghiệm hoặc ứng dụng mô hình, và tăng dần các lớp mới để cập nhật các lớp mới mô hình mà không đào tạo lại toàn bợ mơ hình từ đầu Ḷn văn đã trình bày một mô hình đề xuất ứng dụng học thế giới mở dựa kỹ thuật học sâu (cụ thể là mạng nơ ron tích chập CNN) cho bài toán chuẩn hoá thực thể tên (là vấn đề gặp nhiều đới tượng mới) Chuẩn hoá tên thực thể có rất nhiều thách thức, đã và nhận được nhiều quan tâm nghiên cứu của các nhóm nghiên cứu lớn thế giới Luận văn đã chọn miền văn bản y sinh là miền ứng dụng có rất nhiều tên mới xuất hiện Bài toán chuẩn hoá thể bệnh tên bệnh là vấn đề có nhiều ý nghĩa cho cợng đờng nghiên cứu y-sinh-dược Các kết quả thực nghiệm bộ liệu chuẩn tên bệnh đã chỉ tính hiệu quả của mô hình đề xuất vấn đề nhận dạng được các tên mới chưa xuất hiện huấn lụn mơ hình vấn đề chuẩn hoá thực thể tên bệnh Đặc biệt, mô hình chuẩn hoá thực thể tên đạt giá trị đợ đo F1 = 80%, tốt của các phương pháp cùng thể loại tính đến thời điểm hiện tại Trong năm 2019 có hai cơng trình mới nhất đã được giới thiệu cho bài toán chuẩn hóa thực thể tên bệnh từ y văn với kết quả rất ấn tượng (F1=90%) Tuy vậy, cả hai mơ hình mới này đều khơng có khả phát hiện các tên mới chưa xuất hiện lúc học Chúng sử dụng thêm mạng BiLSTM để nâng cao hiệu mô hình Một hướng nghiên cứu tiếp theo khả quan của luận án là tích hợp BiLSTM vào mơ hình thê giới mở dựa kỹ thuật học sâu chuẩn hóa tên bệnh của luận văn Ći cùng, tiếp tục cải tiến mơ hình phân lớp mở quan hệ sử dụng các kỹ thuật học sâu (thế giới đóng) mới nhất cũng là mợt hướng nghiên cứu khả quan tiếp theo của luận văn 36 Tài liệu tham khảo Bendale A., Boult T.E Towards open world recognition CVPR 2015: 1893-1902 Chen Z., and Liu B Lifelong Machine Learning (2nd edition) Morgan & Claypool, 2018 Cho H., Choi W., and Lee H., A method for named entity normalization in biomedical articles: application to diseases and plants In BMC Bioinformatics, 2017 Davis A.P., Wiegers T C., Rosenstein M C., and Mattingly C J MEDIC: a practical disease vocabulary used at the Comparative Toxicogenomics Database In Database, 2012 Fei F., Wang S., Liu B., Learning Cumulatively to Become More Knowledgeable KDD 2016: 1565-1574 Fei G., Liu B., Breaking the Closed World Assumption in Text Classification HLT-NAACL 2016: 506-514 Kim Y., (2014) Convolutional neural networks for sentence classification ArXiv Preprint ArXiv:1408.5882 DOI: 10.3115/v1/d14-1181 Leaman R., Doğan R.I., and Lu Z., “DNorm: disease name normalization with pairwise learning to rank”, Bioinformatics 29, 2013, no 22, pp 2909-2917 Li H., Chen Q., Tang B., Wang X., Xu H., Wang B., and Huang D., “CNN-based ranking for biomedical entity normalization”, BMC bioinformatics, 2017, no 11, vol 18, pp 385 10 Phan, M.C., Sun, A and Tay, Y., 2019, July Robust Representation Learning of Biomedical Names In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp 3275-3285) 11 Pyysalo S., Ginter F., and Moen H., “Distributional semantics resources for biomedical text processing”, LBM 2013, pp 39-44 12 Scheirer W.J., Rocha A.d.R., Sapkota A., and Boult T.E., (2013) Toward open set recognition Pattern Analysis and Machine Intelligence, IEEE Transactions on, 35(7), pages 1757–1772 DOI: 10.1109/tpami.2012.256 13 Shu L., Xu H., and Liu B., (2017) DOC: Deep open classification of text documents In EMNLP DOI: 10.18653/v1/d17-1314 14 Sohn S, Comeau DC, Kim W, Wilbur WJ BMC Bioinformatics 2008 Sep 25;9:402 PubMed ID: 18817555 15 Wei C.H., Peng Y., Leaman R., Davis A.P., Mattingly C.J., Li J., Wiegers T.C., and Lu Z., “Overview of the BioCreative V chemical disease relation (CDR) task”, 37 Proceedings of the fifth BioCreative challenge evaluation workshop, 2015, pp 154-166, Spain: Sevilla 16 Wright, D., 2019 NormCo: Deep disease normalization for biomedical knowledge base construction (Doctoral dissertation, UC San Diego) 38 ... chất và bệnh từ văn bản y-sinh”, năm 2016 i LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ công nghệ thông tin ? ?Phân tích liệu văn bản dựa học máy thế giới mở và ứng dụng” là công...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích liệu văn dựa học máy giới mở ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY... chứng tỏ vượt trội OpenMax cho cả phân loại mở cả văn bản lẫn ảnh mà không yêu cầu bất kỳ liệu ví dụ huấn luyện cho lớp chưa nhìn thấy Trong miền ứng dụng xử lý liệu y văn,