Luận văn phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

Mục Lục LỜI CẢM ƠN i LỜI CAM ĐOAN ii TÓM TẮT iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT v DANH SÁCH BẢNG vi DANH SÁCH HÌNH ẢNH vii Mở đầu Chương Học máy thế giới mở và bài toán chuẩn hóa tên thực thể bệnh 1.1 Học máy truyền thống 1.2 Học máy suốt đời 1.2.1 Định nghĩa học máy suốt đời 1.2.2 Các hướng nghiên cứu LL 12 1.3 Học máy thế giới mở 12 1.4 Mục tiêu của luận văn 15 Kết luận Chương 17 Chương Học sâu thế giới mở cho văn bản 18 2.1 Học thế giới mở không gian đơn giản trung tâm 18 2.1.1 Tăng cường cập nhật mơ hình học CBS 18 2.1.2 Kiểm tra mơ hình học CBS 20 2.1.3 Học CBS cho phát hiện lớp chưa thấy 20 2.2 Học sâu thế giới mở phân lớp văn bản 21 2.2.1 CNN lớp chuyển tiếp của DOC 22 2.2.2 Tầng 1- với-phần còn lại 23 2.2.2 Giảm rủi ro không gian mở 23 Kết luận Chương 24 Chương 3: Ứng dụng mơ hình DOC vào chuẩn hóa tên bệnh 25 3.1 Ứng dụng chuẩn hóa tên thực thể bệnh 25 3.2.1 Mô hình đề xuất 27 Bộ phân giải viết tắt 28 Mạng nơ ron học sâu thế giới mở 28 Kết luận Chương 30 Chương 4: Thực nghiệm và đánh giá 31 4.1 Dữ liệu thực nghiệm chuẩn hoá tên bệnh 31 4.2 Môi trường và các công cụ thực nghiệm 32 4.3 Kết quả và đánh giá 32 Kết luận 36 Tài liệu tham khảo 37 TÓM TẮT Phân tích liệu văn dựa học máy giới mở ứng dụng Phạm Thị Quỳnh Trang Khóa học: QH-2013- I/CQ Ngành: Hệ thớng thơng tin Tóm tắt: Học máy suốt đời (Lifelong Machine Learning: LML) là một tiếp cận học máy liên tục, trích chọn và lưu giữ tri thức từ quá khứ để sử dụng giải quyết các bài toán học mới Học thế giới mở, mợt dạng của học máy śt đời, có lực phát hiện các trường hợp chưa thấy để hình thành các bài toán mới Phân lớp thế giới mở thực hiện ba bài toán thành phần là (i) Phát hiện thực thể mới, thuộc vào các lớp hiện có, (ii) Xây dựng mơ hình phân lớp cho các lớp mới, và (iii) hiệu chỉnh các mơ hình phân lớp vớn có để nâng cao hiệu bợ phân lớp có thêm các lớp mới Dựa mô hình phân lớp học sâu thế giới mở DOC (Deep Open Classification) của L Shu và cộng sự, luận văn đề nghị mô hình ứng dụng phân lớp học sâu thế giới mở cho bài toán chuẩn hoá thực thể tên và phân lớp quan hệ văn bản y sinh Việc trích xuất tự động tri thức từ văn bản đóng vai trò quan trọng học śt đời Nó bao gờm ba bước chính: nhận dạng các thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ chúng Hai bước sau thường hay xuất hiện các đối tượng mới, đặc biệt là lĩnh vực y sinh Các kết quả thực nghiệm bộ liệu chuẩn đã chỉ tính hiệu quả của mô hình đề xuất vấn đề nhận dạng được các đối tượng mới chưa xuất hiện huấn luyện mô hình vấn đề chuẩn hoá tên Đặc biệt, mô hình chuẩn hoá thực thể tên đạt giá trị đợ đo F1 = 80%, tốt của các phương pháp cùng thể loại tính đến thời điểm hiện tại Từ khóa: Học máy suốt đời, học giới mở, học sâu, chuẩn hoá tên thực thể bệnh iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT SVM Support Vector Machines/Máy vector hỗ trợ CNN Convolutional neural network/Mạng nơ ron tích chập LL Life long learning/Học suốt đời ML Machine learning/Học máy DOC Deep Open Classification/Phân lớp mở sâu CBS Center Based Similarity/Độ tương tự dựa trung tâm NNO Nearest Non-Outlier/Không ngoại lai gần nhất v DANH SÁCH BẢNG Bảng 1.1: Bảng 1.1 - Một ví dụ tốn chuẩn hố tên bệnh 17 Bảng 3.1 - Một ví dụ toán chuẩn hoá tên thực thể thuốc …………………….27 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh 33 Bảng 4.2: Các công cụ thực nghiệm 34 Bảng 4.3: So sánh kết sử dụng dữ liệu câu dữ liệu SDP số lớp biết khác tập dữ liệu SemEval-2010 Task 37 Bảng 4.4: Tổng hợp kết mơ hình DOC chuẩn hóa thực thể tên bệnh 38 Bảng 4.5: Kết thực nghiệm so sánh 38 vi DANH SÁCH HÌNH ẢNH Hình 1.1: Kiến trúc mơ hình học máy cổ điển Hình 2.1: Kiến trúc tổng quan hệ thống học suốt đời 10 Hình 2.1: Mơ hình tổng quan DOC 22 Hình 2.2: Mơ hình tổng quan DOC 23 Hình 3.1: Định danh, tên hay dùng tên đồng nghĩa bệnh MEDIC 27 Hình 3.1: Mơ hình đường ống chuẩn hố thực thể tên bệnh 28 Hình 3.2: Kiến trúc hệ thống chuẩn hoá tên thực thể y sinh dựa mạng nơ ron tích chập Cho cộng đề xuất [9] 28 vii Mở đầu Trong cuộc sống, người học hỏi suốt đời để tích lũy tri thức, vận dụng tri thức và kỹ tích lũy được để giải quyết các vấn đề/tác vụ mới gặp phải, từ giúp cho việc học nhanh và hiệu quả Trong quá trình tiến hóa hàng triệu năm của loài người, khả học suốt đời đã giúp người thích nghi, tồn tại và phát triển được nhiều môi trường sống khắc nghiệt khác Học máy suốt đời, là một hướng nghiên cứu học máy mới nhằm mục đích bắt chước quá trình và khả học tập suốt đời của người các môi trường mở, đầy biến động Kiểu học này khá tự nhiên vì mọi thứ xung quanh chúng ta có liên quan chặt chẽ và liên kết với Con người chúng ta giữ lại kiến thức đã học quá khứ và sử dụng để giúp học tập và giải quyết vấn đề tương lai Học máy suốt đời là bước tiến hoá hợp lý tiếp theo của học máy cổ điển; là hướng nghiên cứu mới và đầy hứa hẹn để khắc phục thiếu sót của học máy cổ điển, với mục tiêu cuối cùng là xây dựng cỗ máy học hỏi người Học thế giới mở, là một hình thức của học máy suốt đời, khơng u cầu giả định thế giới đóng, có khả phát hiện các trường hợp của các lớp chưa thấy q trình hoạt đợng của hệ thớng học Nó có khả xây dựng mơ hình phân lớp cho các lớp mới và cập nhật mô hình phân lớp cho các lớp đã có mà khơng học lại toàn bộ các mô hình từ đầu Việc trích x́t tự đợng tri thức từ văn bản đóng vai trò quan trọng học śt đời Nó bao gờm ba bước chính: nhận dạng các thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ chúng Hai bước sau thường hay xuất hiện các đối tượng mới, đặc biệt là lĩnh vực y sinh, với rất nhiều thách thức, cần phải xác định mợt biểu hiện tên bệnh mới x́t hiện có tḥc về mợt thực thể tên bệnh đã có hay là biểu hiện của một tên bệnh mới Trong trường hợp này, mô hình phân lớp thế giới mở là phù hợp để giải quyết bài toán Nội dung của luận văn được tổ chức thành các chương sau: Chương trình bày mợt giới thiệu tổng quan về học máy suốt đời và học máy thế giới mở Tiếp đó, bài toán chuẩn hoá thực thể tên bệnh văn bản y sinh được giới thiệu Chương trình bày mô hình phân lớp văn bản thế giới mở dựa kỹ thuật học sâu Chương trình bày mô hình ứng dụng phân lớp thế giới mở dựa kỹ thuật học sâu cho chuẩn hoá thực thể tên bệnh, là bước tiền đề cho việc trích xuất các quan hệ các thực thể y sinh Các quan hệ được biểu diễn văn bản là các tri thức tồn tại dưới định dạng chỉ người mới “đọc hiểu” được Việc trích xuất quan hệ từ văn bản tạo sở liệu tri thức, là thành phần quan trọng của học máy suốt đời Chương trình bày các kết quả thực nghiệm của mô hình ứng dụng được đề xuất Chương 3, cũng các phân tích các kết quả thực nghiệm này Phần Kết luận tóm lược kết quả đạt được của khóa luận và định hướng phát triển tương lai Chương Học máy giới mở tốn chuẩn hóa tên thực thể bệnh Học máy (Machine Learning: ML) đã là công cụ cho tiến bợ của cả phân tích liệu trí tuệ nhân tạo (Artificial Intelligence: AI) Thành công gần của học sâu đã đưa ML lên một tầm cao mới Các thuật toán ML đã được áp dụng hầu hết các lĩnh vực khoa học máy tính, khoa học tự nhiên, kỹ thuật, khoa học xã hội và thế Nếu khơng có tḥt tốn ML hiệu quả, nhiều ngành không tồn tại hoặc phát triển, ví dụ: thương mại điện tử tìm kiếm web Tuy nhiên, mơ hình ML hiện tại khơng phải khơng có điểm ́u Trước tiên ḷn văn giới thiệu về mơ hình ML cổ điển thiếu sót của nó, sau giới thiệu Lifelong ML (Học suốt đời (LL) học thế giới mở (OpenWorld ML, một dạng học máy suốt đời) một hướng mới và đầy hứa hẹn để khắc phục thiếu sót với mục tiêu ći xây dựng cỗ máy học hỏi người [2] Bài tốn chuẩn hóa tên thực thể bệnh văn bản y sinh dưới dạng mợt tốn học thế giới mở được giới thiệu cuối chương 1.1 Học máy truyền thống Mơ hình ML phổ biến hiện chạy thuật toán ML tập liệu đã cho để tạo mơ hình Mơ hình sau được áp dụng nhiệm vụ thực tế Mơ hình học được gọi mơ hình lập khơng xem xét bất kỳ thơng tin liên quan khác hoặc tri thức đã học, tích luỹ được trước (xem Hình 1) [2] Vấn đề bản của mơ hình học tập lập này là khơng lưu giữ và tích lũy kiến thức đã học khứ sử dụng tương lai Điều này trái ngược hoàn toàn với việc học của người Con người tích luỹ lại kiến thức đã học khứ sử dụng để giúp học tập giải qút vấn đề mới tương lai Khơng có khả tích lũy và sử dụng kiến thức khứ, thuật toán ML thường cần một số lượng lớn ví dụ huấn luyện để học hiệu quả Các mơi trường học thường là tĩnh và đóng Đới với việc học có giám sát, việc gán nhãn liệu huấn luyện thường được thực hiện thủ công, rất tốn cơng sức thời gian Vì thế giới q phức tạp với nhiều nhiệm vụ khác hẳn nhau, nên gần gán nhãn một số lượng lớn ví dụ cho mọi nhiệm vụ để tḥt tốn ML học hiệu quả Tệ nữa, mọi thứ xung quanh thay đổi liên tục, việc gán nhãn cần phải được thực hiện liên tục; là mợt việc hết sức khó khăn đới với người Ngay cả đối với học không giám sát, việc thu thập một khối lượng liệu lớn khơng thực hiện được nhiều trường hợp Hình 1.1 Kiến trúc mơ hình học máy cổ điển [2] Mô hình học cô lập cổ điển thực hiện được việc học suốt đời Như đã đề cập trước đó, chỉ phù hợp cho các nhiệm vụ hẹp và hạn chế môi trường kín Nó cũng khơng đủ để xây dựng mợt hệ thớng thơng minh học liên tục để đạt được mức độ thông minh người LL nhằm mục đích đạt được tiến bộ theo hướng này Với phổ biến của robot, trợ lý ảo thông minh, LL ngày càng trở nên quan trọng vì các hệ thống này phải tương tác với người và/hoặc các hệ thống khác, liên tục học hỏi trình hoạt đợng và trì kiến thức đã học các tương tác của chúng môi trường khác nhau, qua hoạt đợng tớt theo thời gian Trong 25 năm qua, đã có tiến bộ đáng kể lý thuyết học máy và thuật toán Tuy nhiên, hiện vẫn có rất ít thuật toán có khả học nhiều nhiệm vụ khác mợt thời gian dài Học có giám sát cổ điển đưa giả định thế giới khép kín, có nghĩa là tất cả các lớp liệu lúc kiểm tra đều đã xuất hiện lúc học [1, 5, 6] Mặc dù giả định này đúng nhiều ứng dụng, bị vi phạm nhiều ứng dụng khác, đặc biệt là môi trường động và mở; các liệu của các lớp khơng mong ḿn x́t hiện lúc kiểm tra hoặc hệ thống vào hoạt động Ví dụ, đọc, hệ thớng thấy mợt từ mới mà khơng biết, hệ thớng phải học cách tra từ từ điển Trong cuộc trò chuyện người và máy, trợ lý ảo khơng hiểu mợt sớ điều được nói người dùng và sau cần yêu cầu người dùng giải thích thêm để tìm hiểu Để Hình 2.2: Rủi ro không gian mở hàm sigmoid [13] Ước tính đợ lệch chuẩn σi cả điểm hiện có và các điểm giả được tạo Trong thống kê, nếu một giá trị/điểm liệu nằm ngoài khoảng xung quanh kỳ vọng một số nhất định (α =3) lần độ lệch chuẩn được coi là một điểm ngoại lai Do đó, ngưỡng xác suất được thiệt lập theo công thức ti = max (0.5, – ασi), α = Kết luận Chương Dựa mục tiêu được đề Chương 1, Chương trình bày chi tiết về hai phương pháp học thế giới mở được giới thiệu gần đây, là: (i) mô hình phân lớp thế giới mở dựa phương pháp học không gian tương tự dựa trung tâm Fei và Liu đề xuất năm 2015 (ii) mơ hình phân lớp mở dựa kỹ tḥt học sâu (DOC) sử dụng mơ hình học sâu Shu cộng đề xuất năm 2017 Cả hai phương pháp này đều sử dụng khái niệm “Rủi ro không gian mở” có khả giải quyết vấn đề phát hiện liệu mới chưa xuất hiện lúc h́n lụn mơ hình Chúng đã được tác giả thực nghiệm cho kết quả tớt cho tốn phân loại văn bản mở Tuy nhiên vẫn chưa có nghiên cứu về hiệu quả ứng dụng của chúng cho tốn chuẩn hóa thực thể tên, tốn quan trọng có x́t hiện của nhiều tên mới (đặc biệt lĩnh vực y sinh), thiết yếu việc trích xuất tri thức được viết (ở dạng phi cấu trúc) văn bản Chương tiếp theo giới thiệu mợt mơ hình ứng dụng DOC vào toán chuẩn hoá quan trọng 24 Chương 3: Ứng dụng mơ hình DOC vào chuẩn hóa tên bệnh 3.1 Ứng dụng chuẩn hóa tên thực thể bệnh Khai phá tri thức từ y văn đóng mợt vai trò quan trọng đối với các nhà nghiên cứu y sinh cũng các nhà khoa học liệu năm gần Nó đã giúp nhà nghiên cứu đẩy nhanh trình nghiên cứu, khám phá các tri thức mới của họ, qua giúp giảm chi phí nghiên cứu lĩnh vực y sinh hiện rất tốn Lấy ví dụ, theo [15], mợt loại th́c mất trung bình khoảng 14 năm và hai tỷ đô la Mỹ để được phát triển thành công, xuất hiện thị trường Quá trình tốn này được cải thiện mạnh mẽ nếu các tác dụng phụ gây bệnh của th́c được phát hiện nhanh một cách tự động từ một khối lượng khổng lồ văn bản y sinh Việc phát hiện chuẩn hóa thực thể y sinh rất quan trọng để khám phá quan hệ mới, quan trọng các thuốc và các bệnh không được mô tả cùng một bài báo y sinh [2] Chuẩn hóa thực thể tên bệnh (Named Entity Normalization) là mợt các phần thiếu ́u của trích x́t thơng tin, đặc biệt có ý nghĩa cho các nghiên cứu y sinh và ứng dụng lâm sàng Nó thực hiện việc liên kết một tên bệnh được nhắc đến tài liệu y sinh đến định dang tương ứng của được lưu sẵn bợ từ vựng y sinh hiện có [8] (Xem Bảng 3.1) Bài toán NEN cho các tên thực thể bệnh có rất nhiều thách thức: 1) nhập nhằng: cùng một tên bệnh có nhiều định danh; 2) phong phú: nhiều cách đặt tên cho một [định danh] bệnh [9] Hơn nữa, tên bệnh là được đặt tên theo nhiều cách, tùy thuộc vào vị trí giải phẫu, triệu chứng, điều trị, v.v Bên cạnh đó, các tên bệnh thường dài và phức tạp, thậm chí là viết tắt Nhiều nghiên cứu đã sử dụng thuật toán dựa luật để giải quyết vấn đề chuẩn hoá tên bệnh, không hiệu quả việc xử lý tất cả thuật ngữ bệnh tài liệu y sinh Ví dụ, cả hai từ “carcinoma” và “cancer" đều đề cập đến bệnh “tăng trưởng bất thường tế bào di căn”; Từ KMS là từ viết tắt của hội chứng Kabuki (Kabuki make up syndrome) hoặc hội chứng Kallmann (Kallmann syndrome), là hai hội chứng rối loạn hoàn toàn không liên quan đến Với bài toán chuẩn hoá tên bệnh, các nghiên cứu thế giới đều sử dụng bộ từ vựng MEDIC (MErged DIsease voCabulary) [4], được trì Cơ sở liệu đối sánh 25 Toxicogenomics [4], một hệ CSDL về tác động của việc tiếp xúc với môi trường đối với sức khỏe người MEDIC được tạo cách tích hợp CSDL OMIM (Mendel trực tuyến di truyền người), một bộ từ vựng được kiểm soát về các bệnh di truyền người và một số phần của MeSH, là một bộ từ vựng được tổ chức theo thứ bậc thành 16 nhánh Trong số các nhánh này, nhánh bệnh và nhánh phụ của Rối loạn tâm thần nhánh Tâm lý học chứa các khái niệm bệnh được sử dụng để xây dựng MEDIC [4] Document Intravenous administration of a single 50-mg bolus of lidocaine in a 67-year-old man resulted in profound depression of the activity of the sinoatrial and atrioventricular nodal pacemakers The patient had no apparent associated conditions which might have predisposed him to the development of bradyarrhythmias; and, thus, this probably represented a true idiosyncrasy to lidocaine Input Output lidocaine D008012 depression D003866 bradyarrhythmias Unknown Bảng 3.1 - Một ví dụ tốn chuẩn hoá tên thực thể thuốc MEDIC được cập nhật hàng tháng, hiện tại có 9.664 khái niệm (định danh) bệnh, với tổng số 67.782 tên bệnh Trung bình, bệnh có 7.01 tên đờng nghĩa, bao gờm tên tên đờng nghĩa 91% bệnh có tên đờng nghĩa với tên 47% bệnh có định nghĩa hoặc mô tả về các khái niệm này Một ví dụ về bệnh MEDIC được đưa Hình 3.2 Bệnh này có định danh MESH:D009369, (ban đầu xuất phát từ MeSH) Bệnh có tên Neoplasms, tên hay được sử dụng, và chín tḥt ngữ khác đờng nghĩa Có thể thấy các tḥt ngữ từ đờng nghĩa là tên thay thế cho tên chính, hoặc là các biến thể của tên chính hoặc các từ đồng nghĩa khác, ví dụ Neoplasm, Benign Benign Neoplasm Trong một sớ trường hợp, cũng là từ viết tắt của các tên khác của bệnh, hoặc tên với tính từ bổ nghĩa kèm 26 Hình 3.1 Định danh, tên hay dùng tên đồng nghĩa bệnh MEDIC 3.2.1 Mơ hình đề xuất Tổng quan về mô hình đề xuất được minh họa Hình 3.3 Nó là mợt mơ hình đường ớng bao gờm ba thành phần: • Mơ đun tiền xử lý và phân giải viết tắt • Mơ-đun khớp từ điển để đẩy nhanh việc chuẩn hoá • Mạng nơ ron học sâu thế giới mở để chuẩn hoá tên bệnh (không được tìm thấy từ điển) thành định danh của bợ từ vựng Hình 3.2: Mơ hình đường ống chuẩn hố thực thể tên bệnh 27 Bộ phân giải viết tắt Trong tài liệu y sinh, có rất nhiều thực thể tên bệnh dài, và thường được gọi cách sử dụng các từ viết tắt Khơng có mợt quy tắc thớng nhất nào để phân giải được từ viết tắt thành tên đầy đủ tài liệu khác mợt từ viết tắt có ý nghĩa khác và/ngược lại các từ khác có cùng ý nghĩa Đối với các thực thể tên bệnh, luận văn sử dụng công cụ Ab3P (Abbreviation Plus Pseudo-Precision) [14] để phân giải từ viết tắt Ab3p được sử dụng để xác định từ viết tắt tài liệu và đưa danh sách các từ đầy đủ cho cùng với xác suất kèm Ví dụ, nếu thực thể PFS xuất hiện tài liệu, Ab3P phát hiện trả về kết quả: PFS| progression-free survival (sống sót khơng có tiến triển) | 0.999408; PFS tên viết tắt, progression-free survival là tên đầy đủ và 0,999408 là xác suất của tên viết tắt cho tên đầy đủ Ngoài ra, để phục vụ cho mô đun tìm kiếm từ điển, các tên bệnh (được đề cập văn bản cũng tập từ vựng MEDIC) được chuyển về chữ thường Các ký tự chấm câu và các ký tự đặc biệt bị loại bỏ Các tên được chuyển về dạng gốc của cơng cụ Snowball Mạng nơ ron học sâu giới mở Với thực thể tên bệnh m tài liệu được gán nhãn định danh IDm, tạo ra:  Một tập Nm+ gồm các tên bệnh từ vựng (n+) có nhãn định danh là IDm Cặp được xem là một ví dụ dương  Mợt tập Nm-, có kích cỡ của Nm+, gờm các tên bệnh từ vựng (n-) mà khơng có nhãn định danh là IDm Các tên bệnh n- này là tên giống với m nhất, được tính theo độ đo tích vô hướng của vector TF-IDF(m) TFIDF(n-), TF-IDF(.) là vector tần sớ từ-tần sớ tài liệu ngược Cặp được xem là một ví dụ âm Đặt M = {m1, m2, , mn} tập chứa tất cả các thực thể tên bệnh xuất hiện văn bản tập huấn luyện Tập liệu huấn luyện dương và âm (tương ứng gồm các cặp ví dụ dương và âm) được tạo từ tất cả các thực thể mi M Điều tương tự cũng được tạo cho tất cả văn bản tập liệu kiểm định (Validation) để tinh chỉnh mơ hình 28 Ḷn văn sử dụng mơ hình chuẩn hoá tên thực thể y sinh dựa mạng nơ ron tích chập (CNN) Cho và cộng giới thiệu năm 2017 [3] Luận văn ứng dụng học thế giới mở cách thay tầng softmax cuối cùng tầng 1-so-với-còn lại sigmoids, được sử dụng mô hình DOC Mơ hình Cho và cợng giới thiệu nhận đầu vào là tập Nm+ Nm- được mô tả Mỗi một cặp được qua tầng nhúng từ (embedding) để tạo ma trận các vector biễu diễn cho các từ mention m và tên (name) n Ở tầng tích chập (convolution) tiếp theo các bộ lọc (filter) với kích thước khác được áp dụng độc lập mention m và tên n để tạo các bản đồ đặc trưng chập (convolution feature maps) Các bản đồ đặc trưng m và n được qua hai tầng pooling trước được gộp lại với tại tầng gộp (join layer) Ngoài ra, đầu của hai tầng pooling còn được qua tầng so khớp giống (similarity matching) để tạo một đặc trưng thể hiện giống của m và n Đặc trưng này cũng được gộp vào với đặc trưng pooling tầng gộp Đầu từ tầng gộp được cho qua một tầng ẩn kết nối đầy đủ trước cho qua tầng softmax cuối cùng Kiến trúc tổng thể của mô hình của Cho và cợng được thể hiện Hình 3.3 Hình 3.3 Kiến trúc hệ thống chuẩn hoá tên thực thể y sinh dựa mạng nơ ron tích chập Cho cộng đề xuất [3] 29 Kết luận Chương Chương giới thiệu mợt mơ hình ứng dụng DOC vào toán quan trọng, thiết yếu cho q trình trích x́t tự đợng tri thức (được viết dưới dạng phi cấu trúc) văn bản y sinh, là (i) chuẩn hóa thực thể tên bệnh Đây là bài toán thường có xuất hiện của các đối tượng liệu thuộc lớp mới chưa xuất hiện lúc huấn luyện mô hình, đặc biệt là lĩnh vực y sinh Chương sau trình bày kết quả thực nghiệm của mơ hình ứng dụng 30 Chương 4: Thực nghiệm đánh giá 4.1 Dữ liệu thực nghiệm chuẩn hoá tên bệnh Thực nghiệm vào bài toán chuẩn hoá tên thực thể thuốc (disease normalization) với bợ liệu chuẩn NCBI disease nhóm nghiên cứu từ bộ khoa học công nghệ sinh học Mỹ (NCBI) cung cấp Đây là bộ liệu chuẩn vàng được sử dụng các mô hình chuẩn hoá tên thực thể bệnh khác thế giới Bộ liệu gồm tập con: tập train, tập development, tập test có sớ lượng abstract (tóm tắt bài báo y sinh) tương ứng là 593, 100, 100 Trong sớ lượng các disease mentions (các đoạn text tên bệnh), và số lượng tên bệnh khác được cho sau: Corpus NCBI Subset Articles Mentions Uniques Training 593 5145 1710 Development 100 787 368 Test 100 960 203 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh Mơ hình đề x́t của ḷn văn sử dụng vector biễu diễn từ có 300 chiều, được cung cấp miễn phí (gờm triệu từ khác nhau) Pyysalo cợng [11] họ h́n lụn mơ hình word2vec tập tất cả các văn bản tóm tắt CSDL PubMed toàn văn CSDL PMC [11] Có 59/203 (30%) mã định danh (IDs) tập test không xuất hiện tập train + dev 31 4.2 Môi trường công cụ thực nghiệm Bảng sau giới thiệu chi tiết về công cụ, môi trường và phần mềm thực nghiệm STT Phần mềm Ý nghĩa Nguồn Pycharm Môi trường phát triển https://www.jetbrains.com/pycharm Python 2.7 Ngôn ngữ phát triển https://www.python.org/ Tensorflow Thư viện cho học sâu Sklearn https://www.tensorflow.org/ Thư viện hỗ trợ các http://scikit-learn.org/ công cụ học máy Bảng 4.4: Các công cụ thực nghiệm 4.3 Kết đánh giá Mô hình được đánh giá và so sánh dựa độ đo F1 mức mã định danh Giả sử tập {A, B, C, D} là tập tất cả các định danh khác được gán cho tất cả các tên bệnh tập kiểm tra và tập {A, B, E, F} là tập tất cả các định danh khác được dự đoán mô hình cho tất cả các tên bệnh tập kiểm tra Khi A và B là TP (True Positive), C D FN (False Negative), E F FP (False Positive) Mô hình được cho chạy 20 lần và micro F1 được tính để đo hiệu quả của mô hình Sử dụng sigmoids (100% nhãn), và cả ngưỡng T=0.5 mặc định luận văn thu được độ đo trung bình F1=78% Dùng công thức điều chỉnh ngưỡng của mô hình DOC (Ti = max(0.5; - alpha*stdi; alpha =3), 1-alpha*stdi rất nhỏ (=0.09) nên Ti vẫn 0.5 mặc định cho sigmoids), luận văn vẫn thu được F1 trung bình 78% (xem Bảng 4.5) Kết quả này xấp xỉ với kết của của mô hình chuẩn hoá thực thể tên bệnh của [3] 32 100% Ti=0.5 mặc định Ti = max(0.5; – 3*std) Ti = max(0; - 3*std) F1 78% 78% 78.6 Bảng 4.5: Bảng tổng hợp kết quả mô hình DOC chuẩn hoá thực thể tên bệnh Luận văn đã sử dụng công thức điều chỉnh ngưỡng của mô hình DOC công thức Ti = max(0.5; - alpha*stdi), từ thu được ngưỡng mới T1 = 0,09 T2 = 0.7 Với hai ngưỡng mới này, mô hình chuẩn hoá thực thể tên bệnh của luận văn đạt trung bình F1 = 78.6% Thực nghiệm với sigmoid, mô hình chuẩn hoá thực thể tên bệnh của luận văn có khả đạt tới giá trị trung bình F1 = 80.2%, tốt kết quả của mơ hình Cho và cợng sự, mơ hình tốt nhất đến thời điểm hiện tại và cùng thể loại với mô hình đề xuất của luận văn Model micro F1 Chỉ sử dụng Khớp từ điển 66.10 Mô hình luận văn 80.2% Cho & cợng sự, 2017 [3] 78.80 Wright, 2019 [16] 87.8% Phan & cộng sự, 2019 [10] 87.7% Bảng 4.6 Kết thực nghiệm so sánh Mơ hình đề x́t của ḷn văn hiện có kết quả chuẩn hoá tên thực thể bệnh hai mô hình chuẩn hoá tên thực thể bệnh được giới thiệu gần nhất (2019) của Wright 33 [16] và Phan & cộng [10] Tuy vậy, khác với mô hình đề xuất của luận văn, cả hai mô hình đều sử dụng thêm thơng tin biểu diễn các tên bệnh từ việc tích hợp thêm bộ mã hoá dựa mạng nơ ron hồi quy hai chiều bidirectional Long Short Term Memory Với thực nghiệm sử dụng phiên bản rút gọn của bộ từ vựng MEDIC tức tập từ vựng chỉ chứa các ID bệnh (cùng các tên đồng nghĩa) xuất hiện tập train+dev Dùng sigmoid mô hình luận văn cho kết quả micro F1 = 76.1 phát hiện 22/59 IDs mới (unknown/rejection) 34 Kết luận Chương Chương này trình bày giới thiệu về một bộ liệu chuẩn vàng mà mô hình ứng dụng Chương được thực nghiệm Các kết quả thực nghiệm, với so sánh và đánh giá được giới thiệu, chứng tỏ hiệu quả của mơ hình ứng dụng học thế giới mở dựa kỹ thuật học sâu toán chuẩn hóa thực thể tên bệnh 35 Kết luận Luận văn đã trình bày chi tiết về Học máy thế giới mở, là một nội dung quan trọng của lĩnh vực học máy suốt đời Học máy thế giới mở khơng u cầu giả định thế giới đóng; có khả phát hiện các trường hợp của các lớp không nhìn thấy quá trình thử nghiệm hoặc ứng dụng mô hình, và tăng dần các lớp mới để cập nhật các lớp mới mô hình mà không đào tạo lại toàn bộ mô hình từ đầu Luận văn đã trình bày mợt mơ hình đề x́t ứng dụng học thế giới mở dựa kỹ thuật học sâu (cụ thể là mạng nơ ron tích chập CNN) cho bài toán chuẩn hoá thực thể tên (là vấn đề gặp nhiều đối tượng mới) Chuẩn hoá tên thực thể có rất nhiều thách thức, đã và nhận được nhiều quan tâm nghiên cứu của các nhóm nghiên cứu lớn thế giới Luận văn đã chọn miền văn bản y sinh là miền ứng dụng có rất nhiều tên mới xuất hiện Bài toán chuẩn hoá thể bệnh tên bệnh là vấn đề có nhiều ý nghĩa cho cộng đồng nghiên cứu y-sinh-dược Các kết quả thực nghiệm bộ liệu chuẩn tên bệnh đã chỉ tính hiệu quả của mô hình đề xuất vấn đề nhận dạng được các tên mới chưa xuất hiện h́n lụn mơ hình vấn đề chuẩn hoá thực thể tên bệnh Đặc biệt, mô hình chuẩn hoá thực thể tên đạt giá trị đợ đo F1 = 80%, tốt của các phương pháp cùng thể loại tính đến thời điểm hiện tại Trong năm 2019 có hai cơng trình mới nhất đã được giới thiệu cho bài toán chuẩn hóa thực thể tên bệnh từ y văn với kết quả rất ấn tượng (F1=90%) Tuy vậy, cả hai mô hình mới này đều khơng có khả phát hiện các tên mới chưa xuất hiện lúc học Chúng sử dụng thêm mạng BiLSTM để nâng cao hiệu mô hình Một hướng nghiên cứu tiếp theo khả quan của luận án là tích hợp BiLSTM vào mơ hình thê giới mở dựa kỹ thuật học sâu chuẩn hóa tên bệnh của ḷn văn Ći cùng, tiếp tục cải tiến mơ hình phân lớp mở quan hệ sử dụng các kỹ thuật học sâu (thế giới đóng) mới nhất cũng là một hướng nghiên cứu khả quan tiếp theo của luận văn 36 Tài liệu tham khảo Bendale A., Boult T.E Towards open world recognition CVPR 2015: 1893-1902 Chen Z., and Liu B Lifelong Machine Learning (2nd edition) Morgan & Claypool, 2018 Cho H., Choi W., and Lee H., A method for named entity normalization in biomedical articles: application to diseases and plants In BMC Bioinformatics, 2017 Davis A.P., Wiegers T C., Rosenstein M C., and Mattingly C J MEDIC: a practical disease vocabulary used at the Comparative Toxicogenomics Database In Database, 2012 Fei F., Wang S., Liu B., Learning Cumulatively to Become More Knowledgeable KDD 2016: 1565-1574 Fei G., Liu B., Breaking the Closed World Assumption in Text Classification HLT-NAACL 2016: 506-514 Kim Y., (2014) Convolutional neural networks for sentence classification ArXiv Preprint ArXiv:1408.5882 DOI: 10.3115/v1/d14-1181 Leaman R., Doğan R.I., and Lu Z., “DNorm: disease name normalization with pairwise learning to rank”, Bioinformatics 29, 2013, no 22, pp 2909-2917 Li H., Chen Q., Tang B., Wang X., Xu H., Wang B., and Huang D., “CNN-based ranking for biomedical entity normalization”, BMC bioinformatics, 2017, no 11, vol 18, pp 385 10 Phan, M.C., Sun, A and Tay, Y., 2019, July Robust Representation Learning of Biomedical Names In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp 3275-3285) 11 Pyysalo S., Ginter F., and Moen H., “Distributional semantics resources for biomedical text processing”, LBM 2013, pp 39-44 12 Scheirer W.J., Rocha A.d.R., Sapkota A., and Boult T.E., (2013) Toward open set recognition Pattern Analysis and Machine Intelligence, IEEE Transactions on, 35(7), pages 1757–1772 DOI: 10.1109/tpami.2012.256 13 Shu L., Xu H., and Liu B., (2017) DOC: Deep open classification of text documents In EMNLP DOI: 10.18653/v1/d17-1314 14 Sohn S, Comeau DC, Kim W, Wilbur WJ BMC Bioinformatics 2008 Sep 25;9:402 PubMed ID: 18817555 15 Wei C.H., Peng Y., Leaman R., Davis A.P., Mattingly C.J., Li J., Wiegers T.C., and Lu Z., “Overview of the BioCreative V chemical disease relation (CDR) task”, 37 Proceedings of the fifth BioCreative challenge evaluation workshop, 2015, pp 154-166, Spain: Sevilla 16 Wright, D., 2019 NormCo: Deep disease normalization for biomedical knowledge base construction (Doctoral dissertation, UC San Diego) 38 ... giới mở dựa kỹ thuật học sâu 17 Chương Học sâu giới mở cho văn 2.1 Học giới mở không gian đơn giản trung tâm G Fei và cộng [5] đã giới thiệu một mô hình phân lớp thế giới mở dựa phương... Kết luận 36 Tài liệu tham khảo 37 TÓM TẮT Phân tích liệu văn dựa học máy giới mở ứng dụng Phạm Thị Quỳnh Trang Khóa học: QH-2013- I/CQ Ngành: Hệ thớng thơng... gian tương tự Việc phân loại cuối cùng được thực hiện không gian CBS 2.2 Học sâu giới mở phân lớp văn Phân lớp mở sâu (DOC [13]) sử dụng mơ hình học sâu [7] Không giống phân lớp truyền

Định dạng
Số trang	44
Dung lượng	1,27 MB