Luận văn phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

44 0 0
Luận văn phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mục Lục LỜI CẢM ƠN i LỜI CAM ĐOAN ii TÓM TẮT iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT v DANH SÁCH BẢNG vi DANH SÁCH HÌNH ẢNH vii Mở đầu Chương Học máy thế giới mở và bài toán chuẩn hóa tên thực thể bệnh 1.1 Học máy truyền thống 1.2 Học máy suốt đời 1.2.1 Định nghĩa học máy suốt đời 1.2.2 Các hướng nghiên cứu LL 12 1.3 Học máy thế giới mở 12 1.4 Mục tiêu của luận văn 15 Kết luận Chương 17 Chương Học sâu thế giới mở cho văn bản 18 2.1 Học thế giới mở không gian đơn giản trung tâm 18 2.1.1 Tăng cường cập nhật mơ hình học CBS 18 2.1.2 Kiểm tra mơ hình học CBS 20 2.1.3 Học CBS cho phát hiện lớp chưa thấy 20 2.2 Học sâu thế giới mở phân lớp văn bản 21 2.2.1 CNN lớp chuyển tiếp của DOC 22 2.2.2 Tầng 1- với-phần còn lại 23 2.2.2 Giảm rủi ro không gian mở 23 Kết luận Chương 24 Chương 3: Ứng dụng mơ hình DOC vào chuẩn hóa tên bệnh 25 3.1 Ứng dụng chuẩn hóa tên thực thể bệnh 25 3.2.1 Mô hình đề xuất 27 Bộ phân giải viết tắt 28 Mạng nơ ron học sâu thế giới mở 28 Kết luận Chương 30 Chương 4: Thực nghiệm và đánh giá 31 4.1 Dữ liệu thực nghiệm chuẩn hoá tên bệnh 31 4.2 Môi trường và các công cụ thực nghiệm 32 4.3 Kết quả và đánh giá 32 Kết luận 36 Tài liệu tham khảo 37 TÓM TẮT Phân tích liệu văn dựa học máy giới mở ứng dụng Phạm Thị Quỳnh Trang Khóa học: QH-2013- I/CQ Ngành: Hệ thớng thơng tin Tóm tắt: Học máy suốt đời (Lifelong Machine Learning: LML) là một tiếp cận học máy liên tục, trích chọn và lưu giữ tri thức từ quá khứ để sử dụng giải quyết các bài toán học mới Học thế giới mở, mợt dạng của học máy śt đời, có lực phát hiện các trường hợp chưa thấy để hình thành các bài toán mới Phân lớp thế giới mở thực hiện ba bài toán thành phần là (i) Phát hiện thực thể mới, thuộc vào các lớp hiện có, (ii) Xây dựng mơ hình phân lớp cho các lớp mới, và (iii) hiệu chỉnh các mơ hình phân lớp vớn có để nâng cao hiệu bợ phân lớp có thêm các lớp mới Dựa mô hình phân lớp học sâu thế giới mở DOC (Deep Open Classification) của L Shu và cộng sự, luận văn đề nghị mô hình ứng dụng phân lớp học sâu thế giới mở cho bài toán chuẩn hoá thực thể tên và phân lớp quan hệ văn bản y sinh Việc trích xuất tự động tri thức từ văn bản đóng vai trò quan trọng học śt đời Nó bao gờm ba bước chính: nhận dạng các thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ chúng Hai bước sau thường hay xuất hiện các đối tượng mới, đặc biệt là lĩnh vực y sinh Các kết quả thực nghiệm bộ liệu chuẩn đã chỉ tính hiệu quả của mô hình đề xuất vấn đề nhận dạng được các đối tượng mới chưa xuất hiện huấn luyện mô hình vấn đề chuẩn hoá tên Đặc biệt, mô hình chuẩn hoá thực thể tên đạt giá trị đợ đo F1 = 80%, tốt của các phương pháp cùng thể loại tính đến thời điểm hiện tại Từ khóa: Học máy suốt đời, học giới mở, học sâu, chuẩn hoá tên thực thể bệnh iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT SVM Support Vector Machines/Máy vector hỗ trợ CNN Convolutional neural network/Mạng nơ ron tích chập LL Life long learning/Học suốt đời ML Machine learning/Học máy DOC Deep Open Classification/Phân lớp mở sâu CBS Center Based Similarity/Độ tương tự dựa trung tâm NNO Nearest Non-Outlier/Không ngoại lai gần nhất v DANH SÁCH BẢNG Bảng 1.1: Bảng 1.1 - Một ví dụ tốn chuẩn hố tên bệnh 17 Bảng 3.1 - Một ví dụ toán chuẩn hoá tên thực thể thuốc …………………….27 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh 33 Bảng 4.2: Các công cụ thực nghiệm 34 Bảng 4.3: So sánh kết sử dụng dữ liệu câu dữ liệu SDP số lớp biết khác tập dữ liệu SemEval-2010 Task 37 Bảng 4.4: Tổng hợp kết mơ hình DOC chuẩn hóa thực thể tên bệnh 38 Bảng 4.5: Kết thực nghiệm so sánh 38 vi DANH SÁCH HÌNH ẢNH Hình 1.1: Kiến trúc mơ hình học máy cổ điển Hình 2.1: Kiến trúc tổng quan hệ thống học suốt đời 10 Hình 2.1: Mơ hình tổng quan DOC 22 Hình 2.2: Mơ hình tổng quan DOC 23 Hình 3.1: Định danh, tên hay dùng tên đồng nghĩa bệnh MEDIC 27 Hình 3.1: Mơ hình đường ống chuẩn hố thực thể tên bệnh 28 Hình 3.2: Kiến trúc hệ thống chuẩn hoá tên thực thể y sinh dựa mạng nơ ron tích chập Cho cộng đề xuất [9] 28 vii Mở đầu Trong cuộc sống, người học hỏi suốt đời để tích lũy tri thức, vận dụng tri thức và kỹ tích lũy được để giải quyết các vấn đề/tác vụ mới gặp phải, từ giúp cho việc học nhanh và hiệu quả Trong quá trình tiến hóa hàng triệu năm của loài người, khả học suốt đời đã giúp người thích nghi, tồn tại và phát triển được nhiều môi trường sống khắc nghiệt khác Học máy suốt đời, là một hướng nghiên cứu học máy mới nhằm mục đích bắt chước quá trình và khả học tập suốt đời của người các môi trường mở, đầy biến động Kiểu học này khá tự nhiên vì mọi thứ xung quanh chúng ta có liên quan chặt chẽ và liên kết với Con người chúng ta giữ lại kiến thức đã học quá khứ và sử dụng để giúp học tập và giải quyết vấn đề tương lai Học máy suốt đời là bước tiến hoá hợp lý tiếp theo của học máy cổ điển; là hướng nghiên cứu mới và đầy hứa hẹn để khắc phục thiếu sót của học máy cổ điển, với mục tiêu cuối cùng là xây dựng cỗ máy học hỏi người Học thế giới mở, là một hình thức của học máy suốt đời, khơng u cầu giả định thế giới đóng, có khả phát hiện các trường hợp của các lớp chưa thấy q trình hoạt đợng của hệ thớng học Nó có khả xây dựng mơ hình phân lớp cho các lớp mới và cập nhật mô hình phân lớp cho các lớp đã có mà khơng học lại toàn bộ các mô hình từ đầu Việc trích x́t tự đợng tri thức từ văn bản đóng vai trò quan trọng học śt đời Nó bao gờm ba bước chính: nhận dạng các thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ chúng Hai bước sau thường hay xuất hiện các đối tượng mới, đặc biệt là lĩnh vực y sinh, với rất nhiều thách thức, cần phải xác định mợt biểu hiện tên bệnh mới x́t hiện có tḥc về mợt thực thể tên bệnh đã có hay là biểu hiện của một tên bệnh mới Trong trường hợp này, mô hình phân lớp thế giới mở là phù hợp để giải quyết bài toán Nội dung của luận văn được tổ chức thành các chương sau: Chương trình bày mợt giới thiệu tổng quan về học máy suốt đời và học máy thế giới mở Tiếp đó, bài toán chuẩn hoá thực thể tên bệnh văn bản y sinh được giới thiệu Chương trình bày mô hình phân lớp văn bản thế giới mở dựa kỹ thuật học sâu Chương trình bày mô hình ứng dụng phân lớp thế giới mở dựa kỹ thuật học sâu cho chuẩn hoá thực thể tên bệnh, là bước tiền đề cho việc trích xuất các quan hệ các thực thể y sinh Các quan hệ được biểu diễn văn bản là các tri thức tồn tại dưới định dạng chỉ người mới “đọc hiểu” được Việc trích xuất quan hệ từ văn bản tạo sở liệu tri thức, là thành phần quan trọng của học máy suốt đời Chương trình bày các kết quả thực nghiệm của mô hình ứng dụng được đề xuất Chương 3, cũng các phân tích các kết quả thực nghiệm này Phần Kết luận tóm lược kết quả đạt được của khóa luận và định hướng phát triển tương lai Chương Học máy giới mở tốn chuẩn hóa tên thực thể bệnh Học máy (Machine Learning: ML) đã là công cụ cho tiến bợ của cả phân tích liệu trí tuệ nhân tạo (Artificial Intelligence: AI) Thành công gần của học sâu đã đưa ML lên một tầm cao mới Các thuật toán ML đã được áp dụng hầu hết các lĩnh vực khoa học máy tính, khoa học tự nhiên, kỹ thuật, khoa học xã hội và thế Nếu khơng có tḥt tốn ML hiệu quả, nhiều ngành không tồn tại hoặc phát triển, ví dụ: thương mại điện tử tìm kiếm web Tuy nhiên, mơ hình ML hiện tại khơng phải khơng có điểm ́u Trước tiên ḷn văn giới thiệu về mơ hình ML cổ điển thiếu sót của nó, sau giới thiệu Lifelong ML (Học suốt đời (LL) học thế giới mở (OpenWorld ML, một dạng học máy suốt đời) một hướng mới và đầy hứa hẹn để khắc phục thiếu sót với mục tiêu ći xây dựng cỗ máy học hỏi người [2] Bài tốn chuẩn hóa tên thực thể bệnh văn bản y sinh dưới dạng mợt tốn học thế giới mở được giới thiệu cuối chương 1.1 Học máy truyền thống Mơ hình ML phổ biến hiện chạy thuật toán ML tập liệu đã cho để tạo mơ hình Mơ hình sau được áp dụng nhiệm vụ thực tế Mơ hình học được gọi mơ hình lập khơng xem xét bất kỳ thơng tin liên quan khác hoặc tri thức đã học, tích luỹ được trước (xem Hình 1) [2] Vấn đề bản của mơ hình học tập lập này là khơng lưu giữ và tích lũy kiến thức đã học khứ sử dụng tương lai Điều này trái ngược hoàn toàn với việc học của người Con người tích luỹ lại kiến thức đã học khứ sử dụng để giúp học tập giải qút vấn đề mới tương lai Khơng có khả tích lũy và sử dụng kiến thức khứ, thuật toán ML thường cần một số lượng lớn ví dụ huấn luyện để học hiệu quả Các mơi trường học thường là tĩnh và đóng Đới với việc học có giám sát, việc gán nhãn liệu huấn luyện thường được thực hiện thủ công, rất tốn cơng sức thời gian Vì thế giới q phức tạp với nhiều nhiệm vụ khác hẳn nhau, nên gần gán nhãn một số lượng lớn ví dụ cho mọi nhiệm vụ để tḥt tốn ML học hiệu quả Tệ nữa, mọi thứ xung quanh thay đổi liên tục, việc gán nhãn cần phải được thực hiện liên tục; là mợt việc hết sức khó khăn đới với người Ngay cả đối với học không giám sát, việc thu thập một khối lượng liệu lớn khơng thực hiện được nhiều trường hợp Hình 1.1 Kiến trúc mơ hình học máy cổ điển [2] Mô hình học cô lập cổ điển thực hiện được việc học suốt đời Như đã đề cập trước đó, chỉ phù hợp cho các nhiệm vụ hẹp và hạn chế môi trường kín Nó cũng khơng đủ để xây dựng mợt hệ thớng thơng minh học liên tục để đạt được mức độ thông minh người LL nhằm mục đích đạt được tiến bộ theo hướng này Với phổ biến của robot, trợ lý ảo thông minh, LL ngày càng trở nên quan trọng vì các hệ thống này phải tương tác với người và/hoặc các hệ thống khác, liên tục học hỏi trình hoạt đợng và trì kiến thức đã học các tương tác của chúng môi trường khác nhau, qua hoạt đợng tớt theo thời gian Trong 25 năm qua, đã có tiến bộ đáng kể lý thuyết học máy và thuật toán Tuy nhiên, hiện vẫn có rất ít thuật toán có khả học nhiều nhiệm vụ khác mợt thời gian dài Học có giám sát cổ điển đưa giả định thế giới khép kín, có nghĩa là tất cả các lớp liệu lúc kiểm tra đều đã xuất hiện lúc học [1, 5, 6] Mặc dù giả định này đúng nhiều ứng dụng, bị vi phạm nhiều ứng dụng khác, đặc biệt là môi trường động và mở; các liệu của các lớp khơng mong ḿn x́t hiện lúc kiểm tra hoặc hệ thống vào hoạt động Ví dụ, đọc, hệ thớng thấy mợt từ mới mà khơng biết, hệ thớng phải học cách tra từ từ điển Trong cuộc trò chuyện người và máy, trợ lý ảo khơng hiểu mợt sớ điều được nói người dùng và sau cần yêu cầu người dùng giải thích thêm để tìm hiểu Để Hình 2.2: Rủi ro không gian mở hàm sigmoid [13] Ước tính đợ lệch chuẩn σi cả điểm hiện có và các điểm giả được tạo Trong thống kê, nếu một giá trị/điểm liệu nằm ngoài khoảng xung quanh kỳ vọng một số nhất định (α =3) lần độ lệch chuẩn được coi là một điểm ngoại lai Do đó, ngưỡng xác suất được thiệt lập theo công thức ti = max (0.5, – ασi), α = Kết luận Chương Dựa mục tiêu được đề Chương 1, Chương trình bày chi tiết về hai phương pháp học thế giới mở được giới thiệu gần đây, là: (i) mô hình phân lớp thế giới mở dựa phương pháp học không gian tương tự dựa trung tâm Fei và Liu đề xuất năm 2015 (ii) mơ hình phân lớp mở dựa kỹ tḥt học sâu (DOC) sử dụng mơ hình học sâu Shu cộng đề xuất năm 2017 Cả hai phương pháp này đều sử dụng khái niệm “Rủi ro không gian mở” có khả giải quyết vấn đề phát hiện liệu mới chưa xuất hiện lúc h́n lụn mơ hình Chúng đã được tác giả thực nghiệm cho kết quả tớt cho tốn phân loại văn bản mở Tuy nhiên vẫn chưa có nghiên cứu về hiệu quả ứng dụng của chúng cho tốn chuẩn hóa thực thể tên, tốn quan trọng có x́t hiện của nhiều tên mới (đặc biệt lĩnh vực y sinh), thiết yếu việc trích xuất tri thức được viết (ở dạng phi cấu trúc) văn bản Chương tiếp theo giới thiệu mợt mơ hình ứng dụng DOC vào toán chuẩn hoá quan trọng 24 Chương 3: Ứng dụng mơ hình DOC vào chuẩn hóa tên bệnh 3.1 Ứng dụng chuẩn hóa tên thực thể bệnh Khai phá tri thức từ y văn đóng mợt vai trò quan trọng đối với các nhà nghiên cứu y sinh cũng các nhà khoa học liệu năm gần Nó đã giúp nhà nghiên cứu đẩy nhanh trình nghiên cứu, khám phá các tri thức mới của họ, qua giúp giảm chi phí nghiên cứu lĩnh vực y sinh hiện rất tốn Lấy ví dụ, theo [15], mợt loại th́c mất trung bình khoảng 14 năm và hai tỷ đô la Mỹ để được phát triển thành công, xuất hiện thị trường Quá trình tốn này được cải thiện mạnh mẽ nếu các tác dụng phụ gây bệnh của th́c được phát hiện nhanh một cách tự động từ một khối lượng khổng lồ văn bản y sinh Việc phát hiện chuẩn hóa thực thể y sinh rất quan trọng để khám phá quan hệ mới, quan trọng các thuốc và các bệnh không được mô tả cùng một bài báo y sinh [2] Chuẩn hóa thực thể tên bệnh (Named Entity Normalization) là mợt các phần thiếu ́u của trích x́t thơng tin, đặc biệt có ý nghĩa cho các nghiên cứu y sinh và ứng dụng lâm sàng Nó thực hiện việc liên kết một tên bệnh được nhắc đến tài liệu y sinh đến định dang tương ứng của được lưu sẵn bợ từ vựng y sinh hiện có [8] (Xem Bảng 3.1) Bài toán NEN cho các tên thực thể bệnh có rất nhiều thách thức: 1) nhập nhằng: cùng một tên bệnh có nhiều định danh; 2) phong phú: nhiều cách đặt tên cho một [định danh] bệnh [9] Hơn nữa, tên bệnh là được đặt tên theo nhiều cách, tùy thuộc vào vị trí giải phẫu, triệu chứng, điều trị, v.v Bên cạnh đó, các tên bệnh thường dài và phức tạp, thậm chí là viết tắt Nhiều nghiên cứu đã sử dụng thuật toán dựa luật để giải quyết vấn đề chuẩn hoá tên bệnh, không hiệu quả việc xử lý tất cả thuật ngữ bệnh tài liệu y sinh Ví dụ, cả hai từ “carcinoma” và “cancer" đều đề cập đến bệnh “tăng trưởng bất thường tế bào di căn”; Từ KMS là từ viết tắt của hội chứng Kabuki (Kabuki make up syndrome) hoặc hội chứng Kallmann (Kallmann syndrome), là hai hội chứng rối loạn hoàn toàn không liên quan đến Với bài toán chuẩn hoá tên bệnh, các nghiên cứu thế giới đều sử dụng bộ từ vựng MEDIC (MErged DIsease voCabulary) [4], được trì Cơ sở liệu đối sánh 25 Toxicogenomics [4], một hệ CSDL về tác động của việc tiếp xúc với môi trường đối với sức khỏe người MEDIC được tạo cách tích hợp CSDL OMIM (Mendel trực tuyến di truyền người), một bộ từ vựng được kiểm soát về các bệnh di truyền người và một số phần của MeSH, là một bộ từ vựng được tổ chức theo thứ bậc thành 16 nhánh Trong số các nhánh này, nhánh bệnh và nhánh phụ của Rối loạn tâm thần nhánh Tâm lý học chứa các khái niệm bệnh được sử dụng để xây dựng MEDIC [4] Document Intravenous administration of a single 50-mg bolus of lidocaine in a 67-year-old man resulted in profound depression of the activity of the sinoatrial and atrioventricular nodal pacemakers The patient had no apparent associated conditions which might have predisposed him to the development of bradyarrhythmias; and, thus, this probably represented a true idiosyncrasy to lidocaine Input Output lidocaine D008012 depression D003866 bradyarrhythmias Unknown Bảng 3.1 - Một ví dụ tốn chuẩn hoá tên thực thể thuốc MEDIC được cập nhật hàng tháng, hiện tại có 9.664 khái niệm (định danh) bệnh, với tổng số 67.782 tên bệnh Trung bình, bệnh có 7.01 tên đờng nghĩa, bao gờm tên tên đờng nghĩa 91% bệnh có tên đờng nghĩa với tên 47% bệnh có định nghĩa hoặc mô tả về các khái niệm này Một ví dụ về bệnh MEDIC được đưa Hình 3.2 Bệnh này có định danh MESH:D009369, (ban đầu xuất phát từ MeSH) Bệnh có tên Neoplasms, tên hay được sử dụng, và chín tḥt ngữ khác đờng nghĩa Có thể thấy các tḥt ngữ từ đờng nghĩa là tên thay thế cho tên chính, hoặc là các biến thể của tên chính hoặc các từ đồng nghĩa khác, ví dụ Neoplasm, Benign Benign Neoplasm Trong một sớ trường hợp, cũng là từ viết tắt của các tên khác của bệnh, hoặc tên với tính từ bổ nghĩa kèm 26 Hình 3.1 Định danh, tên hay dùng tên đồng nghĩa bệnh MEDIC 3.2.1 Mơ hình đề xuất Tổng quan về mô hình đề xuất được minh họa Hình 3.3 Nó là mợt mơ hình đường ớng bao gờm ba thành phần: • Mơ đun tiền xử lý và phân giải viết tắt • Mơ-đun khớp từ điển để đẩy nhanh việc chuẩn hoá • Mạng nơ ron học sâu thế giới mở để chuẩn hoá tên bệnh (không được tìm thấy từ điển) thành định danh của bợ từ vựng Hình 3.2: Mơ hình đường ống chuẩn hố thực thể tên bệnh 27 Bộ phân giải viết tắt Trong tài liệu y sinh, có rất nhiều thực thể tên bệnh dài, và thường được gọi cách sử dụng các từ viết tắt Khơng có mợt quy tắc thớng nhất nào để phân giải được từ viết tắt thành tên đầy đủ tài liệu khác mợt từ viết tắt có ý nghĩa khác và/ngược lại các từ khác có cùng ý nghĩa Đối với các thực thể tên bệnh, luận văn sử dụng công cụ Ab3P (Abbreviation Plus Pseudo-Precision) [14] để phân giải từ viết tắt Ab3p được sử dụng để xác định từ viết tắt tài liệu và đưa danh sách các từ đầy đủ cho cùng với xác suất kèm Ví dụ, nếu thực thể PFS xuất hiện tài liệu, Ab3P phát hiện trả về kết quả: PFS| progression-free survival (sống sót khơng có tiến triển) | 0.999408; PFS tên viết tắt, progression-free survival là tên đầy đủ và 0,999408 là xác suất của tên viết tắt cho tên đầy đủ Ngoài ra, để phục vụ cho mô đun tìm kiếm từ điển, các tên bệnh (được đề cập văn bản cũng tập từ vựng MEDIC) được chuyển về chữ thường Các ký tự chấm câu và các ký tự đặc biệt bị loại bỏ Các tên được chuyển về dạng gốc của cơng cụ Snowball Mạng nơ ron học sâu giới mở Với thực thể tên bệnh m tài liệu được gán nhãn định danh IDm, tạo ra:  Một tập Nm+ gồm các tên bệnh từ vựng (n+) có nhãn định danh là IDm Cặp được xem là một ví dụ dương  Mợt tập Nm-, có kích cỡ của Nm+, gờm các tên bệnh từ vựng (n-) mà khơng có nhãn định danh là IDm Các tên bệnh n- này là tên giống với m nhất, được tính theo độ đo tích vô hướng của vector TF-IDF(m) TFIDF(n-), TF-IDF(.) là vector tần sớ từ-tần sớ tài liệu ngược Cặp được xem là một ví dụ âm Đặt M = {m1, m2, , mn} tập chứa tất cả các thực thể tên bệnh xuất hiện văn bản tập huấn luyện Tập liệu huấn luyện dương và âm (tương ứng gồm các cặp ví dụ dương và âm) được tạo từ tất cả các thực thể mi M Điều tương tự cũng được tạo cho tất cả văn bản tập liệu kiểm định (Validation) để tinh chỉnh mơ hình 28 Ḷn văn sử dụng mơ hình chuẩn hoá tên thực thể y sinh dựa mạng nơ ron tích chập (CNN) Cho và cộng giới thiệu năm 2017 [3] Luận văn ứng dụng học thế giới mở cách thay tầng softmax cuối cùng tầng 1-so-với-còn lại sigmoids, được sử dụng mô hình DOC Mơ hình Cho và cợng giới thiệu nhận đầu vào là tập Nm+ Nm- được mô tả Mỗi một cặp được qua tầng nhúng từ (embedding) để tạo ma trận các vector biễu diễn cho các từ mention m và tên (name) n Ở tầng tích chập (convolution) tiếp theo các bộ lọc (filter) với kích thước khác được áp dụng độc lập mention m và tên n để tạo các bản đồ đặc trưng chập (convolution feature maps) Các bản đồ đặc trưng m và n được qua hai tầng pooling trước được gộp lại với tại tầng gộp (join layer) Ngoài ra, đầu của hai tầng pooling còn được qua tầng so khớp giống (similarity matching) để tạo một đặc trưng thể hiện giống của m và n Đặc trưng này cũng được gộp vào với đặc trưng pooling tầng gộp Đầu từ tầng gộp được cho qua một tầng ẩn kết nối đầy đủ trước cho qua tầng softmax cuối cùng Kiến trúc tổng thể của mô hình của Cho và cợng được thể hiện Hình 3.3 Hình 3.3 Kiến trúc hệ thống chuẩn hoá tên thực thể y sinh dựa mạng nơ ron tích chập Cho cộng đề xuất [3] 29 Kết luận Chương Chương giới thiệu mợt mơ hình ứng dụng DOC vào toán quan trọng, thiết yếu cho q trình trích x́t tự đợng tri thức (được viết dưới dạng phi cấu trúc) văn bản y sinh, là (i) chuẩn hóa thực thể tên bệnh Đây là bài toán thường có xuất hiện của các đối tượng liệu thuộc lớp mới chưa xuất hiện lúc huấn luyện mô hình, đặc biệt là lĩnh vực y sinh Chương sau trình bày kết quả thực nghiệm của mơ hình ứng dụng 30 Chương 4: Thực nghiệm đánh giá 4.1 Dữ liệu thực nghiệm chuẩn hoá tên bệnh Thực nghiệm vào bài toán chuẩn hoá tên thực thể thuốc (disease normalization) với bợ liệu chuẩn NCBI disease nhóm nghiên cứu từ bộ khoa học công nghệ sinh học Mỹ (NCBI) cung cấp Đây là bộ liệu chuẩn vàng được sử dụng các mô hình chuẩn hoá tên thực thể bệnh khác thế giới Bộ liệu gồm tập con: tập train, tập development, tập test có sớ lượng abstract (tóm tắt bài báo y sinh) tương ứng là 593, 100, 100 Trong sớ lượng các disease mentions (các đoạn text tên bệnh), và số lượng tên bệnh khác được cho sau: Corpus NCBI Subset Articles Mentions Uniques Training 593 5145 1710 Development 100 787 368 Test 100 960 203 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh Mơ hình đề x́t của ḷn văn sử dụng vector biễu diễn từ có 300 chiều, được cung cấp miễn phí (gờm triệu từ khác nhau) Pyysalo cợng [11] họ h́n lụn mơ hình word2vec tập tất cả các văn bản tóm tắt CSDL PubMed toàn văn CSDL PMC [11] Có 59/203 (30%) mã định danh (IDs) tập test không xuất hiện tập train + dev 31 4.2 Môi trường công cụ thực nghiệm Bảng sau giới thiệu chi tiết về công cụ, môi trường và phần mềm thực nghiệm STT Phần mềm Ý nghĩa Nguồn Pycharm Môi trường phát triển https://www.jetbrains.com/pycharm Python 2.7 Ngôn ngữ phát triển https://www.python.org/ Tensorflow Thư viện cho học sâu Sklearn https://www.tensorflow.org/ Thư viện hỗ trợ các http://scikit-learn.org/ công cụ học máy Bảng 4.4: Các công cụ thực nghiệm 4.3 Kết đánh giá Mô hình được đánh giá và so sánh dựa độ đo F1 mức mã định danh Giả sử tập {A, B, C, D} là tập tất cả các định danh khác được gán cho tất cả các tên bệnh tập kiểm tra và tập {A, B, E, F} là tập tất cả các định danh khác được dự đoán mô hình cho tất cả các tên bệnh tập kiểm tra Khi A và B là TP (True Positive), C D FN (False Negative), E F FP (False Positive) Mô hình được cho chạy 20 lần và micro F1 được tính để đo hiệu quả của mô hình Sử dụng sigmoids (100% nhãn), và cả ngưỡng T=0.5 mặc định luận văn thu được độ đo trung bình F1=78% Dùng công thức điều chỉnh ngưỡng của mô hình DOC (Ti = max(0.5; - alpha*stdi; alpha =3), 1-alpha*stdi rất nhỏ (=0.09) nên Ti vẫn 0.5 mặc định cho sigmoids), luận văn vẫn thu được F1 trung bình 78% (xem Bảng 4.5) Kết quả này xấp xỉ với kết của của mô hình chuẩn hoá thực thể tên bệnh của [3] 32 100% Ti=0.5 mặc định Ti = max(0.5; – 3*std) Ti = max(0; - 3*std) F1 78% 78% 78.6 Bảng 4.5: Bảng tổng hợp kết quả mô hình DOC chuẩn hoá thực thể tên bệnh Luận văn đã sử dụng công thức điều chỉnh ngưỡng của mô hình DOC công thức Ti = max(0.5; - alpha*stdi), từ thu được ngưỡng mới T1 = 0,09 T2 = 0.7 Với hai ngưỡng mới này, mô hình chuẩn hoá thực thể tên bệnh của luận văn đạt trung bình F1 = 78.6% Thực nghiệm với sigmoid, mô hình chuẩn hoá thực thể tên bệnh của luận văn có khả đạt tới giá trị trung bình F1 = 80.2%, tốt kết quả của mơ hình Cho và cợng sự, mơ hình tốt nhất đến thời điểm hiện tại và cùng thể loại với mô hình đề xuất của luận văn Model micro F1 Chỉ sử dụng Khớp từ điển 66.10 Mô hình luận văn 80.2% Cho & cợng sự, 2017 [3] 78.80 Wright, 2019 [16] 87.8% Phan & cộng sự, 2019 [10] 87.7% Bảng 4.6 Kết thực nghiệm so sánh Mơ hình đề x́t của ḷn văn hiện có kết quả chuẩn hoá tên thực thể bệnh hai mô hình chuẩn hoá tên thực thể bệnh được giới thiệu gần nhất (2019) của Wright 33 [16] và Phan & cộng [10] Tuy vậy, khác với mô hình đề xuất của luận văn, cả hai mô hình đều sử dụng thêm thơng tin biểu diễn các tên bệnh từ việc tích hợp thêm bộ mã hoá dựa mạng nơ ron hồi quy hai chiều bidirectional Long Short Term Memory Với thực nghiệm sử dụng phiên bản rút gọn của bộ từ vựng MEDIC tức tập từ vựng chỉ chứa các ID bệnh (cùng các tên đồng nghĩa) xuất hiện tập train+dev Dùng sigmoid mô hình luận văn cho kết quả micro F1 = 76.1 phát hiện 22/59 IDs mới (unknown/rejection) 34 Kết luận Chương Chương này trình bày giới thiệu về một bộ liệu chuẩn vàng mà mô hình ứng dụng Chương được thực nghiệm Các kết quả thực nghiệm, với so sánh và đánh giá được giới thiệu, chứng tỏ hiệu quả của mơ hình ứng dụng học thế giới mở dựa kỹ thuật học sâu toán chuẩn hóa thực thể tên bệnh 35 Kết luận Luận văn đã trình bày chi tiết về Học máy thế giới mở, là một nội dung quan trọng của lĩnh vực học máy suốt đời Học máy thế giới mở khơng u cầu giả định thế giới đóng; có khả phát hiện các trường hợp của các lớp không nhìn thấy quá trình thử nghiệm hoặc ứng dụng mô hình, và tăng dần các lớp mới để cập nhật các lớp mới mô hình mà không đào tạo lại toàn bộ mô hình từ đầu Luận văn đã trình bày mợt mơ hình đề x́t ứng dụng học thế giới mở dựa kỹ thuật học sâu (cụ thể là mạng nơ ron tích chập CNN) cho bài toán chuẩn hoá thực thể tên (là vấn đề gặp nhiều đối tượng mới) Chuẩn hoá tên thực thể có rất nhiều thách thức, đã và nhận được nhiều quan tâm nghiên cứu của các nhóm nghiên cứu lớn thế giới Luận văn đã chọn miền văn bản y sinh là miền ứng dụng có rất nhiều tên mới xuất hiện Bài toán chuẩn hoá thể bệnh tên bệnh là vấn đề có nhiều ý nghĩa cho cộng đồng nghiên cứu y-sinh-dược Các kết quả thực nghiệm bộ liệu chuẩn tên bệnh đã chỉ tính hiệu quả của mô hình đề xuất vấn đề nhận dạng được các tên mới chưa xuất hiện h́n lụn mơ hình vấn đề chuẩn hoá thực thể tên bệnh Đặc biệt, mô hình chuẩn hoá thực thể tên đạt giá trị đợ đo F1 = 80%, tốt của các phương pháp cùng thể loại tính đến thời điểm hiện tại Trong năm 2019 có hai cơng trình mới nhất đã được giới thiệu cho bài toán chuẩn hóa thực thể tên bệnh từ y văn với kết quả rất ấn tượng (F1=90%) Tuy vậy, cả hai mô hình mới này đều khơng có khả phát hiện các tên mới chưa xuất hiện lúc học Chúng sử dụng thêm mạng BiLSTM để nâng cao hiệu mô hình Một hướng nghiên cứu tiếp theo khả quan của luận án là tích hợp BiLSTM vào mơ hình thê giới mở dựa kỹ thuật học sâu chuẩn hóa tên bệnh của ḷn văn Ći cùng, tiếp tục cải tiến mơ hình phân lớp mở quan hệ sử dụng các kỹ thuật học sâu (thế giới đóng) mới nhất cũng là một hướng nghiên cứu khả quan tiếp theo của luận văn 36 Tài liệu tham khảo Bendale A., Boult T.E Towards open world recognition CVPR 2015: 1893-1902 Chen Z., and Liu B Lifelong Machine Learning (2nd edition) Morgan & Claypool, 2018 Cho H., Choi W., and Lee H., A method for named entity normalization in biomedical articles: application to diseases and plants In BMC Bioinformatics, 2017 Davis A.P., Wiegers T C., Rosenstein M C., and Mattingly C J MEDIC: a practical disease vocabulary used at the Comparative Toxicogenomics Database In Database, 2012 Fei F., Wang S., Liu B., Learning Cumulatively to Become More Knowledgeable KDD 2016: 1565-1574 Fei G., Liu B., Breaking the Closed World Assumption in Text Classification HLT-NAACL 2016: 506-514 Kim Y., (2014) Convolutional neural networks for sentence classification ArXiv Preprint ArXiv:1408.5882 DOI: 10.3115/v1/d14-1181 Leaman R., Doğan R.I., and Lu Z., “DNorm: disease name normalization with pairwise learning to rank”, Bioinformatics 29, 2013, no 22, pp 2909-2917 Li H., Chen Q., Tang B., Wang X., Xu H., Wang B., and Huang D., “CNN-based ranking for biomedical entity normalization”, BMC bioinformatics, 2017, no 11, vol 18, pp 385 10 Phan, M.C., Sun, A and Tay, Y., 2019, July Robust Representation Learning of Biomedical Names In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp 3275-3285) 11 Pyysalo S., Ginter F., and Moen H., “Distributional semantics resources for biomedical text processing”, LBM 2013, pp 39-44 12 Scheirer W.J., Rocha A.d.R., Sapkota A., and Boult T.E., (2013) Toward open set recognition Pattern Analysis and Machine Intelligence, IEEE Transactions on, 35(7), pages 1757–1772 DOI: 10.1109/tpami.2012.256 13 Shu L., Xu H., and Liu B., (2017) DOC: Deep open classification of text documents In EMNLP DOI: 10.18653/v1/d17-1314 14 Sohn S, Comeau DC, Kim W, Wilbur WJ BMC Bioinformatics 2008 Sep 25;9:402 PubMed ID: 18817555 15 Wei C.H., Peng Y., Leaman R., Davis A.P., Mattingly C.J., Li J., Wiegers T.C., and Lu Z., “Overview of the BioCreative V chemical disease relation (CDR) task”, 37 Proceedings of the fifth BioCreative challenge evaluation workshop, 2015, pp 154-166, Spain: Sevilla 16 Wright, D., 2019 NormCo: Deep disease normalization for biomedical knowledge base construction (Doctoral dissertation, UC San Diego) 38 ... giới mở dựa kỹ thuật học sâu 17 Chương Học sâu giới mở cho văn 2.1 Học giới mở không gian đơn giản trung tâm G Fei và cộng [5] đã giới thiệu một mô hình phân lớp thế giới mở dựa phương... Kết luận 36 Tài liệu tham khảo 37 TÓM TẮT Phân tích liệu văn dựa học máy giới mở ứng dụng Phạm Thị Quỳnh Trang Khóa học: QH-2013- I/CQ Ngành: Hệ thớng thơng... gian tương tự Việc phân loại cuối cùng được thực hiện không gian CBS 2.2 Học sâu giới mở phân lớp văn Phân lớp mở sâu (DOC [13]) sử dụng mơ hình học sâu [7] Không giống phân lớp truyền

Ngày đăng: 15/01/2023, 14:50

Tài liệu cùng người dùng

Tài liệu liên quan