Chƣơng 4– MỘT MƠ HÌNHNÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC
4.4. Kết luận chƣơng
Luận án trình bày một nghiên cứu có tính hệ thống về việc làm thế nào để kết hợp các nguồn tài nguyên tri thức và phƣơng pháp khác nhau để nhận dạng thực thể biểu hiện và một số thực thể liên quan.Nghiên cứu sinh tin rằng đây là nghiên cứu đầu tiên đƣa ra một đánh giá toàn diện, sử dụng các tài nguyên, phƣơng pháp cũng nhƣ tập đặc trƣng phong phú nhằm giải quyết các thách thức do cấu trúc phức tạp của thực thể biểu hiện.Hệ thống xây dựng dựa trên phƣơng pháp mà luận án đề xuất đạt đƣợc kết quả tốt nhất cho cả sáu loại thực thể với độ đo trung bình vi mơ F1 = 78,41 và cho thực thể biểu hiện là F1 = 74,87 trên tập dữ liệu Phenominer A, tƣơng ứng trên tập Phenominer B là 76,37 và 78,35.
Luận án cũng đã chứng minh ý nghĩa của việc sử dụng kết hợp nhiều nguồn tài nguyên tri thức cũng nhƣ phƣơng pháp để đem lại kết quả tốt nhất. Đối với thực thể biểu hiện, do tính chất phức tạp của nó, áp dụng các phƣơng pháp học máy để nhận dạng thực thể này là hoàn toàn phù hợp. Ngoài ra, các tài nguyên UMLS, HPO và MP cũng đƣợc đánh giá là có đóng góp quan trọng vào kết quả nhận dạng biểu hiện của hệ thống. Tuy nhiên, việc sử dụng các tài nguyên còn nhiều hạn chế, hứa hẹn một tiềm năng nghiên cứu lớn, ví dụ nhƣ phân tích sâu hơn về mặt ngữ nghĩa để nâng cao hiệu suất sử dụng các tài nguyên này.
Để lựa chọn ra kết quả cuối cùng từ kết quả của nhiều bộ gán nhãn, luận án đã so sánh một số phƣơng pháp, bao gồm phƣơng pháp thủ công (danh sách ƣu tiên),
118
phƣơng pháp học máy sử dụng mơ hình Entropy cực đại và phƣơng pháp học xếp hạng dựa trên SVM. Học xếp hạng dựa trên SVM là một phƣơng pháp kết hợp sử dụng một vài luật khởi tạo dựa trên kinh nghiệm để xây dựng bộ học xếp hạng, phƣơng pháp này đã đƣợc chứng minh bằng thực nghiệm rằng nó đem lại kết quả cao nhất. Tuy nhiên, cả học xếp hạng sử dụng SVM và sử dụng danh sách ƣu tiên đều có những ƣu điểm và đối tƣợng xử lý tốt, vì vậy có thể tiếp tục nghiên cứu để đƣa ra một phƣơng án kết hợp hai phƣơng pháp quyết định kết quả này. Các kết quả nghiên cứu đã đƣợc tổng hợp và công bố trong các bài báo [CTLA2] năm 2013.
119
KẾT LUẬN
Các kết quả chính của luận án
Luận án đã trình bày một nghiên cứu có tính hệ thống về vấn đề nhận dạng thực thể, một bài tốn quan trọng trong lĩnh vực xử lý ngơn ngữ tự nhiên. Luận án tập trung nghiên cứu, phát triển cả về lý thuyết và ứng dụng đối với bài toàn nhận dạng thực thể, đề xuất một số mơ hình và giải pháp nhằm nâng cao hiệu quả nhận dạng thực thể cũng nhƣ đƣa ra một số khung làm việc phục vụ cho quá trình nhận dạng thực thể. Kết quả nghiên cứu của luận án có thể đƣợc tóm tắt nhƣ sau:
1. Đề xuất mơ hình kết hợp nhận dạng đồng thời thực thể và các thuộc tính liên quan đến thực thể, mơ hình cho phép sử dụng nhiều loại đặc trƣng khác nhau nhằm tăng cƣờng tính ngữ nghĩa và hiệu quả của quá trình nhận dạng. Một tập dữ liệu với gần 10.000 câu đã đƣợc gán nhãn thực thể và thuộc tính cũng đƣợc xây dựng phục vụ cho việc huấn luyện và đánh giá. Kết quả của mơ hình nhận dạng đạt 83,39 với độ đo F1.
2. Xây dựng một hệ thống hỏi đáp tự động ứng dụng mơ hình nhận dạng thực thể và thuộc tính đã đƣợc đề xuất. Các bƣớc phân tích câu hỏi và trả lời câu hỏi đều cho thấy tầm quan trọng của mơ hình nhận dạng thực thể đối với mơ hình hỏi đáp. Kết quả của mơ hình tƣơng đối khả quan với độ đo F1 đạt 65,5.
3. Góp phần mở rộng khung cấu trúc thực thể y sinh, thống nhất và tổng quát lại các định nghĩa về các thực thể y sinh có liên quan đến nhau nhƣ bệnh, hóa chất, gene, sinh vật, biểu hiện và bộ phân cơ thể. Đề xuất mơ hình giải quyết bài tốn nhận dạng thực thể biểu hiện và các thực thể liên quan, đây là loại thực thể mới trong y sinh với các tính chất phức tạp về mặt ngữ nghĩa. Mơ hình giải quyết đạt kết quả khả quan với tất các thực thể có trong lƣợc đồ nhận dạng.
4. Đƣa ra các so sánh, nhận định về vấn đề thích nghi miền dữ liệu đối với việc nhận dạng thực thể y sinh, các kết quả cho phép những nghiên cứu sau này về nhận dạng thực thể biểu hiện có một khung nhìn tổng qt trong q trình chọn lựa dữ liệu huấn luyện và đánh giá.
120
5. Nâng cao chất lƣợng nhận dạng thực thể biểu hiện và thực thể y sinh liên quan bằng kỹ thuật lai ghép, kết hợp nhiều mơ hình nhận dạng khác nhau. Luận án đề xuất 3 phƣơng pháp lai ghép, kết hợp và đƣa ra các đánh giá, nhận xét về các phƣơng pháp này. Các kết quả đã chỉ ra đƣợc tính hiệu quả của các phƣơng pháp lai ghép so với mơ hình đã có trong chƣơng 3 khi làm tăng kết quả lên 1,5% với độ đo F.
Hƣớng nghiên cứu trong tƣơng lai
Từ những kết quả đạt đƣợc trong luận án, các vấn đề đặt ra cần đƣợc nghiên cứu trong thời gian tới:
1. Mơ hình nhận dạng thực thể tiếng Việt vẫn cịn một số lớp nhận dạng có kết quả chƣa cao do vấn đề mất cân bằng dữ liệu trong tập huấn luyện. Để giải quyết vấn đề này có thể áp dụng một số kỹ thuật làm giảm sự ảnh hƣởng giữa các lớp có số lƣợng dữ liệu lớn đến các lớp có số lƣợng dữ liệu nhỏ hơn hay áp dụng một số kỹ thuật lựa chọn đặc trƣng.
2. Áp dụng bài toán nhận dạng thực thể biểu hiện và các thực thể liên quan cho dữ liệu văn bản y sinh thực tế, bên cạnh đấy ứng dụng các phƣơng pháp trích xuất quan hệ nhằm làm rõ sự tƣơng tác giữa các thực thể với nhau.
3. Thử nghiệm phƣơng pháp thích nghi miền với nhiều miền dữ liệu hơn để cho thấy sự tác động về mặt hiệu quả giữa các miền dữ liệu qua đấy đề xuất một mơ hình cho phép nhận dạng đƣợc thực thể biểu hiện cho tất cả các loại bệnh di truyền.
121