Phân tích lỗi

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí (Trang 72 - 74)

2.3. XÂY DỰNG MÔ HÌNH HỌC MÁY MAXIMUM ENTROPY – BEAM

2.3.5. Phân tích lỗi

Tập dữ liệu huấn luyện được sinh ra tự động HPO_MPO_NC vẫn còn chứa một số lỗi, cụ thể là "Missing case" và "Error case ", xuất hiện khi áp dụng phương pháp Noun Chunking. Ví dụ, mặc dù câu "xơ cứng xơ vữa động mạch" (Amyotrophic lateral sclerosis) trong bản tóm tắt ID: 9933298 được viết tắt là "ALS", một số ngữ cảnh xuất hiện như "ALS" vẫn không được nhận diện như là

một thực thể biểu hiện. Một ví dụ khác là trong ID tóm tắt Pubmed: 34999, cụm danh từ "hyperparathyroidism "là một thực thể biểu hiện, nhưng trong các ngữ cảnh khác, khái niệm này đã không được tìm thấy.

Một ví dụ khác về lỗi "Error case" là cụm từ danh mục "Bệnh suy giảm miễn dịch kết hợp nghiêm trọng" (Severe combined immunodeficiency disease) và "Suy giảm miễn dịch kết hợp nghiêm trọng" (Severe combined immunodeficiency) từ ID tóm tắt Pubmed: 18618 được xác định là thực thể biểu hiện. Tuy nhiên, trên thực tế, mỗi thứ trong chúng lại là một loại bệnh.

Các kết quả không cao do một số lỗi trong các kho dữ liệu nói trên cũng như sự giao nhau của lĩnh vực của các tập dữ liệu sinh tự động và ba tập dữ liệu đánh giá. Một lý do quan trọng hơn là sự phức tạp của ngữ pháp trong hai tập dữ liệu huấn luyện chuẩn được gán nhãn bởi các chuyên gia thì cao hơn so với tập dữ liệu huấn luyện sinh tự động. Việc đánh giá số lượng trung bình của các thẻ trên mỗi thực thể biểu hiện trên tất cả các tập dữ liệu được trình bày trong Bảng 2.5.

Bảng 2.5. Số lượng trung bình của các thẻ trên thực thể biểu hiện trong tất cả các tập dữ liệu

Kho ngữ liệu Số lượng trung bình của các thẻ/thực thể biểu hiện HPO_NC 1,710 MP_NC 1,778 HPO_MP_NC 1,761 Khordads corpus 1,668 Phenominer 2012 2,911 Phenominer 2013 3,204

Qua Bảng 2.5, chúng ta có thể thấy rằng số lượng thẻ trung bình cho mỗi thực thể biểu hiện trong Phenominer 2012 và Phenominer 2013 là vào khoảng 3 thẻ/thực thể, trong khi đó con số này là 1,7 thẻ /thực thể trong các kho ngữ liệu huấn luyện tự động. Điều này ảnh hưởng đến khả năng nhận dạng trong mô hình gán nhãn tuần tự. Đây là một thách thức đối với các mô hình sử dụng các phương pháp học máy.

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí (Trang 72 - 74)