Chƣơng 4– MỘT MƠ HÌNHNÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC
4.2.1 Phương pháp lai ghép sử dụng luật
Phƣơng pháp lai ghép đƣợc nêu ra đầu tiên là kỹ thuật sử dụng luật heuristic, trong đó, việc quyết định kết quả đƣợc thực hiện bằng cách sử dụng danh sách ƣu tiên theo thứ tự sau đây DS>PH>GG>CD>AN>OR>O. Theo Jimeno và cộng sự
[JJL08], việc kết hợp nhãn đòi hỏi thu thập bất kỳ kết quả nhãn thực thể nào đƣợc đề xuất bằng ít nhất một trong các phƣơng pháp, vì vậy nhãn O (khơng phải thực
105
thể) là nhãn có độ ƣu tiên thấp nhất. Phần cịn lại của danh sách có đƣợc dựa trên việc phân tích các ontology của các thực thể để đƣa ra một số quan sát nhƣ thực thể nào thƣờng chứa thực thể nào. Ví dụ, thực thể biểu hiện (PH) thƣờng chứa bộ phận cơ thể (AN) hay gen và các sản phẩm của gen (GG) (“pannus formation”, “elevated
serum levels of cartilage oliomeric matrix protein”), trong khi đó đơi khi gen (GG)
lại chứa tên lồi sinh vật (OR) (“mouse H19 gene”, “mouse ABcg2/Breast cancer
resistance protein (BCRP) gene”). Tuy nhiên, tên sinh vật (OR) không bao giờ chứa
thực thể GG hay AN trong nó.
Nếu có sự xung đột về ranh giới từ, các thực thể ―láng giềng‖ có sự chia sẻ một chuỗi từ vựng nào đó đƣợc hợp nhất thành một thực thể duy nhất và chọn cho nó nhãn có độ ƣu tiên cao nhất. Ví dụ, nếu ta có cụm từ ―abnormalities in gene
AFM044xg3” đƣợc gán nhãn bằng hai bộ gán nhãn tƣơng ứng là [abnormalities in
gene]PHvà [gene AFM044xg3]GG, ta sẽ hợp nhất chúng thành một cụm từ duy nhất
và gán cho nó nhãn PH [abnormalities in gene AFM044xg3]PH.
Mơ hình hệ thống sử dụng danh sách ƣu tiên để quyết định kết quả đƣợc thể hiện trong lƣu đồ Hình 4.3. Cơ chế hoạt động của nó nhƣ sau: Dữ liệu đƣợc gán nhãn bằng bảy bộ gán nhãn trong hệ thống, các kết quả đầu ra của các bộ gán nhãn này sẽ đƣợc duyệt qua một mô-đun xác định trƣờng hợp nhập nhằng. Nếu có sự xung đột về nhãn, tức là có nhập nhằng, hệ thống sẽ sử dụng danh sách ƣu tiên để lựa chọn ra nhãn thích hợp nhất. Ngƣợc lại, kết quả sẽ đƣợc đƣa ngay thành kết quả cuối cùng. Hình 4.4tiếp theo minh họa một số kịch bản cho các trƣờng hợp nhập nhằng và khơng nhập nhằng, trong đó các bộ gán nhãn đƣa ra các kết quả khác nhau cho cùng một chuỗi từ vựng. Trong trƣờng hợp không nhập nhằng, hai nhãn đƣợc đề xuất cho cùng một chuỗi là PH cho cụm ―XY” và GGcho cụm “WZ”, tuy nhiên không xảy ra xung đột nhãn, vì vậy kết quả nhãn cuối cùng cho chuỗi này theo ký pháp BIO sẽ là B-PH I-PH O B-GG I-GG. Trong trƣờng hợp nhập nhằng, có nhiều xung đột nhãn xảy ra, ví dụ đối với từ vựng“A”, các bộ gán nhãn đƣa ra các quyết định khác nhau là PH, GG, O và AN, trong trƣờng hợp này sẽ cần dùng đến danh sách ƣu tiên để đƣa ra quyết định.
106
Hình 4.3. Mơ hình hệ thống sử dụng danh sách ưu tiên để quyết định kết quả
Hình 4.4. Nhập nhằng và không nhập nhằng (BNG: Bộ gán nhãn, X, Y, A-F là các từ vựng)
Có thể thấy rằng danh sách ƣu tiên đƣợc sử dụng để quyết định kết quả có một ƣu điểm lớn về tính đơn giản và có vẻ nó bao phủ đƣợc khá nhiều các trƣờng hợp thông dụng. Tuy nhiên, danh sách ƣu tiên có một nhƣợc điểm lớn ở tính kinh
107
nghiệm và thiếu tính mềm dẻo của nó, hơn nữa, do sự phức tạp của ngơn ngữ, trong dữ liệu thực tế không thể tránh khỏi những trƣờng hợp vƣợt ra khỏi phạm vi của danh sách này. Trong cáckỹ thuật lai ghép tiếp theo, luận án đề xuất sử dụng hai phƣơng pháp khác áp dụng học máy thống kê để đƣa ra đƣợc tập nhãn tối ƣu khi kết hợp giữa các mơ hình là phương pháp lai ghép sử dụng kỹ thuật học máy gán nhãn chuỗi và kỹ thuật học xếp hạng.