Phương pháp lai ghép sử dụng luật

Chƣơng 4– MỘT MƠ HÌNHNÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC

4.2.1 Phương pháp lai ghép sử dụng luật

Phƣơng pháp lai ghép đƣợc nêu ra đầu tiên là kỹ thuật sử dụng luật heuristic, trong đó, việc quyết định kết quả đƣợc thực hiện bằng cách sử dụng danh sách ƣu tiên theo thứ tự sau đây DS>PH>GG>CD>AN>OR>O. Theo Jimeno và cộng sự

[JJL08], việc kết hợp nhãn đòi hỏi thu thập bất kỳ kết quả nhãn thực thể nào đƣợc đề xuất bằng ít nhất một trong các phƣơng pháp, vì vậy nhãn O (khơng phải thực

105

thể) là nhãn có độ ƣu tiên thấp nhất. Phần cịn lại của danh sách có đƣợc dựa trên việc phân tích các ontology của các thực thể để đƣa ra một số quan sát nhƣ thực thể nào thƣờng chứa thực thể nào. Ví dụ, thực thể biểu hiện (PH) thƣờng chứa bộ phận cơ thể (AN) hay gen và các sản phẩm của gen (GG) (“pannus formation”, “elevated

serum levels of cartilage oliomeric matrix protein”), trong khi đó đơi khi gen (GG)

lại chứa tên lồi sinh vật (OR) (“mouse H19 gene”, “mouse ABcg2/Breast cancer

resistance protein (BCRP) gene”). Tuy nhiên, tên sinh vật (OR) không bao giờ chứa

thực thể GG hay AN trong nó.

Nếu có sự xung đột về ranh giới từ, các thực thể ―láng giềng‖ có sự chia sẻ một chuỗi từ vựng nào đó đƣợc hợp nhất thành một thực thể duy nhất và chọn cho nó nhãn có độ ƣu tiên cao nhất. Ví dụ, nếu ta có cụm từ ―abnormalities in gene

AFM044xg3” đƣợc gán nhãn bằng hai bộ gán nhãn tƣơng ứng là [abnormalities in

gene]PHvà [gene AFM044xg3]GG, ta sẽ hợp nhất chúng thành một cụm từ duy nhất

và gán cho nó nhãn PH [abnormalities in gene AFM044xg3]PH.

Mơ hình hệ thống sử dụng danh sách ƣu tiên để quyết định kết quả đƣợc thể hiện trong lƣu đồ Hình 4.3. Cơ chế hoạt động của nó nhƣ sau: Dữ liệu đƣợc gán nhãn bằng bảy bộ gán nhãn trong hệ thống, các kết quả đầu ra của các bộ gán nhãn này sẽ đƣợc duyệt qua một mô-đun xác định trƣờng hợp nhập nhằng. Nếu có sự xung đột về nhãn, tức là có nhập nhằng, hệ thống sẽ sử dụng danh sách ƣu tiên để lựa chọn ra nhãn thích hợp nhất. Ngƣợc lại, kết quả sẽ đƣợc đƣa ngay thành kết quả cuối cùng. Hình 4.4tiếp theo minh họa một số kịch bản cho các trƣờng hợp nhập nhằng và khơng nhập nhằng, trong đó các bộ gán nhãn đƣa ra các kết quả khác nhau cho cùng một chuỗi từ vựng. Trong trƣờng hợp không nhập nhằng, hai nhãn đƣợc đề xuất cho cùng một chuỗi là PH cho cụm ―XY” và GGcho cụm “WZ”, tuy nhiên không xảy ra xung đột nhãn, vì vậy kết quả nhãn cuối cùng cho chuỗi này theo ký pháp BIO sẽ là B-PH I-PH O B-GG I-GG. Trong trƣờng hợp nhập nhằng, có nhiều xung đột nhãn xảy ra, ví dụ đối với từ vựng“A”, các bộ gán nhãn đƣa ra các quyết định khác nhau là PH, GG, O và AN, trong trƣờng hợp này sẽ cần dùng đến danh sách ƣu tiên để đƣa ra quyết định.

106

Hình 4.3. Mơ hình hệ thống sử dụng danh sách ưu tiên để quyết định kết quả

Hình 4.4. Nhập nhằng và không nhập nhằng (BNG: Bộ gán nhãn, X, Y, A-F là các từ vựng)

Có thể thấy rằng danh sách ƣu tiên đƣợc sử dụng để quyết định kết quả có một ƣu điểm lớn về tính đơn giản và có vẻ nó bao phủ đƣợc khá nhiều các trƣờng hợp thông dụng. Tuy nhiên, danh sách ƣu tiên có một nhƣợc điểm lớn ở tính kinh

107

nghiệm và thiếu tính mềm dẻo của nó, hơn nữa, do sự phức tạp của ngơn ngữ, trong dữ liệu thực tế không thể tránh khỏi những trƣờng hợp vƣợt ra khỏi phạm vi của danh sách này. Trong cáckỹ thuật lai ghép tiếp theo, luận án đề xuất sử dụng hai phƣơng pháp khác áp dụng học máy thống kê để đƣa ra đƣợc tập nhãn tối ƣu khi kết hợp giữa các mơ hình là phương pháp lai ghép sử dụng kỹ thuật học máy gán nhãn chuỗi và kỹ thuật học xếp hạng.

Các nghiên cứu liên quan trên thế giớ

Thực nghiệm và đánh giá