Chƣơng 4– MỘT MƠ HÌNHNÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC
4.2.2 Phương pháp lai ghép sử dụng học máy gán nhãn chuỗ
Phƣơng pháp sử dụng kỹ thuật học máy vào giải quyết nhập nhằng trong quá trình lai ghép đƣợc đề xuất trong luận án là sử dụng giải thuật gán nhãn chuỗi MEM+BS (Mơ hình Entropy cực đại và giải mã bằng tìm kiếm chùm). Phƣơng pháp này đƣợc mô tả nhƣ trong hình 4.5 dƣới đây.
Hình 4.5. Mơ hình hệ thống sử dụng MEM + BS để quyết định kết quả
108
Một ƣu điểm của phƣơng pháp này là sử dụng lại cài đặt MEM+ BS đã đƣợc dùng trong bộ gán nhãn học máy, vì vậy tái sử dụng nó sẽ hạn chế tính cồng kềnh của hệ thống. Trong phƣơng án cải tiến này, kết quả của 7 bộ gán nhãn sẽ đƣợc sử dụng nhƣ các đặc trƣng mới để huấn luyện và giải mã mơ hình, tập đặc trƣng đầy đủ đƣợc miêu tả trong Bảng 4.1. Tuy nhiên, phƣơng pháp này lại có nhƣợc điểm do MEM+ BS xử lý dữ liệu dƣới dạng gán nhãn chuỗi một lần nữa nên nó khơng xem xét có xảy ra trƣờng hợp nhập nhằng hay khơng, tức là dù có hay khơng xảy ra xung đột nhãn, mô-đun quyết định kết quả bằng MEM+ BS vẫn tiến hành gán lại toàn bộ chuỗi.
Bảng 4.1. Các đặc trưng đượcMEM + BS sử dụng để quyết định kết quả
STT Đặc trƣng Ví dụ
1 Từ đang xét wi
2 Ngữ cảnh wi-2, wi-1, wi+1, wi+2, wi-2.wi-1
3 MEM+BS mli : B-GG,mli-1 : B-PH,mli+1 : I-PH,mli+2 : O
4 Đối sánh luật rulei : B-PH, rulei-1 : I-PH, rulei+1 : O
5 Đối sánh từ điển PH dm1i : B-PH, dm1i-1 : I-PH, dm1i+1 : O
6 Đối sánh từ điển DS dm2i : B-DS, dm2i-1 : I-DS, dm2i+1 : O
7 Đối sánh từ điển CD dm3i : B-CD, dm3i-1 : I-CD, dm3i+1 : O
8 Đối sánh từ điển AN dm4i : B-AN, dm4i-1 : I-AN, dm4i+1 : O
9 Đối sánh từ điển GG dm5i : B-GG, dm5i-1 : I-GG, dm5i+1 : O
(Các đặc trưng 3-9 là nhãn đưa ra của bộ gán nhãn tương ứng)
4.2.3Phương pháp lai ghép sử dụng học xếp hạng
Mơ hình hệ thống lai ghép sử dụng học xếp hạng để quyết định kết quả đƣợc mơ tả trong Hình 4.6. Bƣớc đầu tiên của học xếp hạng tƣơng tự nhƣ phƣơng pháp danh sách ƣu tiên, các kết quả đầu ra từ các bộ gán nhãn cũng đƣợc duyệt qua mô-
109
đun xác định trƣờng hợp nhập nhằng, nếu không xảy ra xung đột, kết quả sẽ đƣợc đƣa ngay thành kết quả cuối cùng. Để xử lý các trƣờng hợp nhập nhằng, một mơ hình giải quyết nhập nhằng bằng học xếp hạng đƣợc sử dụng để lựa chọn ra nhãn có trọng số lớn nhất làm nhãn cuối cùng trong kết quả đầu ra.
Hình 4.6. Mơ hình hệ thống sử dụng SVM-LTR để quyết định kết quả
Để sinh ra tập huấn luyện cho mơ hình học xếp hạng, ba luật đƣợc sử dụng để tạo ra các danh sách xếp hạng (ranked lists) từ tập dữ liệu huấn luyện, thơng qua bƣớc trích chọn đặc trƣng, các danh sách xếp hạng nói trên đƣợc sử dụng để huấn
110
luyện mơ hình học xếp hạng. Ba luật đƣợc dùng để sinh tập dữ liệu huấn luyện cho học xếp hạng đƣợc mô tả nhƣ sau:
(1) Ứng viên (candidate) có cùng một nhãn với nhãn trong tập huấn luyện nhận đƣợc xếp hạng (rank) cao nhất. Trong số này, các ứng viên trùng khớp với nhãn càng gần về phía bên tay trái càng có hạng cao hơn các ứng viên trùng khớp hơn về phía bên phải. Điều này là do chúng ta xử lý chuỗi theo thứ tự từ trái sang phải.
(2) Các ứng viên có một sự trùng lặp một phần với chuỗi trong tập huấn luyện nhận đƣợc xếp hạng thứ hai. Trong số đó, các ứng viên trùng khớp với nhãn càng gần về phía bên tay trái càng có hạng cao hơn các ứng viên trùng khớp hơn về phía bên phải.
(3) Các ứng viên khơng có sự trùng lặp nào với chuỗi trong tập huấn luyện sẽ nhận xếp hạng thấp nhất.
Luận án sử dụng phần mềm SVMrank22 của tác giả Thorsten Joachims để cài đặt giải thuật học xếp hạng SVM-LTR (SVM Learn to rank).