Chƣơng 3– NHẬN DẠNGTHỰC THỂ BIỂU HIỆNTRONG VĂN BẢN Y SINH TIẾNG ANH
3.4. Thích nghi miền dữliệu trong nhận dạngthực thểy sinh
Mơ hình nhận dạng thực thể đƣợc nêu ở trên đƣợc thực nghiệm trên các tập dữ liệu mẫu Phenominer A, Phenominer B và KMR, đây là các tập có kích thƣớc nhỏ so với con số vài chục triệu văn bản y sinh tƣơng ứng trong kho dữ liệu Pubmed. Mặc dù kết quả thu đƣợc đã thể hiện hiệu suất tƣơng đối tốt của hệ thống khi kiểm thử trong miền dữ liệu (in-domain) (huấn luyện và kiểm thử đều thực hiện với cùng tập dữ liệu Phenominer A hoặc Phenominer B). Tuy nhiên, một vấn đề đặt ra cho hệ thống là liệu có thể giữ đƣợc hiệu suất nhƣ thế khi xử lý cho tập dữ liệu hồn tồn mới hay khơng? Việc kết hợp các mơ hình học máy và tài nguyên tri thức dẫn đếnchất lƣợng gán nhãn phụ thuộc khá nhiều vào nguồn tri thức đƣợc cung cấp, nhƣng trong nhiều trƣờng hợp, các tài nguyên tri thức không hỗ trợ đủ cho việc nhận dạng trong tất cả các miền dữ liệu, đặc biệt là các dữ liệu lớn hoặc hƣớng vào chuyên ngành nhỏ. Vì vậy trong phần này, luận án sẽ tập trung vào việc đƣa ra các thực nghiệm nhằm trả lời các câu hỏi liên quan đến hiệu quả của mơ hình nhận dạng khi chuyển đổi sang miền dữ liệu khác. Khái niệm miền dữ liệu khác ở đây đƣợc hiểu là các tập dữ liệu có kích thƣớc và chủ đề khác nhƣng vẫn nằm trong lĩnh vực
97
văn bản y sinh. Trong các thực nghiệm đƣợc mô tả phần 3.4.1 dữ liệu giữa miền nguồn và miền đích trong vấn đề thích nghi miền sẽ đƣợc thể hiện thơng qua hai tập dữ liệu Phenominer A (miền dữ liệu liên quan đến các bệnh tự miễn dịch) và Phenominer B (miền dữ liệu liên quan đến các bệnh tim mạch).
3.4.1. Thực nghiệm
Các thực nghiệm đƣợc thiết kế trong nghiên cứu này đƣợc đánh số từ M1 đến M6 và mô tả chi tiết dƣới đây. Tất cả các phƣơng pháp đều sử dụng kiểm thử chéo 10 lần với độ đo trung bình vi mô Fcùng đối sánh chặt (strict matching).Phƣơng pháp huấn luyện đƣợc sử dụng ở đây là MEM+BS với tập đặc trƣng tƣơng tự nhƣ các thực nghiệm ở phần 3.2.4 (đƣợc mô tả ở bảng 3.3).
M1: IN DOMAIN - Kiểm thử trong miền
Trong thực nghiệm này, mơ hình chỉ đƣợc huấn luyện và kiểm thử trên cùng miền dữ liệu nguồn. Kết quả trong thực nghiệm này chỉ sử dụng làm cơ sở kiểm chứng sự thay đổi với các thực nghiệm khác.
M2: OUT DOMAIN - Kiểm thử ngoài miền
Mơ hình đƣợc huấn luyện trên miền dữ liệu nguồn và kiểm thử trên miền dữ liệu đích. Phƣơng pháp này cho thấy sự tụt giảm của việc thích nghi miền dữ liệu, thông tin từ kết quả sẽ đƣa ra cái nhìn về sự khác nhau giữa hai miền nguồn và đích.
M3: MIX-IN - Trộn lẫn dữ liệu để huấn luyện
Mơ hình đƣợc huấn luyện trên 100% miền dữ liệu nguồn kết hợp với 90% miền dữ liệu đích, 10% cịn lại của miền dữ liệu đích đƣợc sử dụng cho kiểm thử. Phƣơng pháp này phản ảnh kỹ thuật tổng hợp (pooling) thƣờng đƣợc sử dụng để xây dựng dữ liệu cho NER y sinh.
M4: STACK - Xếp chồng dữ liệu huấn luyện
Mơ hình đƣợc huấn luyện với 100% miền dữ liệu nguồn đƣợc xếp chồng lên bởi 90% miền dữ liệu đích. Xếp chồng sử dụng một bộ phân lớp kết hợp và nó là phƣơng pháp phổ biến để xây dựng quần thể hiệu suất cao của các bộ phân lớp [ES13]. Cơ chế của phƣơng pháp này nhƣ sau: (1) huấn luyện mơ hình bằng 100% miền dữ liệu gốc, (2) thu thập các nhãn do mơ hình nói trên gán cho các câu trong
98
dữ liệu đích và (3) sử dụng những nhãn thu đƣợc trong bƣớc 2 nhƣ các đặc trƣng để huấn luyện mơ hình bằng 90% miền dữ liệu đích.
M5: BINARY CLASS - Lớp nhị phân
Lớp thực thể phức tạp biểu hiện (PH) đƣợc gán nhãn lại thành PH-A trong tập Phenominer A và PH-B trong tập Phenominer B, sử dụng M3 để đánh giá. Sau đó PH-A và PH-B sẽ đƣợc kết hợp lại thành lớp thực thể PH. Thực nghiệm này cho thấy hiệu quả mơ hình khi giữ nguyên các đặc trƣng theo miền của từng loại thực thể.
M6: FRUSTRATINGLY SIMPLE - Sử dụng cách tiếp cận điều chỉnh đặc
trƣng của H. Daume III đề xuất năm 2007[DA07]
Phƣơng pháp này cung cấp một cách có hiệu quả một mơ hình chung trên Phenominer A và Phenominer B bằng cách chia mỗi đặc trƣng thành ba phần: một cho giá trị chia sẻ miền chéo và hai thành phần còn lại cho mỗi giá trị theo miền cụ thể. Phƣơng pháp này đƣợc đánh giá sử dụng chế độ tƣơng tự nhƣ M3.