Kết quả và đánh giá

Chƣơng 3– NHẬN DẠNGTHỰC THỂ BIỂU HIỆNTRONG VĂN BẢN Y SINH TIẾNG ANH

3.4.2. Kết quả và đánh giá

Bảng 3.9 đƣa ra kết quả theo F1 trong các miền dữ liệu y sinh gần (Phenominer A về bệnh tự miễn dịch di truyền và Phenominer B về bệnh tim mạch di truyền) với 6 chiến lƣợc đã đề ra. Những kết quả đƣợc in đậm là kết quả tốt nhất đối với từng lớp, những kết quả đƣợc in nghiêng là những kết quả tốt hơn kết quả cơ sở M1.

Kết quả thực nghiệm trong miền (M1) trên cả dữ liệu Phenominer A và B cho thấy hiệu suất tƣơng đối cao của hệ thống. Các lớp thực thể có nhiều thể hiện hơn có xu hƣớng có kết quả tốt hơn.

Bảng 3.9. Kết quả F1 của hệ thống NER sử dụng phương pháp thực nghiệm 1-6.

MH DL AN CD DS GG PH OR ALL M1 A 57,1 29,5 80,4 74 46 68,4 69,9 M2 A 34,3 26,9 57,7 55,6 26,9 64 50,8 M3 A 50,8 20 77,9 71,7 39,7 72,2 67,3 M4 A 56,3 17,4 79 74,1 44,1 70,8 69,8 M5 A 56,7 29,6 77,3 72,7 41,5 72,8 68,3 M6 A 57,1 27,7 79 73,4 44,9 69,9 69,5

99 M1 B 37,2 31,3 72,9 57,2 46,5 73,2 58,5 M2 B 21,2 20,2 57 52,3 24,4 68,5 46,6 M3 B 36,8 38,7 72,3 61,1 44 77,4 59,7 M4 B 34,8 34,4 72,5 57,5 45,9 74,7 58,5 M5 B 34,1 41,6 73,6 58,9 43,2 78,5 59,6 M6 B 39,9 35 73,3 56,4 46,6 75 59,1

MH: Mô hình (M1-M6 tương ứng với các mơ hình 1-6)

DL: Dữ liệu (A: Phenominer A về bệnh tự miễn dịch và B: Phenominer B về bệnh tim mạch)

Các cột AN, CD, DS, GG, PH, OR và kết quả tương ứng với từng loại thực thể. Trong đó số ở hàng trên là F1.

Cột ALL đưa ra kết quả của toàn hệ thống, F1 là micro average F1

Trong thực nghiệm M2, kiểm thử ngồi miền, có một sự tụt giảm nghiêm trọng về hiệu suất hệ thống trên hầu hết các lớp thực thể. Huấn luyện trên Phenominer B và kiểm thử trên Phenominer A khiến kết quả giảm đi 19,1% (F1 từ 69,9 xuống 50,8), huấn luyện trên Phenominer A và kiểm thử trên Phenominer B khiến kết quả giảm 11,9% (F1 từ 58,5 còn 46,6). Các kết quả này phù hợp với nhận định của Wang và cộng sự [WKS09].

Khi so sánh kết quả của phƣơng pháp tổng hợp M3 với M1, lớp thực thể duy nhất có hiệu suất tăng lên tạiOR với cả hai trƣờng hợp (F1 tăng từ 68,4 lên 72,2 và F1 tăng từ 73,2 lên 77,4). Ngồi ra, có thể thấy yếu tố số lƣợng các thể hiện của một loại thực thể trong dữ liệu khơng có ảnh hƣởng rõ ràng đến kết quả. Lấy ví dụ bằng hai loại thực thể có số lƣợng thể hiện không cân bằng trong Phenominer A và B là CD và GG: (1) Thêm 147 thể hiện của CD từ Phenominer B vào với 44 thể hiện của CD trong Phenominer A, hiệu suất giảm từ M1: 29,5 xuống M3: 20,0 khi kiểm thử trên Phenominer A; (2) Tuy nhiên, thêm 1663 thể hiện của GG từ Phenominer A vào với 754 thể hiện của GG trong Phenominer B lại khiến hiệu suất tăng từ M1: 57,2 lên M3: 61,1 khi kiểm thử với Phenominer B. Rõ ràng rằng việc tổng hợp nhiều thực thể chƣa chắc đã có tác dụng trong việc nâng cao hiệu suất.Sự tụt giảm hiệu suất tổng hợp chung cho tất cả các lớp đối với M3 là vào khoảng 3% (trừ thực thể CD lên đến 9,5%) theo cả hai hƣớng (Phenominer A là nguồn và Phenominer B

100

là nguồn), kết quả này phù hợp với kết quả đƣợc công bố trong nghiên cứu [WTJ13].

Trái ngƣợc với sự mong đợi, mơ hình xếp chồng M4 đem lại lợi ích rất ít và nó đƣợc pha trộn giữa các loại thực thể. M4 kiểm thử trên Phenominer B không cho thấy sự cải thiện nói chung nào nhƣng có một vài tiến bộ trong CD và OR. M4 kiểm thử trên Phenominer A cũng chỉ có tác dụng với OR, càng ủng hộ giả thiết nói trên về khả năng tƣơng thích cao hơn của thực thể OR trên các miền dữ liệu.

Mơ hình M5 tách các nhãn PH trong hai tập dữ liệu có cải tiến đáng chú ý khi kiểm thử trên Phenominer A nhƣng rất tiếc lại khơng duy trì đƣợc điều đó khi kiểm thử trên Phenominer B.

Cuối cùng, mơ hình M6 sử dụng cách tiếp cận điều chỉnh đặc trƣng của [DA07] chỉ mới đảm bảo đƣợc hiệu suất tƣơng đƣơng với M1 khi kiểm thử trên Phenominer A và vƣợt lên một chút khi kiểm thử trên Phenominer B. Một cách giải thích là do các tập dữ liệu là quá nhỏ, do đó tập đặc trƣng phong phú hơn chỉ có tác dụng cận biên lên hiệu suất. Bảng 3.3. đã chỉ ra rằng rất nhiều đặc trƣng có khả năng dự đoán thấp (tức là GR < 0,1) trong nội dữ liệu, tuy nhiên không phải là tất cả, ví dụ HPO có GR cao hơn so với các tài ngun khác.

Tóm lại, khi tính trung bình F1 trên các mơ hình cho Phenominer A và B, sử dụng M1 làm cơ sở tham chiếu, dễ thấy M2 phải chịu sự tụt giảm lớn nhất về hiệu suất, đối với các phƣơng pháp khắc phục, chiến lƣợc của M4 và M6 có vẻ vƣợt hơn so với M3 và M5.

3.5. Tổng kết chƣơng

Trong chƣơng này, luận án đã trình bày phƣơng thức hệ thống bài toán nhận dạng thực thể y sinh và đặc biệt là bài toán nhận dạng thực thể biểu hiện và các thực thể liên quan. Các cơng trình nghiên cứu liên quan, tài ngun về miền dữ liệu cũng nhƣ các cơng cụ hỗ trợ cũng đƣợc trình bày cụ thể. Bên cạnh những khái niệm lý thuyết, luận án cũng đƣa ra một mơ hình đề xuất phục vụ nhận dạng thực thể biểu hiện và các thực thể liên quan. Mơ hình này đƣợc đánh giá chi tiết bằng các thực nghiệm trên miền dữ liệu các bệnh tự miễn dịch (auto-immune) và bệnh tim mạch

101

(cardiovascular), kết quả đạt đƣợc tốt nhất là 78,41 đối với độ đo trung bình vi mơ F1 (micro-avarage F1) trên tập Phenominer A và 77,35 trên tập Phenominer B. Các kết quả đã chứng minh đƣợc tính hiệu quả của các mơ hình nhận dạng đƣợc đề xuất, việc sử dụng các giải thuật nhận dạng chuỗi nhƣ CRF và MEM+BS cho kết quả tƣơng đƣơng nhau, tuy nhiên trong nhiều thực nghiệm MEM+BS vẫn đạt hiệu quả tốt hơn.

Bên cạnh mơ hình đề xuất về nhận dạng thực thể biểu hiện, luận án cũng trình bày vấn đề thích nghi miền trong chính bài tốn này. Đối với vấn đề thích nghi miền gần trong dữ liệu y sinh, luận án đã chứng minh rằng việc thích nghi miền dữ liệu trong dữ liệu y sinh phải gánh chịu những tổn thất nghiêm trọng về mặt hiệu suất, ngay cả khi những miền dữ liệu này ở phạm vi gần, tuy nhiên những sự tụt giảm này là không đồng đều trên các lớp thực thể.Luận án đã so sánh bốn chiến lƣợc kết hợp dữ liệu để giảm thiểu tác động của việc thích nghi miền dữ liệu ở phạm vi gần và đánh giá hiệu suất của chúng so với cơ sở là hiệu suất của hệ thống khi chạy trong miền dữ liệu. Các chiến lƣợc sử dụng dữ liệu đa miền nhƣ học xếp chồng, mở rộng tập đặc trƣng có thể giúp giảm thiểu sự tụt giảm độ chính xác, nhƣng khơng nhất thiết có thể giúp đem lại hiệu suất cao hơn, ngoại trừ một số thực thể có sự thống nhất rộng rãi về thuật ngữ (nhƣ OR - thực thể sinh vật). Nghiên cứu sinh cũng nhận thấy các phƣơng pháp tổng hợp dữ liệu đơn giản từ nhiều miền dữ liệu khơng có tác dụng nhiều, đặc biệt là với các lớp phức tạp nhƣ biểu hiện.

Các nghiên cứu đƣợc nêu trong chƣơng này đã đƣợc tổng hợp và công bố trong các cơng trình [CTLA1, CTLA4, CTLA7]. Trong đó các cơng bố [CTLA4] tập trung vào bài toán nhận dạng thực thể biểu hiện, [CTLA1] nghiên cứu về vấn đề thích nghi miền dữ liệu cịn nghiên cứu [CTLA7] áp dụng mơ hình nhận dạng thực thể đƣợc đề xuất vào các loại thực thể y sinh khác.

102

Chƣơng 4 – MỘT MƠ HÌNHNÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC

Các nghiên cứu liên quan trên thế giớ

Thực nghiệm và đánh giá