Phương pháp đánh giá

Chƣơng 3– NHẬN DẠNGTHỰC THỂ BIỂU HIỆNTRONG VĂN BẢN Y SINH TIẾNG ANH

3.2.5. Phương pháp đánh giá

Để đảm bảo tính khách quan của kết quả, kiểm thử chéo 10 phần(10 folds cross validation) đƣợc sử dụng, tức là dữ liệu đƣợc chia làm 10 phần để tiến hành 10 lần thực nghiệm; trong mỗi lần thực nghiệm, 9 phần đƣợc sử dụng để huấn luyện và phần còn lại đƣợc sử dụng để kiểm thử. Kết quả cuối cùng đƣợc tính bằng trung bình cộng kết quả của các lần thực hiện.

Việc đánh giá thực nghiệm hầu hết dựa trên đối sánh một phần (partial

matching) giữa kết quả của hệ thống và thực thể đƣợc chuyên gia gán sẵn trong tập dữ liệu kiểm thử. Một kết quả sẽ đƣợc tính là chính xác nếu đoạn văn bản mà nó xác định có phần giao nhau với thực thể đƣợc các chuyên gia gán nhãn và nhãn mà nó đƣa ra là chính xác. Ví dụ, hệ thống gán nhãn [median cleft lip]PH/palate sẽ đƣợc

tính là một kết quả đúng khi so sánh với gán nhãn tiêu chuẩn của chuyên gia

media[cleft lip/palate]PH. Trong một số trƣờng hợp, luận án đƣa ra kết quả theo cả

hai cách đối sánh một phần và đối sánh chặt (strict matching) để so sánh.

Thực nghiệm đƣợc đánh giá dựa trên các độ đo: độ chính xác (P), độ hồi tƣởng (R) và F1, giải thích cụ thể về ý nghĩa và cách tính các độ đo này đã đƣợc nêu trong chƣơng 1, mục 1.1.4.Độ đo F1 của tồn hệ thống có thể đƣợc tính tốn bằng hai cách khác nhau: trung bình vi mơ (micro average) và trung bình vĩ mơ (macro average) [OOG05]. Đối với, Micro average F1, chúng ta tính P và R cho tồn bộ hệ thống theo công thức tính P, R và sau đó sử dụng chúng để tính F1. Có thể thấy micro average F1 sẽ bị ảnh hƣởng bởi số lƣợng các cụm từ thuộc về từng loại thực thể, vì vậy nó có xu hƣớng bị hiệu suất của hệ thống đối với các loại thực thể xuất hiện nhiều hơn trong dữ liệu chi phối. Macro average F1 đƣợc tính cục bộ đối với từng loại thực thể trƣớc và sau đó F1 của tồn hệ thống đƣợc tính bằng trung bình

của các giá trị F1 cục bộ này. Tức là, macro average F1 đánh giá trọng số bằng nhau đối với mọi thực thể, không quan tâm đến số lƣợng của chúng trong dữ liệu. Nhƣ vậy, trong các trƣờng hợp dữ liệu mất cân bằng giữa các lớp thực thể thì macro average F1 sẽ thiếu tính khách quan hơn micro average F1. Trong hầu hết các thực nghiệm, kết quả đƣợc đƣa ra là micro average F1.

Các nghiên cứu liên quan trên thế giớ

Thực nghiệm và đánh giá