1. 3 Định nghĩa về bài toán đối sánh
4.4. Thực nghiệm đánh giá hiệu quả khi thay đổi các tham số thành phần tìm
liệu âm tự động
Như đã mô tả trong chương 3 mục tiêu của mô hình đề xuất là tìm các cặp thuật ngữ không đồng nghĩa (dữ liệu âm) một cách tự động để đưa vào tập dữ liệu huấn luyện mô hình phân lớp. Trong mô hình đề xuất xuất hiện một số tham số được đưa và quá trình thực nghiệm, để tìm được bộ tham số tối ưu cần thực hiện các thử nghiệm thay đổi thử giá trị các tham số.
Các tham số được mô tả như dưới đây:
T ngưỡng khoảng cách giữa các Lớp: T sẽ được thử nghiệm với các giá trị [0.2, 0.3, 0.4]. Khoảng cách sử dụng độ đo Euclidean.
Ngưỡng D xác định từ Lớp nào dữ liệu là âm: Ngưỡng D sẽ được thử nghiệm với các giá trị 5, 10, 15.
Để đánh giá được kết quả khi thay đổi tham số trong từng thực nghiệm luận văn sử dụng kiểm thử chéo 10 folds (10 folds cross validation) và đánh giá thông qua các độ đo P (chính xác), R (hồi tưởng), F như đã mô tả ở mục 3.5. Phương pháp phân lớp ở đây sử dụng là kNN với k=3.
Kết quả của thực nghiệm được thể hiện trong bảng dưới đây.
ĐỒNG NGHĨA T D P R F 0.2 5 68.15% 58.14% 62.75% 0.3 5 73.24% 63.15% 67.82% 0.4 5 73.59% 61.27% 66.87% 0.2 10 82.13% 68.24% 74.54% 0.3 10 85.06% 71.39% 77.63% 0.4 10 84.89% 70.17% 76.83% 0.2 15 87.68% 52.88% 65.97% 0.3 15 87.14% 54.24% 66.86% 0.4 15 89.35% 49.16% 63.42%
Bảng 4.5. Đánh giá sử dụng kiểm thử chéo
Nhận xét:
Chúng ta có thể thấy D càng tăng thì độ chính xác càng lớn, tuy nhiên độ hồi tưởng lại thấp do số lượng ghép nhầm càng cao.
Tham số T quy đinh ngưỡng khoảng cách giữa các lớp cho kết quả không đồng đều
Kết quả tốt nhất tại T = 0.3 và D = 10