.2 Mẫu ngữ cảnh phát hiện tên thực thể

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 68 - 70)

Bước 3: Xây dựng bộ gán nhãn

Bước này sử dụng mơ hình CRFs để gán nhãn cho chuỗi quan sát trong đĩ sử dụng các tham số ước lượng được xác định từ tiêu chuẩn kỳ vọng tổng quát đưa vào thuật tốn Viterbi cải tiến để tìm chuỗi trạng thái tốt nhất.

Bước 4: Đánh giá mơ hình

Luận án sử dụng bộ các độ đo cơ bản gồm độ chính xác (precision), độ hồi tưởng (recall) và độ đo F1 (F1 là một chỉ số cân bằng giữa độ chính xác và độ hồi tưởng) để đánh giá mơ hình. Mục tiêu của mơ hình là xây dựng được mơ hình gán nhãn thực thể đạt được giả trị F1 cao.

2.1.3.Ứng dụng mơ hình

Luận án ứng dụng mơ hình đề xuất để gán nhãn thực thể cĩ tên cho đối tượng trên miền dữ liệu văn bản pháp luật tiếng Việt được thu thập từ website

http://www.cand.com.vn – đây là website chính thức của cơ quan cơng an về các vụ án, những tình tiết sự việc vi phạm pháp luật được cơng khai, khá gần với tài liệu hồ sơ vụ án cần khai thác. Các loại thực thể được xác định dựa theo các thực thể trong tác vụ CoNLL2003 bao gồm: LOC (Location), PER (Person), ORG (Organization) và MISC (Miscellaneous). Tiến hành thu thập hơn 400 bài viết điều tra, ghi chép các vụ án về an ninh trật tự, an ninh kinh tế… (trong đĩ xây dựng tập dữ liệu huấn luyện và tập kiểm thử từ khoảng 150 tài liệu và tập dữ liệu cho mơ hình chủ đề ẩn xây dựng tập ràng buộc từ khoảng 250 tài liệu). Để đánh giá ảnh hưởng của dữ liệu cĩ nhãn trong tập huấn luyện và tập ràng buộc đối với mơ hình, các thực nghiệm được thiết lập cài đặt như sau:

 Tập huấn luyện được xây dựng với 3 tập dữ liệu với số lượng thực thể khác nhau là 500, 1000 và 1500

 Tập dữ liệu kiểm thử được sử dụng cố định trong các thực nghiệm bao gồm 500 thực thể

 Tập ràng buộc cũng được xây dựng với số lượng ràng buộc khác nhau là 614, 669 và 914.

 Sử dụng bộ cơng cụ Mallet [91] của A.McCallum và cộng sự (2002) để xây dựng bộ gán nhãn dựa trên mơ hình trường ngẫu nhiên cĩ điều kiện.

Đồng thời tiến hành thực nghiệm gán nhãn thực thể sử dụng mơ hình CRFs theo phương pháp giám sát làm cơ sở để so sánh với phương pháp bán giám sát đề xuất.

luyện là tương đối nhiều, trong mục này luận án chỉ chọn trình bày kết quả so sánh thực thi mơ hình gán nhãn sử dụng CRF và mơ hình đề xuất trong trường hợp tốt nhất khi sử dụng tập ràng buộc 914 ràng buộc kết hợp với các tập dữ liệu huấn luyện khác nhau ở Bảng 2.3 và kết quả so sánh thực thi mơ hình đề xuất khi sử dụng các tập ràng buộc khác nhau để đánh giá mức độ đĩng gĩp của các ràng buộc với mơ hình ở Hình 2.4

Bảng 2.3 cho thấy mơ hình đề xuất luơn cho kết quả tốt hơn mơ hình cơ sở và kết quả tốt nhất là 90.14%. Với tập dữ liệu huấn luyện kích thước nhỏ (500 thực thể) cĩ thể thấy rõ hơn hiệu quả của mơ hình đề xuất với kết quả chênh lệch với mơ hình cơ sở là 71.88% so với 64.62%. Khi tăng kích thước tập dữ liệu huấn luyện lên 1000 và 1500 thực thể, mơ hình cơ sở theo tiếp cận mơ hình giám sát cho kết quả tăng lên tương đối. Tuy vậy, mơ hình bán giám sát đề xuất vẫn cĩ hiệu quả cao hơn 90.14% so với 88.89%. Thêm nữa, trong mơ hình đề xuất việc sử dụng tập ràng buộc cĩ kích thước lớn cho kết quả tốt hơn khi sử dụng tập ràng buộc cĩ kích thước nhỏ.

Thực thể CRFs CRFs-GE

PR% RE% F1 % PR% RE% F1 % Dữ liệu huấn luyện với 500 thực thể

ORG 90.00 75.00 81.82 90.00 100.00 94.74

PER 100.00 66.67 80.00 100.00 66.67 80.00 LOC 12.50 100.00 22.22 25.00 100.00 40.00 Trung bình 58.33 72.41 64.62 63.89 82.14 71.88

Dữ liệu huấn luyện với 1000 thực thể

ORG 90.00 100.00 94.74 90.00 100.00 94.74 PER 100.00 83.33 90.91 100.00 90.91 95.24

LOC 56.25 81.82 66.67 56.25 75.00 64.29

Trung bình 77.78 87.50 82.35 77.78 87.50 82.35 Dữ liệu huấn luyện với 1500 thực thể

ORG 100.00 71.43 83.33 100.00 83.33 90.91 PER 100.00 100.00 100.00 100.00 90.91 95.24 LOC 75.00 100.00 85.71 75.00 100.00 85.71 Trung bình 88.89 88.89 88.89 88.89 91.43 90.14

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 68 - 70)