ĐÁNH GIÁ QUÁ TRÌNH TRÍCH CHỌN SỰ KIỆN

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Trích chọn sự kiện trong văn bản tin tức tiếng Việt 04 (Trang 49 - 51)

Chƣơng 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.4. ĐÁNH GIÁ QUÁ TRÌNH TRÍCH CHỌN SỰ KIỆN

4.4.1. Thực nghiệm không qua bộ phân lớp

Mô tả thực nghiệm: mục đích của phần này là đánh giá khả năng trích chọn.

Phát biểu thực nghiệm

Đầu vào: một bản tin trong miền tai nạn giao thông

Đầu ra: thông tin về sự kiện vụ tai nạn gồm: thời gian xảy ra vụ tai nạn, địa điểm xảy ra vụ tai nạn, số thƣơng vong (số tử vong, số bị thƣơng), và phƣơng tiện gây tai nạn.

Dữ liệu thực nghiệm: dữ liệu là 200 bản tin lấy ngâu nghiên từ các bản tin trong niềm tai nạn tai nạn giao thông chƣa qua bộ phân lớp.

Một sự kiện E đƣợc định nghĩa là một bộ gồm thời gian, địa điểm, số thƣơng vong, và phƣơng tiện gây tai nạn đƣợc trình bày trong công thức 3.1. Nhƣ vậy một sự kiện đúng nên chứa cả bốn thành phần trên. Nếu một sự kiện không bao gồm phƣơng tiện gây tai nạn và thời gian gây tai nạn thì đƣợc xem là một sự kiện sai.

Để đánh giá khả năng trích chọn của sự kiện, tác giả sử dụng ba độ đo: độ chính xác (P - Precision), độ hồi tƣởng (R - Recall), và độ đo F1 (F-score). Các độ đo này đƣợc biểu diễn trong công thức (4.2), (4.3), (4.4)

Trong đó:

- Số sự kiện đúng: số sự kiện đƣợc mô hình trích chọn chính xác. - Số sự kiện sai: là số sự kiện mà mô hình trích chọn sai.

Trong đó:

- Số sự kiện đúng: số sự kiện đƣợc mô hình trích chọn chính xác.

- Số sự kiện không được trích chọn: là số sự kiện mà mô hình không trích chọn ra. 2 x P x R (4.4) F1 = (P + R) (4.2) Số sự kiện đúng Độ chính xác (P) =

Số sự kiện đúng + Số sự kiện sai

(4.3)

Số sự kiện đúng Độ hồi tưởng (R) =

Dựa vào công thức (4.2), (4.3), (4.4), tác giả đƣa ra bảng đánh giá mô hình trích chọn, chi tiết đƣợc trình bày trong bảng4.6.

Bảng 4.6. Đánh giá quá trình trích chọn - dữ liệu không qua bộ phân lớp

Tên website Số sự kiện đúng Số sự kiện sai Số sự kiện không tìm thấy P R F1 antoangiaothong.gov.vn 160 34 6 82% 96% 89% vovgiaothong.vn 154 37 9 81% 94% 87% Trung bình 314 71 15 82% 95% 88%

4.4.2. Thực nghiệm qua bộ phân lớp

Dữ liệu thực nghiệm: dữ liệu là 100 bản tin đƣợc lấy từ các bản tin chứa sự kiện vụ tai nạn (gán nhãn EVENT). Kết quả của quá trình trích chọn sự kiện, tác giả cũng sử dùng công thức (4.2), (4.3), (4.4) để đánh giá thực nghiệm. Kết quả đƣợc mô tả chi tiết trong bảng 4.7.

Bảng 4.7. Đánh giá quá trình trích chọn - dữ liệu qua bộ phân lớp.

Tên website Số sự kiện đúng Số sự kiện sai Số sự kiện không tìm thấy P R F1 antoangiaothong.gov.vn 91 5 4 95% 96% 95% vovgiaothong.vn 93 4 2 96% 98% 97% Trung bình 184 9 6 95% 97% 96% 4.4.3. Nhận xét

Từ thực nghiệm đƣợc chi tiết trong bảng 4.6 (dữ liệu không qua bộ phân lớp) và bảng 4.7 (dữ liệu đƣợc xử lý qua bộ phân lớp). Kết quả cho thấy dữ liệu đƣợc xử lý qua bộ phân lớp cho kết quả cao hơn. Điều đó chứng tỏ tầm quan trọng của bộ phân lớp trong mô hình.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Trích chọn sự kiện trong văn bản tin tức tiếng Việt 04 (Trang 49 - 51)

Tải bản đầy đủ (PDF)

(61 trang)