Phương pháp thực nghiệm và các tham số đánh giá thực nghiệ m

Một phần của tài liệu So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng việt (Trang 57)

nghiệm

nghiệm Theo phương pháp này, dữ liệu thực nghiệm được chia thành 5 phần bằng nhau, lần lượt lấy 4 phần để huấn luyện và 1 phần còn lại để kiểm thử, kết quả sau 5 lần thực nghiệm được ghi lại và đánh giá tổng thể.

4.4.2. Các tham số đánh giá thực nghiệm

Khóa luận đánh giá độ “tốt” của các thực nghiệm dựa trên hai yếu tố chính:

 Độ chính xác của kết quả (tức là dữ liệu đầu ra của mô hình). Đây là một trong những yếu tố quan trọng nhất cần phải xem xét để đánh giá độ tốt của một mô hình. Đối với các thực nghiệm đã được tiến hành, độ chính xác của dữ liệu đầu ra được tính bằng công thức: correct P correct incorrect  

 Thời gian xử lý của bộ gán nhãn. Thời gian này bao gồm: thời gian huấn luyện và thời gian gán nhãn (ở đây ta tính bằng thời gian kiểm thử trong các thực nghiệm). Ở đây ta ký hiệu thời gian huấn luyện là T (tính bằng đơn vị giây) và thời gian kiểm thử là t (tính bằng đơn vị giây); thời gian kiểm thử được tính bằng thời gian từ lúc mô hình bắt đầu gán nhãn cho dữ liệu kiểm thử đến lúc

đầu ra được in ra file một cách hoàn chỉnh.

4.5. Kết quả thực nghiệm

Các mô hình học máy MEM, CRF và SVM đã được huấn luyện trên cùng một môi trường phần cứng và sử dụng cùng tập đặc trưng đã được thiết kếở phần trước.

4.5.1. Kết quả của năm lần thực nghiệm

a. Kết qu thc nghim áp dng mô hình MEM

Dữ liệu huấn luyện và kiểm thử được xử lý theo từng câu một, thủ tục kiểm thử

tuân theo thuật toán beam search, thuật toán này sẽ tìm kiếm để liệt kê các chuỗi nhãn

Một phần của tài liệu So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng việt (Trang 57)

Tải bản đầy đủ (PDF)

(68 trang)