Huấn luyện

Một phần của tài liệu Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại (Trang 54)

- Sử dụng lớp Trainer để thực hiện việc huấn luyện mô hình. Để thực hiện được việc huấn luyện cần đưa vào các tham số sau:

+ Tập tin cấu hình: chứa giá trị thuộc tính trong mô hình; + Tập tin chứa các câu cần huấn luyện;

+ Tập tin đầu ra chứa các sự kiện trong quá trình huấn luyện;

+ Tập tin dẫn xuất chứ tất cả thông tin liên quan đến quá trình huấn luyện như cấu hình, xác suất, v.v…

Việc huấn luyện diễn ra dựa vào dữ liệu đầu vào, nếu dữ liệu đầu vào là tập các tập tin chứa sự kiện sẽ được huấn luyện khác với trường hợp đưa vào một tập tin dẫn xuất

cũng như khác với việc huấn luyện mới hoàn toàn. Do quá trình thực nghiệm chúng tôi sử dụng kho ngữ liệu có sẵn TreeBank, mỗi câu là một tập hợp các từ tố nên quá trình huấn luyện sẽ hoàn toàn mới và được xây dựng trong phương thức train. Việc huấn luyện trải qua năm pha. Trong pha đầu tiên (Phase 0), Dữ liệu được đọc từ tập tin chứa các câu đã được gán nhãn để huấn luyện sẽ được chuyển sang dạng câu chứa các từ tố, thực hiện việc tiền xử lý cây bằng cách gọi lớp Training trong gói ngôn ngữ đã được đưa vào trước đó. Sau khi thực hiện việc tiền xử lý câu sẽ chuyển sang pha thứ hai (Phase 1), nhiệm vụ của pha này là xây dựng tập từ điển, và tính toán xác suất của những từ trong tập từ điển đó. Pha thứ ba (Phase 2), bộ gán nhãn từ loại thực hiện việc sàng lọc và trích chọn đặc trưng đồng thời loại bỏ những từ có tần số xuất hiện thấp. Cuối cùng (Phase 3), nhiệm vụ đầu tiên trong pha này được thực hiện đó là thu thập các thông tin đã thống kê. Sau quá trình thu thập các ước lượng xác suất, đưa các thông tin xác suất vào trong các mô hình đã được khởi tạo từ trước. Mô hình này được sử dụng để gán nhãn cho ngữ liệu sử dụng huấn luyện cho ngữ liệu được sử dụng để huấn luyện cho mô hình học luật chuyển đổi tại pha cuối (Phase 4).

Một phần của tài liệu Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại (Trang 54)

Tải bản đầy đủ (PDF)

(72 trang)