Chuẩn bị tập dữ liệu

Tuy không cần thiết có một tập dữ liệu được gán nhãn lớn để dùng trong giai đoạn huấn luyện như những hệ thống sử dụng các phương pháp học máy, nhưng với mục đích xây dựng thêm một bộ dữ liệu chuẩn, cùng với những khó khăn trong vấn đề nhập nhằng ngôn ngữ khi viết luật, chúng tôi quyết định xây dựng song song hệ thống nhận dạng thực thể và tập dữ liệu được gán nhãn chuẩn, trong đó tập văn bản ban đầu được lấy từ đề tài: “Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và

văn bản tiếng Việt”, mã số KC01.01/06-10. Quá trình phát triển đồng thời hai thành

phần như vậy mang lại rất nhiều lợi ích như:

Tiết kiệm thời gian và công sức so với việc hoàn toàn gán nhãn bằng tay cho tập dữ liệu.

Quá trình chuẩn hóa lại tập thực thể được nhận sai của hệ thống đem lại cho chúng tôi nhiều kinh nghiệm để hoàn thiện bộ luật cũng như bộ từ điển trong hệ thống.

Mô hình của hệ thống được mô tả quá trình phát triển của hệ thống trong hình 4.1.

Hình 4.1 - Mô hình các bước phát triển của hệ thống

Đầu tiên chúng tôi xây dựng rất nhanh một hệ thống nhận dạng thực thể sử dụng bộ luật Jape cho văn bản tiếng Việt có thể dùng được. Sau khi hệ thống đã hình thành, chúng tôi sử dụng nó để gán nhãn tự động cho văn bản (một tập văn bản). Tập văn bản được gán nhãn tự động này còn mang nhiều lỗi, được chúng tôi chuẩn hóa thành những văn bản được gán nhãn chuẩn và thêm nó vào tập dữ liệu (corpus). Tuy đã tiết kiệm được khá nhiều thời gian và công sức nhờ mô hình gán nhãn tự động nhưng việc chuẩn hóa lại cũng gặp phải một số khó khăn như:

Thành phần thay thế (Macros)