Huấn luyện trực tuyến và huấn luyện hàng loạt

Một phần của tài liệu Giải quyết vấn đề nhận dạng tiếng Việt bằng phân tích cú pháp (Trang 93 - 94)

Trong hầu hết các nghiên cứu về lĩnh vực học máy, việc huấn luyện thường được thực hiện trên một cơ sở dữ liệu hoặc một bảng dữ liệu đã được lưu trữ sẵn trong máy. Do đó bộ huấn luyện thường hoạt động độc lập với bộ nhận dạng, nên bộ nhận dạng có kích thước nhỏ. Và bộ huấn luyện có vai trò chuyển từ dữ liệu thô thành cơ sở tri thức. Bộ nhận dạng hoạt động trên cơ sở tri thức đã được chuyển đổi đó. Cách này được áp dụng trong giai đoạn đầu nghiên cứu của chúng tôi. Mặc dù cách này có ưu điểm là dễ dàng triển khai (không cần giao diện) và có thể huấn

luyện được hàng loạt (nhiều tập tin cùng một lượt huấn luyện). Nhưng cách này tỏ ra không thân thiện với người sử dụng. Chính vì vậy chúng tôi áp dụng phương pháp huấn luyện trực tuyến.

Phương pháp huấn luyện trực tuyến cho phép người dùng ghi âm và thêm vào cơ sở tri thức ngay trên hộp thoại. Mặc dù phương pháp huấn luyện trực tuyến không cho phép chúng ta huấn luyện nhiều tập tin một lúc, nhưng nó có rất nhiều lợi điểm. Thứ nhất, nó rất gần gũi với người dùng do mọi người dùng máy tính đều rất quen với hộp thoại. Thứ hai, nó cho thấy kết quả ngay do chúng ta có thể huấn luyện rồi nhận dạng trên cơ sở tri thức mới. Thứ ba, nó không cần lưu một lượng dữ liệu trung gian như âm thanh và nhãn, đây là lượng dữ liệu không nhỏ do bản thân mỗi tập tin đa phương tiện là rất lớn. Và thứ tư, chúng ta không cần nhiều các công cụ trung gian và các thao tác trung gian như đánh nhãn, ghi âm, huấn luyện. Tất cả được tích hợp trong một chương trình, cụ thể hơn là trong một tập tin thi hành.

Một phần của tài liệu Giải quyết vấn đề nhận dạng tiếng Việt bằng phân tích cú pháp (Trang 93 - 94)

Tải bản đầy đủ (PDF)

(107 trang)