thuộc từ đó.
Với cách làm này, các từ phát sinh sẽ không được đánh giá ngang nhau nữa. Những từ phát sinh từ những từ gốc có ít khả năng gặp lỗi sẽ bị tăng với một tỉ lệ nhất định, so với những từ phát sinh từ từ gốc có nhiều khả năng xảy ra lỗi. Việc này giúp giảm khả năng tìm nhầm câu đúng.
4.5 Huấn luyện
Do chương trình cần một số tham số như thống kê tần số xuất hiện của từ, mô hình ngôn ngữ bigram, trigram . . . nên ta cần phải thu thập các tham số này. Đối với tiếng Anh, việc này tương đối dễ dàng. Tuy nhiên, do không thể xác định ranh giới từ tiếng Việt, ta cần phải sử dụng một bộ tách từ trước khi huấn luyện. Chương trình sử dụng một tập ngữ liệu đã tách từ sẵn dựa trên [iiND03]. Tuy nhiên, mô hình ngôn ngữ đòi hỏi ngữ liệu huấn luyện càng lớn càng tốt. Do vậy chương trình tự tạo thêm ngữ liệu huấn luyện thêm ngữ liệu dựa thô chưa tách từ.
Đối với tiếng Việt, đã có một số nghiên cứu về tách từ tiếng Việt, tiêu biểu là [DKT01, TH01]. Chương trình này không sử dụng bộ tách từ hiện có vì các lý do sau:
• Bộ tách từ trong [DKT01, TH01] sử dụng unigram. Trên lý thuyết, bigram/trigram tốt hơn unigram do chứa đựng thông tin về ngữ cảnh.
• Do bộ tách từ thống kê thường phụ thuộc vào ngữ liệu, nếu sử dụng một bộ tách từ trên lĩnh vực khác với lĩnh vực được huấn luyện cho trình bắt lỗi chính tả, kết quả sẽ không như mong đợi.
• Cách tách từ được đề nghị tạo ra mô hình ngôn ngữ tốt hơn so với cách sử dụng bộ tách từ rồi thống kê trên đó (sẽ giải thích chi tiết bên dưới)
KHOA CNTT –
ĐH KHTN