Huấn luyện - Xây dựng chương trình bắt lỗi tiếng V- 123docz.net

Nếu có dữ liệu đã được đánh dấu sẵn các ranh giới từ, công việc đơn giản chỉ là áp dụng các công thức thống kê để tính ra các giá trị cần thiết.

Đối với việc huấn luyện các thuật toán tách từ truyền thống, ta có thể sử dụng bộ tách từ tiếng Việt sẵn có để tạo ngữ liệu. Chất lượng của bộ tách từ sẽ ảnh hưởng đến chất lượng của thuật toán.

KHOA CNTT –

ĐH KHTN

CHƯƠNG 3. CƠ SỞ TIN HỌC 3.7. TÁCH TỪ MỜ

Với các thuật toán tách từ mờ, đôi khi không thể áp dụng bộ tách từ sẵn có. Với điều kiện hiện tại, khó có thể tìm được một khối lượng ngữ liệu lớn đã được tách từ sẵn, do đó cần phải tìm giải pháp tính được các tham số cần thiết từ ngữ liệu chưa được tách từ (ngữ liệu thô).

Thuật toán EM26thường được áp dụng để vượt qua khó khăn này [PSG99, SSGC96]. Trên lý thuyết, áp dụng thuật toán EM đảm bảo kết quả sẽ hội tụ, và kết quả ở mỗi vòng lặp sau sẽ tốt hơn hoặc bằng kết quả của vòng lặp trước.

Do thuật toán EM cũng có nhiều hạn chế (đặc biệt là hạn chế tối ưu cục bộ), nhiều giải pháp đã được đưa ra để khắc phục các hạn chế này [WGLL00, PS01].

Một giải pháp khác là áp dụng HMM để tìm ra ranh giới từ, sau đó áp dụng các công thức thống kê thông thường. Giải pháp này gặp hạn chế bởi chính HMM, vì HMM là mô hình thống kê thuần tuý, không phát huy được một số đặc trưng của tách từ, cũng không sử dụng các tri thức về ngôn ngữ học, do đó phần nào hạn chế kết quả cuối cùng.

26Estimation Maximization

KHOA CNTT – ĐH KHTN Chương 4 Mô hình Mục lục 3.1 Bắt lỗi chính tả . . . . 47

3.1.1 Phân loại lỗi chính tả . . . . 47

3.1.2 Phát hiện lỗi chính tả . . . . 49

3.1.3 Các sai lầm của trình bắt lỗi chính tả . . . . 49

3.1.4 Vấn đề chữ hoa, chữ thường . . . . 50

3.2 Lập danh sách từ đề nghị . . . . 51

3.2.1 Lỗi phát âm sai . . . . 52

3.2.2 Lỗi nhập sai . . . . 53 3.2.3 Các lỗi khác . . . . 54 3.3 Sắp xếp danh sách . . . . 55 3.3.1 Văn phạm ràng buộc . . . . 55 3.3.2 Mật độ quan niệm . . . . 56 3.4 Bắt lỗi tự động . . . . 59 3.4.1 Mô hình TBL . . . . 59 3.4.2 Mô hình Winnow . . . . 62

3.4.3 Mô hình Danh sách quyết định . . . . 65

KHOA CNTT –

ĐH KHTN

CHƯƠNG 4. MÔ HÌNH 4.1. MÔ HÌNH CHUNG

3.4.4 Mô hình Trigram và Bayes . . . . 66

3.4.5 Mô hình Bayes và Danh sách quyết định . . . . 67

3.5 Bắt lỗi tiếng châu Á . . . . 68

3.6 Tách từ . . . . 69

3.6.1 Khớp tối đa . . . . 71

3.6.2 Mô hình HMM . . . . 72

3.6.3 Mô hình WFST và mạng nơ-ron . . . . 73

3.6.4 Mô hình Source-Channel cải tiến . . . . 73

Huấn luyện . . . . 75

3.6.5 Mô hình TBL . . . . 75

3.7 Tách từ mờ . . . . 76

3.7.1 Huấn luyện . . . . 77

4.1 Mô hình chung Việc bắt lỗi chính tả của một văn bản được xử lý lần lượt qua các bước (xem hình 4.1 ở trang kế tiếp), bao gồm ba khối chính là: • Khối tiền xử lý. Tách văn bản thành những đoạn ngắn. Tách đoạn thành từng tiếng. Đánh dấu các ký hiệu, dấu ngắt dòng, các số, tên riêng . . .

• Khối bắt lỗi non-word. Kiểm tra các tiếng với các tiếng đã có trong từ điển. Báo lỗi những tiếng không có trong từ điển. Sau đó đưa ra giải pháp thay thế.

• Khối bắt lỗi real-word. Tương tự như khối bắt lỗi real-word. Tuy nhiên cần phải tách từ trước khi thực hiện bắt lỗi chính tả.

KHOA CNTT –

ĐH KHTN