Tách từ mờ

• Tách hai ký tự.

• Trượt ranh giới từ sang ký tự kế bên.

Trình tách từ baseline, có thể áp dụng cách khớp tối đa.

3.7 Tách từ mờ

Như đã nói trên, bài toán tách từ không đơn thuần là tách từ đúng như nghĩa ban đầu, mà là tách từ trong điều kiện dữ liệu đầu vào có khả năng bị sai. Nói cách khác, đây là bài toán tách từ có khả năng chịu lỗi24. Các phương pháp tách từ được nêu, thông thường không thể áp dụng trực tiếp mà phải có một số cải tiến nhất định nếu có thể. Ngoài ra cũng có thể áp dụng một số giải pháp khác, tuy không trực tiếp áp dụng cho tách từ mờ, nhưng phần nào có thể gợi ý cho một giải thuật tách từ mờ hiệu quả.

Kemal Oflazer [Ofl96] khi xử lý hình thái trong tiếng Thổ Nhĩ Kỳ gặp trường hợp khá giống với trường hợp này. Tác giả phải tách hình thái từ trong điều kiện từ đó bị sai chính tả. Do đặc tính ngôn ngữ chắp dính25, số tiếp vĩ ngữ nhiều, liên tiếp nhau, gây khó khăn cho việc nhận dạng tiếp vĩ ngữ, cũng như không thể phân biệt những tiếng nào hợp thành một từ trong một chuỗi tiếng trong tiếng Việt. Tác giả dùng một hàm độ đo, tạo ra các tiếp đầu ngữ có khả năng thay thế dựa trên độ đo này, sau đó sử dụng WFST để tìm chuỗi tiếp vĩ ngữ thích hợp nhất.

Bài toán nhận dạng tiếng nói trong tiếng Anh cũng gặp trường hợp tương tự [Rav96]. Sau công đoạn xử lý âm thanh, ta nhận được một chuỗi các âm tiết. Ta phải chuyển nhóm âm tiết này thành chuỗi từ. Do âm thanh thường bị nhiễu, nên các âm tiết có thể không chính xác hoàn toàn. Ngoài ra, do

24error-tolerant word segmentation

25agglunative language

KHOA CNTT –

ĐH KHTN

CHƯƠNG 3. CƠ SỞ TIN HỌC 3.7. TÁCH TỪ MỜ

đặc tính của tiếng Anh nên cùng một chuỗi âm tiết có thể suy ra nhiều chuỗi từ khác nhau. Tác giả sử dụng lưới từ để tạo ra các chuỗi từ có khả năng từ chuỗi âm tiết, sau đó ngram trên từ để lượng giá các chuỗi từ.

Một điểm đáng chú ý ở đây là sự tương đồng về một mặt nào đó giữa tiếng Anh và tiếng Việt. Với tiếng Anh, từ có thể tách dễ dàng, nhưng từ bao gồm nhiều âm tiết. Việc phân ranh giới âm tiết trong tiếng Anh là một điều khá khó khăn. Với tiếng Việt, các âm tiết được tách rất dễ dàng vì mỗi âm tiết là một “tiếng” tương đương với một “từ” trong câu — cách nhau bởi khoảng trắng. Từ của tiếng Việt lại bao gồm nhiều tiếng, và việc tách từ lại gặp nhiều khó khăn. Với nhận xét này, có thể thấy các bài toán nhận dạng tiếng nói tiếng Anh gặp cùng vấn đề với bài toán bắt lỗi chính tả tiếng Việt! [Cha98] cũng dùng mô hình ngôn ngữ dạng ngram để đánh giá các cách tách từ sau khi đã qua tiền xử lý nhập nhằng chính tả, tuy nhiên lại sử dùng nhiều mô hình ngôn ngữ khác nhau như character bigram, word bigram, inter-word character bigram (IWCB), POS bigram, word class bigram.

Dựa trên những nghiên cứu này, có thể thấy giải pháp khả thi cho việc tách từ khi bị sai chính tả, là phát sinh một loạt các từ có khả năng thay thế, với giả định trong tập từ này sẽ có từ đúng chính tả, thay thế từ sai chính tả ban đầu. Sau đó sử dụng tách từ tìm một cách tách tốt nhất. Sau khi tìm được cách tách từ, ta có thể tra từ điển để tìm xem từ nào bị sai.

Mô hình Bayes và Danh sách quyết định

Mô hình Source-Channel cải tiến