Khớp tối đa

Một phần của tài liệu đồ án tốt nghiệp xây dựng chương trình bắt lỗi chính tả tiếng việt (Trang 72 - 73)

3 Cơ sở tin học

3.6 Tách từ

3.6.1 Khớp tối đa

Thuật toán so khớp tối đa hoạt động như tên của chính nó. Thuật tốn giải quyết bài tốn tách từ bằng cách chọn cách tách từ nào có nhiều từ nhất (so khớp được nhiều nhất). Thuật tốn được áp dụng để xây dựng chương trình tách từ tiếng Trung Quốc MMSEG22. Thuật tốn này có nhiều biến thể khác nhau.

• Dạng đơn giản, được dùng để giải quyết nhập nhằng từ đơn. Giả sử có một chuỗi ký tự (tương đương với chuỗi tiếng trong tiếng Việt)

C1, C2, . . . Cn. Ta bắt đầu từ đầu chuỗi. Đầu tiên, kiểm tra xem C1 có phải là từ hay khơng, sau đó kiểm tra xem C1C2 có phải là từ hay khơng. Tiếp tục tìm cho đến khi tìm được từ dài nhất. Từ có vẻ hợp lý nhất sẽ là từ dài nhất. Chọn từ đó, sau đó tìm tiếp như trên trên những từ cịn lại cho đến khi xác định được toàn bộ chuỗi từ.

• Dạng phức tạp. Quy tắc của dạng này là phân đoạn có vẻ hợp lý nhất là đoạn ba từ với chiều dài tối đa. Thuật toán bắt đầu như dạng đơn giản. Nếu phát hiện ra những cách tách từ gây nhập nhằng (ví dụ, C1

là từ và C1C2 cũng là từ), ta xem các chữ kế tiếp để tìm tất cả các đoạn ba từ có thể có bắt đầu với C1 hoặc C1C2. Ví dụ ta được những đoạn

sau:

22http://casper.beckman.uiuc.edu/ c-tsai4/chinese/wordseg/mmseg.zip

KHOA CNTT –

ĐH KHTN

CHƯƠNG 3. CƠ SỞ TIN HỌC 3.6. TÁCH TỪ

– C1 C2 C3C4

– C1C2 C3C4 C5

– C1C2 C3C4 C5C6

Chuỗi dài nhất sẽ là chuỗi thứ ba. Vậy từ đầu tiên của chuỗi thứ ba (C1C2) sẽ được chọn. Thực hiện lại các bước cho đến khi được chuỗi từ hồn chỉnh. Cách này đạt được độ chính xác 99.69% [CL92].

Một phần của tài liệu đồ án tốt nghiệp xây dựng chương trình bắt lỗi chính tả tiếng việt (Trang 72 - 73)

Tải bản đầy đủ (PDF)

(172 trang)