Xây dựng automata để mã hĩa từ láy

Một phần của tài liệu Ứng dụng kỹ thuật học máy trong công cụ tìm kiếm thông tin theo lĩnh vực chuyên sâu (Trang 80 - 82)

6. Cấu trúc của luận vă n

2.3.5.4. Xây dựng automata để mã hĩa từ láy

Một điểm khác nữa giữa tiếng Việt và tiếng Anh là tiếng Việt cĩ từ láy. Đây cũng là vấn đề cần phải xử lý trong quá trình mã hĩa từđiển.

b. Xây dựng automata để mã hĩa từ láy

Để mã hĩa các lớp từ láy, chúng tơi vẫn sử dụng giải thuật xây dựng automata tối thiểu mã hĩa từ vựng của Jan Daciuk [13] kết hợp với bộ chuyển đổi trạng thái hữu hạn xác định FST (Finite-state transducer) được đưa ra bởi Lê Hồng Phương [30].

Bộ chuyển đổi cho lớp từ láy hồn tồn đối nhau ở trọng âm (lớp a):

Tương ứng cho lớp a, ta chỉ đơn giản xây dựng một bộ chuyển đổi trạng thái hữu hạn xác định f1 để tạo ra từ láy từ từ gốc mà trong đĩ chuỗi đầu ra được gán nhãn

q0 n1 n2

trên mỗi cung tương ứng giống như chuỗi đầu vào. Điều đĩ cĩ nghĩa là f1( )x =x với x

là một âm tiết của từ láy trong lớp a (Hình 2.31).

Hình 2.31: Minh họa bộ chuyển trạng thái hữu hạn f1 cho lớp a.

Hình 2.32 là một minh họa cho một trạng thái hữu hạn xác định tối thiểu đốn nhận và sinh ra từ 3 từ láy : luơn luơn, lừ lừkhàn khàn.

Trạng thái hữu hạn xác định tối thiếu f1 đốn nhận tất cả 274 từ láy thuộc lớp

a bao gồm 90 trạng thái trong đĩ cĩ 16 trạng thái là kết thúc. Cĩ 330 cung chuyển trạng thái, số cung chuyển tối đa từ một trạng thái là 28.

Bộ chuyển đổi cho từ láy hồn tồn đối nhau ở thanh điệu (lớp b):

Với kiểu từ láy thuộc lớp b, từ gốc xác định duy nhất một từ láy. Từđĩ cĩ thể

xây dựng được trạng thái hữu hạn xác định f 2 tuần tựđể tạo ra từ láy từ từ gốc. Ví dụ

với hai từ láy lem lẻm lem lém, chúng được đốn nhận bởi trạng thái hữu hạn xác

định tối thiểu f2 tuần tự tối thiểu như sau f2( )lỴm =lemf2( )lém =lem(

Hình 2.32):

Hình 2.32: Minh họa bộ chuyển trạng thái hữu hạn f2 với 2 từ láy thuộc lớp b.

Tương tự trạng thái hữu hạn xác định tối thiểu f2 được tạo ra từ ba từ láy:

giơng giống, đằng đẵng đăm đắm ( Hình 2.33):

Trạng thái hữu hạn xác định tối thiểu f 2 đốn nhận tất cả 307 từ láy thuộc lớp

b bao gồm 93 trạng thái trong đĩ cĩ 11 trạng thái là trạng thái kết thúc. Cĩ 371 cung chuyển trạng thái, số cung chuyển tối đa từ một trạng thái là 22.

Bộ chuyển đổi cho từ láy hồn tồn, đối ở phần vần (lớp c):

Hình 2.34: Minh họa bộ chuyển trạng thái hữu hạn f3 với 4 từ láy thuộc lớp c. Trạng thái hữu hạn xác định tối thiểu f3 đốn nhận kiểu từ láy thuộc lớp c, yêu cầu đặt ra là sửa đổi lại âm của từ láy, thơng thường một mặt giữ lại phần phụ âm

đầu, mặt khác biến đổi phần phụ âm cuối trong từ gốc. Ví dụ với các từ láy biêng biếc, biền biệt, bình bịch, bơm bốc, được dựđốn bởi trạng thái hữu hạn xác định tối thiểu

3

f (Hình 2.34).

Trạng thái hữu hạn xác định tối thiểu f 3 đốn nhận tổng cộng 232 từ láy thuộc lớp c, bao gồm 59 trạng thái trong đĩ cĩ 2 trạng thái kết thúc. Cĩ 262 cung chuyển trạng thái và số cung chuyển tối đa từ một trạng thái là 19.

Một phần của tài liệu Ứng dụng kỹ thuật học máy trong công cụ tìm kiếm thông tin theo lĩnh vực chuyên sâu (Trang 80 - 82)

Tải bản đầy đủ (PDF)

(108 trang)