Định nghĩa hình thức từ điển mẫu

Một phần của tài liệu Giải quyết vấn đề nhận dạng tiếng Việt bằng phân tích cú pháp (Trang 28)

Thực chất từ điển là một ánh xạ từ tập ký hiệu đầu vào tới tập ký hiệu đầu ra, nhưng ánh xạ này có ba tính chất đặc trưng là rời rạc, hữu hạn, và được lưu trữ. Rời rạc vì các mẫu trong từ điển thường được trích ra một cách ngẫu nhiên trong không gian mẫu liên tục. Hữu hạn vì số phần tử trong từ điển là một con số hữu hạn không thể tính trên toàn trục số như các ánh xạ thông thường. Và được lưu trữ vì nói

chung không có quy tắc tính toán nào giữa một mẫu với một ký hiệu ra (ví dụ một véc tơ tiếng nói và một từ tiếng Việt) mà chúng ta phải lưu trữ.

Tất nhiên mô hình toán học gần nhất của từ điển mẫu trong trường hợp này là quan hệ (relation) nhưng quan hệ lại là khái niệm quá rộng so với khái niệm ánh xạ, cho nên chúng tôi định nghĩa từ điển như sau

D = <Π, Σ, δ>

Π là một tập các mẫu, nghĩa là Π = { p1, p2, .., pk} Σ là một tập các ký hiệu, nghĩa là Σ = { s1, s2, .., sn } δ là ánh xạ từ Π vào Σ, nghĩa là δ(pi) = sj

Bảng 2-1. Định nghĩa từđiển mẫu

Dưới đây chúng tôi trình bày một ví dụ rất gần với triển khai của chúng tôi về từ điển. Trong ví dụ này mỗi mẫu được đặc trưng bởi ba con số và mỗi từ là một từ đơn trong tiếng Việt.

D = <Π, Σ, δ>

Π = { (1, 2, 3) , (1, 3, 3), (3, 2, 1), (4, 4, 2) }

Σ = { tôi, nó, họ}

δ(1, 2, 3) = tôi, δ(1, 3, 3) = tôi, δ(3, 2, 1) = nó, δ(4, 4, 2) = họ

Bảng 2-2. Ví dụ về từđiển mẫu

Có lẽ cách biểu diễn này không đủ cô đọng và hơi khó nhìn. Vì vậy trong quá trình gỡ rối, chúng tôi thường sử dụng biểu diễn đơn giản là danh sách mẫu và theo sau là từ của mẫu đó

1, 2, 3 : tôi 1, 3, 3: tôi 3, 2, 1: nó 4, 4, 2: họ

Một phần của tài liệu Giải quyết vấn đề nhận dạng tiếng Việt bằng phân tích cú pháp (Trang 28)

Tải bản đầy đủ (PDF)

(107 trang)