Thực chất từ điển là một ánh xạ từ tập ký hiệu đầu vào tới tập ký hiệu đầu ra, nhưng ánh xạ này có ba tính chất đặc trưng là rời rạc, hữu hạn, và được lưu trữ. Rời rạc vì các mẫu trong từ điển thường được trích ra một cách ngẫu nhiên trong không gian mẫu liên tục. Hữu hạn vì số phần tử trong từ điển là một con số hữu hạn không thể tính trên toàn trục số như các ánh xạ thông thường. Và được lưu trữ vì nói
chung không có quy tắc tính toán nào giữa một mẫu với một ký hiệu ra (ví dụ một véc tơ tiếng nói và một từ tiếng Việt) mà chúng ta phải lưu trữ.
Tất nhiên mô hình toán học gần nhất của từ điển mẫu trong trường hợp này là quan hệ (relation) nhưng quan hệ lại là khái niệm quá rộng so với khái niệm ánh xạ, cho nên chúng tôi định nghĩa từ điển như sau
D = <Π, Σ, δ>
Π là một tập các mẫu, nghĩa là Π = { p1, p2, .., pk} Σ là một tập các ký hiệu, nghĩa là Σ = { s1, s2, .., sn } δ là ánh xạ từ Π vào Σ, nghĩa là δ(pi) = sj
Bảng 2-1. Định nghĩa từđiển mẫu
Dưới đây chúng tôi trình bày một ví dụ rất gần với triển khai của chúng tôi về từ điển. Trong ví dụ này mỗi mẫu được đặc trưng bởi ba con số và mỗi từ là một từ đơn trong tiếng Việt.
D = <Π, Σ, δ>
Π = { (1, 2, 3) , (1, 3, 3), (3, 2, 1), (4, 4, 2) }
Σ = { tôi, nó, họ}
δ(1, 2, 3) = tôi, δ(1, 3, 3) = tôi, δ(3, 2, 1) = nó, δ(4, 4, 2) = họ
Bảng 2-2. Ví dụ về từđiển mẫu
Có lẽ cách biểu diễn này không đủ cô đọng và hơi khó nhìn. Vì vậy trong quá trình gỡ rối, chúng tôi thường sử dụng biểu diễn đơn giản là danh sách mẫu và theo sau là từ của mẫu đó
1, 2, 3 : tôi 1, 3, 3: tôi 3, 2, 1: nó 4, 4, 2: họ