Để có thể áp dụng các thuật tốn phân tích cú pháp và phân tích từ vựng vào nhận dạng tiếng Việt, chúng ta cần hiểu về cấu trúc của tiếng Việt. Trong phần này chúng tơi sẽ trình bày một số phân tích về tiếng Việt. Những phân tích này chỉ là sơ bộ, chưa thành hệ thống, với mục đích phục vụ cho hệ thống nhận dạng mà chúng tôi triển khai.
4.1.1. Ngơn ngữ có thanh điệu
Tiếng Việt là ngơn ngữ có thanh điệu. Đây là khó khăn chính của nhận dạng tiếng Việt. Trên thực tế, hai từ có chung từ gốc nhưng khác nhau về thanh điệu có hình ảnh tín hiệu khác nhau, ví dụ như từ “mà” và từ “má” trong hình vẽ 4-1,
nhưng chúng lại khá giống nhau nếu phân tích về tần số. Do đó việc phân biệt các từ khi đã biến đổi sang miền tần số là rất khó khăn. Hơn nữa, thanh điệu của các từ thường được xác định thông qua biên độ của tần số cơ bản F0. Mà sự biến đổi tần số này thường không ổn định và chứa nhiều ngoại lệ. Do vậy chúng ta khó có thể mơ hình hố thanh điệu bằng một cách chính xác.
Hình 4-1. Các từ ma, má, mà, mả, mã, mạ
Thanh điệu là yếu tố siêu đoạn tính (supersegmental). Có nghĩa là nó tác động trên toàn bộ từ và chúng ta chỉ cảm nhận được chúng khi chúng ta nghe trọn vẹn từ. Ví dụ như chúng ta nghe một từ có dấu sắc thực chất là chúng ta cảm nhận được đoạn trước được nói ở độ cao nào đó và đoạn sau được nó ở độ cao hơn.
4.1.2. Ngôn ngữ đơn âm tiết (monosyllable)
Việc giới hạn nhận dạng trên các từ đơn âm tiết sẽ làm quá trình nhận dạng dễ dàng và khả thi hơn, xem bài [13]. Ví dụ như câu các “the cat is bad”, “he goes to the shop”, hoặc “take it to the room”. Nhưng bản thân tiếng Việt đã là ngôn ngữ đơn âm tiết, nghĩa là với mỗi một tiếng chúng ta cho ra một từ. Ở đây chúng tôi sử dụng khái niệm tiếng để chỉ đoạn âm thanh có điểm đầu (onset), đoạn thân (nuclear) và phần kết (coda). Và chúng tôi sử dụng khái niệm từ để chỉ một dãy các ký tự có hoặc khơng có phụ âm đầu, các ngun âm chính, và có thể có phụ âm cuối. Do đó ln ln có một sự tương ứng giữa một từ và một tiếng.
Nhìn vào hình vẽ tín hiệu, chúng ta thậm chí có thể đưa ngay ra thuật toán nhận dạng các từ rời rạc dùng cho tiếng Việt, ví dụ như thuật tốn
1) Cắt các từ dựa vào biên độ
2) Tham số hoá từ vừa cắt thành bộ tham số tương ứng 3) Tìm kiếm bộ tham số khớp nhất trong từ điển
4) Nếu tìm thấy đưa ra từ tương ứng của bộ tham số 5) Lặp lại từ bước 1 nếu như cịn tín hiệu
Thuật tốn này tất nhiên không thể dùng với các ngôn ngữ đa âm tiết như tiếng Anh, tiếng Pháp, vì ranh giới mà chúng ta cắt một đoạn âm thanh (một âm tiết) không phải ranh giới của một từ. Nếu chúng ta cố gắng dùng thuật tốn trên với tiếng Anh, thì câu nói “I wonder” với kết quả chính xác nhất cũng chỉ là “I won the”
4.1.3. Các lỗi phát âm và mơ hình hố
Trong khi phát âm, chúng ta thường mắc phải lỗi nuốt các âm tiết và làm dư các âm tiết. Các lỗi phát âm này dẫn đễn việc biến đổi từ được phát ra và gây cản trở cho quá trình nhận dạng. Khi nói nhanh chúng ta thường nuốt hoặc bỏ qua một số đơn vị của diễn đạt. Khi nói chậm chúng ta thường tạo ra các yếu tố lặp lại. Chúng tơi khơng đề cập tới nói lắp (cũng là một lỗi nói) mà chúng tơi đề cập tới việc phát âm các từ kéo dài. Đôi khi việc phát âm kéo dài các từ sẽ làm bộ nhận dạng đưa ra hai từ.
Đây cũng chính là lý do mà mơ hình hố âm tiết bằng HMM (Hidden Markov Model) lại có các cung bỏ qua và các cung lặp lại. Các cung bỏ qua mô phỏng sự vắng mặt của một đơn vị phát âm hay khẳng định rằng yếu tố đó bị nuốt. Các cung lặp lại phản ánh sự dư thừa hay lặp lại của một đơn vị phát âm.
Chúng ta cũng có thể mơ hình hố bằng CFG (Context Free Grammar), trong đó một từ được coi như là một chuỗi các ký hiệu phát âm. Các ký hiệu đó tương ứng với một ký hiệu rỗng (bị nuốt) hoặc một véc tơ (bình thường) hoặc hơn một véc tơ (bị lặp).
s1 -> ^ | v1 | v1 v1 s2 -> ^ | v2 | v2 v2 s3 -> ^ | v3 | v3 v3
Bảng 4-1. Mơ hình hố phát âm
Các tật nói như nói lắp (dư từ trong câu, lặp lại một số từ), nói ngọng (làm biến đổi âm tiết của từ) cũng cần được khắc phục. Nhưng chúng ta sẽ không xét trong khuôn khổ của đề tài.
4.1.4. Từ điển phát âm (phonetic dictionary)
Từ điển phát âm là công cụ lưu trữ cách phát âm của một từ. Nghĩa là gắn với một từ có một hoặc một số cách phát âm. Từ điển phát âm thường được sử dụng để nhận dạng các yếu tố dưới từ (subword). Thực chất từ điển phát âm cũng là một văn phạm với các ký hiệu hằng chính là các âm vị cơ bản và các ký hiệu biến chính là các từ.
trời -> tr ow_f i_f chà -> ch a_f chài -> ch a_f i_f chì -> ch i_f
Bảng 4-2a. Ví dụ về từ điển phát âm
Tiếng Việt là ngôn ngữ phiên âm, do vậy các từ có thể được chia thành các âm cơ bản một cách tự nhiên. Do vậy chúng ta có thể biên soạn từ điển phát âm cho tiếng Việt một cách khơng khó khăn. Tuy nhiên chúng ta cần chú ý rằng các phương ngữ khác nhau có cách đọc khác nhau, do vậy chúng ta cần các từ điển khác nhau để mô phỏng nếu nhận dạng đa phương ngữ.
trời -> tr ow_f i_f /*Nghệ An*/ | ch ow_f i_f /*Hà nội*/ vô -> v oo /*Hà nội*/ | dz oo /*Sài Gịn */
có -> c o_s /*Hà Nội */ | qu oa_S /*Vĩnh Bảo, o như oa, dấu sắc mạnh */
bảo -> b a_r o_r /*Hà Nội*/ | b au_R u_R /*Vĩnh Bảo, ao như au, dấu hỏi nặng */
Từ điển phát âm có vai trị to lớn trong các hệ nhận dạng. Vì số lượng các từ trong các ngơn ngữ thường rất lớn, trong khi số lượng các âm tiết thường rất nhỏ. Cho nên chúng ta nhận dạng âm tiết kết hợp với từ điển phát âm để nhận dạng từ sẽ cho tốc độ nhanh hơn nhận dạng từ trong nhiều trường hợp.
4.1.5. Văn phạm tiếng Việt
Chúng tơi khơng nói chi tiết về văn phạm tiếng Việt theo cách các nhà ngơn ngữ đã phân tích, mà chúng tơi đưa ra khái niệm văn phạm tiếng Việt như là quan hệ trước sau của các từ tiếng Việt. Các từ ở đây có thể hiểu như là từ đơn hay từ chỉ có một tiếng. Do đó nó chỉ được dùng cho nhận dạng tiếng Việt mà không phải được dùng cho các mục đích khác như hiểu ngơn ngữ hoặc biên dịch.
Có một số quan điểm cho rằng khái niệm văn phạm mà chúng tơi áp dụng trong q trình nghiên cứu gần giống với mơ hình ngơn ngữ (language model). Chúng tơi cũng đồng ý với quan điểm đó theo một cách hiểu nào đó (vì dụ như văn phạm và mơ hình ngơn ngữ đều có thể biểu diễn bằng mạng lưới từ). Nhưng chúng tơi nhấn mạnh rằng văn phạm và mơ hình ngơn ngữ khơng là một. Mơ hình ngơn ngữ phản ánh mối quan hệ thống kê (không chắc chắn) giữa các từ trong khi văn phạm phản ánh mối quan hệ được xác lập trước giữa các từ. Và hơn nữa mơ hình ngơn ngữ chỉ phản ánh mối quan hệ trước sau của các từ (theo cách hiểu nào đó mơ hình ngơn ngữ chỉ là văn phạm chính quy) trong khi văn phạm có thể phản ánh mối quan hệ trước sau của các câu (ví dụ văn phạm phi ngữ cảnh).
Trong nghiên cứu của mình, chúng tơi khơng đưa ra một văn phạm hoàn chỉnh hay thống nhất cho tiếng Việt mà chúng tôi sẽ biên soạn các bộ văn phạm tiếng Việt khác nhau khi triển khai để nhận dạng trong các ứng dụng khác nhau. Ví dụ như văn phạm dùng để ra các mệnh lệnh cho hệ thống khác với văn phạm để soạn thảo. Văn phạm dùng để hỏi đáp với hệ chuyên gia khác với văn phạm truy vấn cơ sở dữ liệu.
*s = n vp; n = tơi | nó; vp = v pl;
v = đi | ra; pl = chợ | chơi;
Bảng 4-3. Ví dụ về văn phạm tiếng Việt
Văn phạm mà chúng tôi quan tâm nghiên cứu là văn phạm mô tả tập mệnh lệnh. Vì tập mệnh lệnh là những câu nói đơn giản và hay được người dùng sử dụng để ra lệnh cũng như hỏi thông tin với máy.
Cũng giống như ngữ âm, văn phạm cũng đặc trưng cho các miền ngôn ngữ hay các phương ngữ. Đây cũng là một trong những lý do mà chúng tôi không đưa ra một bộ văn phạm hồn chỉnh.
4.1.6. Sự khơng thống nhất trong chính tả
Ngồi việc có khoảng 40 tập ký tự khác nhau như TCVN3, VNI, VNU, sự khơng thống nhất về chính tả tồn tại cố hữu trong tiếng Việt là yếu tố ngăn cản quá trình đưa ra kết quả của quá trình nhận dạng. Chúng ta có rất nhiều lựa chọn để đưa ra khi chúng ta đã nhận dạng đúng một từ
hồ | hịa (khơng thống nhất về bỏ dấu)
Lênin | Lê-Nin | Lê nin (không thống nhất tên nước ngồi) ơtơmát | ơ tơ mát | ô-tô-mát (khơng thống nhất từ mượn) lơgic | lơ gích | lơ gíc (khơng thống nhất phiên âm mượn) quy định | qui định, mỹ | mĩ (dùng lẫn lộn chữ i và y)
bảy | bẩy, bửn | bẩn (khơng thống nhất do chính tả ghi lại phát âm)
Bảng 4-4. Các lỗi không thống nhất