Tín hiệu sin và phổ của nó

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Giải quyết vấn đề nhận dạng tiếng Việt bằng phân tích cú pháp (Trang 65)

Tuy nhiên nếu chúng tơi thay tín hiệu bằng hàm s(t) = a.sin(2.π.440.t + π/2) nghĩa là chỉ lệch so với tín hiệu trên một góc phần tư, lập tức hình ảnh phổ sẽ xuất hiện hai vị trí cực đại, một cực đại âm và một cực đại dương.

Chương 4

PHƯƠNG PHÁP NHẬN DẠNG DỰA TRÊN PHÂN TÍCH TỪ VỰNG VÀ PHÂN TÍCH CÚ PHÁP

Trong phần này, chúng tơi muốn trình bày các kiến thức cơ sở về tiếng Việt vốn đã rất quen thuộc trong các giáo trình ngơn ngữ học về tiếng Việt. Nhưng chúng tơi tiếp cận các vấn đề đó trên cơ sở các thơng số vật lý và hình ảnh tín hiệu. Dựa vào các kiến thức tốn học cơ sở và các kiến thức về tín hiệu, chúng ta có thể phân tích tiếng Việt một cách định lượng và trực quan. Nhờ các kiến thức tiếng Việt này mà chúng ta có thể có các phương pháp xử lý thích hợp.

Chúng tơi cũng khơng có tham vọng trình bày tất cả kiến thức cơ sở về tiếng Việt mà chúng tôi chỉ trình bày các đặc trưng cơ bản của tiếng Việt ảnh hưởng tới quá trình nhận dạng cũng như các thuật tốn nhận dạng. Nói chung các cơng trình nghiên cứu nhận dạng tiếng nói tập trung vào cấu trúc phát âm của ngôn ngữ. Tuy nhiên chúng tôi cũng tập trung vào văn phạm của tiếng Việt vì đây là cơ sở của nghiên cứu của chúng tôi. Chúng tôi dùng thông tin cú pháp như công cụ định hướng và giới hạn q trình nhận dạng.

4.1. Phân tích tiếng Việt

Để có thể áp dụng các thuật tốn phân tích cú pháp và phân tích từ vựng vào nhận dạng tiếng Việt, chúng ta cần hiểu về cấu trúc của tiếng Việt. Trong phần này chúng tơi sẽ trình bày một số phân tích về tiếng Việt. Những phân tích này chỉ là sơ bộ, chưa thành hệ thống, với mục đích phục vụ cho hệ thống nhận dạng mà chúng tôi triển khai.

4.1.1. Ngôn ngữ có thanh điệu

Tiếng Việt là ngơn ngữ có thanh điệu. Đây là khó khăn chính của nhận dạng tiếng Việt. Trên thực tế, hai từ có chung từ gốc nhưng khác nhau về thanh điệu có hình ảnh tín hiệu khác nhau, ví dụ như từ “mà” và từ “má” trong hình vẽ 4-1,

nhưng chúng lại khá giống nhau nếu phân tích về tần số. Do đó việc phân biệt các từ khi đã biến đổi sang miền tần số là rất khó khăn. Hơn nữa, thanh điệu của các từ thường được xác định thông qua biên độ của tần số cơ bản F0. Mà sự biến đổi tần số này thường không ổn định và chứa nhiều ngoại lệ. Do vậy chúng ta khó có thể mơ hình hố thanh điệu bằng một cách chính xác.

Hình 4-1. Các từ ma, má, mà, mả, mã, mạ

Thanh điệu là yếu tố siêu đoạn tính (supersegmental). Có nghĩa là nó tác động trên toàn bộ từ và chúng ta chỉ cảm nhận được chúng khi chúng ta nghe trọn vẹn từ. Ví dụ như chúng ta nghe một từ có dấu sắc thực chất là chúng ta cảm nhận được đoạn trước được nói ở độ cao nào đó và đoạn sau được nó ở độ cao hơn.

4.1.2. Ngôn ngữ đơn âm tiết (monosyllable)

Việc giới hạn nhận dạng trên các từ đơn âm tiết sẽ làm quá trình nhận dạng dễ dàng và khả thi hơn, xem bài [13]. Ví dụ như câu các “the cat is bad”, “he goes to the shop”, hoặc “take it to the room”. Nhưng bản thân tiếng Việt đã là ngôn ngữ đơn âm tiết, nghĩa là với mỗi một tiếng chúng ta cho ra một từ. Ở đây chúng tôi sử dụng khái niệm tiếng để chỉ đoạn âm thanh có điểm đầu (onset), đoạn thân (nuclear) và phần kết (coda). Và chúng tôi sử dụng khái niệm từ để chỉ một dãy các ký tự có hoặc khơng có phụ âm đầu, các ngun âm chính, và có thể có phụ âm cuối. Do đó ln ln có một sự tương ứng giữa một từ và một tiếng.

Nhìn vào hình vẽ tín hiệu, chúng ta thậm chí có thể đưa ngay ra thuật toán nhận dạng các từ rời rạc dùng cho tiếng Việt, ví dụ như thuật tốn

1) Cắt các từ dựa vào biên độ

2) Tham số hoá từ vừa cắt thành bộ tham số tương ứng 3) Tìm kiếm bộ tham số khớp nhất trong từ điển

4) Nếu tìm thấy đưa ra từ tương ứng của bộ tham số 5) Lặp lại từ bước 1 nếu như cịn tín hiệu

Thuật tốn này tất nhiên không thể dùng với các ngôn ngữ đa âm tiết như tiếng Anh, tiếng Pháp, vì ranh giới mà chúng ta cắt một đoạn âm thanh (một âm tiết) không phải ranh giới của một từ. Nếu chúng ta cố gắng dùng thuật tốn trên với tiếng Anh, thì câu nói “I wonder” với kết quả chính xác nhất cũng chỉ là “I won the”

4.1.3. Các lỗi phát âm và mơ hình hố

Trong khi phát âm, chúng ta thường mắc phải lỗi nuốt các âm tiết và làm dư các âm tiết. Các lỗi phát âm này dẫn đễn việc biến đổi từ được phát ra và gây cản trở cho quá trình nhận dạng. Khi nói nhanh chúng ta thường nuốt hoặc bỏ qua một số đơn vị của diễn đạt. Khi nói chậm chúng ta thường tạo ra các yếu tố lặp lại. Chúng tơi khơng đề cập tới nói lắp (cũng là một lỗi nói) mà chúng tơi đề cập tới việc phát âm các từ kéo dài. Đôi khi việc phát âm kéo dài các từ sẽ làm bộ nhận dạng đưa ra hai từ.

Đây cũng chính là lý do mà mơ hình hố âm tiết bằng HMM (Hidden Markov Model) lại có các cung bỏ qua và các cung lặp lại. Các cung bỏ qua mô phỏng sự vắng mặt của một đơn vị phát âm hay khẳng định rằng yếu tố đó bị nuốt. Các cung lặp lại phản ánh sự dư thừa hay lặp lại của một đơn vị phát âm.

Chúng ta cũng có thể mơ hình hố bằng CFG (Context Free Grammar), trong đó một từ được coi như là một chuỗi các ký hiệu phát âm. Các ký hiệu đó tương ứng với một ký hiệu rỗng (bị nuốt) hoặc một véc tơ (bình thường) hoặc hơn một véc tơ (bị lặp).

s1 -> ^ | v1 | v1 v1 s2 -> ^ | v2 | v2 v2 s3 -> ^ | v3 | v3 v3

Bảng 4-1. Mơ hình hố phát âm

Các tật nói như nói lắp (dư từ trong câu, lặp lại một số từ), nói ngọng (làm biến đổi âm tiết của từ) cũng cần được khắc phục. Nhưng chúng ta sẽ không xét trong khuôn khổ của đề tài.

4.1.4. Từ điển phát âm (phonetic dictionary)

Từ điển phát âm là công cụ lưu trữ cách phát âm của một từ. Nghĩa là gắn với một từ có một hoặc một số cách phát âm. Từ điển phát âm thường được sử dụng để nhận dạng các yếu tố dưới từ (subword). Thực chất từ điển phát âm cũng là một văn phạm với các ký hiệu hằng chính là các âm vị cơ bản và các ký hiệu biến chính là các từ.

trời -> tr ow_f i_f chà -> ch a_f chài -> ch a_f i_f chì -> ch i_f

Bảng 4-2a. Ví dụ về từ điển phát âm

Tiếng Việt là ngơn ngữ phiên âm, do vậy các từ có thể được chia thành các âm cơ bản một cách tự nhiên. Do vậy chúng ta có thể biên soạn từ điển phát âm cho tiếng Việt một cách khơng khó khăn. Tuy nhiên chúng ta cần chú ý rằng các phương ngữ khác nhau có cách đọc khác nhau, do vậy chúng ta cần các từ điển khác nhau để mô phỏng nếu nhận dạng đa phương ngữ.

trời -> tr ow_f i_f /*Nghệ An*/ | ch ow_f i_f /*Hà nội*/ vô -> v oo /*Hà nội*/ | dz oo /*Sài Gịn */

có -> c o_s /*Hà Nội */ | qu oa_S /*Vĩnh Bảo, o như oa, dấu sắc mạnh */

bảo -> b a_r o_r /*Hà Nội*/ | b au_R u_R /*Vĩnh Bảo, ao như au, dấu hỏi nặng */

Từ điển phát âm có vai trị to lớn trong các hệ nhận dạng. Vì số lượng các từ trong các ngơn ngữ thường rất lớn, trong khi số lượng các âm tiết thường rất nhỏ. Cho nên chúng ta nhận dạng âm tiết kết hợp với từ điển phát âm để nhận dạng từ sẽ cho tốc độ nhanh hơn nhận dạng từ trong nhiều trường hợp.

4.1.5. Văn phạm tiếng Việt

Chúng tơi khơng nói chi tiết về văn phạm tiếng Việt theo cách các nhà ngơn ngữ đã phân tích, mà chúng tơi đưa ra khái niệm văn phạm tiếng Việt như là quan hệ trước sau của các từ tiếng Việt. Các từ ở đây có thể hiểu như là từ đơn hay từ chỉ có một tiếng. Do đó nó chỉ được dùng cho nhận dạng tiếng Việt mà không phải được dùng cho các mục đích khác như hiểu ngơn ngữ hoặc biên dịch.

Có một số quan điểm cho rằng khái niệm văn phạm mà chúng tơi áp dụng trong q trình nghiên cứu gần giống với mơ hình ngơn ngữ (language model). Chúng tơi cũng đồng ý với quan điểm đó theo một cách hiểu nào đó (vì dụ như văn phạm và mơ hình ngơn ngữ đều có thể biểu diễn bằng mạng lưới từ). Nhưng chúng tơi nhấn mạnh rằng văn phạm và mơ hình ngơn ngữ khơng là một. Mơ hình ngơn ngữ phản ánh mối quan hệ thống kê (không chắc chắn) giữa các từ trong khi văn phạm phản ánh mối quan hệ được xác lập trước giữa các từ. Và hơn nữa mơ hình ngơn ngữ chỉ phản ánh mối quan hệ trước sau của các từ (theo cách hiểu nào đó mơ hình ngơn ngữ chỉ là văn phạm chính quy) trong khi văn phạm có thể phản ánh mối quan hệ trước sau của các câu (ví dụ văn phạm phi ngữ cảnh).

Trong nghiên cứu của mình, chúng tơi khơng đưa ra một văn phạm hồn chỉnh hay thống nhất cho tiếng Việt mà chúng tơi sẽ biên soạn các bộ văn phạm tiếng Việt khác nhau khi triển khai để nhận dạng trong các ứng dụng khác nhau. Ví dụ như văn phạm dùng để ra các mệnh lệnh cho hệ thống khác với văn phạm để soạn thảo. Văn phạm dùng để hỏi đáp với hệ chuyên gia khác với văn phạm truy vấn cơ sở dữ liệu.

*s = n vp; n = tơi | nó; vp = v pl;

v = đi | ra; pl = chợ | chơi;

Bảng 4-3. Ví dụ về văn phạm tiếng Việt

Văn phạm mà chúng tôi quan tâm nghiên cứu là văn phạm mô tả tập mệnh lệnh. Vì tập mệnh lệnh là những câu nói đơn giản và hay được người dùng sử dụng để ra lệnh cũng như hỏi thông tin với máy.

Cũng giống như ngữ âm, văn phạm cũng đặc trưng cho các miền ngôn ngữ hay các phương ngữ. Đây cũng là một trong những lý do mà chúng tôi không đưa ra một bộ văn phạm hồn chỉnh.

4.1.6. Sự khơng thống nhất trong chính tả

Ngồi việc có khoảng 40 tập ký tự khác nhau như TCVN3, VNI, VNU, sự khơng thống nhất về chính tả tồn tại cố hữu trong tiếng Việt là yếu tố ngăn cản quá trình đưa ra kết quả của quá trình nhận dạng. Chúng ta có rất nhiều lựa chọn để đưa ra khi chúng ta đã nhận dạng đúng một từ

hồ | hịa (khơng thống nhất về bỏ dấu)

Lênin | Lê-Nin | Lê nin (không thống nhất tên nước ngồi) ơtơmát | ơ tơ mát | ô-tô-mát (khơng thống nhất từ mượn) lơgic | lơ gích | lơ gíc (khơng thống nhất phiên âm mượn) quy định | qui định, mỹ | mĩ (dùng lẫn lộn chữ i và y)

bảy | bẩy, bửn | bẩn (khơng thống nhất do chính tả ghi lại phát âm)

Bảng 4-4. Các lỗi khơng thống nhất

4.2. Phát biểu bài tốn nhận dạng

Thơng qua các bài tốn cụ thể, chúng ta ít nhiều hình dung được vấn đề của bài tốn nhận dạng cũng như đầu vào và đầu ra của nó. Để hình thức hố được bài tốn nhận dạng, chúng ta trước hết hãy hình thức hố đầu vào và đầu ra của nó, sau đó chúng ta đưa ra cơng thức hình thức và thiết kế trực quan cho hệ thống nhận dạng cùng với các ràng buộc đối với các hệ thống như vậy.

4.2.1. Đầu ra của quá trình nhận dạng

Đa số người hiểu biết sơ qua về nhận dạng tiếng nói đều cho rằng kết quả quả q trình nhận dạng là văn bản. Điều đó đúng nhưng khơng tổng qt. Trong các hệ đọc chính tả, điều này hồn tồn chính xác vì mỗi khi đọc thêm một tiếng thì có một từ thêm vào và tập tin văn bản sẽ dài thêm tỷ lệ với tập tin âm thanh.

Trong hệ ra lệnh bằng giọng nói, chúng ta có thể thấy đầu ra của q trình nhận dạng khơng phải là văn bản mà là một hành động hay một phản ứng của máy tính. Khi ta u cầu mởi tập tin, thì trên màn hình xuất hiện một hộp thoại.

Trong các hệ tương tác hỏi đáp, tín hiệu âm thanh đưa vào thực chất sẽ được chuyển thành khối tham số. Khi người dùng ra một câu hỏi, nó sẽ được nhận dạng thành một khối tham số. Khối tham số này sẽ được dùng để tìm kiếm câu trả lời. Và câu trả lời sẽ được tổng hợp thành tiếng nói để đưa ra.

Trong các hệ thông ngôn tự động, nghĩa là nghe một câu nói ở một ngơn ngữ, dịch thành ngơn ngữ khác và phát ra, hoặc trong các hệ trợ thính, nghĩa là nghe một câu nói, chuyển thành rung động thần kinh thính giác, sản phẩm của q trình nhận dạng chính là các tín hiệu khác chuyển đổi từ tín hiệu thu vào.

Mặc dù các đầu ra phong phú như vậy, chúng được trừu tượng hoá thành các ký hiệu (symbol) đầu ra. Dạng đơn giản nhất của ký hiệu đầu ra là các từ (word). Và tập tin đầu ra sẽ gồm danh sách các ký hiệu đầu ra. Dạng đơn giản nhất của tập tin đầu ra chính là tập hợp các từ hay văn bản. Chúng ta sẽ dùng ký pháp chuỗi để ký hiệu tập tin đầu ra

T = { w1, w2, .., wm }

Tập tin đầu ra như chúng ta đã trừu tượng hố sẽ được sử dụng để xây dựng mơ hình lý thuyết. Trong quá trình triển khai các tập tin đầu ra có thể được kéo dài theo thời gian hoặc không xác định độ dài. Chúng ta cũng không quan trọng điều này lắm vì nó khơng mất nhiều cơng đưa từ lý thuyết đến triển khai. Ký hiệu T có thể hiểu là text hay transcription hoặc đơn giản chỉ là đối ngẫu với phát âm S

4.2.2. Đầu vào của quá trình nhận dạng

Đầu vào của quá trình nhận dạng là tín hiệu âm thanh. Một tín hiệu (signal) theo là một dãy số hữu hạn (finite sequence) các số thực hoặc số nguyên. Mỗi số nguyên trong tín hiệu gọi là mẫu (sample). Hay tín hiệu có thể được coi là một hàm từ tập số tự nhiên vào tập số thực. Chúng ta sử dụng ký pháp dãy để biểu diễn tín hiệu

S = { s1, s2, .. sn }

Trong triển khai các ứng dụng tương tác trực tiếp, tín hiệu đưa vào là liên tục và không xác định độ dài trước. Mặc dù vậy chúng ta vẫn có phương pháp chia nhỏ các tín hiệu thu được thành các đoạn hữu hạn.

Trong khi thao tác, tín hiệu thường được chia nhỏ thành các khung (frame) hay cửa sổ (window) có độ dài bằng nhau để xử lý cho đơn giản. Mọi thao tác trích chọn đặc trưng nói chung sẽ chỉ xảy ra trong một khung. Do đó ta thường ký hiệu là tập các khung

S = { s1, s2, .., sn } = { f1, f2, .., fk }

Với k là một số nguyên nhỏ hơn hay bằng n vì một khung thường bao gồm nhiều mẫu (sample) và các khung có độ dài bằng nhau nên khung cuối cùng thường được bỏ đi nếu số tín hiệu cịn lại khơng đủ một khung. Nếu gọi kích thước của mỗi khung là F thì ta có mối liên hệ giữa k và n.

k = n div F

Trong quá trình tham số hố (parameterization) mỗi một khung sẽ được chuyển tương ứng thành một véc tơ (vector) hay một quan sát (observation) nên chúng ta cũng có thể ký hiệu

S = { s1, s2, .., sn } = { f1, f2, .., fk } = { v1, v2, .., vk } = { o1, o2, .., ok }

Véc tơ và quan sát chỉ là các tên gọi khác nhau đối với bộ giá trị đặc trưng cho khung. Nghĩa là mỗi khung sẽ có một bộ giá trị tương ứng có được bằng phép trích

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Giải quyết vấn đề nhận dạng tiếng Việt bằng phân tích cú pháp (Trang 65)

Tải bản đầy đủ (PDF)

(107 trang)