BÁO CÁO THỰC TẬP-Hệ thống phát âm của con người

CHƯƠNG 1 CHƯƠNG 1. TỔNG QUANG VỀ TIẾNG NÓI 1.1. NGUỒN GỐC CỦA TIẾNG NÓI Âm thanh của lời nói cũng như âm thanh trong thế giới tự nhiên xung quanh ta, về bản chất đều là những sóng âm được lan truyền trong một môi trường nhất định (thường là không khí). Khi chúng ta nói dây thanh trong hầu bị chấn động, tạo nên những sóng âm, sóng truyền trong không khí đến màng nhĩ một màng mỏng rất nhạy cảm của tai ta làm cho màng nhĩ cũng dao động, các dây thần kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của sóng đạt đến một độ lớn nhất định. Tai con người chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đến khoảng 20000Hz. Những dao động trong miền tần số này gọi là dao động âm hay âm thanh, và các sóng tương ứng gọi là sóng âm. Những sóng có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, những sóng có tần số lớn hơn 20000Hz gọi là sóng siêu âm, con người không cảm nhận được (ví dụ loài dơi có thể nghe được tiếng siêu âm). Sóng âm, sóng siêu âm và hạ âm không chỉ truyền trong không khí mà còn có thể lan truyền tốt ở những môi trường rắn, lỏng, do đó cũng được sử dụng rất nhiều trong các thiết bị máy móc hiện nay. 1.2. QUÁ TRÌNH TẠO TIẾNG NÓI Hình 1.1. Hệ thống phát âm của con người Lời nói là kết quả của sự vận động các bộ phận phận như lưỡi, thanh môn, môi, họng, thanh quản, Đầu tiên áp lực từ phổi qua khí quản đưa tới thanh quản, ở đây có các dây thanh giống như đôi môi đối xứng nằm ngay thanh quản. Hai môi LÊ QUỐC ĐẠT D10CQDT01_N [Type text] CHƯƠNG 1 này có thể khép hoàn toàn và mỡ ra, tạo thành thanh môn để không khí bắn qua. Tùy theo tốc độ hoạt động của dây thanh mà tần số không khí bắn qua thanh môn khác nhau, không khí sau khi qua thanh môn được đưa tới các khoang mũi và khoang miệng, các khoang này có tác dụng như các hộp cộng hưởng, cộng hưởng ở những tần số khác nhau để tạo ra các luồng sóng âm có tần số lớn nhất khác nhau. Các khoang cộng hưởng này có kích thước thay đổi tùy theo hướng phát âm, trong đó rõ nhất là lưỡi, khi nói lưỡi thay đổi liên tục, tần số sóng âm thay đổi liên tục. Người ta nhận thấy rằng trong quá trình phát âm, các bộ phận trên thay đổi liên tục trong khoảng thời gian từ 20ms đến 30ms, vì trong khoảng thời gian này, nguồn phát âm cố định. 1.3. PHÂN LOẠI TIẾNG NÓI Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, rất uyển chuyển và đặc biệt. Là công cụ của tư duy và trí tuệ, tiếng nói mang tính đặc trưng của loài người. Nó không thể tách riêng khi nhìn vào toàn thể nhân loại, và nhờ có ngôn ngữ tiếng nói mà loài người sống và phát triển xã hội tiến bộ, có văn hóa, văn minh như ngày nay. Trong quá trình giao tiếp người nói, có nhiều câu nói, mỗi câu gồm nhiều từ, mỗi từ lại có thể gồm 1 hay nhiều âm tiết. Ở tiếng Việt, số âm tiết được sử dụng vào khoảng 6700. Khi chúng ta phát ra một tiếng thì có rất nhiều bộ phận như lưỡi, thanh môn, môi, họng, thanh quản,… kết hợp với nhau để tạo thành âm thanh. Âm thanh phát ra được lan truyền trong không khí để đến tai người nhận. Vì âm thanh phát ra từ sự kết hợp của rất nhiều bộ phận, do đó âm thanh ở mỗi lần nói khác nhau hầu như khác nhau dẫn đến khá khó khăn khi ta muốn phân chia tiếng nói theo những đặc tính riêng. Người ta chỉ chia tiếng nói thành 3 loại cơ bản như sau: • Âm hữu thanh: Là âm khi phát ra thì có thanh, ví dụ như chúng ta nói “i”, “a”, hay “o” chẳng hạn. Thực ra âm hữu thanh được tạo ra là do việc không khí qua thanh môn (thanh môn tạo ra sự khép mở của dây thanh dưới sự điều khiển của hai sụn chóp) với một độ căng của dây thanh sao cho chúng tạo nên dao động. • Âm vô thanh: Là âm khi tạo ra tiếng thì dây thanh không rung hoặc rung đôi chút tạo ra giọng nhưgiọng thở, ví dụ“h”, “p” hay “th”. • Âm bật: để phát ra âm bật, đầu tiên bộmáy phát âm phải đóng kín, tạo nên một áp suất, sau đó không khí được giải phóng một cách đột ngột, ví dụ“ch”, “t”. LÊ QUỐC ĐẠT D10CQDT01_N [Type text] CHƯƠNG 1 1.4. PHÂN TÍCH TIẾNG NÓI Phân tích tiếng nói là nhằm tìm ra một dạng thức tối ưu biểu diễn được tiếng nói một cách hiệu quả. Nó là cơ sở cho việc phát triển các công nghệ tổng hợp, nhận dạng và nâng cao chất lượng tiếng nói. Phân tích tiếng nói thường thực hiện việc trích chọn hoặc chuyển đổi tín hiệu tiếng nói sang một dạng thức biểu diễn khác sao cho có thể biểu diễn thông tin tiếng nói tốt hơn theo cách mà chúng ta cần. Một cách tổng quát, hầu hết các phương pháp phân tích tín hiệu tiếng nói tập trung vào một trong ba vấn đề chính. Thứ nhất là tìm cách loại bỏ ảnh hưởng của pha, thành phần không đóng vai trong quan trọng trong việc truyền tải thông tin tiếng nói. Thứ hai, thực hiện việc chia tách nguồn âm và mạch lọc (mô hình tuyến âm) sao cho chúng ta có thể nghiên cứu biên phổ của tín hiệu một cách độc lập. Cuối cùng là chuyển đổi tín hiệu hoặc biên phổ tín hiệu sang một dạng biểu diễn khác hiệu quả hơn. 1.4.1. Mô hình phân tích tiếng nói Mô hình tổng quát cho việc phân tích tiếng nói được trình bày trong hình 1.2. Các dạng tín hiệu tại các bước được trình bày kèm theo trong minh họa. Tín hiệu tiếng nói được tiền xử lý bằng cách cho qua một bộ lọc thông thấp với tần số cắt khoảng 8 kHz. Tín hiệu thu được thực hiện quá trình biến đổi sang dạng tín hiệu số nhờ bộ biến đổi ADC. Thông thường, tần số lấy mẫu bằng 16kHz với tốc độ bit lượng tử hóa là 16 bit. Tín hiệu tiếng nói dạng số được phân khung với chiều dài khung thường khoảng 30ms và khoảng lệch các khung thường bằng 10ms. Khung phân tích tín hiệu sau đó được chỉnh biên bằng cách lấy cửa sổ với các hàm cửa sổ phổ biến như Hamming, Hanning Tín hiệu thu được sau khi lấy cửa sổ được đưa vào phân tích với các phương pháp phân tích phổ (chẳng hạn như STFT,LPC, ) Hoặc sau khi phân tích phổ cơ bản , tiếp tục được đưa đến các khối để trích chọn các đặc trưng. LÊ QUỐC ĐẠT D10CQDT01_N [Type text] CHƯƠNG 1 Hình 1.2 Mô hình tổng quát phân tích tiếng nói CHƯƠNG 2. MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG TIẾNG NÓI 2.1. NHẬN DẠNG TIẾNG NÓI LÊ QUỐC ĐẠT D10CQDT01_N [Type text] CHƯƠNG 1 Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được học trước đó và lưu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị. Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ trong bộ nhớ. Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau. Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng. Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói. Nhận dạng tiếng nói có nhiều ứng dụng : • Đọc chính tả. Là ứng dụng được sử dụng nhiều nhất trong các hệ nhận dạng. Thay vì nhập liệu bằng tay thông qua bàn phím, người sử dụng nói với máy qua micro và máy xác định các từ được nói trong đó. • Điều khiển – giao tiếp không dây. Chẳng hạn hệ thống cho phép máy tính nhận lệnh điều khiển bằng giọng nói con người như: “chạy chương trình”, “tắt máy” một số ưu điểm của việc sử dụng tiếng nói thay cho các thiết bị vào chuẩn như chuột, bàn phím là thuận tiện tốc độ cao, không bị ảnh hưởng của cáp, khoảng cách, không đòi hỏi huấn luyện sử dụng • Điện thoai- liên lạc. Một số hệ thống ( chẳng hạn ở máy điện thoại di động) cho phép người sử dụng đọc tên người trong danh sách thay vì bấm số. • 2.2. MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG TIẾNG NÓI 2.2.1. Phương pháp ngữ âm – âm vị học (acoustic-phonetic approach) LÊ QUỐC ĐẠT D10CQDT01_N [Type text] CHƯƠNG 1 Phương pháp ngữ âm- âm vị học dựa trên lý thuyết âm vị: lý thuyết này khẳng định sự tồn tại hữu hạn và duy nhất các đơn vị ngữ âm cơ bản trong ngôn ngữ nói gọi là âm vị, được phân chia thành: nguyên âm- phụ âm, vô thanh- hữu thanh, âm vang- âm bẹt Các âm vị có thể xác định bởi tập các đặc trưng của phổ của tín hiệu tiến nói theo thời gian. Đặc trưng quan trọng nhất của âm vị là Formant. Đó là vùng tần số có cộng hưởng cao nhất của tín hiệu. Ngoài ra còn một số đặc trưng khác như âm vực( cao độ - pitch), âm lượng Hệ thống nhận dạng dự trên phương pháp này sẽ tách các đặc trưng từ tín hiệu tiếng nói và xác định chúng tương ứng với âm vị nào. Sau đó, dựa vào một từ điển phiên âm, máy sẽ xác định chuỗi cac âm vị có khả năng là phát âm của từ nào nhất. Hình 2.1. Phương pháp phân loại nguyên âm tiếng anh Hình 2.1 cho ta phương pháp phân biệt nguyên âm bằng đặc trưng Formant và chiều dài phân đoạn. Chúng ta giả sử rằng có ba đặc trưng đã được phát hiện trong phân đoạn là formant thứ nhất F1, formant thứ hai F2 và chiều dài của phân đoạn D. LÊ QUỐC ĐẠT D10CQDT01_N [Type text] CHƯƠNG 1 Để phân loại một phân đoạn nguyên âm trong 10 nguyên âm ổn định, một số phép thử cần phải thực hiện để phân tách các nhóm nguyên âm. Như trình bày trong hình trên, phép thử đầu tiên tách các nguyên âm có tần số F1 thấp (còn gọi là các nguyên âm khuếch tán (diffuse) chẳng hạn như/i/, /i/, /u/, ) với các nguyên âm có tần số cao (còn gọi là các nguyên âm gọn (compact) bao gồm /a/, ). Mỗi tập con này lại được phân tách thêm dựa vào tần số F2, trong đó các nguyên âm acute (âm sắc) có tần số F2 cao và các nguyên âm grave (âm huyền) có tần số F2 thấp. Phép kiểm tra thứ ba dựa trên khoảng thời gian của phân đoạn sẽ phân tách các nguyên âm căng (tense vowel), tức là các nguyên âm có giá trị D lớn với các nguyên âm lax (thả lỏng), tức là các nguyên âm có giá trị D nhỏ. Cuối cùng, một phép kiểm tra mịn hơn (finer) đối với các giá trị formant để phân tách các nguyên âm chưa phân tách còn lại tạo ra lớp các nguyên âm bằng (flat) tức là các nguyên âm có F1+F2 lớn hơn một ngưỡng T nào đó và các nguyên âm đơn giản (plain) ( các nguyên âm có F1+F2 nằm dưới một ngưỡng T nào đó) . Việc phân loại nguyên âm ở trên chỉ là một phần nhỏ trong quá trình xác định âm vị của phương pháp, trên thực tế, ta cần xác định nguyên âm đơn,kép, phụ âm, âm vô thanh, hữu thanh hay khoảng lặng Xét về khía cạnh nguyên lí, phương pháp này có vẻ rất đơn giản. Tuy nhiên các thử nghiệm trong thực tế cho thấy phương pháp cho kết quả nhận dạng không cao, nguyên nhân từ những vấn đề sau: • Phương pháp cần rất nhiều tri thức về ngữ âm học, nhất là các tri thức liên quan đến đặc tính âm học của các âm vị. Mà những tri thức này nhìn chung còn chưa được nghiên cứu đầy đủ. • Formant chỉ ổn định với nguyên âm, còn với phụ âm formant rất khó xác định và không ổn định. Hơn nửa việc xác định các formant cho độ chính xác không cao. Đặc biệt khi chịu ảnh hưởng của nhiễu. • Rất khó phân biệt các âm vị dựa trên phổ, nhất là các phụ âm vô thanh. Có một số phụ âm rất giống nhiễu (ví dụ; /s/, /h/). 2.2.2. Phương pháp nhận dạng mẫu LÊ QUỐC ĐẠT D10CQDT01_N [Type text] CHƯƠNG 1 Phương pháp nhận dạng mẫu dựa vào lý thuyết xác suất thống kê để nhận dạng dựa trên ý tưởng: so sánh đối tượng cần nhận dạng với các mẫu được thu thập trước đó để tìm mẫu “giống” đối tượng nhất. Như vậy hệ thống nhận dạng sẽ trải qua 2 giai đoạn: • Giai đoạn huấn luyện thực hiện các nhiệm vụ: thu thập mẫu, phân lớp và huấn luyện hệ thống ghi nhớ các mẫu đó. • Giai đoạn nhận dạng: nhận vào đối tượng cần nhận dạng, so sánh với các mẫu và đưa ra kết quả là mẫu giống đối tượng nhất. Phần lớn các hệ thống nhận dạng thành công trên thế giới là sử dụng phương pháp này. Phương pháp có những ưu điểm sau: • Sử dụng đơn giản, dể hiểu, mang tính toán khoa học cao (lý thuyết xác suất thống kê, lý thuyết máy học, ) • Ít bị ảnh hưởng của những biến thể về bộ từ vựng, tập đặc trưng, đơn vị nhận dạng, môi trường xung quanh • Cho kết quả cao. Điều này đã được kểm chứng trong thực tế. 2.2.3. Phương pháp trí tuệ nhân tạo Phương pháp trí tuệ nhân tạo nghiên cứu cách học nói và học nghe của con người, tìm hiểu các quy luật ngữ âm, ngữ pháp, ngữ nghĩa, ngữ cảnh và tích hợp chúng bổ sung cho các phương pháp khác để nâng cao kết quả nhận dạng. Chẳng hạn có thể thêm các hệ chuyên gia( expert system), các luật logic mờ (fuzzy logic) về ngữ âm, âm vị vào các hệ nhận dạng tiếng nói dựa trên phương pháp ngữ âm – âm vị học để tăng độ chính xác cho việc xác định các âm vị ( vấn đề đã được đề cập rất khó nếu chỉ sử dụng các thông tin về âm phổ). Hay đối với hệ nhận dạng mẫu, người ta cải tiến bằng cách đối với mỗi tượng cần nhận dạng, hệ thống sẽ chọn ra một số mẫu giống “giống” đối tượng nhất, sau đó kiềm chứng tiếp các kết quả đó bằng các luật ngữ pháp, ngữ nghĩa, ngử cảnh để xác định mẫu phù hợp nhất. Hiện nay đang có một phương pháp trí tuệ nhân tạo trong nhận dạng tiếng nói được nghiên cứu rộng rãi là mạng nơron. Tùy vào cách sử dụng, mạng nơron có thể LÊ QUỐC ĐẠT D10CQDT01_N [Type text] CHƯƠNG 1 coi là mở rộng của phương pháp nhận dạng mẫu hoặc phương pháp ngữ âm- âm vị học. CHƯƠNG 3. TRÍCH CHỌN ĐẶC TRƯNG MFCC VÀ LPC TRONG NHẬN DẠNG TIẾNG NÓI LÊ QUỐC ĐẠT D10CQDT01_N [Type text] CHƯƠNG 1 3.1. TRÍCH CHỌN ĐẶC TRƯNG MFCC MFCC( Mel-scale Frequency Cepstral Coefficient) là phương pháp trích đặc trưng dựa tên đặc điểm cảm thụ tần số âm của tai người: tuyến tính đối với tần số nhỏ hơn 1kHz và phi tuyến đối với tần số trên 1kHz. 3.1.1. Sơ đồ khối quá trình tính MFCC Đối với phương pháp MFCC, việc tính đặc trưng có sơ đồ như sau: Hình 3.1. Sơ đồ khối quá trình trích chọn đặc trưng MFCC Quá trình tính toán như sau: đầu tiên tín hiệu tiếng nói được chia thành các Frame có độ dài 10ms. Mỗi frame sẽ được nhân với một hàm cửa sổ, thường là cửa sổ Hamming sau đó được chuyển sang miền tần số nhờ biến đổi Fourier. Tín hiệu ở miền tần số được nhân với các bộ loc mel-scale, lấy logarit rồi biến đổi Fourier ngược (để chuyển sang miền cepstral) sẽ được các hệ số MFCC. Một số hệ thống có tính thêm năng lượng (cũng lấy logarit) và đặc trưng delta ( dạo hàm rời rạc theo thời gian của MFCC) nhằm thêm thông tin cho các pha sau của quá trình nhận dạng. 3.1.2. Phân khung và cửa sổ hóa LÊ QUỐC ĐẠT D10CQDT01_N [Type text] [...]... Việt có khoảng 6000 âm tiết Nhìn về mặt ghi âm: âm tiết tiếng Việt có cấu tạo chung là : phụ âm - vần Ví dụ âm xinh có phụ âm là x có âm vần là inh Phụ âm là một âm vị và âm vị này liên kết rất lỏng lẻo với phần còn lại của âm tiết ( hiện tượng nói lái) Vần trong tiếng Việt lại được cấu tạo từ các âm vị nhỏ hơn, trong đó có một âm vị chính là nguyên âm Hình sau là phổ tín hiệu của âm tiết “ba” Chúng... thể quan sát và phâm biệt rõ miền nhiễu nền, miền phổ của phụ âm b và nguyên âm a (miền đậm hơn là có mật độ năng lượng lớn hơn) Hinh 4.1 Phổ tín hiệu của âm tiết “ba” Quan sát phổ các âm tiết tương tự chúng ta có thể rút ra kết luận: các phụ âm và nguyên âm đều phân biệt với nhau rất rõ qua sự phân bố năng lượng tại các miền tần số, ví dụ: phụ âm ở thần số thấp, năng lượng nhỏ, nguyên âm có năng lượng... nguyên âm có thần phổ (spectrum) khác nhau khá rõ, Hình sau minh họa sự khác nhau về phổ của 5 nguyên âm cơ bản Miền đậm là miền có mật độ năng lượng cao Hình 4.2 Sự khác nhau về phổ của 5 nguyên âm cơ bản Xét về mặt ngữ âm- âm vị học âm tiết tiếng Việt có lược đồ như sau: Lượt đồ cho thấy âm tiết tiếng Việt có cấu trúc rõ ràng, ổn định Lượt đồ còn cho thấy tiếng Việt là ngôn ngữ có thanh điệu Hệ thống. .. điệu là âm vị siêu đoạn tính, đặc trưng về thanh điệu thể hiện trong tín hiệu tiếng nói không rõ nét như các thành phần khác của âm tiết - Cách phát âm tiếng Việt thay đổi nhiều theo địa lí Giọng địa phương trong tiếng Việt rất đa dạng - Hệ thống ngữ pháp, ngữ nghĩa tiếng Việt rất phức tạp, rất khó để áp dụng vào hệ nhận dạng với mục dích tăng hiệu năng nhận dạng Hệ thống phiên âm cũng chưa thống nhất... trong âm tiết là âm vị siêu đoạn tính (thể hiện trên toàn bộ âm tiết) Do đó đặc trưng về thanh điệu thể hiện trong tín hiệu tiếng nói không rõ nét như các thành phần khác của âm tiết Sự khác biệt về cách phát âm tiếng Việt rất rõ rệt theo giới, lứa tuổi và đặc biệt là theo vị trí địa lý 4.1.2 Những thuận lợi và khó khăn trong nhận dạng tiếng Việt 4.1.2.1 Thuận lợi - Tiếng Việt là ngôn ngữ đơn âm, số... thương người ta thường nhân thêm vào kết quả một hàm cửa sổ sóng sin ( gọi là thủ tục liftering) để giảm bớt ảnh hưởng của các biến đổi đến kết quả (3.6 ) (3.7 ) 3.1.6 Tính toán năng lượng Kèm theo thông tin về năng lượng của tín hiệu sẽ tăng thêm thông tin cho nhận dạng (ví dụ: phân biệt các khoảng chứa tín hiệu âm và khoảng lặng, phân biệt vùng tín hiệu chứa nguyên âm và phụ âm ) Năng lượng của cả... hi(k) của mỗi bộ lọc Kết quả lọc đối với tín hiệu ở miền tần số qua các bộ lọc được tính như sau: (3.4 ) Chú ý: X(k) là số phức nhưng thông tin về pha của X(k) không quan trọng nên ; ta chỉ tính kết quả lọc với modun của X(k) Việc nhân tín hiệu ở miền tần số với các bộ lọc mel-scale để chuyển biểu diễn miền tần số từ thang Hz sang thang mel mục dích là phân giải tần số theo đặc điểm cảm thụ âm của con người: ... số đặc điểm ngữ âm tiếng Việt Một đặc điểm dễ thấy là tiếng Việt là ngôn ngữ đơn âm ( monosyllable – mỗi từ đơn chỉ có một âm tiết), không biến hình ( cách đọc, cách ghi âm không thay đổi trong bất cứ tình huống ngữ pháp nào) Tiếng Việt hoàn toàn khác với các ngôn ngử Ấn- Âu như tiếng Anh, tiếng pháp là các ngôn ngữ đa âm, biến hình LÊ QUỐC ĐẠT D10CQDT01_N [Type text] CHƯƠNG 1 Theo thống kê trong tiếng... nay chưa có một bộ dữ liệu chuẩn cho việc huấn luyện và kiểm tra các hệ thống nhận dạng tiếng Việt 4.2 MẠNG NƠRON NHÂN TẠO Bộ não con người, dưới góc độ tính toán có thể coi là một hệ thống xử lý song song lớn và mật độ kết nối cao: phần tử xử lí là các nơron là một và kết nối là các dây thần kinh Khả năng tuyệt vời của bộ nảo người đã gợi lên những ý tưởng về việc mô phỏng chúng trong lĩnh vực tính... ngôn ngữ đơn âm, số lượng âm tiết không quá lớn Điều này sẽ giúp hệ nhận dạng xác định ranh giới các âm tiết dễ dàng hơn nhiều LÊ QUỐC ĐẠT D10CQDT01_N [Type text] CHƯƠNG 1 - Tiếng Việt là ngôn ngữ không biến hình từ Âm tiết tiếng Việt ổn định, có cấu trúc rõ ràng Đặc biệt khong chó 2 âm tiết nào đọc giống nhau mà viết khác nhau Điều này sẽ dễ dàng cho việc xây dựng các mô hình âm tiết trong nhận dạng . vị ngữ âm cơ bản trong ngôn ngữ nói gọi là âm vị, được phân chia thành: nguyên âm- phụ âm, vô thanh- hữu thanh, âm vang- âm bẹt Các âm vị có thể xác định bởi tập các đặc trưng của phổ của tín. các âm vị nhỏ hơn, trong đó có một âm vị chính là nguyên âm. Hình sau là phổ tín hiệu của âm tiết “ba”. Chúng ta có thể quan sát và phâm biệt rõ miền nhiễu nền, miền phổ của phụ âm b và nguyên âm. cấu tạo chung là : phụ âm - vần. Ví dụ âm xinh có phụ âm là x có âm vần là inh. Phụ âm là một âm vị và âm vị này liên kết rất lỏng lẻo với phần còn lại của âm tiết ( hiện tượng nói lái). Vần trong

Định dạng
Số trang	22
Dung lượng	635,8 KB