TẬP ðỒN BƯU CHÍNH VIỄN THƠNG VIỆT NAM HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG ******************************* BÀI GIẢNG XỬ LÝ TIẾNG NÓI BIÊN SOẠN: PHẠM VĂN SỰ LÊ XUÂN THÀNH HÀ NỘI - 2010 Lời nói đầu Tiếng nói phương tiện trao đổi thơng tin tiện ích vốn có người Ước mơ "máy nói", "máy hiểu tiếng nói" khơng xuất từ câu truyện khoa học viễn tưởng xa xưa mà cịn động lực thơi thúc nhiều nhà nghiên cứu, nhóm nghiên cứu giới Hoạt ñộng nghiên cứu xử lý tiếng nói ñã trải qua gần kỷ với nhiều thành tựu to lớn việc xây dựng phát triển kỹ thuật cơng nghệ xử lý tiếng nói đạt Tuy vậy, việc có "máy nói" mang tính tự nhiên (về giọng ñiệu, phát âm ) "máy hiểu tiếng nói" thực thụ cịn xa vời Xu phát triển công nghệ hội tụ kỷ 21 thơi thúc việc hồn thiện cơng nghệ để đạt mục tiêu người lĩnh vực xử lý tiếng nói Chính thế, việc nắm bắt kỹ thuật công nghệ tiến tiến cho việc xử lý tiếng nói thực cần thiết cho sinh viên chuyên ngành Xử lý Tín hiệu Truyền thơng nói riêng, sinh viên chun ngành Kỹ thuật ðiện - ðiện tử nói chung Với mục đích đó, giảng mơn học Xử lý tiếng nói ñược biên soạn nhằm trang bị cho sinh viên khái niệm quan trọng cần thiết nhằm giới thiệu cho sinh viên công nghệ tiên tiến, xu nghiên cứu phát triển lĩnh vực xử lý tiếng nói Cuốn sách chia làm chương: Một số khái niệm Biểu diễn số tín hiệu tiếng nói Phân tích tiếng nói Tổng hợp tiếng nói Nhận dạng tiếng nói Các chương giảng viên Lê Xuân Thành biên soạn, chương lại giảng viên Phạm Văn Sự biên soạn Trong thời gian gấp rút hoàn thành giảng này, với cố gắng nỗ lực hết sức, kinh nghiệm cịn nhiều hạn chế, nhóm tác giả khơng tránh khỏi sai sót nhầm lẫn Nhóm tác giả chân thành mong muốn nhận ñóng góp từ ñồng nghiệp em sinh viên để hồn thiện phiên sau Mọi góp ý xin gửi về: Bộ môn Lý thuyết mạch, Khoa Kỹ thuật ðiện tử I, Học viện Công nghệ Bưu Viễn thơng, Km10 ðường Nguyễn Trãi, Hà ðơng, Hà Nội gửi email ñịa xulytiengnoi@gmail.com Hà Nội, ngày 02 tháng 05 năm 2010 Nhóm biên soạn i Danh mục từ viết tắt ADC Analog Digital Converter Bộ chuyển ñổi tương tự - số ADM Adaptive Delta Modulation ðiều chế Delta thích nghi ADPCM Adaptive Differential PCM ðiều xung mã vi sai thích nghi CSR Continuous Speech Recognition Nhận dạng tiếng nói liên tục DCT Discrete Cosine Transform Biến ñổi Cosine rời rạc DFT Discrete Fourier Transform Biến ñổi Fourier rời rạc DM Delta Modulation ðiều chế Delta DTFT Discrete Time FT Biến ñổi Fourier với thời gian rời rạc DPCM Differential PCM ðiều chế xung mã vi sai FFT Fast FT Biến ñổi Fourier nhanh FIR Finite Impulse Response Bộ lọc ñáp ứng hữu hạn FT Fourier Transform Biến đổi Fourier HMM Hidden Markov Model Mơ hình Markov ẩn IDFT Inverse Discrete FT Biến đổi Fourier rời rạc ngược IDTFT Inverse DTFT Biến ñổi Fourier với thời gian rời rạc ngược IFT Inverse FT Biến ñổi Fourier ngược LMS Least Mean Square Bình phương trung bình tối thiểu LPC Linear Predictive Coding Mã hóa dự đốn tuyến tính LTI Linear Time-Invariant Bộ lọc tuyến tính khơng thay ñổi theo thời gian MFCC Mel frequency cepstral coefficient Các hệ số cepstral tần số Mel NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên PAM Pulse Amplitude Modulation ðiều chế biên ñộ xung mã SNR Signal to Noise Ratio Tỷ số tín hiệu nhiễu ST Short-time Transform Biến ñổi ngắn hạn STFT Short-time FT Biến ñổi Fourier ngắn hạn TDNN Time delay Neural Network Mạng nơ-ron với thời gian trễ TD-PSOLA Time-domain PSOLA Phương pháp chồng lấn ñồng pitch miền thời gian ii Mục lục Lời nói đầu .i Danh mục từ viết tắt .ii Mục lục iii Ch−¬ng 1: Một số khái niệm 1.1 Mở ñầu 1.1.1 Nguồn gốc tiếng nói 1.1.2 Phân loại tiếng nói 1.2 Quá trình tạo tiếng nói 1.2.1 Cấu tạo hệ thống cấu âm 1.2.2 Cấu tạo hệ thống tiếp âm 1.3 Các đặc tính tiếng nói 1.3.1 Tần số phổ tần 1.3.2 Biểu diễn tín hiệu tiếng nói Ch−¬ng 2: Biểu diễn số tín hiệu tiếng nói 12 2.1 Mở ñầu 12 2.2 Lấy mẫu tín hiệu tiếng nói 13 2.3 Lượng tử hóa 14 2.4 Mã hóa giải mã 16 2.5 ðiều chế xung mã vi sai DPCM 18 2.6 ðiều chế Delta (DM) 19 2.7 ðiều chế Delta thích nghi (ADM) 20 2.8 ðiều chế xung mã vi sai thích nghi (ADPCM) 22 2.9 Bài thực hành phương pháp biểu diễn số tín hiệu tiếng nói 22 Ch−¬ng 3: Phân tích tiếng nói 24 3.1 Mở ñầu 24 3.2 Mơ hình phân tích tiếng nói 24 3.3 Phân tích tiếng nói ngắn hạn 24 3.4 Phân tích tiếng nói miền thời gian 26 3.5 Phân tích tiếng nói miền tần số 28 iii 3.5.1 Cấu trúc phổ tín hiệu tiếng nói 28 3.5.2 Spectrogram 30 3.6 Phương pháp phân tích mã hóa dự đốn tuyến tính (LPC) 32 3.7 Phương pháp phân tích cepstral 39 3.8 Một số phương pháp xác ñịnh tần số Formant 40 3.9 Một số phương pháp xác ñịnh tần số 41 3.10 Bài thực hành phân tích tiếng nói 44 Ch−¬ng 4: Tổng hợp tiếng nói 45 4.1 Mở ñầu 45 4.2 Các phương pháp tổng hợp tiếng nói 45 4.2.1 Tổng hợp trực tiếp 45 4.2.2 Tổng hợp tiếng nói theo Formant 47 4.2.3 Tổng hợp tiếng nói theo phương pháp mơ máy phát âm 51 4.3 Hệ thống tổng hợp chữ viết sang tiếng nói 52 4.4 Bài thực hành tổng hợp tiếng nói 56 Ch−¬ng 5: Nhận dạng tiếng nói 57 5.1 Mở ñầu 57 5.2 Lịch sử phát triển hệ thống nhận dạng tiếng nói 57 5.3 Phân loại hệ thống nhận dạng tiếng nói 58 5.4 Cấu trúc hệ nhận dạng tiếng nói 59 5.5 Các phương pháp phân tích cho nhận dạng tiếng nói 60 5.5.1 Lượng tử hóa véc-tơ 60 5.5.2 Bộ xử lý LPC nhận dạng tiếng nói 63 5.5.3 Phân tích MFCC nhận dạng tiếng nói 69 5.6 Giới thiệu số phương pháp nhận dạng tiếng nói 71 5.6.1 Phương pháp acoustic-phonetic 73 5.6.2 Phương pháp nhận dạng mẫu thống kê 77 5.6.3 Phương pháp sử dụng trí tuệ nhân tạo 78 5.6.4 Ứng dụng mạng nơ-ron hệ thống nhận dạng tiếng nói 81 5.6.5 Hệ thống nhận dạng dựa mơ hình Markov ẩn (HMM) 84 5.7 Bài thực hành nhận dạng tiếng nói 87 iv Phụ lục 1: Mạng nơ-ron 88 Phụ lục 2: Mơ hình Markov ẩn 90 Tài liệu tham khảo 94 v Chương 1: Một số khái niệm Ch−¬ng 1: Một số khái niệm 1.1 Mở đầu Tiếng nói thường xuất nhiều hình thức mà ta gọi ñàm thoại, việc ñàm thoại thể kinh nghiệm người ðàm thoại trình gồm nhiều người, có hiểu hiết chung nghi thức ln phiên nói Những người có điều kiện thể chất tinh thần bình thường dễ diễn đạt tiếng nói mình, tiếng nói phương tiện giao tiếp lúc đàm thoại Tiếng nói có nhiều yếu tố khác hỗ trợ nhằm giúp người nghe hiểu ñược ý cần diễn ñạt biểu gương mặt, cử chỉ, điệu Vì có đặc tính tác động qua lại, nên tiếng nói ñược sử dụng nhu cầu giao tiếp nhanh chóng Trong đó, chữ viết lại có khoảng cách không gian lẫn thời gian tác giả người ñọc Sự biểu ñạt tiếng nói hỗ trợ mạnh mẽ cho việc đời hệ thống máy tính có sử dụng tiếng nói, ví dụ lưu trữ tiếng nói loại liệu, hay dùng tiếng nói làm phương tiện giao tiếp qua lại Nếu phân tích q trình giao tiếp qua nhiều lớp, lớp thấp âm lớp cuối tiếng nói diễn tả ý nghĩa muốn nói 1.1.1 Nguồn gốc tiếng nói Âm lời nói âm giới tự nhiên xung quanh ta, chất ñều sóng âm ñược lan truyền mơi trường định (thường khơng khí) Khi nói dây hầu bị chấn động, tạo nên sóng âm, sóng truyền khơng khí đến màng nhĩ – màng mỏng nhạy cảm tai ta – làm cho màng nhĩ dao ñộng, dây thần kinh màng nhĩ nhận ñược cảm giác âm tần số dao động sóng ñạt ñến ñộ lớn ñịnh Tai người cảm thụ dao động có tần số từ khoảng 16Hz ñến khoảng 20000Hz Những dao ñộng miền tần số gọi dao ñộng âm hay âm thanh, sóng tương ứng gọi sóng âm Những sóng có tần số nhỏ 16Hz gọi sóng hạ âm, sóng có tần số lớn 20000Hz gọi sóng siêu âm, người khơng cảm nhận (ví dụ lồi dơi nghe ñược tiếng siêu âm) Sóng âm, sóng siêu âm hạ âm khơng truyền khơng khí mà cịn lan truyền tốt mơi trường rắn, lỏng, sử dụng nhiều thiết bị máy móc 1.1.2 Phân loại tiếng nói Tiếng nói âm mang mục đích diễn đạt thơng tin, uyển chuyển đặc biệt Là cơng cụ tư trí tuệ, tiếng nói mang tính đặc trưng lồi người Nó khơng thể tách riêng nhìn vào tồn thể nhân loại, nhờ có ngơn ngữ tiếng nói mà lồi người sống phát triển xã hội tiến bộ, có văn hóa, văn minh ngày Trong q trình giao tiếp người nói, có nhiều câu nói, câu gồm nhiều từ, từ lại gồm hay nhiều âm tiết Ở tiếng Việt, số âm tiết ñược sử dụng vào khoảng 6700 Khi phát tiếng có nhiều phận lưỡi, môn, môi, họng, quản,… kết hợp với ñể tạo thành âm Âm phát ñược lan truyền khơng khí để đến tai người nhận Vì âm phát từ kết hợp nhiều phận, âm lần nói khác khác dẫn đến khó khăn ta muốn phân chia tiếng nói theo đặc tính riêng Người ta chia tiếng nói thành loại sau: • Âm hữu thanh: Là âm phát có thanh, ví dụ nói “i”, “a”, hay “o” chẳng hạn Thực âm hữu ñược tạo việc khơng khí qua mơn Chương 1: Một số khái niệm (thanh môn tạo khép mở dây ñiều khiển hai sụn chóp) với độ căng dây cho chúng tạo nên dao động • Âm vơ thanh: Là âm tạo tiếng dây khơng rung rung đơi chút tạo giọng giọng thở, ví dụ “h”, “p” hay “th” • Âm bật: ðể phát âm bật, ñầu tiên máy phát âm phải đóng kín, tạo nên áp suất, sau khơng khí giải phóng cách đột ngột, ví dụ “ch”, “t” 1.2 Q trình tạo tiếng nói 1.2.1 Cấu tạo hệ thống cấu âm Lời nói kết hoạt động với mối liên kết phận hô hấp nhai Hành ñộng diễn kiểm soát hệ thần kinh trung ương, phận thường xun nhận thơng tin tác động ngược phận thính giác cảm giác thể Bộ máy hô hấp cung cấp lực cần thiết khí thở khí quản Ở ñỉnh khí quản quản nơi áp suất khí ñược ñiều biến trước ñến tuyến âm kéo dài từ hầu đến mơi (hình 1.1) Thanh quản tập hợp sụn ñộng bao quanh khoang nằm phần khí quản Các dây giống đơi mơi đối xứng nằm ngang quản, hai mơi khép hồn tồn quản mở chúng tạo độ mở hình tam giác gọi mơn Khơng khí qua quản cách tự trình thở trình cấu âm âm điếc hay âm vơ Cịn âm hữu lại kết rung động tuần hồn dây Và rung ñộng liên tiếp ñến ñược tuyến âm Tuyến âm tập hợp khoang nằm mơn mơi, hình ta phân biệt ñược khoang hầu (họng), khoang miệng khoang mũi Hình 1.1 Hệ thống phát âm người Khi nói, lồng ngực mở rộng thu hẹp, khơng khí ñược ñẩy từ phổi vào khí quản, ñi qua mơn dây tạo thành Luồng khí gọi tín hiệu kích cho tuyến âm sau đẩy qua tuyến âm cuối tán xạ mơi Tuyến âm ñược coi ống âm học (gồm ñoạn ống với ñộ dài thiết diện mặt cắt khác mắc nối tiếp) với ñầu vào dây (hay mơn) đầu mơi Như tuyến âm có dạng thay đổi hàm theo thời gian Các mặt cắt tuyến âm xác định vị trí lưỡi, mơi, hàm, vịm miệng thiết diện mặt cắt thay đổi từ 0cm2 (khi ngậm mơi) đến khoảng 20cm2 (khi hở môi) Tuyến mũi tạo thành tuyến âm học Chương 1: Một số khái niệm phụ trợ cho truyền âm thanh, vòm miệng kết thúc lỗ mũi Khi vịm miệng hạ thấp, tuyến mũi nối với tuyến âm mặt âm học tạo nên tiếng nói âm mũi Các âm tiếng nói tạo hệ thống theo ba cách phụ thuộc vào tín hiệu kích âm hữu âm /i/ tạo nên kích tuyến âm chuỗi xung (hay chu kỳ dao động đơi dây thanh) xác định chu kỳ pitch T ñại lượng nghịch ñảo tần số F0 ðối với ngơn ngữ có điệu kiểu thay đổi cịn phụ thuộc vào điệu Âm vơ âm /s/ tạo nên dây khơng dao ñộng, xung kích ñược coi tạp ngẫu nhiên, kích dịng khí xốy qua chỗ hẹp tuyến âm (thường phía khoang miệng) Âm nổ âm /p/ tạo cách đóng hồn toàn tuyến âm, gây nên áp suất bên cạnh vị trí đóng, nhanh chóng giải phóng âm Vì tuyến âm tuyến mũi bao gồm ống âm học có mặt cắt khác nên âm truyền ống, phổ tần số thay đổi theo tính chọn lọc tần số ống Trong phạm vi tạo tiếng nói, tần số cộng hưởng tuyến âm gọi tần số formant hay ñơn giản formant Những tần số phụ thuộc vào dạng kích thước tuyến âm, dạng tuyến âm ñược ñặc trưng tổ hợp tần số formant Các âm khác ñược tạo thay ñổi dạng tuyến âm Như tính chất phổ tín hiệu tiếng nói thay đổi theo thời gian giống với thay đổi dạng tuyến âm Q trình truyền âm qua tuyến âm làm mạnh lên vùng tần số cộng hưởng tạo cho âm tính chất riêng biệt gọi q trình phát âm Âm phát có nghĩa ñã mang thông tin âm vị ñược tán xạ ngồi từ mơi Trong vài trường hợp, âm mũi (như /m/, /n/ tiếng Anh), tuyến mũi tham gia vào trình phát âm âm tán xạ từ mũi Tóm lại, sóng tín hiệu chế tạo ba động tác: tạo nguồn âm (hữu vô thanh), phát âm truyền qua tuyến âm tán xạ âm từ mơi từ mũi, hình 1.2 sau đây: Hình 1.2 Q trình tạo tín hiệu tiếng nói 1.2.2 Cấu tạo hệ thống tiếp âm Không giống quan tham gia vào trình tạo tiếng nói thực chức khác thể như: thở, ăn, ngửi Tai sử dụng cho chức nghe Tai ñặc biệt nhạy cảm với tần số tín hiệu tiếng nói chứa thông tin phù hợp với việc liên lạc (những tần số xấp xỉ 200 – 5600Hz) Người nghe phân biệt ñược khác biệt nhỏ thời gian tần số âm nằm vùng tần số Tai gồm có ba phần: tai ngoài, tai tai Tai dẫn hướng thay đổi áp xuất tiếng nói vào màng nhĩ, tai chuyển đổi áp xuất thành chuyển ñộng học Tai chuyển ñổi rung ñộng học thành luồng điện nơron thính giác dẫn đến não Tai ngồi: bao gồm LOA TAI (pina) hay TÂM NHĨ (aurical) LỖ (meatus) thính giác hay ống tai ngồi Loa tai có tham gia khơng vào ñộ thính tai, Chương 1: Một số khái niệm có chức bảo vệ lối vào ống tai dường tham gia vào khả khu biệt âm, ñặc biệt tần số cao Loa tai nối với ống tai ngồi, ống ngắn có hình dáng thay đổi có chiều dài khoảng từ 25 đến 53 cm làm ñường cho tín hiệu âm học ñến tai Lỗ tai có hai chức Chức thứ bảo vệ cấu trúc phức tạp khơng có tính chất học tai Chức thứ hai đóng vai trị máy cộng hưởng hình ống vốn ưu tiên cho việc truyền âm có tần số cao 2000 Hz 4000Hz Chức quan trọng ñối với việc tiếp nhận lời nói đặc biệt trợ giúp cho việc tiếp nhận âm xát, đặc ñiểm chúng thường ñược lập mã nguồn lượng khơng có chu kì khu vực ảnh phổ âm học Sự cộng hưởng lỗ thính giác tham gia vào độ thính chung 500Hz 4000Hz, vốn dải tần có chứa nhiều dấu hiệu cấu trúc âm vị học Hình 1.3 Cấu trúc hệ thính giác ngồi Tai bao gồm khoang nằm cấu trúc hộp sọ có chứa màng nhĩ (eardrum) màng đầu ống tai , ba khúc xương liên kết với nhau, ñược gọi xương vồ (mallet), xương ñe (anvil) xương bàn ñạp (stirrup) (cũng có thuật ngữ xương tai (auditory ossicle)) cấu trúc liên kết Mục đích tai truyền biến đổi áp suất âm khơng khí đến tai ngồi vào dịch chuyển khí tương ứng Q trình truyền bắt đầu màng nhĩ, bị làm lệch ñi biến ñổi áp suất khí truyền đến qua lỗ tai Sự dịch chuyển truyền đến xương tai, vốn đóng vai trị hệ thống địn bẩy học khéo léo ñể chuyển tải dịch chuyển ñến cửa hình bầu dục giao diện đến tai chất dịch lỗ tai Hoạt ñộng làm ñòn bẩy xương tai, thực màng nhĩ có vùng bề mặt lớn nhiều so với cửa hình bầu dục, đảm bảo cho việc truyền hiệu ứng lượng âm học 500Hz 4000Hz, làm tăng đến mức tối đa khả thính tai vùng tần số Hệ gắn với xương tai hoạt ñộng ñể bảo vệ tai chống lại âm lớn hoạt ñộng ... việc xử lý tiếng nói thực cần thiết cho sinh viên chun ngành Xử lý Tín hiệu Truyền thơng nói riêng, sinh viên chuyên ngành Kỹ thuật ðiện - ðiện tử nói chung Với mục đích đó, giảng mơn học Xử lý tiếng. .. khái niệm Biểu diễn số tín hiệu tiếng nói Phân tích tiếng nói Tổng hợp tiếng nói Nhận dạng tiếng nói Các chương giảng viên Lê Xuân Thành biên soạn, chương lại giảng viên Phạm Văn Sự biên soạn... giới Hoạt ñộng nghiên cứu xử lý tiếng nói trải qua gần kỷ với nhiều thành tựu to lớn việc xây dựng phát triển kỹ thuật công nghệ xử lý tiếng nói đạt Tuy vậy, việc có "máy nói" mang tính tự nhiên