1. Trang chủ
  2. » Thể loại khác

BÀI GIẢNG XỬ LÝ TIẾNG NÓI

20 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

TẬP ðỒN BƯU CHÍNH VIỄN THƠNG VIỆT NAM HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG ******************************* BÀI GIẢNG XỬ LÝ TIẾNG NÓI BIÊN SOẠN: PHẠM VĂN SỰ LÊ XUÂN THÀNH HÀ NỘI - 2010 Lời nói đầu Tiếng nói phương tiện trao đổi thơng tin tiện ích vốn có người Ước mơ "máy nói", "máy hiểu tiếng nói" khơng xuất từ câu truyện khoa học viễn tưởng xa xưa mà cịn động lực thơi thúc nhiều nhà nghiên cứu, nhóm nghiên cứu giới Hoạt ñộng nghiên cứu xử lý tiếng nói ñã trải qua gần kỷ với nhiều thành tựu to lớn việc xây dựng phát triển kỹ thuật cơng nghệ xử lý tiếng nói đạt Tuy vậy, việc có "máy nói" mang tính tự nhiên (về giọng ñiệu, phát âm ) "máy hiểu tiếng nói" thực thụ cịn xa vời Xu phát triển công nghệ hội tụ kỷ 21 thơi thúc việc hồn thiện cơng nghệ để đạt mục tiêu người lĩnh vực xử lý tiếng nói Chính thế, việc nắm bắt kỹ thuật công nghệ tiến tiến cho việc xử lý tiếng nói thực cần thiết cho sinh viên chuyên ngành Xử lý Tín hiệu Truyền thơng nói riêng, sinh viên chun ngành Kỹ thuật ðiện - ðiện tử nói chung Với mục đích đó, giảng mơn học Xử lý tiếng nói ñược biên soạn nhằm trang bị cho sinh viên khái niệm quan trọng cần thiết nhằm giới thiệu cho sinh viên công nghệ tiên tiến, xu nghiên cứu phát triển lĩnh vực xử lý tiếng nói Cuốn sách chia làm chương: Một số khái niệm Biểu diễn số tín hiệu tiếng nói Phân tích tiếng nói Tổng hợp tiếng nói Nhận dạng tiếng nói Các chương giảng viên Lê Xuân Thành biên soạn, chương lại giảng viên Phạm Văn Sự biên soạn Trong thời gian gấp rút hoàn thành giảng này, với cố gắng nỗ lực hết sức, kinh nghiệm cịn nhiều hạn chế, nhóm tác giả khơng tránh khỏi sai sót nhầm lẫn Nhóm tác giả chân thành mong muốn nhận ñóng góp từ ñồng nghiệp em sinh viên để hồn thiện phiên sau Mọi góp ý xin gửi về: Bộ môn Lý thuyết mạch, Khoa Kỹ thuật ðiện tử I, Học viện Công nghệ Bưu Viễn thơng, Km10 ðường Nguyễn Trãi, Hà ðơng, Hà Nội gửi email ñịa xulytiengnoi@gmail.com Hà Nội, ngày 02 tháng 05 năm 2010 Nhóm biên soạn i Danh mục từ viết tắt ADC Analog Digital Converter Bộ chuyển ñổi tương tự - số ADM Adaptive Delta Modulation ðiều chế Delta thích nghi ADPCM Adaptive Differential PCM ðiều xung mã vi sai thích nghi CSR Continuous Speech Recognition Nhận dạng tiếng nói liên tục DCT Discrete Cosine Transform Biến ñổi Cosine rời rạc DFT Discrete Fourier Transform Biến ñổi Fourier rời rạc DM Delta Modulation ðiều chế Delta DTFT Discrete Time FT Biến ñổi Fourier với thời gian rời rạc DPCM Differential PCM ðiều chế xung mã vi sai FFT Fast FT Biến ñổi Fourier nhanh FIR Finite Impulse Response Bộ lọc ñáp ứng hữu hạn FT Fourier Transform Biến đổi Fourier HMM Hidden Markov Model Mơ hình Markov ẩn IDFT Inverse Discrete FT Biến đổi Fourier rời rạc ngược IDTFT Inverse DTFT Biến ñổi Fourier với thời gian rời rạc ngược IFT Inverse FT Biến ñổi Fourier ngược LMS Least Mean Square Bình phương trung bình tối thiểu LPC Linear Predictive Coding Mã hóa dự đốn tuyến tính LTI Linear Time-Invariant Bộ lọc tuyến tính khơng thay ñổi theo thời gian MFCC Mel frequency cepstral coefficient Các hệ số cepstral tần số Mel NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên PAM Pulse Amplitude Modulation ðiều chế biên ñộ xung mã SNR Signal to Noise Ratio Tỷ số tín hiệu nhiễu ST Short-time Transform Biến ñổi ngắn hạn STFT Short-time FT Biến ñổi Fourier ngắn hạn TDNN Time delay Neural Network Mạng nơ-ron với thời gian trễ TD-PSOLA Time-domain PSOLA Phương pháp chồng lấn ñồng pitch miền thời gian ii Mục lục Lời nói đầu .i Danh mục từ viết tắt .ii Mục lục iii Ch−¬ng 1: Một số khái niệm 1.1 Mở ñầu 1.1.1 Nguồn gốc tiếng nói 1.1.2 Phân loại tiếng nói 1.2 Quá trình tạo tiếng nói 1.2.1 Cấu tạo hệ thống cấu âm 1.2.2 Cấu tạo hệ thống tiếp âm 1.3 Các đặc tính tiếng nói 1.3.1 Tần số phổ tần 1.3.2 Biểu diễn tín hiệu tiếng nói Ch−¬ng 2: Biểu diễn số tín hiệu tiếng nói 12 2.1 Mở ñầu 12 2.2 Lấy mẫu tín hiệu tiếng nói 13 2.3 Lượng tử hóa 14 2.4 Mã hóa giải mã 16 2.5 ðiều chế xung mã vi sai DPCM 18 2.6 ðiều chế Delta (DM) 19 2.7 ðiều chế Delta thích nghi (ADM) 20 2.8 ðiều chế xung mã vi sai thích nghi (ADPCM) 22 2.9 Bài thực hành phương pháp biểu diễn số tín hiệu tiếng nói 22 Ch−¬ng 3: Phân tích tiếng nói 24 3.1 Mở ñầu 24 3.2 Mơ hình phân tích tiếng nói 24 3.3 Phân tích tiếng nói ngắn hạn 24 3.4 Phân tích tiếng nói miền thời gian 26 3.5 Phân tích tiếng nói miền tần số 28 iii 3.5.1 Cấu trúc phổ tín hiệu tiếng nói 28 3.5.2 Spectrogram 30 3.6 Phương pháp phân tích mã hóa dự đốn tuyến tính (LPC) 32 3.7 Phương pháp phân tích cepstral 39 3.8 Một số phương pháp xác ñịnh tần số Formant 40 3.9 Một số phương pháp xác ñịnh tần số 41 3.10 Bài thực hành phân tích tiếng nói 44 Ch−¬ng 4: Tổng hợp tiếng nói 45 4.1 Mở ñầu 45 4.2 Các phương pháp tổng hợp tiếng nói 45 4.2.1 Tổng hợp trực tiếp 45 4.2.2 Tổng hợp tiếng nói theo Formant 47 4.2.3 Tổng hợp tiếng nói theo phương pháp mơ máy phát âm 51 4.3 Hệ thống tổng hợp chữ viết sang tiếng nói 52 4.4 Bài thực hành tổng hợp tiếng nói 56 Ch−¬ng 5: Nhận dạng tiếng nói 57 5.1 Mở ñầu 57 5.2 Lịch sử phát triển hệ thống nhận dạng tiếng nói 57 5.3 Phân loại hệ thống nhận dạng tiếng nói 58 5.4 Cấu trúc hệ nhận dạng tiếng nói 59 5.5 Các phương pháp phân tích cho nhận dạng tiếng nói 60 5.5.1 Lượng tử hóa véc-tơ 60 5.5.2 Bộ xử lý LPC nhận dạng tiếng nói 63 5.5.3 Phân tích MFCC nhận dạng tiếng nói 69 5.6 Giới thiệu số phương pháp nhận dạng tiếng nói 71 5.6.1 Phương pháp acoustic-phonetic 73 5.6.2 Phương pháp nhận dạng mẫu thống kê 77 5.6.3 Phương pháp sử dụng trí tuệ nhân tạo 78 5.6.4 Ứng dụng mạng nơ-ron hệ thống nhận dạng tiếng nói 81 5.6.5 Hệ thống nhận dạng dựa mơ hình Markov ẩn (HMM) 84 5.7 Bài thực hành nhận dạng tiếng nói 87 iv Phụ lục 1: Mạng nơ-ron 88 Phụ lục 2: Mơ hình Markov ẩn 90 Tài liệu tham khảo 94 v Chương 1: Một số khái niệm Ch−¬ng 1: Một số khái niệm 1.1 Mở đầu Tiếng nói thường xuất nhiều hình thức mà ta gọi ñàm thoại, việc ñàm thoại thể kinh nghiệm người ðàm thoại trình gồm nhiều người, có hiểu hiết chung nghi thức ln phiên nói Những người có điều kiện thể chất tinh thần bình thường dễ diễn đạt tiếng nói mình, tiếng nói phương tiện giao tiếp lúc đàm thoại Tiếng nói có nhiều yếu tố khác hỗ trợ nhằm giúp người nghe hiểu ñược ý cần diễn ñạt biểu gương mặt, cử chỉ, điệu Vì có đặc tính tác động qua lại, nên tiếng nói ñược sử dụng nhu cầu giao tiếp nhanh chóng Trong đó, chữ viết lại có khoảng cách không gian lẫn thời gian tác giả người ñọc Sự biểu ñạt tiếng nói hỗ trợ mạnh mẽ cho việc đời hệ thống máy tính có sử dụng tiếng nói, ví dụ lưu trữ tiếng nói loại liệu, hay dùng tiếng nói làm phương tiện giao tiếp qua lại Nếu phân tích q trình giao tiếp qua nhiều lớp, lớp thấp âm lớp cuối tiếng nói diễn tả ý nghĩa muốn nói 1.1.1 Nguồn gốc tiếng nói Âm lời nói âm giới tự nhiên xung quanh ta, chất ñều sóng âm ñược lan truyền mơi trường định (thường khơng khí) Khi nói dây hầu bị chấn động, tạo nên sóng âm, sóng truyền khơng khí đến màng nhĩ – màng mỏng nhạy cảm tai ta – làm cho màng nhĩ dao ñộng, dây thần kinh màng nhĩ nhận ñược cảm giác âm tần số dao động sóng ñạt ñến ñộ lớn ñịnh Tai người cảm thụ dao động có tần số từ khoảng 16Hz ñến khoảng 20000Hz Những dao ñộng miền tần số gọi dao ñộng âm hay âm thanh, sóng tương ứng gọi sóng âm Những sóng có tần số nhỏ 16Hz gọi sóng hạ âm, sóng có tần số lớn 20000Hz gọi sóng siêu âm, người khơng cảm nhận (ví dụ lồi dơi nghe ñược tiếng siêu âm) Sóng âm, sóng siêu âm hạ âm khơng truyền khơng khí mà cịn lan truyền tốt mơi trường rắn, lỏng, sử dụng nhiều thiết bị máy móc 1.1.2 Phân loại tiếng nói Tiếng nói âm mang mục đích diễn đạt thơng tin, uyển chuyển đặc biệt Là cơng cụ tư trí tuệ, tiếng nói mang tính đặc trưng lồi người Nó khơng thể tách riêng nhìn vào tồn thể nhân loại, nhờ có ngơn ngữ tiếng nói mà lồi người sống phát triển xã hội tiến bộ, có văn hóa, văn minh ngày Trong q trình giao tiếp người nói, có nhiều câu nói, câu gồm nhiều từ, từ lại gồm hay nhiều âm tiết Ở tiếng Việt, số âm tiết ñược sử dụng vào khoảng 6700 Khi phát tiếng có nhiều phận lưỡi, môn, môi, họng, quản,… kết hợp với ñể tạo thành âm Âm phát ñược lan truyền khơng khí để đến tai người nhận Vì âm phát từ kết hợp nhiều phận, âm lần nói khác khác dẫn đến khó khăn ta muốn phân chia tiếng nói theo đặc tính riêng Người ta chia tiếng nói thành loại sau: • Âm hữu thanh: Là âm phát có thanh, ví dụ nói “i”, “a”, hay “o” chẳng hạn Thực âm hữu ñược tạo việc khơng khí qua mơn Chương 1: Một số khái niệm (thanh môn tạo khép mở dây ñiều khiển hai sụn chóp) với độ căng dây cho chúng tạo nên dao động • Âm vơ thanh: Là âm tạo tiếng dây khơng rung rung đơi chút tạo giọng giọng thở, ví dụ “h”, “p” hay “th” • Âm bật: ðể phát âm bật, ñầu tiên máy phát âm phải đóng kín, tạo nên áp suất, sau khơng khí giải phóng cách đột ngột, ví dụ “ch”, “t” 1.2 Q trình tạo tiếng nói 1.2.1 Cấu tạo hệ thống cấu âm Lời nói kết hoạt động với mối liên kết phận hô hấp nhai Hành ñộng diễn kiểm soát hệ thần kinh trung ương, phận thường xun nhận thơng tin tác động ngược phận thính giác cảm giác thể Bộ máy hô hấp cung cấp lực cần thiết khí thở khí quản Ở ñỉnh khí quản quản nơi áp suất khí ñược ñiều biến trước ñến tuyến âm kéo dài từ hầu đến mơi (hình 1.1) Thanh quản tập hợp sụn ñộng bao quanh khoang nằm phần khí quản Các dây giống đơi mơi đối xứng nằm ngang quản, hai mơi khép hồn tồn quản mở chúng tạo độ mở hình tam giác gọi mơn Khơng khí qua quản cách tự trình thở trình cấu âm âm điếc hay âm vơ Cịn âm hữu lại kết rung động tuần hồn dây Và rung ñộng liên tiếp ñến ñược tuyến âm Tuyến âm tập hợp khoang nằm mơn mơi, hình ta phân biệt ñược khoang hầu (họng), khoang miệng khoang mũi Hình 1.1 Hệ thống phát âm người Khi nói, lồng ngực mở rộng thu hẹp, khơng khí ñược ñẩy từ phổi vào khí quản, ñi qua mơn dây tạo thành Luồng khí gọi tín hiệu kích cho tuyến âm sau đẩy qua tuyến âm cuối tán xạ mơi Tuyến âm ñược coi ống âm học (gồm ñoạn ống với ñộ dài thiết diện mặt cắt khác mắc nối tiếp) với ñầu vào dây (hay mơn) đầu mơi Như tuyến âm có dạng thay đổi hàm theo thời gian Các mặt cắt tuyến âm xác định vị trí lưỡi, mơi, hàm, vịm miệng thiết diện mặt cắt thay đổi từ 0cm2 (khi ngậm mơi) đến khoảng 20cm2 (khi hở môi) Tuyến mũi tạo thành tuyến âm học Chương 1: Một số khái niệm phụ trợ cho truyền âm thanh, vòm miệng kết thúc lỗ mũi Khi vịm miệng hạ thấp, tuyến mũi nối với tuyến âm mặt âm học tạo nên tiếng nói âm mũi Các âm tiếng nói tạo hệ thống theo ba cách phụ thuộc vào tín hiệu kích âm hữu âm /i/ tạo nên kích tuyến âm chuỗi xung (hay chu kỳ dao động đơi dây thanh) xác định chu kỳ pitch T ñại lượng nghịch ñảo tần số F0 ðối với ngơn ngữ có điệu kiểu thay đổi cịn phụ thuộc vào điệu Âm vơ âm /s/ tạo nên dây khơng dao ñộng, xung kích ñược coi tạp ngẫu nhiên, kích dịng khí xốy qua chỗ hẹp tuyến âm (thường phía khoang miệng) Âm nổ âm /p/ tạo cách đóng hồn toàn tuyến âm, gây nên áp suất bên cạnh vị trí đóng, nhanh chóng giải phóng âm Vì tuyến âm tuyến mũi bao gồm ống âm học có mặt cắt khác nên âm truyền ống, phổ tần số thay đổi theo tính chọn lọc tần số ống Trong phạm vi tạo tiếng nói, tần số cộng hưởng tuyến âm gọi tần số formant hay ñơn giản formant Những tần số phụ thuộc vào dạng kích thước tuyến âm, dạng tuyến âm ñược ñặc trưng tổ hợp tần số formant Các âm khác ñược tạo thay ñổi dạng tuyến âm Như tính chất phổ tín hiệu tiếng nói thay đổi theo thời gian giống với thay đổi dạng tuyến âm Q trình truyền âm qua tuyến âm làm mạnh lên vùng tần số cộng hưởng tạo cho âm tính chất riêng biệt gọi q trình phát âm Âm phát có nghĩa ñã mang thông tin âm vị ñược tán xạ ngồi từ mơi Trong vài trường hợp, âm mũi (như /m/, /n/ tiếng Anh), tuyến mũi tham gia vào trình phát âm âm tán xạ từ mũi Tóm lại, sóng tín hiệu chế tạo ba động tác: tạo nguồn âm (hữu vô thanh), phát âm truyền qua tuyến âm tán xạ âm từ mơi từ mũi, hình 1.2 sau đây: Hình 1.2 Q trình tạo tín hiệu tiếng nói 1.2.2 Cấu tạo hệ thống tiếp âm Không giống quan tham gia vào trình tạo tiếng nói thực chức khác thể như: thở, ăn, ngửi Tai sử dụng cho chức nghe Tai ñặc biệt nhạy cảm với tần số tín hiệu tiếng nói chứa thông tin phù hợp với việc liên lạc (những tần số xấp xỉ 200 – 5600Hz) Người nghe phân biệt ñược khác biệt nhỏ thời gian tần số âm nằm vùng tần số Tai gồm có ba phần: tai ngoài, tai tai Tai dẫn hướng thay đổi áp xuất tiếng nói vào màng nhĩ, tai chuyển đổi áp xuất thành chuyển ñộng học Tai chuyển ñổi rung ñộng học thành luồng điện nơron thính giác dẫn đến não Tai ngồi: bao gồm LOA TAI (pina) hay TÂM NHĨ (aurical) LỖ (meatus) thính giác hay ống tai ngồi Loa tai có tham gia khơng vào ñộ thính tai, Chương 1: Một số khái niệm có chức bảo vệ lối vào ống tai dường tham gia vào khả khu biệt âm, ñặc biệt tần số cao Loa tai nối với ống tai ngồi, ống ngắn có hình dáng thay đổi có chiều dài khoảng từ 25 đến 53 cm làm ñường cho tín hiệu âm học ñến tai Lỗ tai có hai chức Chức thứ bảo vệ cấu trúc phức tạp khơng có tính chất học tai Chức thứ hai đóng vai trị máy cộng hưởng hình ống vốn ưu tiên cho việc truyền âm có tần số cao 2000 Hz 4000Hz Chức quan trọng ñối với việc tiếp nhận lời nói đặc biệt trợ giúp cho việc tiếp nhận âm xát, đặc ñiểm chúng thường ñược lập mã nguồn lượng khơng có chu kì khu vực ảnh phổ âm học Sự cộng hưởng lỗ thính giác tham gia vào độ thính chung 500Hz 4000Hz, vốn dải tần có chứa nhiều dấu hiệu cấu trúc âm vị học Hình 1.3 Cấu trúc hệ thính giác ngồi Tai bao gồm khoang nằm cấu trúc hộp sọ có chứa màng nhĩ (eardrum) màng đầu ống tai , ba khúc xương liên kết với nhau, ñược gọi xương vồ (mallet), xương ñe (anvil) xương bàn ñạp (stirrup) (cũng có thuật ngữ xương tai (auditory ossicle)) cấu trúc liên kết Mục đích tai truyền biến đổi áp suất âm khơng khí đến tai ngồi vào dịch chuyển khí tương ứng Q trình truyền bắt đầu màng nhĩ, bị làm lệch ñi biến ñổi áp suất khí truyền đến qua lỗ tai Sự dịch chuyển truyền đến xương tai, vốn đóng vai trị hệ thống địn bẩy học khéo léo ñể chuyển tải dịch chuyển ñến cửa hình bầu dục giao diện đến tai chất dịch lỗ tai Hoạt ñộng làm ñòn bẩy xương tai, thực màng nhĩ có vùng bề mặt lớn nhiều so với cửa hình bầu dục, đảm bảo cho việc truyền hiệu ứng lượng âm học 500Hz 4000Hz, làm tăng đến mức tối đa khả thính tai vùng tần số Hệ gắn với xương tai hoạt ñộng ñể bảo vệ tai chống lại âm lớn hoạt ñộng Chương 1: Một số khái niệm chế phản xạ âm học Cơ chế ñi vào hoạt ñộng âm có biên ñộ khoảng 90dB lớn truyền ñến tai: hệ kết hợp xếp lại xương tai ñể làm giảm hiệu truyền âm đến cửa hình bầu dục (Borden Harris 1980, Moore 1989) Tai ñược nối với họng ống hẹp gọi vòi ốc tai (eustachian tube) ðiều hình thành đường khí ñường mở cần cân thay đổi áp suất khí cấu trúc tai tai Tai cấu trúc phức tạp bọc hộp sọ, ốc tai (cochlea) có trách nhiệm biến đổi chuyển dịch khí thành tín hiệu thần kinh: dịch chuyển khí ñược truyền ñến cửa hình bầu dục ốc tai chuyển thành tín hiệu thần kinh tín hiệu thần kinh truyền đến hệ thống thần kinh trung ương Về bản, ốc tai cấu trúc hình xoắn tận hết cửa sổ có màng linh hoạt đầu Ở bên trong, ốc tai chia thành hai màng, số đó, màng (basilar membrane) quan trọng ñối với hoạt ñộng nghe Khi dịch chuyển (do rung ñộng âm gây ra) diễn cửa sổ hình bầu dục, chúng truyền qua chất dịch ốc tai gây dịch chuyển (displacement) màng Ở ñầu màng cứng so với ñầu kia, ñiều có nghĩa cách thức mà dịch chuyển phụ thuộc vào tần số âm tác ñộng vào Các âm có tần số cao gây dịch chuyển lớn ñầu cứng; với tần số giảm dần, dịch chuyển cực ñại di chuyển liên tục phía đầu cứng Gắn dọc với màng quan vỏ não (organ of corti), cấu trúc phức tạp chứa nhiều tế bào tóc Nó dịch chuyển kích thích tế bào tóc vốn biến dịch chuyển màng thành tín hiệu thần kinh Vì màng dịch chuyển nhiều vị trí khác phụ thuộc vào tần số, ốc tai cấu trúc bên biến tần số cường độ âm thành tín hiệu thần kinh Nhưng cần phải nhấn mạnh tái có tính thần kinh cuối thông tin tần số không phụ thuộc vào vị trí riêng dịch chuyển màng không, hiểu biết cách thức tần số lập mã thơng qua hệ thống thính giác chưa hồn thiện Hình 1.4 Mặt cắt ngang ốc tai Chương 1: Một số khái niệm Nghiên cứu ñầu tiên thẩm nhận lời nói tính đến thuộc tính thẩm nhận tai Hơn nữa, cố gắng gắn kết thuộc tính thẩm nhận tín hiệu lời nói với kiểu tái phổ thay ñổi theo thời gian tuyến tính ðến khoảng năm 1980 nhiều nhà nghiên cứu ñã nhận cần phải hiểu hiệu ứng có tính chất phân tích hệ thính giác người tín hiệu lời nói thật sai lầm cho người nghe xử lí thơng tin theo cách giống máy ghi phổ bình thường mà thơi 1.3 Các đặc tính tiếng nói 1.3.1 Tần số phổ tần Thơng lượng: thể tích khơng khí vận chuyển qua mơn đơn vị thời gian (khoảng 1cm3 /s) Chu kỳ T0: dây rung với chu kỳ T0 thơng lượng biến đổi tuần hồn theo chu kỳ ta gọi T0 chu kỳ Hình 1.5 Tần số Giá trị nghịch ñảo T0 F0=1/ T0 ñược gọi tần số tiếng nói F0 phụ thuộc vào giới tính lứa tuổi người phát âm; F0 thay ñổi theo ñiệu F0 ảnh hưởng ñến ngữ điệu câu nói 1.3.2 Biểu diễn tín hiệu tiếng nói Có phương pháp biểu diễn tín hiệu tiếng nói là: - Biểu diến dạng sóng theo thời gian - Biểu diến miền tần số: phổ tín hiệu tiếng nói - Biểu diễn khơng gian chiều (Sonagram) a) Dạng sóng theo thời gian Phần tín hiệu ứng với âm vơ khơng tuần hồn, ngẫu nhiên có biên độ hay lượng nhỏ nguyên âm (cỡ khoảng 1/3) Ranh giới từ: khoảng lặng (Silent) Ta cần phân biệt rõ khoảng lặng với âm vô Chương 1: Một số khái niệm Hình 1.6 Dạng sóng theo thời gian Âm dạng sóng lưu trữ theo định dạng thơng dụng máy tính *.WAV với tần số lấy mẫu thường gặp là: 8000Hz, 10000Hz, 11025Hz, 16000Hz, 22050Hz, 32000Hz, 44100Hz,…; độ phân giải hay cịn gọi số bít/mẫu 16 bít số kênh (Mono) (Stereo) Như vậy, liệu lưu trữ tín hiệu âm khác tuỳ theo máy thu thanh, thời ñiểm phát âm hay người phát âm, ñiều ñược thể rõ nét hình vẽ sau: Hình 1.7 Hình 1.8 Âm ñược thu micro khác Âm hai ng ười khác phát Chương 1: Một số khái niệm Hình 1.9 Âm người phát hai thời ñiểm khác b) Phổ tín hiệu tiếng nói Ở phần ta biết dải tần số tín hiệu âm khoảng từ 0Hz ñến 20KHz, nhiên phần lớn công suất nằm dải tần số từ 0,3KHz đến 3,4KHz Dưới số hình ảnh phổ tín hiệu tiếng nói: Hình 1.10 Hình 1.11 Phổ tín hiệu tiếng nói đường bao phổ Phổ tín hiệu tiếng nói với số mẫu khác Chương 1: Một số khái niệm c) Biểu diễn tín hiệu tiếng nói khơng gian ba chiều (Sonagram) ðể biểu diễn không gian chiều người ta chia tín hiệu thành khung cửa sổ (frame) ứng với quan sát hình vẽ 1.12 Hình 1.12 Chia tín hiệu thành khung cửa sổ ðộ dài cửa sổ tương ứng 10ms Vậy, tần số Fs = 16000Hz ta có 160 mẫu cửa sổ Các cửa số có đoạn chồng lẫn lên (khoảng 1/2 cửa sổ) Tiếp theo ta vẽ phổ khung tín hiệu trục thẳng ñứng, biên ñộ phổ biểu diễn ñộ ñậm, nhạt màu sắc Sau ta vẽ theo trục thời gian cách chuyển sang cửa số Hình 1.13 Hình 1.14 Phổ khung cửa sổ Các khung cửa sổ liền spectrogram tương ứng Biểu diễn tín hiệu tiếng nói theo khơng gian chiều cơng cụ mạnh để quan sát phân tích tín hiệu Ví dụ : theo phương thức biểu diễn ta dễ dàng phân biệt âm vô âm hữu dựa theo ñặc ñiểm sau: +Âm vô thanh: - Năng lượng tập trung tần số cao Chương 1: Một số khái niệm - Các tần số phân bố ñồng ñều miền tần số cao tần số thấp + Âm hữu thanh: - Năng lượng tập khơng đồng - Có vạch cực trị Hình 1.15 Âm hữu Hình 1.16 Âm vơ d) Formant Antiformant Tuyến âm ñược coi hốc cộng hưởng có tác dụng tăng cường tần số Những tần số tăng cường lên ñược gọi Formant Nếu khoang miệng ñược coi tuyến âm khoang mũi coi hốc cộng hưởng Khoang mũi khoang miệng ñược mắc song song nên làm suy giảm tần số tần số bị suy giảm gọi AntiFormant Hình 1.17 ðường bao phổ Formant 10 Chương 1: Một số khái niệm Dựa hình 1.17 ta thấy tính đến Formant thứ (F5) quan trọng cần ý ñây F1 F2 Cùng người phát âm Formant khác Nếu ta vào giá trị Formant ñể ñặc trưng cho âm hữu chưa xác mà phải dựa vào phân bố tương đối Formant Ngồi ra, xác định Formant trực tiếp từ phổ khơng xác mà phải dựa vào đường bao phổ, ñáp ứng tần số tuyến âm 11 Chương 2: Biểu diễn số tín hiệu tiếng nói Ch−¬ng 2: Biểu diễn số tín hiệu tiếng nói 2.1 Mở đầu Mã hố q trình biến đổi giá trị rời rạc thành mã tương ứng Nhìn chung, việc lấy mẫu liên quan tới q trình biến đổi tín hiệu liên tục thành tín hiệu rời rạc trường thời gian gọi PAM (ñiều chế biên độ xung mã) Việc mã hố q trình lượng tử hoá giá trị mẫu thành giá trị rời rạc trường biên ñộ sau ñó biến ñổi chúng thành mã nhị phân hay mã ghép kênh Khi truyền thông tin mã, nhiều xung ñược yêu cầu cho giá trị lấy mẫu độ rộng dải tần số cần thiết cho truyền dẫn phải ñược mở rộng ðồng thời xuyên âm, tạp âm nhiệt, biến dạng mẫu, xung mẫu, biến dạng nén, tạp âm mã hoá, tạp âm san ñược sinh lúc tiến hành lấy mẫu mã hố Việc giải mã q trình khơi phục tín hiệu mã hố thành tín hiệu PAM lượng tử hố Q trình tiến hành theo thứ tự đảo q trình mã hố Mặt khác q trình lượng tử hố, nén mã hố tín hiệu PAM gọi q trình mã hố q trình chuyển đổi tín hiệu PCM thành D/A, sau đó, lọc chúng sau giãn ñể ñưa tiếng nói ban ñầu gọi trình giải mã Cấu hình sở hệ thống truyền dẫn PCM việc thay đổi tín hiệu tương tự thành tín hiệu xung mã để truyền dẫn thể hình (pcm1) Trước tiên tín hiệu đầu vào lẫy mẫu cách tuần tự, sau lượng tử hố thành giá trị rời rạc trục biên ñộ Các giá trị lượng tử hố đặc trưng mã nhị phân Các mã nhị phân mã hố thành dạng mã thích hợp tuỳ theo đặc tính ñường truyền dẫn Thiết bị ñầu cuối mã hoá chuyển đổi tín hiệu thơng tin tiếng nói thành tín hiệu số PCM Khi tín hiệu thơng tin tín hiệu tương tự, việc chuyển ñổi A/D ñược tiến hành việc chuyển ñổi D/D ñợc tiến hành trường hợp tín hiệu số ðơi khi, q trình nén mã hố băng tần rộng ñược tiến hành cách triệt dư thừa q trình tiến hành chuyển đổi A/D D/D) Các quy luật PCM vi phân thích ứng 32Kbps có nén giãn mã hố dự đốn tín hiệu tiếng rõ khuyến nghị G712 ITU Phương pháp ADPCM 32 Kbps ñược chấp nhận vào tháng 10 năm 1984 ñược dùng ñể chuyển ñổi tín hiệu PCM 64 Kbps theo luật A hay luật µ sang tín hiệu ADPCM Phương pháp 32 Kbps ADPCM có khả chuyển lượng tiếng nói lớn gấp hai lần trí cịn nhiều phương pháp qui ước 64 Kbps PCM, ñược chấp nhận cách rộng rãi chuyển mã thiết bị đầu cuối mã hố với hiệu cao Hiện nước tiên tiến giới ñang tiến hành nghiên cứu cách riết cơng nghệ mã hố tốc độ khơng cho thoại mà truyền hình Cụ thể bàn ñến tiếp phần 12 Chương 2: Biểu diễn số tín hiệu tiếng nói Hình 2.1 Cấu hình hệ thơng truyền xử lý thơng tin 2.2 Lấy mẫu tín hiệu tiếng nói Nguyên tắc ñiều xung mã trình chuyển đổi tín hiệu liên tục tiếng nói thành tín hiệu số rời rạc sau tái tạo chúng lại thành thơng tin ban đầu ðể tiến hành việc này, phần tử thơng tin rút từ tín hiệu tương tự cách Q trình gọi cơng việc lấy mẫu - Tín hiệu tiếng nói m(t) - Xung lấy mẫu s(t) - Chức danh lấy mẫu - Tín hiệu PAM ñã lấy mẫu Theo thuyết lấy mẫu Shannon, tín hiệu ban đầu khơi phục tiến hành công việc lấy mẫu phần tử tín hiệu truyền lớn hai lần tần số cao Các tín hiệu xung lấy mẫu tín hiệu dạng sóng chu k, tổng tín hiệu sóng hài có đường bao hàm số sin tần số Vì thế, phổ tín hiệu tiếng nói tạo sau qua trình lấy mẫu thể hình 2.3 Có hai kiểu lấy mẫu tuỳ theo dạng đỉnh ñộ rộng xung, lấy mẫu tự nhiên lấy mẫu ñỉnh phẳng Lấy mẫu tự nhiên ñược tiến hành cách lý tưởng phổ tần số sau lấy mẫu trùng với phổ tín hiệu ban ñầu Tuy nhiên hệ thống thực tế, ñiều khơng thể có Khi tiến hành lấy mẫu ñỉnh phẳng, nén gọi hiệu ứng biên độ lấy mẫu làm xuất méo Ngồi ra, phần tử tín hiệu đầu vào vượt q ñộ rộng dải tần KHz, xuất nén nếp gấp Vì vậy, việc lọc băng rộng tín hiệu đầu vào phải tiến hành trước lấy mẫu 13 Chương 2: Biểu diễn số tín hiệu tiếng nói Hình 2.2 Hình 2.3 Q trình lấy mẫu Phổ tín hiệu trước sau lấy mẫu 2.3 Lượng tử hóa PAM với biên độ tương tự chuyển ñổi thành tín hiệu số tín hiệu rời rạc sau qua q trình lượng tử hố Khi thị biên độ tiếng nói liên tục với số lượng hạn chế, đặc trưng với dạng sóng xấp xỉ bước Tạp âm lượng tử NQ = Q S tồn dạng sóng ban đầu (S) dạng sóng lượng tử (Q); bước nhỏ tạp âm lượng tử ñược giảm ñi số lượng bước ñầu cần thiết cho lượng tử tồn dải tín hiệu đầu vào trở nên rộng Vì số lượng dãy số mã hố tăng lên Tạp âm tạo biên độ tín hiệu đầu vào vượt q dãy lượng tử gọi tạp âm tải hay tạp âm bão hồ S/NQ sử dụng đơn vị ñể ñánh giá ưu ñiểm nhược ñiểm phương pháp PCM Khi số lượng dãy số mã hố mẫu tăng lên bit, S/NQ mở rộng thêm dB 14

Ngày đăng: 15/03/2022, 23:59

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w