NGHIÊN CỨU KỸ THUẬT NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT VÀ ỨNG DỤNG. LUẬN VĂN THẠC SĨ KỸ THUẬT

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ NGÔ VĂN CƯƠNG NGHIÊN CỨU KỸ THUẬT NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thông tin Mã số: 60 48 01 04 LUẬN VĂN THẠC SĨ KỸ THUẬT Hà Nội - Năm 2015 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI HỌC VIỆN KỸ THUẬT QUÂN SỰ Cán hướng dẫn chính: PGS.TS Bùi Thế Hồng Cán chấm phản biện 1: TS Trần Nguyên Ngọc Cán chấm phản biện 2: TS Trần Thị Thu Hà Luận văn thạc sĩ bảo vệ tại: HỘI ĐỒNG CHẤM LUẬN VĂN THẠC SĨ HỌC VIỆN KỸ THUẬT QUÂN SỰ Ngày tháng năm 2015 Tôi xin cam đoan: Những kết nghiên cứu trình bày luận văn hồn tồn trung thực, tơi, khơng vi phạm điều luật sở hữu trí tuệ pháp luật Việt Nam Nếu sai, tơi hồn tồn chịu trách nhiệm trước pháp luật TÁC GIẢ LUẬN VĂN Ngô Văn Cương MỤC LỤC Trang Trang phụ bìa Bản cam đoan Mục lục Các thuật ngữ viết tắt Mở đầu Chương CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NĨI 1.1 Lý thuyết âm tiếng nói 1.1.1 Nguồn gốc âm thanh: 1.1.2 Các đại lượng đặc trưng cho âm thanh: 1.1.2.1 Tần số âm thanh: 1.1.2.2 Chu kì âm thanh: 1.1.2.3 Tốc độ truyền âm: 1.1.2.4 Cường độ âm thanh: 1.1.2.5 Thanh áp: 1.1.2.6 Âm sắc: 1.1.2.7 Âm lượng: 1.1.3 Các tần số âm thanh: 1.1.4 Cơ chế tạo lập tiếng nói người: 1.1.5 Mơ hình lọc nguồn tạo tiếng nói: 1.1.6 Hệ thống nghe người: 1.1.7 Quá trình sản xuất tiếng nói thu nhận tiếng nói: 1.1.8 Các âm tiếng nói đặc trưng: 10 1.1.8.1 Nguyên âm: 10 1.1.8.2 Các âm vị khác: 10 1.2 Giới thiệu xử lý tiếng nói 11 1.3 Nhận dạng tiếng nói 12 1.3.1 Bài toán nhận dạng tiếng nói 12 1.3.2 Các phương pháp nhận dạng tiếng nói 14 1.3.2.1 Phương pháp âm học ngữ âm học 14 1.3.2.2 Phương pháp nhận dạng mẫu 16 1.3.2.3 Phương pháp ứng dụng trí tuệ nhân tạo 18 1.4 Nhận dạng tiếng Việt 19 1.4.1 Một số đặc điểm ngữ âm tiếng Việt 19 1.4.2 Những thuận lợi khó khăn nhận dạng tiếng Việt 20 1.4.2.1 Thuận lợi 20 1.4.2.2 Khó khăn 20 Chương MƠ HÌNH NHẬN DẠNG TIẾNG NĨI 2.1 Các kiểu mơ hình mạng nơron 22 2.1.1 Perceptron 24 2.1.2 Mạng nhiều tầng truyền thẳng (MLP) 25 2.2 Huấn luyện mạng nơron 26 2.2.1 Các phương pháp học 26 2.2.2 Học có giám sát mạng nơron 28 2.2.3 Thuật toán lan truyền ngược 29 2.3 Các vấn đề xây dựng mạng MLP 30 2.3.1 Chuẩn bị liệu 30 2.3.1.1 Kích thước mẫu 30 2.3.1.2 Mẫu 32 2.3.2 Xác định tham số cho mạng 32 2.3.2.1 Chọn hàm truyền 32 2.3.2.2 Xác định số nơron tầng ẩn 33 2.3.2.3 Khởi tạo trọng 34 2.3.3 Vấn đề lãng quên (catastrophic forgetting) 35 2.3.4 Vấn đề khớp 36 2.3.4.1 Khái niệm khớp 36 2.3.4.2 Giải khớp 36 Chương QUÁ TRÌNH TIỀN XỬ LÝ TIẾNG NĨI 3.1 Phát tiếng nói 38 3.1.1 Năng lượng ngắn hạn 38 3.1.2 Tốc độ qua điểm không 39 3.1.3 Lượng thông tin 39 3.1.3.1 Tính FFT 39 3.1.3.2 Mật độ xác suất phổ lượng 40 3.1.3.3 Tính Entropy 40 3.1.4 Giải thuật phát tiếng nói 40 3.2 Phân tích cepstral thơng qua thang độ mel 41 3.2.1 Mơ hình tính tốn hệ số MFCC 42 3.2.2 Q trình tiền xử lý tín hiệu 42 3.2.2.1 Bộ lọc thích nghi 42 3.2.2.2 Chuẩn hóa biên độ 43 3.2.2.3 Phân khung 43 3.2.2.4 Lấy cửa sổ 43 3.2.2.5 Phổ lượng 43 3.2.2.6 Băng lọc Mel 44 3.2.2.7 Logarit hệ số lượng qua băng lọc 44 3.2.2.8 Biến đổi Cosine rời rạc ngược 45 3.2.2.9 Cepstral có trọng số 45 3.2.2.10 Đạo hàm Cepstral theo thời gian 45 3.3 Lượng tử hóa vector 46 3.3.1 Tập vector huấn luyện 46 3.3.2 Khoảng cách hai vector 47 3.3.3 Nhân tập vector 48 3.3.4 Phân cụm vector 48 Chương ỨNG DỤNG XÂY DỰNG HỆ THỐNG MƠ PHỎNG NHẬN DẠNG TIẾNG NĨI TIẾNG VIỆT BẰNG MẠNG NƠRON MLP TRÊN MATLAB 4.1 Giới thiệu 50 4.2 Xây dựng hệ thống nhận dạng demo 50 4.2.1 Mô tả chung hệ thống 50 4.2.2 Sơ đồ khối hệ thống 51 4.2.3 Thu thập tiền xử lí tín hiệu tiếng nói 52 4.2.4 Trích chọn đặc trưng MFCC 54 4.2.5 Tính đầu vào cho mạng 56 4.2.6 Xây dựng huấn luyện thử nghiệm mạng nơron MLP 58 4.2.7 Sử dụng mạng nhận dạng 59 4.2.8 Giao diện hệ thống demo: 59 4.3 Kết thử nghiệm 62 4.4 Hướng mở rộng đề tài 65 4.4.1 Xây dưng liêu huấn luyện lớn 65 4.4.2 Xây dựng phần mềm nhận dạng dưa kết nghiên cứu 65 4.4.3 Nghiên cứu phương pháp xác định đặc trưng khác 66 4.4.4 Nghiên cứu phương pháp nhận dạng khác 66 DANH MỤC HÌNH Hình 1-1: Mơ hình lọc nguồn tạo tiếng nói Hình 1-2: Quá trình sản xuất thu nhận tiếng nói Hình 1-3: Mơ hình tốn xử lý tiếng nói 12 Hình 1-4: Hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu 16 Hình 1-6: Tích hợp tri thức nhận dạng tiếng nói 19 Hình 2-1: Mạng tự kết hợp 22 Hình 2-2: Mạng kết hợp khác kiểu 23 Hình 2-3: Mạng truyền thẳng 23 Hình 2-4: Mạng phản hồi 24 Hình 2-5: Perceptron 24 Hình 2-6: Mạng MLP tổng quát 25 Hình 2-7: Mối liên hệ sai số kích thước mẫu 31 Hình 2-8: Huấn luyện luân phiên hai tập mẫu 35 Hình 3-1: Sơ đồ khối tính tốn hệ số MFCC 42 Hình 4-1: Sơ đồ khối hệ thống nhận dạng tiếng nói chữ số tiếng Việt mạng nơron MLP môi trường Matlab 51 Hình 4-2: Từ ‘hai’ thu âm – bao gồm nhiễu 52 Hình 4-3: Từ ‘hai’ sau loại bỏ nhiễu 53 Hình 4-4: Xác định nhiễu từ môi trường thu âm 53 Hình 4-5: wav trước sau chuẩn hóa ngưỡng max(wav)=1 55 Hình 4-6: Mạng MLP gồm 40 đầu vào 11 đầu 56 Hình 4-7: Vector đầu vào gồm 40 phần tử, vector đầu gồm 11 phần tử 57 Hình 4-8: Các vector đầu vào đầu để huấn luyện mạng MLP 57 Hình 4-9: Giao diện hệ thống demo 59 Hình 4-10: Chức nhận dạng 60 Hình 4-11: Mẫu bảng điểm Excel (chưa có điểm) 61 Hình 4-12: Ứng dụng nhập điểm xuất sang Excel 61 Hình 4-13: Mẫu bảng điểm Excel (đã có điểm) 62 Tóm tắt luận văn: Họ tên học viên: Ngô Văn Cương Lớp: Hệ thống thơng tin Khố: 25A Cán hướng dẫn: PGS TS Bùi Thế Hồng Tên đề tài: Nghiên cứu kỹ thuật nhận dạng tiếng nói tiếng Việt ứng dụng Tóm tắt: Xây dựng hệ thống nhận dạng tiếng nói tiếng Việt dựa kỹ thuật sử dụng mạng nơron MLP (trên mơi trường Matlab) Hệ thống vừa nhận dạng trực tuyến (thu âm trực tiếp nhận dạng) nhận dạng từ tệp âm có sẵn Ứng dụng hệ thống đọc điểm kết điểm số xuất sang bảng điểm Excel CÁC THUẬT NGỮ VIẾT TẮT Viết tắt Viết đầy đủ Tạm dịch nghĩa ASR Automatic Speech Recognition Nhận dạng tiếng nói tự động HMM Hide Markov Model Mơ hình Markov ẩn IDFT Inverse Discrete Fourier Transform Biến đổi Fourier rời rạc ngược LPC Linear Prediction Coding Mã dự đốn tuyến tính MFCC Mel Frequency Cepstral Coefficients Hệ số phân tích phổ tần Mel TTS Text To Speech Chuyển văn thành tiếng nói STT Speech To Text Chuyển tiếng nói thành văn STE Short Time Energy Năng lượng ngắn hạn MỞ ĐẦU Trong thời đại công nghệ thông tin nay, việc giao tiếp người với máy, máy với máy… vấn đề quan tâm việc trao đổi thơng tin tiếng nói có vai trị quan trọng Máy tính đời giúp người giải cơng việc nhanh gọn hiệu Tuy nhiên, máy tính ngày nhận thơng tin từ người qua thiết bị như: bàn phím, chuột, bút,… Mặc dù tốc độ xử lý máy tính ngày cải thiện đáng kể song tốc độ tạo lập thông tin thiết bị cịn thấp Con người mong muốn máy tính ngày mạnh hơn, thông minh số u cầu máy tính tương lai phải tương tác với người sử dụng tiếng nói tự nhiên Đây bước tiến lớn nhằm nâng cao sức mạnh máy tính, đồng thời tăng tốc độ truyền đạt thơng tin máy tính người Xử lý tiếng nói trở thành lĩnh vực quan trọng xu hướng phát triển công nghệ xã hội Đặc biệt, cơng nghệ thơng tin ngày phát triển ứng dụng xử lý tiếng nói ngày trở lên cấp thiết Mục đích nghiên cứu lĩnh vực xử lý tiếng nói làm cho việc tương tác người máy ngày hiệu tự nhiên Hiện giới cơng nghệ xử lý tiếng nói phát triển, hệ thống ứng dụng xử lý tiếng nói sử dụng nhiều nơi, độ xác hệ thống ngày cải thiện Các ứng dụng lĩnh vực xử lý tiếng nói phổ biến: nhận dạng tiếng nói, tổng hợp tiếng nói, xác thực người nói qua giọng nói thành tựu chúng áp dụng vào nhiều lĩnh vực thực tế 2 Trên giới có nhiều hệ thống nhận dạng tiếng nói tiếng Anh ứng dụng hiệu như: Via Voice IBM, Spoken Toolkit CSLU (Central of Spoken Language Under-standing), Speech Recognition Engine Microsoft, Hidden Markov Model toolkit đại học Cambridge, CMU Sphinx đại học Carnegie Mellon, ra, số hệ thống nhận dạng tiến nói tiếng Pháp, Đức, Trung Quốc, phát triển Ở Việt Nam, nhận dạng tiếng nói lĩnh vực mẻ Đến có nhiều nghiên cứu nhận dạng tiếng nói tiếng Việt đạt số thành tựu, nhìn chung chưa đạt kết cần thiết để tạo sản phẩm mang tính ứng dụng cao Có thể kể đến cơng trình sau: - AILab: Đây cơng trình phịng thí nghiệm Trí tuệ Nhân tạo AILab thuộc Đại học Khoa học Tự nhiên tạo dựa công nghệ tiên tiến nhận dạng tổng hợp tiếng nói để đáp ứng nhu cầu người dùng Dựa cơng nghệ xử lí tiếng nói tiếng Việt, AILab xây dựng phần mềm iSago chuyên hỗ trợ tìm kiếm thơng tin qua tiếng nói Thơng qua ứng dụng phần mềm người sử dụng có khả hỗ trợ giao tiếp với điện thoại di động trực tiếp lời nói Từ người sử dụng tìm kiếm thông tin nhà hàng, quán Bar, Café địa bàn TP HCM Khi người dùng đặt câu hỏi tiếng nói, iSago truyền nội dung truy vấn server để xử lý gửi lại kết tìm kiếm, dạng danh sách: tên nhà hàng, địa Phần mềm cho phép người dùng hiển thị địa tìm dạng đồ nghe đọc địa trực tiếp công nghệ tổng hợp giọng nói Phần mềm cung cấp miễn phí địa www.ailab.hcmus.edu.vn - Vietvoice: Đây phần mềm người dân Việt Nam ngụ Canada Phần mềm có khả nói tiếng Việt từ tập tin Để chạy chương trình, cần cài đặt Microsoft Visual C++ 2005 Redistributable Package (x86) Đối với người khiếm thị, phần mềm cho phép sử dụng cách gõ tắt (nhấn nút Ctrl chữ) để chọn lựa tính hiển thị hình Người dùng cập nhật từ điển chữ viết tắt từ ngữ tiếng nước - Vspeech: Đây phần mềm điều khiển máy tính giọng nói nhóm sinh viên Đại học Bách Khoa TP HCM viết Phần mềm sử dụng thư viện Microsoft Speech SDK để nhận dạng tiếng Anh chuyển thành tiếng Việt Nhóm thành cơng với ý tưởng này, sử dụng lại thư viện nhận dạng engine nên thời gian thiết kế rút ngắn lại mà hiệu nhận dạng tốt Phần mềm Vspeech có lệnh gọi hệ thống đơn giản gọi thư mục My Computer, nút Start, Phiên có tương tác với MS Word 2003, lướt web với trình duyệt Internet Explorer Khơng có chức tùy chỉnh lệnh gọi tắt ứng dụng Phần mềm chạy Windows XP, Microphone card âm sử dụng tiêu chuẩn thông thường Tuy nhiên việc ứng dụng nhận dạng giọng nói vào điều khiển máy tính cịn nhiều hạn chế Một số sản phẩm nước ngồi nhận dạng tiếng nói Tiếng Việt như: Nuance (Dragon Dictation Dragon Search), Google search, Ở Việt Nam có phần mềm Vspeech nhóm sinh viên trường Đại học Bách Khoa TP HCM, nhìn chung phần mềm chưa sử dụng thực tế chưa đạt 100 từ Phần mềm Vspeech phát triển từ mã nguồn mở Microsoft Speech SDK nhận dạng tiếng Anh, thông qua liệu, phương thức trung gian, việc nhận dạng chuyển Vspeech để nhận biết tiếng Việt Lĩnh vực xử lý tiếng nói tiếp tục nghiên cứu, phát triển ứng dụng ngày trở nên phổ biến quan trọng Vì xử lý tiếng nói ứng dụng trở thành đề tài nhiều nhà nghiên cứu học sinh, sinh viên nghiên cứu phát triển 4 Luận văn tập trung nghiên cứu kỹ thuật nhận dạng tiếng nói, từ xây dựng ứng dụng nhận dạng số từ, số cụ thể ứng dụng nhận dạng tiếng nói vào nhập điểm, kết điểm số xuất sang Excel Nội dung Luận văn gồm chương sau: Chương 1: Cơ sở lý thuyết xử lý tiếng nói Chương giới thiệu tổng quan xử lý tiếng nói, tập trung giới thiệu tổng quan lý thuyết âm tiếng nói, giới thiệu xử lý tiếng nói, nhận dạng tiếng nói nhận dạng tiếng Việt với ưu điểm, nhược điểm Chương 2: Mơ hình nhận dạng tiếng nói Chương tập trung nói mơ hình mạng nơron, vấn đề cần phải thực cài đặt huấn luyện mạng nơron ứng dụng nhận dạng tiếng nói Chương 3: Q trình tiền xử lý tiếng nói Chương tập trung trình bày sở lý thuyết thuật tốn khâu tiền xử lý tiếng nói bao gồm: giải thuật phát tiếng nói, phương pháp trích chọn đặc trưng LPC MFCC; Chương 4: Xây dựng ứng dụng nhận dạng tiếng nói tiếng Việt Chương tập trung trình bày cơng cụ nhận dạng tiếng nói áp dụng với tiếng nói tiếng Việt từ xây dựng ứng dụng máy tính để huấn luyện nhận dạng số từ, số cụ thể ứng dụng nhận dạng tiếng nói vào nhập điểm, kết điểm số xuất sang Excel Nội dung cụ thể chương trình bày phần Luận văn 5 Chương CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NĨI 1.1 Lý thuyết âm tiếng nói 1.1.1 Nguồn gốc âm thanh: Âm vật thể dao động học mà phát Âm phát dạng sóng âm Sóng âm biến đổi tính chất mơi trường đàn hồi lượng âm truyền qua Âm truyền đến tai người mơi trường dẫn âm Sóng âm truyền chất rắn, chất lỏng, khơng khí Có chất dẫn âm gọi chất hút âm như: len, da, chất xốp… Sóng âm khơng thể truyền mơi trường chân khơng Khi kích thích dao động âm mối trường khơng khí lớp khí bị nén dãn Trạng thái nén dãn lan truyền từ nguồn âm dạng sóng dọc tới nơi thu âm Nếu cường độ nguồn âm lớn âm truyền xa [8] 1.1.2 Các đại lượng đặc trưng cho âm thanh: 1.1.2.1 Tần số âm thanh: Là số lần dao động phần tử khí giây Đơn vị Hz, kí hiệu: f 1.1.2.2 Chu kì âm thanh: Là thời gian mà âm thực dao động hoàn toàn Đơn vị thời gian, kí hiệu T 1.1.2.3 Tốc độ truyền âm: Là tốc độ truyền lượng âm từ nguồn tới nơi thu Đơn vị m/s Tốc độ truyền âm khơng khí nhiệt độ từ 0- 200 C thường 331 – 340 m/s 1.1.2.4 Cường độ âm thanh: Là lượng sóng âm truyền đơn vị thời gian qua đơn vị diện tích đặt vng góc với phương truyền âm 6 1.1.2.5 Thanh áp: Là lực tác dụng vào tai người nghe điểm trường âm Đơn vị : 1pa=1 N/m2 1bar = 1dyn/cm2 1.1.2.6 Âm sắc: Trong thành phần âm thanh, tần số cịn có sóng hài, số lượng sóng hài biểu diễn sắc thái âm Âm sắc đặc tính âm nhờ mà ta phân biệt tiếng trầm, bổng khác nhau, phân biệt tiếng nhạc cụ, tiếng nam nữ, tiếng người với người khác 1.1.2.7 Âm lượng: Là mức độ to nhỏ nguồn Đơn vị W 1.1.3 Các tần số âm thanh: Theo [8], tần số F0 tần số giao động dây Tần số phụ thuộc vào giới tính độ tuổi F0 nữ thường cao nam, F0 người trẻ thường cao người già Thường với giọng nam, F0 nằm khoảng từ 80-250Hz, với giọng nữ, F0 khoảng 150-500Hz Sự biến đổi F0 có tính định đến điệu từ ngữ điệu câu Cơng suất tiếng nói, nói to nhỏ khác Khi nói thầm cơng suất 10-3mW, nói bình thường 10mW, nói to 103mW 1.1.4 Cơ chế tạo lập tiếng nói người: Các quan phát âm người chủ yếu gồm phổi, khí quản, quản, phận mũi miệng Thanh quản có hai nếp gấp gọi dây âm, dây âm rung luồng không khí qua khe mơn khe hai dây âm Bộ phận miệng ống âm không Bộ phận mũi ống âm học khơng có diện tích chiều dài cố định, lỗ mũi đến vòm miệng mềm Q trình tạo âm phi mũi: vịm miệng mềm ngăn chặn phận mũi âm phát thơng qua mơi Đối với q trình tạo âm mũi: vòm miệng mềm hạ xuống phận mũi liên kết phận miệng, lúc phía trước phận miệng khép lại hoàn toàn âm thơng qua mũi Đối với âm nói giọng mũi, âm phát mũi môi Âm tiếng nói chia làm ba loại khác nhau:  Âm hữu thanh: giống âm nói ‘a’ hay ‘e’ tạo dây âm căng lên rung áp suất khơng khí tăng lên, làm mồm mở đóng lại luồng khơng khí qua Những dây âm rung tạo dạng sóng luồng khơng khí có dạng xấp xỉ tam giác Chu kì cao độ âm đàn ông trưởng thành thường từ 50Hz đến 250Hz, giá trị trung bình khoảng 120Hz Đối với phụ nữ trưởng thành, giới hạn cao nhiều, lên đến 500Hz  Âm vơ thanh: tạo dây âm không rung Có hai loại âm vơ bản: âm xát âm Đối với âm xát ta nói chữ ‘s’, số điểm phận phát âm co lại luồng khơng khí ngang qua nó, hỗn loạn xảy tạo nên nhiễu ngẫu nhiên Đối với âm bật hơi, ta nói chữ ‘h’, hỗn loạn xảy gần môn dây âm bị giữ nhẹ phần Ngoài hai loại âm nói trên, cịn có loại âm trung gian vừa mang tính chất nguyên âm, vừa mang tính chất phụ âm, gọi bán nguyên âm hay bán phụ âm Ví dụ ‘i’, ’u’ từ ‘ai’ ‘âu’  Phụ âm nổ: ví dụ âm ‘p’, ‘t’, ’k’ hay ‘đ’, ‘b’, ‘g’ tiếng Việt tạo loại kích thích khác 1.1.5 Mơ hình lọc nguồn tạo tiếng nói: Q trình tạo tiếng nói lọc nguồn, tín hiệu từ nguồn âm (cũng có chu kì hay nhiễu) lọc lọc biến thiên theo thời gian có tính chất cộng hưởng tương tự với phận phát âm Như thu phổ tần số tín hiệu tiếng nói cách nhân phổ nguồn âm với đặc tính tần số lọc Hình bên minh họa tiếng nói hữu vơ Các độ lợi AV AN xác định cường độ nguồn tạo âm hữu vơ 8 Hình 1-1: Mơ hình lọc nguồn tạo tiếng nói Mơ hình lọc nguồn cho q trình tạo tiếng nói đơn giản lọc âm xát cách đỉnh cộng hưởng phận phát âm âm hữu hay âm bật hơi, mơ hình lọc nguồn hồn tồn khơng xác cho âm xát 1.1.6 Hệ thống nghe người: Quá trình nghe người sau: Sóng áp suất âm tác động đến tai người, sóng chuyển thành chuỗi xung điện, chuỗi truyền tới não thông qua hệ thần kinh, não chuỗi xử lý giải mã Khi nghe sóng âm túy tức âm đơn (sóng sine), điểm khác màng đáy rung động theo tần số âm đơn vào tai Điểm lệch lớn màng đáy phụ thuộc vào tần số âm đơn Tần số cao tạo điểm lệch lớn phía đáy tần số thấp tạo điểm lệch lớn phía đỉnh Như màng đáy làm nhiệm vụ phân tích tần số tín hiệu vào phức tạp thành tần số khác điểm khác dọc theo chiều dài Như xem điểm lọc thơng dải có tần số trung tâm băng thông xác định Ngưỡng nghe âm đơn tăng lên có diện âm đơn lân cận khác (âm mặt nạ) có tần hẹp xung quanh âm đơn tham gia vào hiệu ứng mặt nạ, băng tần thường gọi âm tần tới hạn Giá trị băng tần tới hạn phụ thuộc vào tần số âm đơn cần thử Tóm lại trình nghe hệ thính giác dãy lọc băng thơng, có đáp ứng phủ lắp lên ‘băng thông hiệu quả’ chúng xấp xỉ với giá trị băng tần tới hạn 1.1.7 Q trình sản xuất tiếng nói thu nhận tiếng nói: Sơ đồ biểu diễn q trình thu nhận tiếng nói người Hình 1-2: Q trình sản xuất thu nhận tiếng nói Q trình sản xuất tiếng nói bắt đầu người nói muốn chuyển tải thơng điệp cho người nghe thơng qua tiếng nói Tổ chức thần kinh chịu trách nhiệm chuyển đổi thông điệp sang dạng mã ngôn ngữ Khi mã ngôn ngữ chọn lựa, lệnh thần kinh vận động điều khiển đồng khâu vận động nhằm phát chuỗi âm Vậy đầu cuối q trình tín hiệu âm học Đối với q trình thu nhận tiếng nói, người nghe xử lý tín hiệu âm thơng qua màng tai trong; có khả cung cấp phân tích phổ cho tín hiệu tới Q trình thần kinh chuyển đổi tín hiệu phổ thành tín hiệu hoạt động với thần kinh thính giác; coi 10 trình lấy đặc trưng Cuối tín hiệu chuyển thành mã ngơn ngữ hiểu thơng điệp 1.1.8 Các âm tiếng nói đặc trưng: 1.1.8.1 Nguyên âm: Các nguyên âm có tầm quan trọng nhận dạng tiếng nói; hầu hết hệ thống nhận dạng dựa sở nhận dạng ngun âm có tính tốt Các nguyên âm nói chung có thời gian tồn dài (so với phụ âm) dễ xác định phổ Chính dễ dàng cho việc nhận dạng tiếng nói, người máy móc Về mặt lý thuyết, cực đại biểu diễn phổ tín hiệu nguyên âm tần số cộng hưởng (formants) tạo nên nguyên âm Giá trị formant (2 formant đầu tiên) yếu tố định cho phép nhận dạng nguyên âm Do nhiều yếu tố biến thiên khác giới tính, độ tuổi, tình trạng tinh thần người nói nhiều yếu tố ngoại cảnh khác, nguyên âm xát định giá trị formant có biến thiên định Tuy nhiên khác biệt giá trị formant nguyên âm khác lớn nhiều; không gian formant xác định cách tương đối vùng riêng biệt cho nguyên âm 1.1.8.2 Các âm vị khác: Ngun âm đơi có biến thiên cách liên tục formant biểu diễn phổ theo thời gian Đối với âm vị loại này, cần phải đặc biệt ý đến việc phân đoạn theo thời gian nhận dạng Các bán nguyên âm /l/, /r/ /y/ tương đối khó việc biểu diễn đặc trưng Các âm không coi nguyên âm gọi bán nguyên âm chất tựa nguyên âm chúng Các đặc trưng âm học âm chịu ảnh hưởng mạnh ngữ cảnh mà chúng xuất Đối với âm