XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	54
Dung lượng	2,22 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO Trường Đại học Yersin Đà Lạt Khoa Công Nghệ Thông Tin    XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI LUẬN VĂN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN: TS Nguyễn Đức Minh Niên khóa 2010 - 2014 1 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Đà Lạt, ngày……tháng….năm 2014 GIÁO VIÊN HƯỚNG DẪN 2 NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN 3 LỜI CẢM ƠN Xin chân thành cảm ơn thầy Nguyễn Đức Minh đã tận tình hướng dẫn em để em có thể hoàn thành luận văn này. Các buổi học cùng thầy trên khoa cùng những tài liệu mà thầy đã cung cấp cho em thật là quý giá, không những thầy đã dạy kiến thức chuyên ngành mà còn truyền đạt những kỹ năng và phương pháp học tiếng anh giúp em cải thiện hơn vốn tiếng anh hiện có. Em xin gởi lời cảm ơn đến các thầy cô trong trường, đặc biệt là các thầy cô trong khoa Công Nghệ Thông Tin đã tạo điều kiện tốt nhất để em có thể học tập và nghiên cứu. Em cũng không thể không nhắc đến sự động viên chăm sóc của gia đình, sự cộng tác giúp đỡ và ủng hộ tinh thần của bạn bè. Em xin được tri ơn tất cả. Đà lạt, tháng 06 năm 2014 Trần Mạnh Hải 4 MỤC LỤC NHẬN XÉT CỦA GIÁO VIÊN HƢỚNG DẪN 1 NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN 2 LỜI CẢM ƠN 3 LỜI NÓI ĐẦU 5 DANH SÁCH HÌNH VẼ 6 Chƣơng I – TỔNG QUAN VỀ NHẬN DẠNG GIỌNG NÓI 7 I. Nhận dạng 7 II. Các tính chất đặc trưng của nhận dạng tiếng nói 11 1. Tiếng nói con ngƣời 11 2. Phân loại nhận dạng tiếng nói 11 3. Những khó khăn 12 III. Ứng dụng 12 Chƣơng II – XỮ LÝ VÀ RÚT TRÍCH ĐẶC TRƢNG TIẾNG NÓI 13 I. Quá trình xữ lý và lấy mẫu 13 1. Mô hình tổng quan 13 II. Rút trích đặc trưng 14 1. Phân khung tín hiệu 15 2. Lấy cửa sổ 16 3. Biến đổi tín hiệu sang miền tần số (Biến đổi Fourier rời rạc - DFT) 20 4. Đặc trƣng MFCC (Mel Frenquency Cepstral Coefficients) 21 5. Đặc trƣng Mã hóa dự đoán tuyến tính (LPC) 25 III. Nhận xét 30 Chƣơng III –NHẬN DẠNG BẰNG MÔ HÌNH MẠNG NEURAL 31 I. Tổng quan 31 II. Quá trình hoạt động 32 1) Tế bào của mạng 32 2) Mạng Neural truyền thẳng nhiều lớp 34 a) Mô hình cơ bản: 34 b) Luật học của mạng: 34 III. Quá trình huấn luyện 36 1) Thuật toán lan truyền ngược 36 a) Khái niệm và ý tưởng 36 b) Mô hình minh họa 36 c) Tính toán các giá trị và tham số 38 d) Các bước xây dựng thuật toán 42 2) Mô phỏng trên Matlab và ứng dụng vào nhận dạng tiếng nói 44 IV. Kết luận 50 KẾT LUẬN 51 TÀI LIỆU THAM KHẢO: 53 5 LỜI NÓI ĐẦU Ngày nay với sự phát triển mạnh mẽ của công nghệ, con ngƣời đã tự động hóa khá nhiều công việc mà ngày trƣớc phải tốn sức ngƣời là chính. Các hệ thống thông minh ra đời đã nâng cao nâng suất cũng nhƣ chất lƣợng của công việc. Tuy nhiên để điều khiển máy móc, con ngƣời phải làm khá nhiều thao tác tốn nhiều thời gian và cần phải đƣợc đào tạo. Điều này gây trở ngại không ít đối với việc sử dụng các máy móc, thành tựu khoa học kỹ thuật. Trong khi đó, nếu điều khiển máy móc thiết bị bằng tiếng nói sẽ dễ dàng hơn. Nhu cầu điều khiển máy móc thiết bị bằng tiếng nói càng bức thiết hơn đối với các thiết bị cầm tay, nhƣ: điện thoại di động, máy Palm/Pocket PC,… Con ngƣời dễ dàng để hiểu nhau nhờ ngôn ngữ, nhƣng điều đó là khó khăn đối với máy móc. Nhƣng không phải là không làm đƣợc, trên thế giới đã hình thành các hệ thống nhận dạng tiếng nói từ đơn giản tới các hệ thống cực kỳ phức tạp, chứng tỏ rằng máy móc sau quá trình huấn luyện của con ngƣời thì chúng cũng có khả năng hiểu chúng ta qua tiếng nói. Luận văn này em tập trung vào nghiên cứu hai phần lớn trong nhận dạng tiếng nói đó là rút trích đặc trưng và phương pháp Neural cho nhận dạng và huấn luyện. Luận văn gồm các phần chính nhƣ sau: CHƢƠNG I: Cung cấp cái nhìn tổng quan về tín hiệu tiếng nói và nhận dạng tiếng nói. CHƢƠNG II: Xữ lý và rút trích đặc trƣng. Giới thiệu các bộ lọc cơ bản cho xử lý tín hiệu, mô hình và các phƣơng pháp rút trích đặc trƣng CHƢƠNG III: Phƣơng pháp nhận dạng Mạng Neural. Giới thiệu về mạng Neural, phƣơng pháp huấn luyện trên mạng. 6 DANH SÁCH HÌNH VẼ Hình 1. 1 Cấu trúc của tai người _________________________________________________ 7 Hình 1. 2 Mô hình nhận dạng tiếng nói ____________________________________________ 8 Hình 1. 3 Mô hình mô phỏng phương pháp HMM ___________________________________ 10 Hình 2. 1 Sơ đồ các khối của mô hình lấy mẫu _____________________________________ 13 Hình 2. 2 Trình tự rút trích đặc trưng ____________________________________________ 14 Hình 2. 3 Khung tín hiệu với N = 256 ____________________________________________ 15 Hình 2. 4 Phân đoạn tiếng nói thành các khung chồng lấp ____________________________ 16 Hình 2. 5 Cửa sổ Hamming theo miền thời gian và tần số _____________________________ 17 Hình 2. 6 Cửa sổ Hann theo miền thời gian và tần số. _______________________________ 18 Hình 2. 7 Cửa sổ Tam giác theo miền thời gian và tần số _____________________________ 19 Hình 2. 8 Minh họa cửa sổ hình chữ nhật _________________________________________ 19 Hình 2. 9 Âm “a” theo cửa sổ Hann _____________________________________________ 20 Hình 2. 10 Âm “a” với cửa sổ Hamming _________________________________________ 20 Hình 2. 11 Minh họa biến đổi Fourier ____________________________________________ 21 Hình 2. 12 a) Mel và tần số_____________________________________________________ 22 Hình 2. 13 Minh họa bộ lọc tam giác _____________________________________________ 24 Hình 2. 14 Bộ lọc tam giác thực tế trên miền tần số _________________________________ 25 Hình 2. 15 Sơ đồ xử lý LPC dùng cho trích đặc trưng tiếng nói ________________________ 27 Hình 3. 1 Mô hình chi tiết 1 tế bào neural _________________________________________ 32 Hình 3. 2 Mô hình mạng nhiều lớp _______________________________________________ 34 Hình 3. 3 Mô hình tổng quát 3 lớp _______________________________________________ 37 Hình 3. 4 Mô hình chi tiết cơ bản _______________________________________________ 37 Hình 3. 5 Hình minh họa đồ thị _________________________________________________ 44 Hình 3. 6 Hình minh họa quá trình huấn luyện _____________________________________ 46 Hình 3. 7 Đồ thị dạng tam giác (xi) ______________________________________________ 46 Hình 3. 8 Mạng Neural sử dụng _________________________________________________ 47 7 Chương I – TỔNG QUAN VỀ NHẬN DẠNG GIỌNG NÓI I. Nhận dạng Nhƣ chúng ta đã biết nhận biết đƣợc tiếng nói là một khả năng tuyệt vời mà tạo hóa ban cho chúng ta, nhƣ đôi mắt giúp con ngƣời nhìn thấy đƣợc sự chuyển động biến đổi của thế giới thì đôi tai giúp con ngƣời nghe đƣợc những âm thanh mà môi trƣờng xung quanh muốn truyền đạt tới chúng ta. Quá trình nhận thức đƣợc một âm than h, tiếng nói trong cơ thể chúng ta là một quá trinh vô cùng phức tạp và tinh vi. Sóng âm thanh đƣợc truyền vào trong tai ngƣời và tạo nên các rung động cơ học trên các bộ phận trong tai. Trong cùng của tai là Ốc tai, đây là nơi tín hiệu đƣợc phân tích thành những khung tần số nhất định. Hình 1. 1 Cấu trúc của tai người 8 Quá trình xữ lý và nhận dạng trong bộ não con ngƣời là một quá trình rất phức tạp và độ chính xác vô cùng cao. Các mô hình nhận dạng tiếng nói về mặt lý thuyết đều dựa trên sự mô phỏng giống nhƣ tai ngƣời, về cấu trúc lẫn hoạt cách thức hoạt động. Dƣới đây là mô hình nhận dạng tiếng nói tổng quát: Xây dựng cơ sở dữ liệu tiếng nói Xữ lý và rút trích đặc trƣng Nhận dạng so khớp mẫu Kết quả Tín hiệu để học Tín hiệu cần nhận dạng Huấn luyện Tín hiệu tiếng nói Hình 1. 2 Mô hình nhận dạng tiếng nói 9  Tín hiệu tiếng nói đƣợc thu lại thông qua các thiết bị ghi âm nhƣ: microphone… và nó đƣợc chuyển sang tín hiệu điện.  Xữ lý và rút trích đặc trƣng: là quá trình tinh chỉnh tín hiệu đầu vào, tạo ra tín hiệu mẫu tốt nhất. Sau đó sử dụng các phƣơng pháp để rút trích các đặc trƣng cơ bản của tín hiệu đó.  Xây dựng cơ sở dữ liệu tiếng nói: Tín hiệu tiếng nói sau khi đƣợc xữ lý và rút trích đặc trƣng đƣợc lƣu lại thông qua quá trình huấn luyện hay học bằng các mô hình nhận dạng.  Nhận dạng so sánh khớp mẫu: Tín hiệu tiếng nói sau khi đƣợc xữ lý và rút trích đặc trƣng có thể là tín hiệu cần nhận dạng. Nó đƣợc đem so sánh với mẫu bằng các phƣơng pháp nhận dạng tiếng nói. Nếu nhƣ tín hiệu đó so khớp nhất ứng với một lớp tín hiệu nào đó thì hệ thống nhận dạng xác định tín hiệu đó thuộc vào nhóm tín hiệu nào đó với một tỉ lệ nhất định.  Kết quả: tín hiệu đầu ra sẽ phục vụ cho các ứng dụng, tùy ứng dụng mà kết quả đầu ra sẻ khác nhau. Các mô hình nhận dạng tiếng nói phổ biến: Mô hình Markov - ẩn (Hidden Markov Model – HMM)  Mô hình Markov ẩn (Hidden Markov Model - HMM) là mô hình thống kê trong đó hệ thống đƣợc mô hình hóa đƣợc cho là một quá trình Markov với các tham số không biết trƣớc và nhiệm vụ là xác định các tham số ẩn từ các tham số quan sát đƣợc, dựa trên sự thừa nhận này. Các tham số của mô hình đƣợc rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp. [...]... Phân loại nhận dạng tiếng nói  Nhận dạng theo các từ hay các âm rời rạc  Nhận dạng tiếng nói độc lập hay phụ thuộc vào ngƣời nói  Nhận dạng với từ điển cỡ vừa, nhỏ hay cỡ lớn  Nhận dạng với môi trƣờng nhiễu cao hay thấp 11 3 Những khó khăn  Tốc độ nói của ngƣời khác nhau, có ngƣời nói nhanh có ngƣời nói chậm  Độ dài ngắn của âm khác nhau  Kết quả phân tích ở hai lần đối với một ngƣời nói khác... dụng, viết tin nhắn bằng tiếng nói 12 Chương II – XỮ LÝ VÀ RÚT TRÍCH ĐẶC TRƯNG TIẾNG NÓI I Quá trình xữ lý và lấy mẫu 1 Mô hình tổng quan Trong xử lý tín hiệu, lấy mẫu là chuyển đổi một tín hiệu liên tục thành một tín hiệu rời rạc Mặc dù có sự tự do trong việc lựa chọn thứ tự các mẫu tính hiệu đƣợc tạo ra từ những tín hiệu tƣơng tự Nhƣng ở đây tôi xin đƣa ra mô hình xử lý và lấy mẫu tối ƣu nhất, các... với đƣờng bao phổ âm, với tiếng nói vô thanh, mô hình LPC tỏ ra ít hữu hiệu hơn so với hữu thanh, nhƣng nó vẫn là mô hình hữu ích 29 cho các mục đích nhận dạng tiếng nói Mô hình LPC đơn giản và dễ cài đặt trên phần cứng lẫn phần mềm Nhận xét Rút trích đặc trƣng một gia đoạn quan trọng, với các đặc trƣng thu đƣợc sau quá trình xữ lý thì sẽ đƣợc dùng vào quá trình học hay nhận dạng sau này Vì vậy đòi hỏi... dụng nhiều nhất trong lĩnh vực xữ lý tiếng nói Bởi lẽ nó cung cấp công cụ dò tìm một cách đúng đắn và tốc độ tính toán nhanh Nguồn gốc cơ bản của phƣơng pháp này là các mẫu tín hiệu tiếng nói đƣợc xấp xỉ hóa nhƣ là tổ hợp tuyến tính của một số mẫu trong quá khứ Nguyên lý cơ bản của LPC liên hệ mật thiết với mô hình tổng hợp tiếng nói, trong đó chỉ ra rằng tín hiệu tiếng nói có thể đƣợc coi nhƣ là kết... đầu và cuối của tín hiệu dựa tỷ lệ điểm qua zero và âm lƣợng, và giữ lại các khung tín hiệu có tiếng nói để phân tích về sau 2 Lấy cửa sổ Bƣớc tiếp theo trong xử lý là lấy cửa sổ tín hiệu ứng với mỗi khung để giảm thiểu sự gián đoạn tín hiệu ở đầu và cuối mỗi khung Gọi mẫu thứ n của khung thứ l là lhn , w(n) là hàm cửa sổ: lĥn = lhn w(n) n ∈ {0,1,…, N-1} Các dạng cửa sổ tín hiệu: 16 Trong xử lý tín... là độ cảm nhận sự rung động của tần số của âm thanh trong một khoảng thời gian Âm nào cũng có một cao độ nhất định, độ trầm bổng phụ thuộc vào tần số giao động và đối với tiếng nói thì tần số dao động của dây thanh quy định quyết định độ cao của giọng nói con ngƣời Và mỗi ngƣời có một độ cao giọng nói khác nhau  Âm nhấn là độ cảm nhận cường độ rung động của âm thanh qua một khoảng thời gian và cao độ... thu III Ứng dụng  Điểu khiển giao tiếp không dây: chẳng hạn hệ thống máy tính nhận lệnh điều khiển bằng tiếng nói của con ngƣời nhƣ: “chạy chƣơng trình”, “tắt máy”… Các hệ thống thông minh nhận lệnh trực tiếp của con ngƣời thông qua tiếng nói  Đọc chính tả: đƣợc sử dụng nhiều nhất trong các hệ nhận dạng Nhập liệu bằng tiếng nói thay vì bằng cách thủ công là ngồi đánh máy  Điện thoại liên lạc: một số... truyền đi Bên thu nhận tín hiệu sẽ giải mã và thu đƣợc tín hiệu tƣơng tự 13 II Rút trích đặc trưng Để cho việc nhận dạng tiếng nói dễ dàng hơn và giảm chi phí thì việc rút trích đặc trƣng tín hiệu là một phần vô cùng quan trọng Tín hiệu thô ban đầu có dung lƣợng rất lớn, và độ phức tạp cao Việc rút trích các đặc trƣng từ tín hiệu đó sẽ giúp cho khâu so sánh khớp mẫu dễ dàng hơn, và tạo ra độ chính... quan Phân tích LPC Ma trận vector đặc trưng Phân tích Cepstral Hình 2 15 Sơ đồ xử lý LPC dùng cho trích đặc trưng tiếng nói Hình xx trình bày quá trình xử lý LPC để rút trích đặc trƣng tiếng nói Các bƣớc tiến hành cơ bản sau: Phân tích tương quan: Mỗi khung sau khi đƣợc lấy cửa sổ sẽ đƣợc đƣa qua bƣớc phân tích tự tƣơng quan và cho ra (p + 1) hệ số tự tƣơng quan 27 𝑁−𝑚 −1 𝑅 𝑘 = 1≤ 𝑖≤ 𝑝 0≤ 𝑘≤ 𝑝 𝑠𝑛 𝑚 −... sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham số duy nhất Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất phân bổ trên các biểu hiện đầu ra có thể Vì vậy, nhìn vào dãy của các biểu hiện đƣợc sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái Mô hình mạng Neural (sẽ đƣợc trình bày kỹ ở chƣơng III) 10 II Các tính chất đặc trưng của nhận dạng tiếng nói 1 Tiếng nói . loại nhận dạng tiếng nói  Nhận dạng theo các từ hay các âm rời rạc.  Nhận dạng tiếng nói độc lập hay phụ thuộc vào ngƣời nói.  Nhận dạng với từ điển cỡ vừa, nhỏ hay cỡ lớn.  Nhận dạng. trưng của nhận dạng tiếng nói 11 1. Tiếng nói con ngƣời 11 2. Phân loại nhận dạng tiếng nói 11 3. Những khó khăn 12 III. Ứng dụng 12 Chƣơng II – XỮ LÝ VÀ RÚT TRÍCH ĐẶC TRƢNG TIẾNG NÓI 13 I cái nhìn tổng quan về tín hiệu tiếng nói và nhận dạng tiếng nói. CHƢƠNG II: Xữ lý và rút trích đặc trƣng. Giới thiệu các bộ lọc cơ bản cho xử lý tín hiệu, mô hình và các phƣơng pháp rút trích

Ngày đăng: 17/07/2015, 12:45

Xem thêm