BÁO CÁO:PHƯƠNG PHÁP NHẬN DẠNG NGƯỜI NÓI PHỤ THUỘC TỪ KHÓA TIẾNG VIỆT VÀ XÂY DỰNG CHƯƠNG TRÌNH ỨNG DỤNG NHẬN DẠNG NGƯỜI NÓI
TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT HƢNG YÊN KHOA CƠNG NGHỆ THƠNG TIN BÁO CÁO TĨM TẮT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƢỜNG PHƢƠNG PHÁP NHẬN DẠNG NGƢỜI NÓI PHỤ THUỘC TỪ KHÓA TIẾNG VIỆT VÀ XÂY DỰNG CHƢƠNG TRÌNH ỨNG DỤNG NHẬN DẠNG NGƢỜI NĨI Chủ nhiệm đề tài: CN Đào Thị Thu Diệp Hƣng Yên, tháng 10 năm 2012 DANH SÁCH NHỮNG THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI Họ tên Học hàm, học vị Đơn vị công tác Đào Thị Thu Diệp Cử nhân Khoa CNTT DANH SÁCH ĐƠN VỊ PHỐI HỢP Tên đơn vị Khoa CNTT Địa Trƣờng ĐHSPKT Hƣng Yên Điện thoại 03213767188 MỤC LỤC PHẦN I: MỞ ĐẦU TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI Ở TRONG VÀ NGOÀI NƢỚC 1.1 Thế giới 1.2 Trong nƣớc TÍNH CẤP THIẾT MỤC TIÊU CÁCH TIẾP CẬN CỦA ĐỀ TÀI ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU NỘI DUNG NGHIÊN CỨU 7 PHƢƠNG PHÁP NGHIÊN CỨU PHẦN II: CÁC KẾT QUẢ ĐẠT ĐƢỢC CHƢƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG NGƢỜI NÓI 1.1 Nhận dạng ngƣời nói 1.1.1 Phân loại tốn nhận dạng ngƣời nói 1.1.2 Ứng dụng nhận dạng ngƣời nói 1.2 Nhận dạng ngƣời nói phụ thuộc từ khóa 1.2.1 Các thành phần hệ thống nhận dạng ngƣời nói phụ thuộc từ khóa 1.2.2 Các giai đoạn xử lý hệ thống nhận dạng ngƣời nói phụ thuộc vào từ khóa 10 CHƢƠNG 2: TRÍCH CHỌN TÍN HIỆU TIẾNG NĨI 12 2.1 Trích chọn đặc trƣng MFCC 12 2.1.1 Sơ đồ khối q trình tính MFCC 12 2.1.2 Nhấn mạnh tín hiệu 12 2.1.3 Tạo khung tín hiệu 12 2.1.4 Làm khung cửa sổ 12 2.1.5 Biến đổi Fourier rời rạc 12 2.1.6 Lọc qua lọc mel-scale 13 2.1.7 Logarit biến đổi Fourier ngƣợc 13 2.1.8 DCT (Discrete Cosin Transform) 13 2.1.9 Chỉnh giá trị Cepstral 13 2.2 Toolbox Voicebox Matlab 13 CHƢƠNG 3: CÁC MÔ HÌNH ỨNG DỤNG XÁC THỰC NGƢỜI NĨI PHỤ THUỘC TỪ KHÓA 14 3.1 Lƣợng tử hóa vector 14 3.1.1.Khái niệm phép lƣợng tử hóa 14 3.1.2.Thiết kế codebook theo phƣơng pháp LBG 14 3.2 Mơ hình Markov ẩn 15 3.3 Mơ hình nhận dạng tiếng nói Markov ẩn 19 CHƢƠNG 4: CẤU HÌNH VÀ KẾT QUẢ THỰC NGHIỆM 20 4.1 Xây dựng hệ nhận dạng ngƣời nói 20 4.1.1 Cấu trúc tổng quát hệ thống 20 4.1.2 Trích chọn đặc trƣng MFCC 20 4.1.3 Mơ hình lƣợng tử hóa Vector 21 4.1.4 Mơ hình huấn luyện 21 4.1.5 Mơ hình nhận dạng 22 4.2 Dữ liệu tiếng nói 23 4.3 Tỷ lệ lỗi (Error rate) 23 4.4 Kết 23 PHẦN III: KẾT LUẬN VÀ KIẾN NGHỊ 26 Kết luận 26 Kiến nghị 26 DANH MỤC BIỂU ĐỒ HÌNH VẼ Hình 1.1 Các thành phần hệ thống nhận dạng người nói 10 Hình 1.2 Các giai đoạn hệ thống nhận dạng ng ười nói 10 Hình 2.1 Sơ đồ khối q trình trích chọn đặc trưng 12 Hình 3.1 Ví dụ VQ chiều 14 Hình 3.2 Ví dụ VQ chiều 14 Hình 3.3 Sơ đồ khối cấu trúc VQ huấn luyện phân lớp 15 Hình 3.4 Ví dụ mơ hình Markov ẩn với sáu trạng thái 17 Hình 3.5 Sơ đồ khối mơ hình nhận dạng Markov ẩn 18 Hình 3.6 Sơ đồ khối hệ thống nhận dạng tiếng nói 19 Hình 4.1 Cấu trúc tổng quát hệ thống 20 Hình 4.2 Lưu đồ trích đặc trưng 21 Hình 4.3 Lưu đồ lượng tử hóa vector 21 Hình 4.4 Giải thuật nhận dạng 23 Hình 4.5 Xử lý tín hiệu nhiễu 24 Hình 4.6 Q trình trích chọn đặc trưng 24 Hình 4.7 Cách thức tổ chức liệu 25 Hình 4.8 Giao diện chương trình ứng dụng 25 PHẦN I: MỞ ĐẦU TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI Ở TRONG VÀ NGOÀI NƢỚC 1.1 Thế giới Hiện giới có nhiều nghiên cứu thử nghiệm hệ thống nhận dạng tiếng nói đạt đƣợc thành tƣu nhƣ: Via Voice Mellennium (IBM), Via Voice Standard (IBM), CSLU (Center of Spoken Language Language Understanding), HTK Toolkit hệ thống đƣợc xây dựng để nhận dạng tiếng Anh, ngồi cịn có số hệ thống nhận dạng tiếng nói ngơn ngữ nhƣ: Trung Quốc, Ý, Đức… 1.2 Trong nƣớc Ở Việt Nam, có trung tâm lớn nghiên cứu lĩnh vực xử lý tiếng nói tiếng Việt là: Viện Cơng nghệ thông tin Trung tâm nghiên cứu quốc tế Thông tin đa phƣơng tiện, truyền thông ứng dụng (MICA) – Đại học Bách khoa Hà Nội Ngồi ra, cịn có luận án tiến sĩ, thạc sĩ liên quan đển vấn đề xử lý tiếng nói trƣờng Đại học nƣớc TÍNH CẤP THIẾT Vấn đề nghiên cứu phƣơng pháp nhận dạng tiếng nói thu hút nhiều đầu tƣ nghiên cứu nhà khoa học khắp giới Tuy nhiên kết mang lại chƣa hồn tồn làm hài lịng ngƣời nghiên cứu tính chất q phức tạp khơng cố định đối tƣợng nhận dạng tiếng nói ngƣời Đặc biệt, tiếng việt kết cịn nhiều hạn chế Đề tài nghiên cứu có tính thực tiễn chứng thực giao dịch giọng nói, điều khiển đăng nhập giọng nói việc xây dựng hệ thống tốn thẻ tín dụng qua điện thoại, đăng nhập vào hệ thống, giám định tƣ pháp tiếng nói… MỤC TIÊU - Nghiên cứu sở lý thuyết, toán nhận dạng ngƣời nói: Tìm hiểu kỹ thuật nhận dạng tiếng nói, tập trung vào hai phần kỹ thuật trích chọn đặc trƣng MFCC kỹ thuật nhận dạng sử dụng mơ hình Markov ẩn - Xây dựng thử nghiệm chƣơng trình nhận dạng ngƣời nói: cài đặt hệ thống nhận dạng tiếng nói tập số đếm tiếng Việt từ đến mơ hình Markov ẩn dựa phƣơng pháp trích chọn đặc trƣng MFCC CÁCH TIẾP CẬN CỦA ĐỀ TÀI Nghiên cứu cách xử lý tiếng nói, sở nhận dạng ngƣời nói, phƣơng pháp nhận dạng ngƣời nói phụ thuộc từ khóa Tiếng việt Cụ thể nhƣ sau: - Thu thập tập sở liệu ngƣời nói đƣa vào liệu huấn luyện - Xử lý tín hiệu tiếng nói đƣa trích chọn đặc trƣng ngƣời nói để nhận dạng ngƣời nói ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU - Đề tài xây dựng hệ thống thử nghiệm nhận dạng ngƣời nói phụ thuộc từ khóa tiếng việt với liệu đƣa vào dãy số ngẫu nhiên từ 0-9 - Số ngƣời nói đƣa vào thử nghiệm hệ thống từ 20-30 ngƣời NỘI DUNG NGHIÊN CỨU Xây dựng hệ thống nhận dạng ngƣời nói phụ thuộc từ khóa tiếng việt: - Tổng quan nhận dạng ngƣời nói - Trích chọn đặc trƣng ngƣời nói - Các mơ hình ứng dụng nhận dạng ngƣời nói phụ thuộc từ khóa - Cấu hình hệ thống kết thử nghiệm PHƢƠNG PHÁP NGHIÊN CỨU 7.1 Nhóm phƣơng pháp nghiên cứu lý thuyết A Phƣơng pháp đọc nghiên cứu tài liệu Nghiên cứu xử lý tiếng nói tiếng việt Tìm hiểu ngơn ngữ lập trình Matlab xử lý tiếng nói B Phƣơng pháp phân tích, tổng hợp Phƣơng pháp phân tích, tổng hợp lý thuyết đƣợc sử dụng việc nghiên cứu tài liệu cách tách phần, nội dung nhỏ để xem xét tổng hợp tất nội dung xây dựng nên đề cƣơng nghiên ứng dụng đƣợc đề xuất 7.2 Phƣơng pháp thực nghiệm Thiết kế, thử nghiệm số module: Module tiền xử lý tín hiệu Module trích chọn đặc trƣng Module mơ hình hóa ngƣời nói sử dụng mơ hình HMM Module nhận dạng ngƣời nói PHẦN II: CÁC KẾT QUẢ ĐẠT ĐƢỢC CHƢƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG NGƢỜI NÓI 1.1 Nhận dạng ngƣời nói 1.1.1 Phân loại tốn nhận dạng người nói 1.1.1.1 Phân loại dựa vào chức toán Phân loại dựa vào chức toán ngƣời ta chia toán nhận dạng ngƣời nói thành hai tốn: - Định danh ngƣời nói (speaker identification): kiểm tra xem ngƣời cần kiểm tra ai, khơng có hệ thống - Xác thực ngƣời nói (speaker verification): xác định xem ID ngƣời cần kiểm tra có xác ngƣời hay khơng? 1.1.1.2 Phân loại dựa theo phƣơng pháp Phân loại dựa theo phƣơng pháp ngƣời ta chia tốn nhận dạng ngƣời nói thành hai tốn: - Nhận dạng ngƣời nói phụ thuộc vào từ khố (text dependent speaker recognition): - Nhận dạng ngƣời nói khơng phụ thuộc vào từ khoá (text independent speaker recognition) 1.1.2 Ứng dụng tốn nhận dạng người nói - Chứng thực giao dịch - Điều khiển truy cập - Nhận dạng tội phạm - Hệ thống bán hàng gián tiếp 1.2 Nhận dạng ngƣời nói phụ thuộc từ khóa 1.2.1 Các thành phần hệ thống nhận dạng người nói phụ thuộc từ khóa Hình 1.1.Các thành phần hệ thống nhận dạng người nói Hình 1.1 cho ta thấy hệ thống nhận dạng ng ƣời nói phụ thuộc vào từ khóa gồm thành phần sau: - Trích chọn đặc trƣng: biến đổi từ giọng nói thơ thành đặc trƣng ngƣời nói - Xây dựng mơ hình ngƣời nói: huấn luyện ngƣời nói dựa vào phƣơng pháp cụ thể - Tính xác xuất: tính tốn xác xuất tiếng nói đƣa vào với mơ hình huấn luyện cho ngƣời - Tạo định: xác định đƣa định dựa vào việc tính xác xuất 1.2.2 Các giai đoạn xử lý hệ thống nhận dạng người nói phụ thuộc vào từ khóa Hình 1.2 Các giai đoạn hệ thống nhận dạng ng ười nói Hình 1.2 cho ta thấy q trình xử lý hệ thống nhận dạng ng ƣời nói phụ thuộc vào từ khóa gồm hai giai đoạn: Giai đoạn huấn luyện: 10 CHƢƠNG 2: TRÍCH CHỌN TÍN HIỆU TIẾNG NĨI - Có nhiều phƣơng pháp trích chọn đặc trƣng đƣợc sử dụng (FBA, MFCC, LPC, PLP ) Mỗi phƣơng pháp có ƣu điểm nhƣợc điểm riêng Hiện MFCC (Mel-scale Frequency Cepstral Coefficient) đƣợc sử dụng phổ biến Vì chúng tơi sử dụng MFCC làm đặc trƣng hệ nhận dạng đƣợc trình bày đề tài Nội dung chƣơng trình bày phƣơng pháp tính đặc trƣng MFCC toolbox VoiceBox Matlab dùng xử lí tiếng nói 2.1 Trích chọn đặc trƣng MFCC 2.1.1 Sơ đồ khối q trình tính MFCC Đối với phƣơng pháp MFCC, việc tính đặc trƣng có sơ đồ nhƣ sau: Hình 2.1 Sơ đồ khối trình trích chọn đặc trưng 2.1.2 Nhấn mạnh tín hiệu Hpre(z)=1+aprez-1 Trong apre hệ số nhấn mạnh, thƣờng có giá trị 0,9700002861 2.1.3 Tạo khung tín hiệu Tín hiệu thƣờng đƣợc chia thành khung kích thƣớc 20-30ms với vùng gối lên khoảng 10-15 ms 2.1.4 Làm khung cửa sổ s’n ={0.54 - 0.46cos )}sn Trong N số mẫu liệu (sample) cửa sổ 2.1.5 Biến đổi Fourier rời rạc 12 DFT (Discrete Fourier Transform) Tại bƣớc với khung tín hiệu, biến đổi Fourier đƣợc áp dụng để chuyển tín hiệu miền tần số Cơng việc tính tốn đƣợc thực thuật toán FFT (Fast Fourier Transform) 2.1.6 Lọc qua lọc mel-scale Mel(f ) = 2595 * log10(1 + f/700) 2.1.7 Logarit biến đổi Fourier ngược Logarit giá trị lƣợng (logarit of filter energies) Các giá trị lƣợng thu đƣợc kênh lọc đƣợc lấy logarit để “nén” giá trị vào miền giá trị hẹp 2.1.8 DCT (Discrete Cosin Transform) Biến đổi giá trị lƣợng thành hệ số tƣơng quan với hơn, hệ số đƣợc gọi hệ số cepstral Cj = ∑ Trong N số kênh lọc, mj giá trị logarit lƣợng mạch lọc thứ j, i bậc hệ số cepstral 2.1.9 Chỉnh giá trị Cepstral c’n = exp(n*k)cn Sau bƣớc hiệu chỉnh ta thu đƣợc giá trị MFCC 2.2 Toolbox Voicebox Matlab VoiceBox toolbox Matlab chuyên xử lí tiếng nói Mike Brookes phát triển VoiceBox yêu cầu Matlab phiên trở lên VoiceBox gồm hàm chia thành số nhóm chức sau: Xử lí file âm (đọc, ghi file wav số định dạng file âm khác) Tính tốn MFCC, chuyển đổi spectral - cepstral Chuyển đổi tần số (mel-scale, midi, ) Biến đổi Fourier, Fourier ngƣợc, Fourier thực Tính khoảng cách (sai lệch) vector dãy vector Loại trừ nhiễu tín hiệu tiếng nói Tuy nhiên chức quan trọng trích đặc trƣng tín hiệu tiếng nói, mà loại phổ biến LPC MFCC Hàm tính MFCC tín hiệu VoiceBox hàm melcepst: 13 CHƢƠNG 3: CÁC MƠ HÌNH ỨNG DỤNG XÁC THỰC NGƢỜI NĨI PHỤ THUỘC TỪ KHĨA 3.1 Lƣợng tử hóa vector 3.1.1.Khái niệm phép lượng tử hóa Lƣợng tử hóa xấp xỉ hóa Hình 3.1.Ví dụ VQ chiều Ở hình trên, số nhỏ -2 đƣợc xấp xỉ thành -3 Mọi số nằm -2 đƣợc xấp xỉ thành -1 Mọi số nằm đƣợc xấp xỉ thành Mọi số lớn đƣợc xấp xỉ thành Hình 3.2.Ví dụ VQ chiều Ở hình điểm nằm phân vùng đƣợc xấp xỉ điểm * nằm vùng 3.1.2.Thiết kế codebook theo phương pháp LBG 3.1.2.1 Vấn đề thiết kế Codebook: Để xây dựng codebook VQ tổ chức thuật tốn phân tích VQ, ta cần yếu tố sau: Một tập lớn vector phổ tập huấn luyện cho VQ Nếu kích thƣớc codebook VQ M= (codebook B bít) cần L>>M để tìm đƣợc M vector tối ƣu Thƣờng chọn L=10M Độ đo d cặp phổ để phân nhóm vector khâu huấn luyện hay phân lớp vector khâu đánh nhãn Phƣơng pháp xác định nhân để phân hoạch L vector phổ thành M nhóm 14 Phƣơng pháp phân lớp vector ngõ vào Một vector sau qua khâu phân lớp đƣợc đại diện nhãn(mã) Hình 3.3 Sơ đồ khối cấu trúc VQ huấn luyện phân lớp 3.1.2.2 Tập huấn luyện VQ: Trong đề tài này, tập huấn luyện cho VQ tất vector phổ sau qua khâu trích chọn đặc trƣng MFCC tất từ cần nhận dạng Mỗi vector phổ 24 hệ số MFCC Frame tiếng nói Các từ nói đƣợc ghi âm điều kiện phòng yên tĩnh 3.1.2.3 Thiết kế thuật toán LBG Thuật toán đƣợc tổng kết nhƣ sau: Chọn ngẫu nhiên M vector tập huấn luyện L làm tập từ mã codeword Tìm lân cận gần nhất: Với vector huấn luyện v, tìm codeword codebook có khoảng cách gần với vector (dựa vào độ đo méo) gán thuộc cell codeword Cập nhật nhân: với cell, cập nhật codeword sử dụng trọng tâm tất vector huấn luyện cell Đệ quy: lặp lại bƣớc đến sai số lƣợng tử nhỏ ngƣỡng giá trị cho phép 3.2 Mơ hình Markov ẩn 3.2.1 Mơ hình Markov ẩn Mơ hình Markov ẩn đƣợc mở rộng khái niệm từ mơ hình Markov cách trạng thái đƣợc gắn với hàm phát xạ quan sát (observation distribution) Ngồi q trình ngẫu nhiên chuyển 15 trạng thái, trạng thái cịn có trình ngẫu nhiên sinh quan sát Nhƣ Mơ hình Markov ẩn có q trình ngẫu nhiên kép, có q trình ngẫu nhiên không quan sát đƣợc Tập quan sát O đƣợc sinh dãy trạng thái S1, S2, , SN mơ hình mà dãy trạng thái khơng thấy đƣợc, lý mơ hình đƣợc gọi mơ hình Markov ẩn (hidden) Một mơ hình Markov ẩn đƣợc đặc trƣng thành phần sau : - N, số trạng thái (state) mơ hình Markov Các trạng thái thƣờng đƣợc ký hiệu S= {S1, S2, S3, } trạng thái mơ hình thời điểm t đƣợc kí hiệu qt - M, số ký hiệu quan sát (observation symbol), kích thƣớc bảng từ vựng mơ hình Các ký hiệu quan sát đƣợc biểu diễn V= {v1, v2, } - A = {aij}, xác suất chuyển trạng thái (state transition probability distribution) Trong aij xác suất để trạng thái j xuất thời điểm t+1 trạng thái i xuất thời điểm t { ∑ - B={bj(k)} xác suất phát xạ quan sát trạng thái (observation symbol probability distribution in state) bj(k) xác suất quan sát vk trạng thái j thời điểm t { distribution) ∑ xác xuất trạng thái khởi đầu (initial state xác xuất để trạng thái I đƣợc chọn thời điểm t=1 16 { ∑ Với gía trị thích hợp A,B, ,M,N mơ hình Markov ẩn đƣợc dùng để sinh dãy quan sát: O= {O1, O2, O3, } Trong Oi lấy giá trị V Hoạt động HMM đƣợc mô tả nhƣ sau: Chọn trạng thái khởi đầu q1 tƣơng ứng với xác suất trạng thái khởi đầu - Gán t=1 - Chọn Oi = vk tƣơng ứng với xác suất quan sát trạng thái Si: bi(k) - Chuyển sang trạng thái qt+1 = Sj tƣơng ứng với xác suất chuyển trạng thái aij - Gán t=t+1 quay lại lại bƣớc 3) t