1. Trang chủ
  2. » Giáo Dục - Đào Tạo

NHẬN DẠNG GIỌNG NÓI SỬ DỤNG THUẬT TOÁN MFCC

15 35 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 15
Dung lượng 430,47 KB

Nội dung

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA ĐIỆN TỬ - BÁO CÁO BÀI TẬP MƠN HỌC TÊN ĐỀ TÀI Nhóm NHẬN DẠNG GIỌNG NĨI SỬ DỤNG THUẬT TỐN MFCC GVHD: TS Nguyễn Thị Thu Sinh viên: Lê Hoàng Hiệp Lê Hải Vũ Đình Long Trịnh Cơng Thắng Kỹ Thuật Máy Tính Ngơ Xn Lượng Hà Nội – Năm 2020 MỤC LỤC CHƯƠNG I: GIỚI THIỆU VỀ NHẬN DẠNG GIỌNG NÓI Nguồn gốc âm 2 Nguyên tắc nhận dạng giọng nói .2 CHƯƠNG II: MƠ HÌNH MẠNG, NGUN LÍ VÀ THUẬT TỐN 2.1 Mơ hình hệ thống nhận dạng giọng nói 2.2 Nguyên lí hoạt động 2.2.1 Thu âm / Lấy mẫu (Record / Sampling) 2.2.2 Frame Blocking 2.2.3 Word detection .7 2.2.4 Windowing 11 2.2.5 Fast Fourier Transfrom (FFT) .12 2.2.6 Mel – frequency Wrapping 13 2.2.7 Cepstrum 15 2.3 Huấn luyện nhận dạng 17 2.3.1 Khoảng cách Euclid 18 2.3.2 Thuật toán LBG ( Linde-Buzo-Gray algorithm) 18 CHƯƠNG III: ƯU, NHƯỢC ĐIỂM VÀ ỨNG DỤNG 20 3.1 Ưu , nhược điểm thuật toán 20 3.1.1 Ưu điểm : 20 3.1.2 Nhược điểm : 20 3.2 Ứng dụng nhận diện giọng nói thành viên nhóm 20 3.2.1 Dữ liệu 20 3.2.2 Xử lý 21 3.2.3 Lượng tử hóa vector .21 3.2.4 Mô .21 DANH MỤC HÌNH ẢNH Hình Cấu trúc hệ thống nhận dạng giọng nói Hình Sơ đồ khối trình tách đặc trưng nhận giọng nói Hình Một ví dụ tín hiệu tiếng nói Hình Năng lượng âm .8 Hình Lưu đồ giải thuật tách từ lượng .9 Hình Một ví dụ từ tách ESS 10 MỞ ĐẦU Nhận diện giọng nói q trình tự động nhận nói sở thơng tin có sóng nói Kỹ thuật cho phép sử dụng giọng nói người nói để xác minh danh tính họ kiếm soát quyền truy cập vào dịch vụ quay số giọng nói, ngân hàng qua điện thoại, mua sắm điện thoại, dịch vụ truy cập sở liệu, dịch vụ thông tin, thư thoại, kiểm sốt an ninh cho khu vực thơng tin bí mật truy cập từ xa vào máy tính Hệ thống nhận dạng tiếng nói có ứng dụng tuyệt vời tất lĩnh vực đời sống , áp dụng thành công , cách mạng lớn giao tiếp người máy , phát triển trí tuệ nhân tạo AI , ứng dụng bao trùm nhiều lĩnh vực công nghiệp , đời sống , giải trí … Những ứng dụng thực tiễn mà hệ thống mang lại vô to lớn máy tính người khơng cần bàn phím, hệ thống điều khiển khơng cần bảng điều khiển phức tạp, máy điện thoại khơng cịn cần đến bàn quay số… Phía trước tài xế xe có vi mạch tự động trả lời hỏi hướng nhà người có lịch biết nhắc việc chưa làm bạn lên tiếng hỏi xem bước đột phá tất lĩnh vực sống nhân loại Dữ liệu mô tả cách xây dựng hệ thống nhận dạng giọng nói tự động đơn giản đầy đủ tiêu biểu Một hệ thống nhận dạng giọng nói ứng dụng thứ Ví dụ ứng dụng bảo mật: người dùng phải nói mã PIN (Personal Identification Number – Số nhận dạng cá nhân) để có quyền truy cập vào cửa phịng người dùng phải nói số thẻ hộ qua đường dây điện thoại để xác minh danh tính họ Bằng cách kiểm tra đặc điểm giọng nói cách phát âm đầu vào, sử dụng hệ thống nhận dạng giọng nói tương tự hệ thống đề tài mô tả CHƯƠNG I: GIỚI THIỆU VỀ NHẬN DẠNG GIỌNG NÓI Nguồn gốc âm Âm vật thể dao động học mà phát Âm phát dạng sóng âm Sóng âm biến đổi tính chất môi trường đàn hồi lượng âm truyền qua Âm truyền đến tai người mơi trường dẫn âm Sóng âm truyền chất rắn, chất lỏng, khơng khí Có chất dẫn âm gọi chất hút âm như: len, da, xốp, Sóng âm khơng thể truyền mơi trường chân khơng Khi kích thích dao động âm mối trường khơng khí lớp khí bị nén dãn Trạng thái nén dãn lan truyền từ nguồn âm dạng sóng dọc tới nơi thu âm Nếu cường độ nguồn lớn âm truyền xa Nguyên tắc nhận dạng giọng nói Nhận dạng giọng nói phân loại thành nhận dạng xác minh Nhận dạng người nói q trình xác định người đăng ký cung cấp liệu nói định Mặt khác, xác minh người nói q trình chấp nhận từ chối yêu cầu nhận dạng người nói Hình cho thấy cấu trúc hệ thống xác minh nhận biết giọng nói Hệ thống mà ta mô tả phân loại hệ thống nhận dạng người nói độc lập văn nhiệm vụ xác định người nói điều nói Tất hệ thống nhận dạng giọng nói chứa hai mơ-đun (Hình 1) trích chọn đặc trưng đối sánh đặc trưng Trích xuất đặc trưng q trình trích xuất lượng nhỏ liệu từ tín hiệu thoại mà sau sử dụng để diễn tả cho người Đối sánh đặc trưng bao gồm quy trình thực tế để xác định người nói chưa biết cách so sánh với tính trích xuất từ đầu vào giọng nói người với người nói từ nhóm liệu biết CHƯƠNG II: MƠ HÌNH MẠNG, NGUN LÍ VÀ THUẬT TỐN 2.1 Mơ hình hệ thống nhận dạng giọng nói Hệ thống nhận dạng giọng nói phân loại thành loại nhận dạng (Speaker Identification ) xác nhận ( Speaker Verification ) – Hệ thống nhận dạng ( Speaker Identification ): hệ thống đưa định người số người huấn luyện hệ thống giao tiếp với hệ thống – Hệ thống xác nhận ( Speaker Verification ): hệ thống chấp nhận/bác bỏ người Quyết định người vừa giao tiếp với hệ thống có nằm người đăng ký hay không Nhận dạng giọng nói phân loại thành nhận dạng xác minh Nhận dạng người nói (phần huấn luyện) trình xác định người đăng ký cung cấp liệu nói định Mặt khác, xác minh người nói (phần nhận dạng) q trình chấp nhận từ chối yêu cầu nhận dạng người nói Hình cho thấy cấu trúc hệ thống xác minh nhận biết giọng nói Hệ thống mà ta mô tả phân loại hệ thống nhận dạng người nói độc lập văn nhiệm vụ xác định người nói điều nói Tất hệ thống nhận dạng giọng nói chứa mơ-đun (Hình 1) Trích xuất đặc trưng q trình trích xuất lượng nhỏ liệu từ tín hiệu thoại mà sau sử dụng để diễn tả cho người Đối sánh đặc trưng bao gồm quy trình thực tế để xác định người nói chưa biết cách so sánh với tính trích xuất từ đầu vào giọng nói người với người nói từ nhóm liệu biết Điểm giống Giọng nói Trích chọn đặc trưng Mơ hình tham chiếu (Speaker #1) Lựa chọn tối đa Điểm giống Kết nhận dạng (Speak ID) Mơ hình tham chiếu (Speaker #N) a) Nhận dạng giọng nói Giọng nói Speaker (#M) Trích chọn đặc trưng Điểm giống Mơ hình tham chiếu (Speaker #N) Quyết định Ngưỡng b) Xác minh giọng nói Hình Cấu trúc hệ thống nhận dạng giọng nói Kết xác minh 2.2 Nguyên lí hoạt động Record FFT Frame blocking Windowing Mel-frequency wrapping World delection DCT Hình Sơ đồ khối q trình tách đặc trưng nhận giọng nói 2.2.1 Thu âm / Lấy mẫu (Record / Sampling) Tai người thín với tín hiệu có tần số khoảng 100Hz – 5Khz, thơng thường với tín hiệu âm thanh, khu vực phổ chiếm phần lớn lượng âm phát Để có lượng chủ yếu tiếng nói người, hệ thống lấy mẫu âm tốc độ 12Khz, tín hiệu thu mang tần số lên đến 6Khz Để phân tích tín hiệu giọng nói tương tự, phải số hóa để chuyển đổi thành tín hiệu thời gian riêng biệt Theo định lý Nyquist Shannon, tín hiệu x(t) tần số f(max) cần lấy mẫu tần số 2f(max) để thực tín hiệu xác tránh cưa Để có tín hiệu giá trị riêng biệt, giá trị lấy mẫu cần lượng tử hóa Bit Depth/Bit Resolution số bit sử dụng để lưu trữ mẫu âm Số lượng bit sử dụng phụ thuộc vào số lượng mức độ lượng tử hóa sử dụng trình chuyển đổi tương tự sang số Thơng thường hệ thống nhận dạng giọng nói mã hóa mẫu với 16 bit tùy thuộc vào khả xử lý có sẵn Ví dụ: Nếu tệp âm mã hóa bit có mức lượng tử hóa 256 (28) Tuy nhiên tệp mã hóa bit, có mức lượng tử hóa 512 (29) 2.2.2 Frame Blocking Trong bước này, tín hiệu giọng nói dạng liên tục theo ms, khó để giải nên người ta chia tín hiệu giọng nói thành khung (frames) Ưu điểm phân tích dựa Frame cải thiện hiệu hệ thống cách phân tích nhóm mẫu (trong frame) trái ngược với phân tích mẫu riêng biệt Mỗi khung đè lên khung trước để đảm bảo chuyển tín hiệu mượt mà từ khung sang khung khác Lượng chồng chéo lý tưởng từ 50% - 70% Việc lựa chọn frame length, tức số lượng mẫu tạo thành frame vấn đề quan trọng Nếu chiều dài frame ngắn, khơng có để mẫu để có ước tính đáng tin cậy Nếu chiều dài frame dài, tín hiệu thay đổi nhiều frame Độ dài khung hình lý tưởng nằm khoảng 20ms – 40ms Khung thứ bao gồm mẫu Khung thứ hai bắt đầu mẫu sau khung chồng lên mẫu Q trình tiếp tục tồn tín hiệu giọng nói nằm nhiều khung Vì phân tích khoảng thời gian ngắn (short time spectral analysis) thường sử dụng phân tích tính chất tín hiệu tiếng nói Trong từ phát dài đến 1s, nên cần thiết phải chia tín hiệu thu thành frame nhỏ, frame có độ dài tương ứng 20ms – 40ms Để tránh thay đổi đột ngột frame, có lặp lại frame liên tiếp Ví dụ, frame có N mẫu; frame có N mẫu, có M ( M < N ) mẫu “mới”, lại N – M mẫu N - M mẫu cuối frame đầu tiên, trình tiếp diễn cho frame sau Thông thường chọn N = 128, 256, 512 … để thuận tiện cho việc tính FFT đằng sau Và chọn M ~ N/3 Số lượng mẫu điển hình cho frame length () overlap () 256 100 Tương ứng với khung 40ms cách 15ms, độ khung hình 66.7Hz Lựa chọn lượng mẫu khung – number frame () chọn 256 mang lại thỏa hiệp giữ độ phân giải tần số độ phân giản thời gian Kết dạng hai chiều (x,y) với x frame_length y number_of_frames Hình Một ví dụ tín hiệu tiếng nói Hình đồ thị khoảng thời gian dài Hình đồ thị khoảng thời gian ngắn 2.2.3 Word detection Để giảm khối lượng tính tốn, tăng độ xác, có tín hiệu tiếng nói thu xử lý Cơng việc gọi tách từ ( end – point detection ) Phương pháp phổ biến dùng để tách từ dùng lượng ( ESS – Energy of Speech Signal ) kết hợp với tỉ lệ điểm qua điểm Zero ( ZCR – Zero Crossing Rate ).Ngồi cịn có phương pháp khác Teager's Energy, dùng mạng huấn luyên Neural Vì đơn giản tính phổ biến phương pháp ESS nên chọn để tách từ Phương pháp ESS dựa quan điểm cho có tiếng nói, lượng thu lớn nhiều so với im lặng Từ việc xác định liệu có tồn tiếng nói thu hay khơng dựa vào lượng tín hiệu thu ( length of frame ) E( n)= ∑ ¿(n+i) i=1 Hình biểu thị lượng âm âm “Một” Hình Năng lượng âm Thuật tốn để lựa tách từ dựa ESS miêu tả sau : (1) F E(n) > ITL T Save as start Of Speech, say s E(n) < ITL F E(n) > ITU F S become start of speech F E(n) < ITL T Save as end of the speech Hình Lưu đồ giải thuật tách từ lượng Trong đó, số ITL ITU xác định sau: • Thu lại âm lớn nhất, tính IMX = max( E(n) ) • Ghi nhận giá trị E(n) lúc im lặng, lúc có nhiễu, tính IMN = min( E(n) ) • Tính I1 = 0.03*( IMX – IMN ) + IMN [ 3% lượng khoảng dao động] I2 = 4* IMX [ lần lượng nhỏ ] • Tính ngưỡng lượng ITL ITU • ITL = ( I1, I2 ); ITU = 5* ITL Với giải thuật trên, ta có kết sau: Hình Một ví dụ từ tách ESS 10 Từ hình vẽ, ta thấy kết thu chấp nhận Tín hiệu sau nhận biết có phải phát âm người nói hay khơng có dạng chuỗi frame, đưa vào phân tích phổ, trước lấy cửa sổ để giảm tác dụng cạnh việc lấy frame 11

Ngày đăng: 10/12/2021, 19:38

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w