BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIÊN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG TIỂU LUẬN: XỬ LÝ ẢNH ĐỀ TÀI: NHÂN TRẮC HỌC GIỌNG NĨI GIÁO VIÊN: Lê Hồng Thái SINH VIÊN: Đặng Văn Phương MSSV: N18DCCN157 LỚP: D18CQCN01 I Giới thiệu: Trong giao tiếp người với người, tiếng nói phương pháp trao đổi thơng tin tự nhiên hiệu Mục tiêu kỹ thuật nhận dạng tiếng nói theo nghĩa rộng tạo máy có khả nhận biết thơng tin tiếng nói hành động theo tiếng nói Nhận dạng tiếng nói phần q trình tìm kiếm thơng tin để máy “nghe”, “hiểu” “hành động” theo thơng tin đồng thời “nói lại” để hồn tất việc trao đổi thơng tin Cho đến nay, vấn đề giao tiếp người máy tính cải thiện nhiều chủ yếu cịn thủ cơng thơng qua thiết bị nhập, xuất Giao tiếp với thiết bị máy tiếng nói phương thức giao tiếp văn minh tự nhiên Dấu ấn giao tiếp người - máy mà thay vào cảm nhận giao tiếp người với người, hoàn thiện phương thức giao tiếp tiện lợi hiệu công việc II Ứng dụng Do tính phổ biến tín hiệu giọng nói, phạm vi ứng dụng sinh trắc học giọng nói rộng so với đặc điểm sinh trắc học khác Chúng ta phân biệt ba loại ứng dụng tận dụng lợi thơng tin sinh trắc học có tín hiệu giọng nói: Xác thực giọng nói (kiểm sốt truy cập, thường điều khiển từ xa qua điện thoại) nhận dạng mặt đất (kiểm tra giọng nói tự nhiên) • Phát loa (ví dụ: phát danh sách đen trung tâm gọi nghe giám sát) • Nhận dạng người nói pháp y (sử dụng giọng nói làm chứng tịa án tình báo điều tra cảnh sát) III Tạo ngơn ngữ sản xuất giọng nói • Ngơn ngữ chủ đề nghiên cứu nhiều năm lĩnh vực tâm lý học Khi thông điệp mã hóa não người, q trình sinh lý phức tạp (proce iological articulatory) thực để cuối tạo phát biểu dạng sóng (giọng nói) chứa thơng điệp ngơn ngữ (cũng nhiều nguồn thơng tin khác, số danh tính người nói) mã hóa dạng kết hợp đặc tính thời gian-quang phổ Hệ thống nhận dạng tiếng nói Về mặt tổng quát, hệ thống nhận dạng thường bao gồm hai phần huấn luyện (training) nhận dạng (recognition) thể hình Trong “Rút trích đặc trưng” trình đưa đặc trưng thích hợp cho nhận dạng “Huấn luyện” trình hệ thống “học” “lưu trữ” mẫu chuẩn cung cấp, từ hình thành từ vựng hệ thống Và trình “nhận dạng” định xem mẫu đưa vào vào từ vựng huấn luyện Tiếng nói sau thu từ micro lấy mẫu tín hiệu, mẫu tín hiệu thường biểu diễn dạng sóng Hình mơ tả sóng âm số từ đến mười Đối với tín hiệu âm thanh, mẫu lấy theo chu kỳ thời gian, công thức lấy mẫu xác định công thức: Xs (t) x(t)δ (t nT) Tiền xử lý Tìn hiệu sau lấy xong thơng qua lọc tín hiệu Bộ lọc tín hiệu bao gồm khử nhiễu, khơi phục tín hiệu biến dạng, dị tìm điểm cuối để xác định đâu tiếng ồn, đâu tiếng nói khoảng lặng hai tiếng nói Một ví dụ phương pháp dị tìm điểm cuối mơ tả hình 3 Rút trích đặc trưng Sau q trình tiền xử lý có mẫu tiếng nói khử nhiễu Phần trích đặc trưng đưa vector đặc trưng cho mơ hình cần nhận dạng Có nhiều phương pháp trích đặc trưng khác Wavelets, LPC, MFCC… Chúng tơi chọn phương pháp trích đặc trưng MFCC (Thang tần số Mel) tốc độ tính tốn cao, độ tin cậy lớn sử dụng hiệu chương trình nhận dạng tiếng nói giới Phương pháp rút trích đặc trưng MFCC mơ tả hình Trong mơ hình ta có bốn bước để rút trích đặc trưng như: làm rõ tín hiệu, phân khung, lấy cửa sổ phân tích đặc trưng Chi tiết bước trình bày theo mục sau 3.1 Làm rõ tín hiệu Bước mục đích làm tăng tín hiệu rõ đặc trưng tín hiệu giúp nâng cao mức độ nhạy cảm Bộ làm rõ tín hiệu có phương trình sai phân sau: 3.2 Phân khung Trong bước này, tín hiệu chia thành khung, khung gồm N mẫu, khoảng cách khung M mẫu Hình minh họa cách phân thành khung với M = 12N Nếu ta ký hiệu khung thứ i xi(n) có tất L khung tín hiệu tiếng nói thì: 3.3 Lấy cửa sổ Bước xử lý lấy cửa sổ tín hiệu ứng với khung để giảm thiểu gián đoạn tín hiệu đầu cuối khung Dãy tín hiệu lấy từ tín hiệu dài dài vơ hạn x(n) gọi cửa sổ tín hiệu Q trình quan sát tín hiệu x(n) đoạn x(N(n)) khoảng n0… (n0 + N – 1) tương đương với việc nhân x(n) với hàm cửa sổ w(n-n0) sau: Trong nhận dạng tiếng nói, hàm cửa sổ thường hay dùng Hamming, có dạng cơng thức: Tín hiệu cửa sổ Hamming biểu diễn hình 3.4 Trích chọn đặc trưng Bước cuối trích chọn đặc trưng MFCC bao gồm thực biến đổi Furier ngược dựa độ lớn logarit ngõ lọc Sau tín hiệu tiếng nói trích đặc trưng từ đặc trưng ma trận hệ số thực Dựa theo công thức, định nghĩa vector đặc trưng bao gồm 10 thành phần sau: đó: - ft tần số khung tín hiệu t - ft+1 tần số khung tín hiệu t+1 - et lượng khung tín hiệu t - emax lượng cực đại phần hữu (không phải nhiễu) - d số khung phần hữu - fmax tần số cực đại vùng hữu - fmin tần số cực tiểu vùng hữu - fst tần số khung vùng hữu - fed tần số khung cuối vùng hữu Do mơ hình HMM rời rạc ứng dụng để nhận dạng nên vector đặc trưng phải ước lượng vector thành số codebook rời rạc Phương pháp sử dụng để ước lượng vector phương pháp K-means IV Cơ sở liệu điểm chuẩn Một sở liệu thiết kế đặc biệt cho phụ thuộc vào văn nghiên cứu nhận dạng loa YOH() Nó bao gồm 96 lời nói cho cuộn thu thập phiên khác 40 câu nói để kiểm tra thu thập 10 phiên cho phiên tổng số 138 diễn giả Đây có lẽ điểm chuẩn mở rộng tiếng cho cßmparison thường xuyên sử dụng hệ thống phụ thuộc vào văn Tuy nhiên, sở liệu YOH() có số hạn chế Đối với instancf, chứa lời nói ghi lại lỗi micrơ gle mơi trường n tĩnh không thiết kế để mô giả mạo thông báo (tức kẻ mạo danh mật người dùng) Thêm gần đây, Mit Mobile Device Speaker Verification Corpus được thiết kế phép nghiên cứu xác minh người nói phụ thuộc vào văn thực tế điều kiện ồn ào, BIOSEC Baseline Corpus thiết kế để mơ giả mạo có thơng tin (bao gồm tài liệu song ngữ số phương thức sinh trắc học bên cạnh giọng nói) V Kết luận Nhân trắc học giọng nói quan tâm phát triển mạnh nhằm mang lại nhiều ứng dụng sống Mặc dù gặp nhiều khó khăn vấn đề phát triển thiết bị công nghệ liên quan đến giọng nói, thành tự nhỏ cho thấy tiện lợi, hữu ích thiết bị liên quan đến nhận dạng giọng nói Dự định tương lai thay kỹ thuật sinh trắc học khác ... hiệu giọng nói, phạm vi ứng dụng sinh trắc học giọng nói rộng so với đặc điểm sinh trắc học khác Chúng ta phân biệt ba loại ứng dụng tận dụng lợi thơng tin sinh trắc học có tín hiệu giọng nói: ... Nhận dạng người nói pháp y (sử dụng giọng nói làm chứng tịa án tình báo điều tra cảnh sát) III Tạo ngơn ngữ sản xuất giọng nói • Ngơn ngữ chủ đề nghiên cứu nhiều năm lĩnh vực tâm lý học Khi thông... tiếng nói phương pháp trao đổi thơng tin tự nhiên hiệu Mục tiêu kỹ thuật nhận dạng tiếng nói theo nghĩa rộng tạo máy có khả nhận biết thơng tin tiếng nói hành động theo tiếng nói Nhận dạng tiếng nói