Tóm tắt luận án Tiến sĩ Kỹ thuật: Nghiên cứu kỹ thuật nhận dạng người nói dựa trên từ khoá tiếng Việt

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	19
Dung lượng	488,56 KB

Nội dung

Mục tiêu nghiên cứu của luận án là nghiên cứu các kỹ thuật nhận dạng người nói nhằm giải quyết các vấn đề liên quan tới nhận dạng người nói tiếng Việt ứng dụng trong giám định pháp lý tại Việt Nam. Các kỹ thuật nhận dạng người nói liên quan tới tiếng Việt, đánh giá khả năng nhận dạng người nói của các đơn vị ngữ âm tiếng Việt; xây dựng và hoàn thiện một quy trình giám định pháp lý nhận dạng người nói tiếng Việt phục vụ công tác điều tra và xét xử tội phạm tại Việt Nam.

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI _ _ Ngô Minh Dũng NGHIÊN CỨU KỸ THUẬT NHẬN DẠNG NGƯỜI NÓI DỰA TRÊN TỪ KHÓA TIẾNG VIỆT Chuyên ngành : Công nghệ phần mềm : 62.48.10.01 Mã số Tóm tắt LUẬN ÁN TIẾN SỸ KỸ THUẬT HÀ NỘI - 2010 Cơng trình hồn thành trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: PGS TS Đặng Văn Chuyết PGS TS Vũ Kim Bảng Phản biện 1: PGS TS Nguyễn Quang Hoan Phản biện : GS TS Nguyễn Văn Khang Phản biện 3: PGS TS Ngô Quốc Tạo Luận án bảo vệ trước Hội đồng chấm luận án cấp trường Trường Đại học Bách khoa Hà Nội Vào hồi 14 , ngày 15 tháng năm 2010 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia - Thư viện trường Đại học Bách khoa Hà Nội DANH MỤC CƠNG TRÌNH KHOA HỌC LIÊN QUAN ĐÃ CƠNG BỐ CỦA TÁC GIẢ Ngơ Minh Dũng, Đặng Văn Chuyết (2004) , Khảo sát tính ổn định số đặc trưng ngữ âm nhận dạng người nói - Bưu viễn thơng, Chun san Các cơng trình nghiên cứu, triển khai viễn thơng cơng nghệ thông tin, số12, 2004, Tr: 70-74 Ngô Minh Dũng, Đặng Văn Chuyết (2006) , Khả phân biệt người nói âm tiết tiếng Việt , Tuyển tập báo cáo khoa học, Phân ban Công nghệ thông tin, Hội nghị khoa học lần thứ 20 ĐHBKHN, Nhà xuất Bách khoa Hà nội, 10/2006 Tr: 135-141 Ngô Minh Dũng, Đặng Văn Chuyết (2007) , Xây dựng khảo sát độ dài từ khóa nhận dạng người nói phụ thuộc từ khóa tiếng Việt theo mơ hình Markov ẩn , Tạp chí bưu viễn thơng cơng nghệ thơng tin, Chun san: Các cơng trình nghiên cứu khoa học, nghiên cứu triển khai Công nghệ thông tin truyền thông, số 18 10/2007 Tr: 93-99 Ngo Minh Dung, Dang Van Chuyet (2007) , Mean spectrum of many speakers for robust speaker recognition , Proceeding of the 2nd Asia Pacific International conference on information science and technology, Hanoi, 12/2007, pp 139 – 145 1 A THƠNG TIN CHUNG CỦA LUẬN ÁN Tính cấp thiết đề tài Tiếng nói phương tiện trao đổi thông tin phổ biến người Nhận dạng người từ giọng nói hay nhận dạng người nói (speaker recognition) với nhận dạng tiếng nói (speech recognition) lĩnh vực nhận dạng liên quan đến xử lý tiếng nói quan tâm nghiên cứu Tiếng nói, ngồi thơng tin ngữ nghĩa mà người nói muốn truyền đạt cho người nghe (những thơng tin ghi lại dạng chữ viết), chứa thơng tin khác phương ngữ, trạng thái tình cảm nói thơng tin riêng giọng nói Trong nhận dạng tiếng nói dựa thơng tin ngữ nghĩa nhận dạng người nói lại dựa vào thơng tin riêng giọng nói Các lĩnh vực ứng dụng nhận dạng người nói xác thực quyền truy cập vào hệ thống an ninh mật nói, giám sát người qua giọng nói hay tách tiếng nói người từ mơi trường nhiều người nói Ứng dụng xác thực người nói giao dịch sử dựng thẻ tín dụng hay giao tiếp điện tử hộp thư thoại có sử dụng kỹ thuật nhận dạng người nói để giúp nhận dạng tiếng nói có tham số nhận dạng thích hợp Ngồi ra, nhận dạng người nói có lĩnh vực ứng dụng quan trọng giám định pháp lý nhận dạng người nói (forensic speaker recognition) Ở nước ta nay, nhận dạng người nói bước đầu ứng dụng lĩnh vực giám định pháp lý nhận dạng người nói phục vụ cho công tác điều tra xét xử tội phạm Lĩnh vực giám định chủ yếu liên quan tới trình xác thực người nói mẫu tiếng nói ghi âm xong chưa biết nói (unknown speaker) mẫu tiếng nói người bị nghi vấn (suspect speakers) Đây lĩnh vực giám định pháp lý với nhiều vấn đề liên quan tới kỹ thuật nhận dạng người nói cần giải xây dựng nâng cao độ tin cậy kết luận giám định Cho đến trước năm 2004 chưa có cơng trình nghiên cứu vấn đề cho người nói tiếng Việt cơng bố Trước tình hình đó, luận án chọn vấn đề nhận dạng người nói tiếng Việt ứng dụng giám định pháp lý để nghiên cứu Mục tiêu nghiên cứu luận án Mục tiêu nghiên cứu luận án nghiên cứu kỹ thuật nhận dạng người nói nhằm giải vấn đề liên quan tới nhận dạng người nói tiếng Việt ứng dụng giám định pháp lý Việt Nam Các kỹ thuật nhận dạng người nói liên quan tới tiếng Việt nghiên cứu phạm vi ổn định số tham số tiếng nói người nói, lựa chọn đơn vị ngữ âm thích hợp để tiến hành so sánh nhận dạng người nói, hay đánh giá khả nhận dạng người nói đơn vị ngữ âm tiếng Việt… Tất nhằm tới mục đích cuối xây dựng hồn thiện quy trình giám định pháp lý nhận dạng người nói tiếng Việt phục vụ cơng tác điều tra xét xử tội phạm Việt Nam Đối tượng phạm vi nghiên cứu Để tiến hành nghiên cứu nhận dạng người nói tiếng Việt, đối tượng luận án chọn để nghiên cứu tiếng Việt người nói giọng Bắc Bộ có tham khảo thêm số người nói giọng Bắc Trung Bộ (Nghệ Tĩnh) để so sánh Xong kết nghiên cứu áp dụng thử nghiệm cho người nói giọng Nam Trung để đánh giá Tất nội dung nghiên cứu luận án giới hạn phạm vi điều kiện người nói trạng thái bình thường, vấn đề người nói cố tình cải trang hay giả giọng nói nằm ngồi phạm vi nghiên cứu luận án Ý nghĩa khoa học thực tiễn luận án Việc nghiên cứu kỹ thuật nhận dạng người nói tiếng Việt ứng dụng giám định pháp lý phạm vi ổn định số tham số tiếng nói người nói hay lựa chọn đơn vị ngữ âm thích hợp cho tiếng Việt nghiên cứu khả nhận dạng người nói đơn vị ngữ âm này… đóng góp vào tranh tổng thể nghiên cứu nhận dạng người nói nói chung, phục vụ cho ứng dụng khác nhận dạng người nói tiếng Việt Kết nghiên cứu luận án góp phần trực tiếp xây dựng, phát triển lĩnh vực giám định pháp lý nhận dạng người nói Việt Nam Điều có ý nghĩa thực tiễn to lớn công tác điều tra xét xử tội phạm liên quan tới người nói tiếng Việt, bối cảnh số vụ án có liên quan tới tiếng nói nước ta tăng nhanh năm qua tiếp tục tăng năm tới theo phát triển mạnh mẽ thiết bị thông tin viễn thông 2 Kết cấu luận án Nội dung luận án chia thành chương, 110 trang, bảng số liệu, 31 hình vẽ đồ thị, 49 tài liệu tham khảo 40 trang phụ lục B NỘI DUNG CHÍNH Chương 1: Tổng quan nhận dạng người nói 1.1 Cơ sở khoa học nhận dạng người nói Tiếng nói tự nhiên quan cấu âm người tạo Đặc tính riêng giọng nói người hay đặc tính riêng người nói tượng phức tạp hình thành từ yếu tố: cấu tạo giải phẫu sinh lý quan cấu âm người đặc điểm phát âm mà người học sống Một yếu tố đặc trưng cho cấu trúc vật lý quan cấu âm yếu tố đặc trưng cho hành vi hoạt động 1.2 Thơng tin đặc trưng giọng nói người Các thơng tin đặc trưng cho giọng nói người thể nhiều mức khác nhau, từ đặc trưng mức cao phong cách nói, cách sử dụng cú pháp hay từ vừng nói, đến đặc trưng mức thấp ngôn điệu, ngữ âm, mức thấp đặc trưng âm Các thông tin đặc trưng mức cao có ưu điểm bị ảnh hưởng nhiễu kênh truyền xong khó trích chọn tự động, mơ hình hóa phức tạp thường phải yêu cầu thời gian phát âm đủ lớn, thơng tin đặc trưng mức thấp ngược lại dễ bị tác động nhiễu kênh truyền xong trích chọn tự động dễ dàng hơn, mơ hình hóa đơn giản thường khơng u cầu nhiều thời gian phát âm 1.3 Các phương pháp nhận dạng người nói giới Có phương pháp nhận dạng người nói nay: - Nhận dạng người nói bằng quan thính giác người - Phương pháp thủ công : so sánh ảnh phổ hai mẫu tiếng nói để định xem liệu chúng có phải người nói khơng - Phương pháp tự động: nhận dạng người nói thực tự động dựa việc mơ hình hố tín hiệu tiếng nói cách trích chọn thơng tin đặc trưng người nói sử dụng thuật tốn máy tính phân lớp nhận dạng mơ hình người nói 1.4 Ngun lý làm việc hệ nhận dạng người nói Như hệ nhận dạng thông thường, cấu trúc hệ nhận dạng người nói bao gồm hai modul trích chọn đặc trưng phân lớp nhận dạng, modul phân lớp nhận dạng gồm hai thành phần đối sánh mẫu định nhận dạng Cơ sở liệu bao gồm mơ hình người nói tạo pha huấn luyện Trong pha nhận dạng, mẫu tiếng nói người chưa biết đối sánh với mơ hình người nói có sở liệu để định nhận dạng Hiện có nhiều phương pháp phân lớp nhận dạng người nói xong chủ yếu sử dụng mơ hình thống kê mơ hình Markov ẩn (HMM) hay mơ hình hỗn hợp Gauss (GMM) 1.5 Các nguyên nhân gây lỗi nhận dạng người nói - Tính khơng ổn định tiếng nói người theo sức khỏe thể chất tâm lý - Cải trang hay giả giọng cố tình làm thay đổi giọng nói - Các tác nhân kỹ thuật (được gọi chung nhiễu) làm tính trung thực tiếng nói Ngồi điều kiện ghi âm khác nguyên nhân gây lỗi nhận dạng người nói 1.6 Sơ lược tình hình nghiên cứu nhận dạng người nói 1.6.1 Nghiên cứu nhận dạng người nói phương pháp thủ cơng Đầu năm 60 kỷ trước, Lawrence Kersta lần thực nhận dạng người từ tiếng nói cách so sánh ảnh phổ ba chiều tiếng nói phòng thí nghiệm tiếng nói hãng Bell Telephone Về bản, nguyên tắc nhận dạng người nói phương pháp thủ cơng giữ nguyên 1.6.2 Nghiên cứu nhận dạng người nói phương pháp tự động Hiện vấn đề nhận dạng người nói chủ yếu tập trung vào việc nghiên cứu nâng cao khả nhận dạng hệ nhận dạng người nói đặc biệt điều kiện tiếng nói bị suy giảm (méo) tác nhân kỹ thuật gây Hướng nghiên cứu khai thác thơng tin mức cao tiếng nói, hay áp dụng cải tiến kỹ thuật sẵn có… 1.7 Giám định pháp lý nhận dạng người nói vấn đề tiếng Việt Giám định pháp lý nhận dạng người nói ứng dụng quan trọng phương pháp nhận dạng người nói điều tra xét xử tội phạm Hiện giới tồn hai phương pháp giám định nhận dạng người nói: Phương pháp nghe-phân tích phổ âm (phương pháp kinh điển) phương pháp tự động 1.7.1 Phương pháp kinh điển giám định pháp lý nhận dạng người nói Đây phương pháp giám định nhận dạng người nói tổng hợp, kết hợp phương pháp nhận dạng người nói cảm thụ quan thính giác người với phương pháp nhận dạng người nói thủ cơng đo lường tự động số tham số tiếng nói để đối sánh Ưu điểm phương pháp thường cho kết luận giám định với độ xác độ tin cậy cao Nhược điểm chậm tốn nhiều công sức 1.7.2 Phương pháp tự động giám định pháp lý nhận dạng người nói Đây phương pháp giám định nhận dạng người nói hồn tồn dựa vào phân tích so sánh mẫu tiếng nói máy tính theo ngun tắc làm việc phương pháp nhận dạng người nói tự động Ưu điểm phương pháp giám định tự động thời gian thực nhanh, tốn sức người Nhược điểm của phương pháp nhạy cảm với loại nhiễu mơ hình người nói xây dựng chủ yếu dựa thông tin mức thấp tiếng nói, thơng tin nhảy cảm với nhiễu 1.7.3 Các vấn đề đặt cho giám định nhận dạng người nói tiếng Việt Phương pháp kinh điển chủ yếu áp dụng giám định so sánh hai mẫu tiếng nói có phải người nói hay khơng, nên hoạt động nhận dạng người nói phương pháp giống hệ xác thực người nói (đối sánh 1:1) Vì để áp dụng phương pháp giám định kinh điển cho người nói tiếng Việt, cần xác định ngưỡng nhận dạng cho tham số tiếng nói tiếng Việt mang thơng tin người nói sử dụng theo phương pháp Phương pháp tự động giám định nhận dạng người nói áp dụng chủ yếu giám định nhận dạng người nói tập liệu nhiều người nói Về chất hoạt động hệ định danh người nói (đối sánh 1:N) Việc áp dụng hệ tự động nhận dạng người nói thực tế gặp nhiều trở ngại, đặc biệt tác nhân kỹ thuật nhiễu hay điều kiện đối sánh khác gây Ngoài ra, với nhận dạng người nói phụ thuộc từ khóa tiếng Việt, vấn đề đặt nên chọn câu, từ tiếng Việt cách ngẫu nhiên hay có chủ định từ trước, hay chọn đơn vị ngữ âm để xây dựng tập từ điển từ khóa tiếng Việt Chương 2:Giám định nhận dạng người nói tiếng Việt phương pháp nghephân tích phổ âm 2.1 Ngữ âm tiếng Việt với nhận dạng người nói 2.1.1 Một số đặc trưng ngữ âm tiếng Việt Tiếng Việt ngơn ngữ đơn âm tiết có điệu Trong tiếng Việt đơn vị phát âm nhỏ đồng thời đơn vị ngơn ngữ có ý nghĩa nhỏ Đặc điểm ngữ âm tiếng Việt tính cố định vị trí âm vị âm tiết tạo nên tính thống cấu trúc âm tiết Khi nghiên cứu cấu âm, tiếng Anh vai trò âm tiết mờ nhạt so với âm vị, tiếng Việt âm tiết đóng vai trò quan trọng không so với âm vị 2.1.2 Đặc trưng ngữ âm tiếng Việt với nhận dạng người nói Đơn vị ngơn ngữ có ý nghĩa nhỏ (hình vị) có vai trò viên gạch để xây nên từ, câu ngơn ngữ nói Do vậy, nhận dạng người nói phụ thuộc từ khóa, nghiên cứu khả phân biệt người nói hình vị đóng vai trò quan trong việc chọn lựa từ khóa Việc nghiên cứu có ý nghĩa quan trọng tương tự việc lựa chọn từ để so sánh giám định pháp lý nhận dạng người nói phương pháp kinh điển Trong tiếng Việt, đơn vị ngữ âm đóng vai trò hình vị âm vị mà âm tiết [49], nên bên cạnh việc nghiên cứu khả phân biệt người nói âm vị với tư cách đơn vị ngữ âm nhỏ nhất, cần tập trung nghiên cứu khả phân biệt người nói âm tiết với vai trò đơn vị phát âm nhỏ đồng thời đơn vị ngôn ngữ có ý nghĩa nhỏ Do thường có nhiều âm vị từ (đa âm tiết) âm vị từ khơng có tính thống cấu trúc từ nên giá trị formant xác định toàn từ tiếng Anh quan tâm ý Ngược lại, âm tiết tiếng Việt có tính thống cấu trúc: âm đầu, (âm đệm), âm chính, âm cuối Do cách cấu âm âm tiết tiếng Việt bắt đầu động tác kép dần lại phận quan cấu âm dẫn đến chỗ cản trở luồng khí từ phổi lên, sau mở ra, nên lượng âm phát phần đầu âm tiết (âm đầu) nhỏ sau mạnh lên phần trung tâm (âm chính) giảm dần phần cuối âm tiết (âm cuối) Chính cách phân bố lượng có quy luật làm cho ranh giới âm tiết tiếng Việt tương đối rõ ràng Bên cạnh đó, âm tiết tiếng Việt lại có điệu riêng nên âm tiết phân tách rõ ràng hơn, dẫn đến khơng có tượng nối âm, luyến âm hay nuốt âm phát âm hai âm tiết tiếng Việt đứng cạnh tiếng Anh Điều gợi ý sử dụng âm tiết làm đơn vị so sánh hai mẫu tiếng Việt giám định nhận dạng người nói theo phương pháp kinh điển thay mức từ, cụm từ tiếng Anh Với số lượng âm vị âm tiết tương đối nên formant, xác định phạm vi toàn âm tiết tiếng Việt, phản ảnh chủ yếu âm sắc âm (nơi tập trung nhiều lượng âm tiết), ảnh hưởng âm đầu, âm cuối âm đệm (nếu có) lên âm sắc âm Nếu thực giá trị formant (tạm gọi formant âm tiết hay formant âm tiết) có khả phân biệt người nói, làm cho việc xác định so sánh formant giám định nhận dạng người nói tiếng Việt trở nên đơn giản so với tiếng Anh 2.2 Các tham số tiếng nói nhận dạng người nói Các tham số tiếng nói thường sử dụng giám định pháp lý nhận dạng người nói thực theo phương pháp giám định kinh điển formant, tần số phổ trung bình thời gian dài Với ngôn ngữ đa âm tiết tiếng Anh, khúc đoạn để xác định so sánh formant thường thuộc phạm vị âm vị Phân tích ngữ âm tiếng Việt cho thấy sử dụng giá trị formant phạm vi âm tiết để so sánh 2.3 Các formant âm tiết tiếng Việt Các formant định nghĩa tần số cộng hưởng tuyến phát âm, liên quan trực tiếp tới hình dạng, kích thước quan cấu âm chúng cung cấp nhiều thông tin đặc trưng người nói 2.3.1 Một số đặc điểm cấu trúc formant âm tiết tiếng Việt Với âm tiết có âm ngun âm dòng trước, formant thứ nằm vùng tần số khoảng 300 - 600 Hz, formant thứ nằm vùng tần số khoảng 1600 - 2200 Hz., formant thứ ba thứ tư nằm vùng tần số khoảng từ 2000 - 3600 Hz Với âm tiết có âm ngun âm dòng giữa, formant thứ nằm vùng tần số khoảng 600 - 1200 Hz, formant thứ nằm vùng tần số khoảng 1200 - 1800 Hz., formant thứ ba thứ tư nằm vùng tần số khoảng từ 2000 3600 Hz Với âm tiết có âm ngun âm dòng sau, formant thứ nằm vùng tần số khoảng 300 - 800 Hz, formant thứ nằm vùng tần số khoảng 700 - 1200 Hz., formant thứ ba thứ tư nằm vùng tần số khoảng từ 1800 - 3600 Hz Trong âm tiết tiếng Việt, cấu trúc formant nguyên âm bị thay đổi với âm đầu hoặc/và âm cuối Sự ảnh hưởng âm đầu lên cấu trúc formant nguyên âm so với âm cuối 2.3.2 Đánh giá phương pháp xác định formant Vì tuyến âm coi khơng đổi khoảng thời gian 10-30ms, nên thông thường formant xác định 10-30ms tiếng nói Tuy nhiên, việc so sánh định lượng formant khúc đoạn nhỏ 10-30ms khó thực hiện, tính khơng ổn định tiếng nói nên việc lề xác định khúc đoạn tương ứng mẫu tiếng nói gặp nhiều khó khăn Để khắc phục vấn đề này, giá trị formant xác định so sánh khúc đoạn lớn thường mức phạm vi âm vị nhận dạng người nói tiếng Anh sử dụng Tuy vậy, việc so sánh chưa thực dễ dàng có ảnh hưởng lẫn âm vị đứng cạnh nhau, nên khơng có ranh giới rõ ràng âm vị này.Với tiếng Việt, việc so sánh formant xác định khúc đoạn tương ứng thuộc phạm vi âm tiết dễ dàng so với phạm vi âm vị hay nhỏ Vấn đề đánh giá khả phân biệt người nói sử dụng giá trị formant phạm vi âm tiết tiếng Việt 2.3.3 Xây dựng sở liệu người nói tiếng Việt Để tiến hành nghiên cứu nhận dạng người nói âm tiết tiếng Việt, luận án tiến hành xây dựng sở liệu người nói với 17 âm tiết sau để khảo sát so sánh, 10 âm tiết số “Một”, “Hai”, “Ba”, “Bốn”, “Năm”, “Sáu”, “Bẩy”, “Tám”, “Chín”, “Khơng” âm tiết khác âm tiết : “Có”, “Tơi”, “Đã”, “Ln”, “Sợ”, “Hết”, “Tiền” Cơ sở liệu người nói xây dựng với 150 người chia thành tập liệu người nói (100 người 50 người) Tất người tham gia thực nghiệm nói phiên Trong phiên, người yêu cầu đếm từ đến 9, nói cụm từ “Khơng có” câu “Tôi sợ hết tiền” trạng thái bình thường nói với tốc độ vừa phải Trong phiên đầu, người ghi âm hai lần Riêng phiên thứ 6, người ghi âm lần Việc ghi âm thực trực tiếp điều kiện phòng thí nghiệm nhiễu thấp, sau âm tiết cắt thủ công khỏi chuỗi lời nói lưu vào file Như người phát âm âm tiết 15 lần dòng ngữ lưu cắt thành âm tiết đơn lẻ lưu file âm riêng 2.3.4 Phạm vi thay đổi formant âm tiết tiếng Việt Để xác định phạm vi thay đổi formant âm tiết tiếng Việt người nói, luận án tiến hành khảo sát tập liệu người nói thứ xây dựng với 100 nói sử dụng 10 lần phát âm đầu để đánh giá Với người, phạm vi biến đổi formant 10 lần phát âm âm tiết xác định theo công thức sau: T(i) = STD(i) / Mean(i) (%) Với: Mean(i) : Giá trị trung bình formant thứ i âm tiết STD(i) : Độ lệch chuẩn formant thứ i âm tiết T(i) : phạm vi biến đổi tương đối formant thứ i âm tiết Để so sánh với phạm vi biến đổi formant người nói khác nhau, luận án chia 100 người nói với 10 lần phát âm đầu tập liệu người nói thứ thành 10 nhóm, nhóm 10 người Trong nhóm này, âm tiết, lần phát âm thứ người nhóm cho thành nhóm nhỏ Tiến hành tương tự với lần phát âm lại, nhóm có 10 nhóm nhỏ âm tiết Tổng cộng có 100 nhóm nhỏ cho âm tiết Với nhóm nhỏ này, phạm vi biến đổi formant 10 lần phát âm âm tiết 10 người xác định tương tự khảo sát người Kết khảo sát cho bảng Bảng 1: Phạm vi biến đổi trung bình formant âm tiết Formant Phạm vi Độ lệch Phạm vi biến bề biến đổi chuẩn trung đổi trung rộng dải trung bình bình phạm vi bình thông biến đổi nhiều người tương người nói người nói khác ứng (%) nói (%) (%) F1 15.4 10.1 25.3 F2 10.0 5.7 15.9 F3 6.3 4.1 10.7 F4 5.2 2.6 8.6 B1 25.9 11.8 40.1 B2 23.7 8.9 34.8 B3 23.5 8.5 36.2 B4 22.9 8.3 32.5 Độ lệch chuẩn trung bình phạm vi biến đổi nhiều người nói khác nhau(%) 8.4 5.1 3.2 1.9 10.9 8.4 8.6 8.3 Khảo sát phạm vi thay đổi formant xác định khúc đoạn tương ứng thuộc phạm vi âm tiết cho thấy: Các formant bậc cao có xu hướng ổn định so với formant bậc thấp Với người, phạm vi biến đổi trung bình formant từ thứ đến thứ tư vào khoảng 15,4%; 10%; 6,3%,; 5,2%; phạm vi biến đổi trung bình người nói khác có giá trị tương ứng 25,3%; 15,9%; 10,7%; 8,6% Phạm vi biến đổi trung bình bề rộng formant lớn giá trị formant tương ứng Phạm vi biến đổi trung bình bề rộng formant người lớn phạm vi biến đổi người nói khác Tóm lại, với tiếng Việt, việc so sánh formant xác định khúc đoạn tương ứng thuộc phạm vi âm tiết không dễ dàng việc phân tách giới hạn khúc đoạn, mà sử dụng để giám định nhận dạng người nói phương pháp áp dụng rộng rãi khúc đoạn âm vị 2.4 Phạm vi thay đổi trung bình tần số Tiếng Viêt, với đặc thù ngôn ngữ có điệu, tần số ln thay đổi âm tiết, nên việc khảo sát phạm vi thay đổi tần số trung bình người nói, cần khảo sát thêm yếu tố độ dài thời gian phát âm cần thiết để xác định xác giá trị tần số trung bình người Để xác định phạm vi thay đổi tần số người nói, luận án sử dụng đại lượng độ lệch chuẩn phân bố thống kê tần số trung bình khoảng thời gian phát âm Đại lượng biểu thị phạm vi thay đổi hay độ ổn định tần số trung bình người nói Tiến hành khảo sát 35 người độ tuổi từ 25-55 cho thấy với người nói, tần số thay đổi liên tục âm tiết điệu, xong giá trị trung bình tần số khoảng thời gian phát âm lại có xu hướng ổn định Thời gian tính tần số trung bình dài, phạm vi thay đổi trung bình có xu hướng giảm dần Phạm vi thay đổi trung bình F0 khoảng thời gian khác thể bảng hai giọng nam, nữ (F0tb bảng tính theo khoảng thời gian giây) Bảng Khảo sát phạm vi thay đổi trung bình F0 (Hz) F0tb 132,2 215,3 2s 43,4 47,5 3s 37,6 40,2 4s 26,5 31,4 5s 12,3 23,6 6s 10,7 16,3 8s 12,1 14,3 10s 10,9 15,6 15s 9,6 16,1 Kết khảo sát cho thấy, Giọng nam, thời gian tính trung bình từ giây trở lên, tần số trung bình thay đổi phạm vi khoảng 12 Hz Giọng nữ, thời gian tính trung bình từ giây trở lên, tần số trung bình thay đổi phạm vi khoảng 16 Hz 2.5 Phổ trung bình thời gian dài Các nghiên cứu phổ trung bình thời gian dài cho thấy đặc trưng ổn định giọng nói người người cố tình giả giọng nói khác so với nói bình thường Khảo sát máy phân tích âm Sonagraph DSP với người nói tự cho thấy, thời gian phát âm tăng phổ trung bình dần tiến tới ổn định khoảng thời gian 15-30 giây tùy người So sánh định tính cho thấy, hình dáng phổ LTA người khác khác Để đánh giá sai khác luận án sử dụng khoảng cách O’clid để đo khoảng cách phổ LTA 50 người phát âm lần thời lượng 20 giây thiết bị phân tích phổ CSL4500 Nam Nữ Bảng Kết khảo sát độ ổn đinh phổ LTA Sai khác người Sai khác trung bình Kết khảo sát cho (dB/Hz) người với (dB/Hz) thấy, phổ LTA ổn Giá tri trung bình 6,46 23,26 định người, thay đổi phổ đối Độ lệch chuẩn 4,12 10,89 với người nhỏ sai khác người nói với So sánh định lượng hai phổ LTA, độ sai khác hai phổ nhỏ ngưỡng chọn ((6,46 + 4,12) + (23,26-10,89))/2 = 11,475 kết luận hai phổ LTA thuộc người nói, ngược lại chúng thuộc hai người khác Kết khảo sát formants, tần số bản, phổ trung bình thời gian dài người nói tiếng Việt cho thấy phạm vi thay đổi tham số tiếng nói người nói nhỏ so với phạm vi thay đổi người nói khác Điều cho phép sử dụng tham số tiếng nói để bổ xung định lượng cho việc so sánh nhận dạng người nói định tính phương pháp thủ cơng 7 2.6 Quy trình giám định nhận dạng người nói tiếng Việt Một quy trình giám định pháp lý nhận dạng người nói tổng quát chia thành hai pha Pha thứ nhất: lọc từ tập liệu người nói nghi vấn một vài người nói giống với tiếng nói mẫu cần giám định Pha thứ hai: so sánh nhận dạng người nói phương pháp kinh điển tiếng nói cần giám định với mẫu tiếng nói người bị nghi vấn pha thứ lọc Pha thứ nhất, sở liệu người nói nghi vấn chia làm loại dựa thông tin tiếng nói Loại thứ người sở liệu nói số câu, từ chọn trước (từ khóa), loại thứ hai người nói tự khoảng thời gian đủ lớn Pha thứ hai, quy trình giám định nhận dạng người nói tiếng Việt theo phương pháp kinh điển hai mẫu tiếng nói cần giám định nghi vấn, thực theo bước sau Bước 1: So sánh nhận dạng người nói theo phương pháp cảm thụ quan thính giác người Nếu mẫu tiếng nói đánh giá phát âm khơng bình thường, có biểu giả giọng dừng khơng đưa kết luận giám định Ngược lại, tập trung so sánh thơng tin mức cao hai mẫu tiếng nói Phương ngữ; Cao độ giọng nói; Các đặc trưng từ vựng; Đặc trưng ngữ điệu; Đặc điểm ngữ âm; Tật phát âm Nếu nhận thấy có nhiều điểm giống mẫu chuyển sang bước 2, ngược lại kết luận phủ định (khơng đồng nhất) dừng Bước 2: So sánh tần số trung bình (F0) khoảng thời gian tối thiểu giây hai mẫu tiếng nói Nếu độ sai khác tần số trung bình nhỏ 12 Hz (với giọng nam) hay 16 Hz (với giọng nữ) chuyển sang bước 3, ngược lại kết luận phủ định (khơng đồng nhất) dừng Bước 3: Trường hợp hai mẫu tiếng nói ghi âm điều kiện so sánh định lượng phổ LTA khoảng thời gian 20 giây hai mẫu tiếng nói Nếu khoảng cách O’clid hai phổ LTA nhỏ 11,475 kết luận khẳng định (hai mẫu tiếng nói người nói), ngược lại kết luận phủ định (không đồng nhất) dừng Trường hợp hai mẫu tiếng nói ghi âm điều kiện khác không xác định điều kiện ghi âm chuyển sang bước Bước 4: Tìm âm tiết (từ đơn) hay cụm từ đồng âm hai mẫu tiếng nói để so sánh phương pháp thủ công Đánh giá độ giống âm tiết đồng âm so sánh vệt formant phổ ba chiều âm tiết dựa diễn tiến formant, bề rộng tỷ lệ tương đối chúng So sánh định lượng formant âm tiết với nhau, sai khác formant 1, 2, 3, nhỏ 15,4%; 10%; 6,3%; 5,2% bề rộng formant nhỏ khoảng 23% kết luận hai âm tiết đồng âm đồng Nếu số lượng âm tiết đồng vượt ngưỡng định kết luận khẳng định (hai mẫu tiếng nói người nói), ngược lại kết luận khả phủ định số âm tiết đồng Vấn đề đặt là, với số lượng âm tiết đồng giám định nhận dạng người nói tiếng Việt kết luận hai mẫu tiếng nói đồng Chương 3: Xác suất nhận dạng người nói âm tiết tiếng Việt 3.1 Cơ sở đánh giá khả phân biệt người nói âm tiết Việc khảo sát phạm vi biến đổi formant âm tiết người nói người nói khác chương dựa đánh giá phạm vi biến đổi tỷ số độ lệch chuẩn trị trung bình formant phát âm âm tiết người nhiều người nói Vì việc đánh giá dựa thay đổi biến (tỷ số độ lệch chuẩn trị trung bình), tức xác suất xuất giá trị biến đó, nên để xác định khả phân biệt người nói âm tiết cần xác định luật xác suất xuất tập hợp giá trị biến Quan sát phân bố giá trị biến đổi tương đối formant xung quanh trị trung bình với âm tiết khảo sát cho phép đưa giả thiết: luật xác suất xuất tập giá trị formant tuân theo luật phân bố chuẩn (phân bố Guass) với hàm phân bố xác suất có trị trung bình phương sai (bình phương độ lệch chuẩn) xác định bảng 21 Nếu giả thiết mặt lý thuyết sai khác hàm phân bố chuẩn, biểu diễn xác suất xuất giá trị biến đổi formant âm tiết người nhiều người nói, sở để đánh giá khả phân biệt người nói âm tiết khảo sát 8 3.2 Kiểm định giả thiết thống kê phạm vi biến đối tương đối formant âm tiết Để kiểm định giả thiết phạm vi biến đổi tương đối formant âm tiết tuân theo luật phân bố chuẩn, luận án sử dụng tiêu chuẩn χ2 để đánh giá phù hợp số liệu thực nghiệm phạm vi biến đổi tương đối formant với giả thiết lý thuyết Tiêu chuẩn phù hợp χ2 tính cho formant âm tiết khảo sát Đánh giá tiêu chuẩn phù hợp χ2 với độ tin cậy α = 0,99 có tới 250/272 = 92% tập hợp giá trị thỏa mãn tiêu chuẩn χ2 Nếu sử dụng độ tin cậy α = 0,95 có tới 269/272 = 99% tập hợp giá trị thỏa mãn tiêu chuẩn χ2 Kết đánh giá theo tiêu chuẩn phù hợp χ2 khẳng định giả thiết phạm vi biến đổi tương đối formant âm tiết tuân theo luật phân bố chuẩn Trên hình biểu diễn quan hệ hàm phân bố chuẩn Trên hình này, hàm phân bố xác suất phạm vi biến đổi formant âm tiết người nói minh họa đường cong màu đỏ, hàm phân bố xác suất phạm vi biến đổi formant âm tiết nhiều người nói khác minh họa đường cong màu xanh (ln nằm phía bên phải đường đỏ) Hình 1: Minh họa quan hệ hàm phân bố chuẩn 3.3 Phân tích lý thuyết khả phân biệt người nói âm tiết tiếng Việt Một điều dễ chấp nhận khả phân biệt người nói formant âm tiết phụ thuộc vào quan hệ hai hàm phân bố xác suất Nếu hàm phân bố xác suất phạm vi biến đổi formant người cách xa hàm phân bố xác suất phạm vi biến đổi formant nhiều người, tức giá trị trung bình μ1 đường màu đỏ hình khác xa so với μ2 đường màu xanh khả phân biệt người nói formant lớn, điều chứng tỏ có khác biệt người nói với người nói khác Từ đó, nhận định: Khả phân biệt người nói formant âm tiết xác định thơng qua vùng diện tích nằm hàm phân bố xác suất phạm vi biến đổi tương đối formant âm tiết người nói nằm hàm phân bố xác suất phạm vi biến đổi tương đối formant người nói khác Trên hình 1, diện tích vùng (vùng màu vàng) tính hiệu hàm phân phối tích lũy: S = F (x; μ1 , σ1 ) – F (x; μ2 , σ2 ) Với: x : điểm giao hàm phân bố xác suất Vì diện tích nằm đường cong phân bố xác suất biểu thị xác suất kiện nên đưa định nghĩa định lượng khả phân biệt người nói âm tiết sau : Khả phân biệt người nói âm tiết định lượng xác suất nhận dạng người nói âm tiết đó, xác suất xác định hiệu hàm phân phối tích lũy phân bố xác suất phạm vi biến đổi tương đối formant âm tiết người nhiều người khác Phân bố xác suất suất phạm vi biến đổi tương đối formant âm tiết xác định phân bố chuẩn Áp dụng công thức cho hàm phân bố xác suất formant âm tiết khảo sát để xác định xác suất nhận dạng người nói âm tiết 9 3.4 Một số nhận xét từ phân tích xác suất nhận dạng người nói 3.4.1 Số lượng âm tiết đồng Kết tính tốn cho thấy xác suất nhận dạng người nói trung bình âm tiết tiếng Việt 0,3795 Điều hiểu là, mẫu tiếng nói có âm tiết giống (cả phương diện âm nghe phổ chúng) xác suất trung bình mẫu tiếng nói người nói (đồng nhất) 37,95% Hai âm tiết giống phương diện âm nghe âm tiết đồng âm Hai âm tiết có phổ âm giống âm tiết có cấu trúc formant thể phổ chiều giống sai khác giá trị formant tương ứng âm tiết thỏa mãn phạm vi biến đổi trung bình người bảng Hai âm tiết giống cho đồng Nếu gọi xác suất đồng hai mẫu tiếng nói có âm tiết đồng P(1) xác suất đồng hai mẫu tiếng nói có n âm tiết đồng P(n) tính theo công thức đệ quy với giả thiết n âm tiết khác độc lập với : P(1) = 0,3795 P(n) = P(n-1) + 0,3795*(1 - P(n-1) ) Kết tính : P(10) = 0,9915; … P(20) = 0,9999 Như mẫu tiếng nói tiếng Việt coi người nói với xác suất 99% mẫu tiếng nói có 10 âm tiết đồng với xác suất 99,99% mẫu tiếng nói có 20 âm tiết đồng 3.4.2 Xác suất trung bình nhận dạng người nói formant Biểu diễn trị trung bình xác suất nhận dạng người nói formant tất âm tiết khảo sát dạng biểu đồ cho thấy: formant bậc cao nhận dạng người nói tốt formant bậc thấp, đặc biệt formant có xác suất nhận dạng người nói cao hẳn so với formant khác, chứng tỏ thông tin người nói tập trung nhiều formant 3.4.3 Khả phân biệt người nói âm tiết tiếng Việt Hình biểu diễn xác suất nhận dạng người nói tất âm tiết khảo sát dạng biểu đồ Có thể rút nhận xét là, âm tiết khác có khả phân biệt người nói khác nhau, số nhận dạng người nói tốt, số Nếu dựa xác suất nhận dạng trung bình âm tiết (0,3795) chia âm tiết khảo sát làm hai nhóm: Nhóm 1: âm tiết có khả phân biệt người nói tốt gồm âm tiết “Hai”, “Ba”, “Năm”, “Sáu”, “Bẩy”, “Tám”, “Chín”, “Có”, “Đã”, ”Ln”, ”Tiền” Trong âm tiết “Hai”, “Năm”, “Sáu”, “Chín”, “Ln”,”Tiền” phân biệt người nói tốt âm tiết lại Nhóm 2: âm tiết có khả phân biệt người nói gồm âm tiết “Một”, “Bốn”, “Không”, “Tôi”, “Sợ”, “Hết” Trong âm tiết “Một” So sánh đặc trưng ngữ âm âm tiết nhóm hai nhóm với đưa nhận xét: Các âm tiết thuộc nhóm hầu hết âm tiết có âm ngun âm hàng trước ngun âm đơi (trừ âm tiết “Có”), nhóm chủ yếu ngun âm hàng sau âm tiết khép Hình 2: Xác suất nhận dạng người nói âm tiết khảo sát 10 Từ đây, xác định khả phân biệt người nói âm tiết tiếng Việt sau: Các âm tiết có âm ngun âm hàng trước nguyên âm đôi, âm tiết nửa mở, âm đầu hoặc/và cuối âm mũi có khả phân biệt người nói tốt nhất, âm tiết khác khả phân biệt người nói hơn, âm tiết khép 3.5 Kiểm nghiệm khả phân biệt người nói âm tiết tiếng Việt Xuất phát từ quan điểm cho rằng, đánh giá khả phân biệt người nói âm tiết thơng qua việc đánh giá độ xác nhận dạng hệ nhận dạng người nói phụ thuộc từ khóa âm tiết Việc tiến hành đánh giá thực sở liệu người nói với 17 âm tiết lựa chọn mục 2.3.2 3.5.1 Hệ nhận dạng người nói phụ thuộc từ khóa sở Để khảo sát khả phân biệt người nói âm tiết tiếng Việt, luận án tiến hành xây dựng hệ nhận dạng người nói phụ thuộc từ khóa sở phân lớp nhận dạng mơ hình HMM, vector đặc trưng trích chọn hệ số MFCC thực cài đặt ngôn ngữ máy tính MATLAB Để huấn luyện hệ nhận dạng người nói này, luận án xử dụng phần mềm mã nguồn mở công cụ H2M Olivier Cappo, cơng cụ download miễn phí từ địa http://www.tsi.enst.fr/~cappe/h2m/h2m.html H2M tập hợp hàm viết MATLAB thực thuật toán EM để xây dựng mơ hình GMM HMM Các hệ số MFCC xác định hàm mfcc lấy từ công cụ xử lý âm Malcolm Slaney, cơng cụ download từ địa : http://www.slaney.org/malcolm/pubs.html Việc đánh giá khả phân biệt người nói âm tiết thực thông qua việc đánh giá độ xác nhận dạng người nói hệ nhận dạng cho âm tiết Với âm tiết, sử dụng thuật toán Viterbi để xác định likelihood tương ứng người sở liệu Người có likelihood lớn nhận dạng Thuật tốn Viterbi hàm có cơng cụ H2M 3.5.2 Khảo sát độ xác nhận dạng hệ nhận dạng người nói sở với âm tiết khác Kết khảo sát cho thấy, độ xác nhận dạng hệ nhận dạng người nói sở khơng phụ thuộc từ khóa âm tiết khác mà phụ thuộc vào số trạng thái HMM số hệ số MFCC Nhìn chung, hệ nhận dạng sử dụng mơ hình HMM có nhiều trạng thái có số hệ số MFCC nhiều nhận dạng người nói tốt Hình biểu diễn độ xác nhận dạng người nói hệ nhận dạng người nói phụ thuộc từ khóa sở phân lớp nhận dạng mơ hình HMM trạng thái với 19 hệ số MFCC làm đăc trưng trích chọn âm tiết tiếng Việt khảo sát Nếu lấy độ xác nhận dạng người nói trung bình (61,6%) làm sở, chia âm tiết khảo sát làm hai nhóm: Nhóm 1: âm tiết có khả phân biệt người nói tốt gồm âm tiết: “Hai”, “Ba”, “Năm”, “Tám”, “Chín”, “Có”,“Đã”, ”Ln”, ”Tiền” Nhóm 2: âm tiết có khả phân biệt người nói gồm âm tiết “Một”, “Bốn”, “Sáu”, “Bẩy”, “Không”, “Tơi”, “Sợ”, Hết”, âm tiết “Một”, “Hết” Hình 3: Độ xác nhận dạng hệ nhận dạng người nói phụ thuộc từ khóa âm tiết khảo sát So sánh với xác suất nhận dạng người nói âm tiết tính theo lý thuyết xác suất thống kê mục 3.4.3 (hình 2), hai nhóm nhận dạng người nói tốt phân 11 chia giống nhau, điểm khác biệt hai âm tiết nửa mở “Sáu”, “Bẩy” lý thuyết thuộc nhóm nhận dạng người nói tốt xong thực tế làm từ khóa hệ nhận dạng người nói tự động lại thuộc nhóm nhận dạng người nói Từ đưa quy tắc xác định khả phân biệt người nói âm tiết tiếng Việt áp dụng cho trường hợp là: Các âm tiết có âm nguyên âm hàng trước nguyên âm đôi, âm đầu hoặc/và cuối âm mũi có khả phân biệt người nói tốt nhất, âm tiết khác khả phân biệt người nói hơn, âm tiết khép 3.6 Ý nghĩa thực tiễn việc xác định khả phân biệt người nói âm tiết tiếng Việt Xác định khả phân biệt người nói âm tiết tiếng Việt cho phép hồn thiện quy trình giám định pháp lý nhận dạng người nói tiếng Việt xây dựng chương Ngoài ra, để nâng cao độ tin cậy kết luận giám định, giám định viên cần thực theo quy tắc tìm so sánh âm tiết đồng âm có khả phân biệt người nói tốt từ mẫu tiếng nói Việc đối sánh âm tiết mẫu tiếng nói thực chủ yếu so sánh cấu trúc formant đặc biệt formant trường hợp xác định đầy đủ formant âm tiết Ngoài ra, quy tắc xác định khả phân biệt người nói âm tiết có ý nghĩa lựa chọn từ hay âm tiết thích hợp để xây dựng sở liệu người nói tiếng Việt Quy trình giám định pháp lý nhận dạng người nói áp dụng thức tế, số vụ giám định nhận dạng người nói sử dụng quy trình 186 với tổng cộng 198 mẫu tiếng nói cần giám định nói giọng Bắc 61 mẫu, Trung 52 mẫu Nam 85 mẫu Kết giám định cho kết luận đồng (khẳng định) 168 mẫu, kết luận không đồng (phủ định) 30 mẫu Tất trường hợp có kết luận giám định nhận dạng người nói đúng, chưa ghi nhận trường hợp phản hồi lại kết luận khẳng định sai Tuy nhiên, quy trình thực tốt pha thứ 2, đối sánh hai mẫu tiếng nói phương pháp kinh điển, pha thứ nhất, tự động lọc từ sở liệu người nói nghi vấn một vài mẫu tiếng nói để đối sánh với mẫu tiếng nói cần giám định nhiều vấn đề cần giải áp dụng hệ tự động nhận dạng người nói giám định pháp lý Chương 4: Giám định tự động nhận dạng người nói tiếng Việt 4.1 Các vấn đề tồn giám định tự động nhận dạng người nói tiếng Việt Giám định tự động nhận dạng người nói phương pháp giám định hồn tồn dựa vào phân tích so sánh mẫu tiếng nói máy tính nguyên lý làm việc phương pháp nhận dạng người nói tự động Ưu điểm phương pháp thời gian thực nhanh, thường áp dụng giám định nhận dạng người nói tập liệu nhiều người nói nghi vấn Tùy vụ việc cụ thể mà tập liệu người nói nghi vấn xây dựng hệ nhận dạng người nói phụ thuộc từ khóa hay khơng phụ thuộc từ khóa Với hệ nhận dạng người nói phụ thuộc từ khóa ngồi việc lựa chọn từ khóa cần lựa chọn mơ hình đơn vị ngữ âm thích hợp để từ xây dựng nên tập từ điển từ khóa Với tiếng Việt, ngơn ngữ đơn âm tiết, nên tập từ điển từ khóa chủ yếu số âm tiết chọn lọc từ trước, vấn đề lựa chọn đơn vị ngữ âm âm vị tạo nên âm tiết chọn hay sử dụng âm tiết làm đơn vị ngữ âm xây dựng mơ hình người nói hệ nhận dạng người nói phụ thuộc từ khóa Bên cạnh đó, nhược điểm giám định tự động nhận dạng người nói độ tin cậy kết luận giám định chưa cao Nguyên nhân nhận dạng tự động chủ yếu dựa thông tin mức thấp tiếng nói, mà thơng tin nhạy cảm với nhiễu thay đổi điều kiện ghi âm 4.2 Mơ hình âm tiêt mơ hình âm vị nhận dạng người nói tiếng Việt Lựa chọn đơn vị ngữ âm thích hợp hiệu hoạt động nhận dạng người nói tiếng Việt phụ thuộc từ khóa Tiếng Việt, phân tích, ngơn ngữ đơn âm tiết nên tập từ điển từ để xây dựng từ khóa thích hợp âm tiết, vấn đề là lựa chọn đơn vị ngữ âm âm vị tạo nên âm tiết chọn làm tập từ điển hay sử dụng âm tiết làm đơn vị ngữ âm xây dựng mơ hình người nói hệ nhận dạng người nói phụ thuộc từ khóa 12 Để đánh giá so sánh hệ nhận dạng người nói phụ thuộc từ khóa dựa mơ hình đơn vị ngữ âm âm tiết âm vị, luận án chọn âm tiết số tiếng Việt làm tập từ điển từ để tiến hành khảo sát Câu nói dùng làm từ khóa chuỗi số ngẫu nhiên Độ dài từ khóa xác định số chữ số có chuỗi số Sử dụng âm tiết số “Không”, “Một”, “Hai”, “Ba”, ”Bốn”, “Năm”, “Sáu”, “Bẩy”, “Tám”, “Chín” có tập liệu người nói xây dựng chương mục 3.2 để đánh giá hệ nhận dạng người nói 4.2.1 Hệ nhận dạng người nói dựa mơ hình âm tiết Với đơn vị ngữ âm âm tiết, để xây dựng hệ nhận dạng người nói phụ thuộc từ khóa chuỗi số tiếng Việt với tập từ điển từ 10 âm tiết số, người nói cần huấn luyện đủ 10 mơ hình HMM cho 10 âm tiết dùng làm tập từ điển Chọn số trạng thái mơ hình HMM để biểu diễn âm tiết số tiếng Việt Trong pha nhận dạng, sử dụng hàm ngẫu nhiên tạo chuỗi số dùng làm từ khóa để kiểm tra nhận dạng hệ nhận dạng người nói sau huấn luyện Likelihood chuỗi số làm từ khóa tính tổng likelihood âm tiết số thành phần 4.2.2 Hệ nhận dạng người nói dựa mơ hình âm vị Để xây dựng hệ nhận dạng người nói với từ điển từ 10 âm tiết số tiếng Việt dựa đơn vị ngữ âm âm vị, luận án xây dựng 28 mơ hình HMM tương ứng với 28 âm vị ba (gồm âm vị tạo thành âm tiết số tiếng Việt âm vị đặc biệt để mơ hình hóa khoảng lặng q trình phát âm) cho người nói Mỗi âm vị biểu diễn mơ hình HMM trạng thái Trong pha huấn luyện, ranh giới âm vị âm tiết khó xác định tự động, luận án sử dụng phương pháp gãn nhãn cưỡng để gãn nhãn cho âm vị ba Trong pha nhận dạng, câu nói dùng làm từ khóa chuỗi số tạo từ hàm ngẫu nhiên sử dụng tập liệu người nói để kiểm tra nhận dạng người nói tập đóng tập mở tương tự với mơ hình âm tiết Chỉ có điều thay likelihood âm tiết tính tốn trực tiếp từ mơ hình âm tiết người, likelihood lại xác định theo mơ hình âm vị có âm tiết thành phần chuỗi số Likelihood chuỗi số làm từ khóa tính tổng likelihood tất âm vị âm tiết số thành phần Để cài đặt hệ thống nhận dạng người nói này, luận án sử dụng phần mềm mã nguồn mở viết ngơn ngữ máy tính MATLAB có công cụ H2M 4.2.3 So sánh hệ nhận dạng người nói dựa mơ hình âm tiết âm vị Khảo sát tập đóng: Kết khảo sát độ xác nhận dạng cho hình Hình 4: Kết khảo sát độ xác nhận dạng theo độ dài từ khóa hệ nhận dạng người nói dựa mơ hình đơn vị âm tiết âm vị Có thể thấy, hệ nhận dạng người nói dựa mơ hình đơn vị âm vị có độ xác cao hệ dựa mơ hình đơn vị âm tiết Một nhận xét hai hệ nhận dạng người nói có độ xác nhận dạng tăng theo độ dài từ khóa, nhiên độ dài từ khóa trở lên độ xác nhận dạng hai hệ thống không tăng gần không đổi, với hệ thống sử dụng mơ hình đơn vị âm tiết độ xác nhận dạng đạt khoảng 91% , với mơ hình đơn vị âm vị độ xác cao hơn, đạt mức 96% Khảo sát tập mở : Sai số cân EER hệ nhận dạng người nói dựa mơ hình đơn vị ngữ âm âm tiết âm vị tiếng Việt xây dựng xác định tập mở với từ khóa có độ dài 5.Kết khảo sát hình cho thấy, sai số cân EER hệ 13 nhận dạng người nói dựa mơ hình đơn vị âm tiết 7,6%, mơ hình đơn vị âm vị EER thấp hơn, khoảng 5% Hình 5: Sai số từ chối (FR) sai số chấp nhận (FA) hệ nhận dạng người nói dựa mơ hình đơn vị âm tiết âm vị Nhận xét chung, với từ điển, mô hình đơn vị âm tiết cần số mơ hình HMM để mơ hình hóa người nói mơ hình đơn vị âm vị xong khả nhận dạng người nói hệ nhận dạng người nói dựa mơ hình đơn vị âm vị tốt dựa mơ hình đơn vị âm tiết, nhiên xây dựng hệ nhận dạng dựa mơ hình đơn vị âm vị lại phức tạp tăng số lượng từ từ điển Khi chuỗi số từ khóa nói vào để nhận dạng người nói thực (tức lấy từ sở liệu xây dựng) thì, mơ hình âm tiết cần bổ xung thêm thuật toán tự động nhận cắt âm tiết từ chuỗi số từ khóa đưa vào trước trích chọn đặc trưng Trong đó, có sử dụng thêm âm vị đặc biệt /sil/ để mô hình hóa khoảng lặng nên mơ hình âm vị khơng cần bổ xung thêm thuật toán cắt rời kiểu 4.3 Chuẩn hóa điều kiện ghi âm giám định tự động nhận dạng người nói 4.3.1 Giám định tự động nhận dạng người nói điều kiện ghi âm khác Một nhược điểm giám định tự động nhận dạng người nói so với giám định phương pháp kinh điển độ tin cậy kết luận giám định không cao Nguyên nhân nhận dạng tự động chủ yếu dựa thơng tin mức thấp tiếng nói, mà thông tin nhạy cảm với nhiễu thay đổi điều kiện ghi âm Các phương pháp lọc nhiễu khắc phục tương đối ảnh hưởng nhiễu Tuy nhiên, với điều kiện ghi âm thay đổi khác, dễ hình dung tiếng nói cần giám định thường ghi bí mật mơi trường mẫu tiếng nói đối tượng nghi vấn thường ghi âm cách cơng khai mơi trường văn phòng Đây nguyên nhân đưa đến kết luận sai giám định tự động nhận dạng người nói Để khắc phục vấn đề này, phương pháp chuẩn hóa hay bù suy giảm điều kiện đối sánh khác kênh thông tin nghiên cứu cho nhận dạng người nói 4.3.2 Cơ sở phương pháp chuẩn hóa theo phổ trung bình Phạm vi nghiên cứu chủ yếu tập trung vào tìm hiểu ảnh hưởng kênh thơng tin lên q trình nhận dạng người nói Một cách lý tưởng giả sử hoàn toàn loại bỏ nhiễu cộng lọc nhiễu trước đưa vào tiền xử lý Khi biết trước đặc tuyến tần số kênh thông tin, lý thuyết hồn tồn xác định lại tín hiệu tiếng nói từ tín hiệu tiếng nói bị suy giảm kênh truyền Các khảo sát thực nghiệm thiết bị phân tích phổ tiếng nói lấy trung bình phổ tín hiệu tiếng nói người thời gian đủ dài, phổ trung bình khơng phụ thuộc vào nội dung nói nữa, mang thơng tin đặc trưng người nói Đứng góc độ cấu âm lý giải phổ trung bình tiếng nói người tương ứng với vị trí hoạt động trung bình tuyến âm suốt trình cấu âm mang thơng tin người Mở rộng ra, lấy trung bình phổ tiếng nói khơng phải người mà nhiều người nói kênh thơng tin phổ trung bình tiếng nói khơng mang thông tin đặc trưng người cụ thể mà thơng tin đặc trưng kênh thông tin Do vậy, đặc 14 tuyến tần số kênh thơng tin xác định gần phổ trung bình nhiều người nói kênh Phương pháp chuẩn hóa theo phổ trung bình (Mean Spectrum - MS) dựa chuẩn hóa phổ tín hiệu tiếng nói cách chia cho đặc tuyến tần số kênh thơng tin trước tính hệ số ceptrum Phương pháp chuẩn hóa MS áp dụng cho nhận dạng người nói khơng phụ thuộc từ khóa phụ thuộc từ khóa 4.3.3 Xây dựng tập liệu khảo sát người nói điều kiện ghi khác Cơ sở liệu người nói để khảo sát đánh giá phương pháp chuẩn hóa gồm 140 người ghi âm môi trường văn phòng, chủ yếu nói giọng Bắc bộ, người nói cách tự nhiên lần, lần 20 giây khoảng thời gian khác Lần thứ lần thứ ghi điều kiện (HT1), lần thứ ghi điều kiện khác (HT2) Cơ sở liệu chia làm tập liệu Data100 Data40 Tập Data100 dùng làm liệu khảo sát tập Data40 chủ yếu sử dụng người người nói mạo danh 4.3.4 Hệ nhận dạng người nói sở để khảo sát Hệ nhận dạng người nói khơng phụ thuộc từ khóa sử dụng mơ hình GMM có số thành phần 32 với đặc trưng hệ số MFCC Trong pha huấn luyện, sử dụng phần mềm mã nguồn mở công cụ H2M để thực thuật toán EM xác định tham số mơ hình GMM cho người nói tập liệu Trong pha nhận dạng, lần phát âm thứ hai dùng khảo sát trường hợp ghi kênh thông tin lần phát âm thứ ba dùng khảo sát trường hợp ghi điều kiện khác kênh thông tin 4.3.5 Đánh giá phương pháp chuẩn hóa theo phổ trung bình Kết khảo sát cho thấy, kết hợp với phương pháp RASTA, phương pháp MS cho kết tốt phương pháp CMS (cải thiện khoảng (13,15-11,45)/13,15 ≈ 12,9% ) Bảng 4: Kết khảo sát số phương pháp chuẩn hóa Khơng chuẩn hóa Chuẩn hóa khác điều kiện đối sánh Độ xác tập đóng Sai số cân tập mở Cùng điều kiện đối sánh 98 % 7,55 % Khác điều kiện đối sánh HNORM RASTA Các phương CMS pháp thông CMS, RASTA dụng CMS, RASTA, HNORM Phương MS pháp MS, RASTA đề xuất 3% 25% 54 % 56 % 41,97 % 27,81 % 61 % 13,15 % 63 % 12,06 % 55% 63 11,45 Nhận xét : Nguyên tắc thực phương pháp chuẩn hóa đề xuất MS giống với phương pháp CMS (cùng dựa nguyên tắc trừ trung bình phổ) thực miền phổ thay miền ceptre CMS Xong điểm khác biệt hai phương pháp chủ yếu chỗ phương pháp MS thực thời gian thực phương pháp CMS khơng Phương pháp CMS đơn giản thực xong bù lại phương pháp MS lại hiệu trường hợp thu mẫu tiếng nói nhiều người kênh thơng tin 15 Hình 5: Các đường quan hệ sai số 4.4 Sơ đồ khối quy trình giám định nhận dạng người nói tổng qt Nhìn cách tổng qt, tồn quy trình hoạt động phương pháp giám định nhận dạng người nói tổng hợp, kết hợp ba phương pháp nhận dạng người nói: tự động, cảm thụ thính giác thủ cơng hoạt động giám định nhận dạng người nói Sơ đồ khối tồn quy trình giám định thể hình Hình 6: Sơ đồ khối quy trình giám định nhận dạng người nói tổng qt 16 Kết luận kiến nghị Với mục tiêu nghiên cứu nhận dạng người nói ứng dụng giám định pháp lý nhận dạng người nói tiếng Việt, luận án đạt số kết sau: Đề xuất quy trình giám định pháp lý nhận dạng người nói hai mẫu tiếng nói tiếng Việt với âm tiết đơn vị ngữ âm so sánh mẫu tiếng nói Quy trình giám định nhận dạng người nói xây dựng dựa phương pháp cảm thụ quan thính giác người kết hợp phân tích phổ âm ngưỡng nhận dạng xác định phạm vi thay đổi số tham số tiếng nói người nhiều người nói Xác định số lượng âm tiết đồng tối thiểu hai mẫu tiếng nói tùy thuộc độ xác nhận dạng yêu cầu để kết luận hai mẫu tiếng nói tiếng Việt người nói Đưa quy tắc xác định khả phân biệt người nói âm tiết tiếng Việt sau: Các âm tiết có âm nguyên âm hàng trước nguyên âm đôi, âm đầu hoặc/và cuối âm mũi có khả phân biệt người nói tốt nhất, âm tiết khác khả phân biệt người nói hơn, âm tiết khép Các hệ giám định tự động nhận dạng người nói phụ thuộc từ khóa tiếng Việt dựa mơ hình đơn vị ngữ âm âm vị cho kết nhận dạng xác phù hợp với cách nói tự nhiên mơ hình âm tiết Đề xuất phương pháp chuẩn hóa phổ tiếng nói nhận dạng người nói điều kiện đối sánh khác dựa nguyên tắc trừ trung bình phổ nhiều người kênh thông tin Các kết nghiên cứu đưa vào ứng dụng thực tế cơng tác giám định nhận dạng người nói tiếng Việt từ năm 2007 phát huy tác dụng tích cực điều tra xét xử tội phạm Việt Nam Để nâng cao khả giám định pháp lý nhận dạng người nói tiếng Việt cần tiếp tục nghiên cứu theo hướng sau: Mở rộng phạm vi nghiên cứu luận án trường hợp người nói cố tình cải trang, giả giọng nói hay trạng thái khơng bình thường (như hồi hộp, lo lắng hay sợ hãi ) cho người nói tiếng Việt Tiếp tục nghiên cứu chuẩn hóa nhận dạng người nói theo hướng dựa thơng tin mức cao, thơng tin bị tác động kênh truyền Nghiên cứu nhận dạng tự động phương ngữ thuộc vùng miền khác đất nước ... án chọn vấn đề nhận dạng người nói tiếng Việt ứng dụng giám định pháp lý để nghiên cứu Mục tiêu nghiên cứu luận án Mục tiêu nghiên cứu luận án nghiên cứu kỹ thuật nhận dạng người nói nhằm giải... quan tới nhận dạng người nói tiếng Việt ứng dụng giám định pháp lý Việt Nam Các kỹ thuật nhận dạng người nói liên quan tới tiếng Việt nghiên cứu phạm vi ổn định số tham số tiếng nói người nói, lựa... người nói tiếng Việt phục vụ cơng tác điều tra xét xử tội phạm Việt Nam Đối tượng phạm vi nghiên cứu Để tiến hành nghiên cứu nhận dạng người nói tiếng Việt, đối tượng luận án chọn để nghiên cứu tiếng

Ngày đăng: 11/01/2020, 14:17