1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Nghiên cứu các kỹ thuật phân đoạn và định vị người nói trong môi trường nhiễu

13 204 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 457,08 KB

Nội dung

Header Page of 126 Công trình ñược hoàn thành BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: TS Phạm Văn Tuấn NGUYỄN THỊ KIM UYÊN Phản biện 1: TS Ngô Văn Sỹ NGHIÊN CỨU CÁC KỸ THUẬT PHÂN ĐOẠN VÀ Phản biện 2: PGS.TS Nguyễn Hữu Thanh ĐỊNH VỊ NGƯỜI NÓI TRONG MÔI TRƯỜNG NHIỄU Chuyên ngành : KỸ THUẬT ĐIỆN TỬ Mã số Luận văn ñược bảo vệ Hội ñồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày 25 tháng năm 2011 : 60.52.70 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Có thể tìm hiểu luận văn tại: Đà Nẵng - 2011 Footer Page of 126 • • Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng Trung tâm Học liệu, Đại học Đà Nẵng Header Page of 126 MỞ ĐẦU Nghiên cứu kỹ thuật phân ñoạn ñịnh vị người nói sử dụng mảng microphone.Dựa kỹ thuật ñó, phát triển thuật toán phân Tính cấp thiết ñề tài ñoạn ñịnh vị người nói môi trường nhiễu khác nhau.Đánh Sử dụng tiếng nói ñể giao tiếp cách tự nhiên dễ dàng ñể giá hiệu thuật toán thông qua phương pháp ñánh giá trao ñổi ý tưởng suy nghĩ người.Việc tách khôi phục trực tiếp kết phân ñoạn/ñịnh vị tiếng nói từ thiết bị giao tiếp người với người, giao Đối tượng, phạm vi nghiên cứu tiếp người với thiết bị ñòi hỏi nhiều thuật toán phức tạp ñang sống môi trường âm thực tế có nhiều thách thức gồm nhiễu, tiếng ồn, phản xạ, echo… Các kỹ thuật phân ñoạn, ñịnh vị người nói ñóng vai trò quan trọng lĩnh vực xử lý tiếng nói ñã ñược nghiên cứu nhiều thập Đối tượng nghiên cứu ñề tài gồm: Kỹ thuật mảng microphone xử lý tín hiệu, kỹ thuật ñịnh vị người nói dùng mảng microphone, kỹ thuật phân ñoạn người nói, Lập trình ñể thực thuật toán ngôn ngữ Matlab C Phương pháp nghiên cứu kỉ qua Các kỹ thuật giúp theo dõi cách liên tục hướng vị trí người nói Đồng thời tách tín hiệu ñến từ người nói - người nói dùng mảng microphone thức hạn chế tín hiệu ñến từ hướng khác ñể thu thập tín hiệu tiếng nói có chất lượng cao, nhằm ñạt ñến tối ña tỉ số tín hiệu Nghiên cứu lý thuyết, tìm hiểu kỹ thuật phân ñoạn ñịnh vị - Sử dụng sở liệu thực tế theo kịch (ai nói, nào, vị thoại từ nguồn phát quan tâm tín hiệu nhiễu phản xạ Việc phân trí người nói thay ñổi nào, người nói, nhiều người nói ñoạn, ñịnh vị người nói nhiệm vụ thiếu ứng ñồng thời, nói di chuyển…) dụng dựa âm truyền hình, ñiện thoại hội nghị, nhận - Xây dựng chương trình thực công cụ Matlab C dạng tiếng nói, hệ thống hội thoại, giao tiếp lệnh ñiều khiển - Đánh giá hiệu hiệu chỉnh thuật toán giọng nói, hệ thống an ninh giám sát… Ý nghĩa khoa học thực tiễn Việc ñịnh vị theo dõi nhiều người nói môi trường thực tế có Cùng với phát triển kỹ thuật xử lý tín hiệu, việc phân ñoạn, nhiễu phản xạ gặp nhiều khó khăn thách thức Nhiều nghiên cứu ñịnh vị người nói sử dụng kỹ thuật mảng microphone ngày ñóng ñã ñưa thuật toán công cụ ñể giải vấn ñề vai trò quan trọng nghiên cứu gần ñây Các kỹ thuật ñang tìm kiếm thuật toán thực tối ưu Đó lý mà chọn ñược ứng dụng nhiều lĩnh vực truyền hình hội nghị, hệ ñề tài :“ Nghiên cứu kỹ thuật phân ñoạn ñịnh vị người nói thống giao tiếp người máy thông minh, giao tiếp lệnh ñiều môi trường nhiễu” khiển giọng nói, hệ thống an ninh giám sát… Mục ñích nghiên cứu Footer Page of 126 Header Page of 126 Bài toán phân ñoạn ñịnh vị người nói, nhiều người nói ñồng CHƯƠNG thời, có chồng lấn tiếng nói ñã ñang ñược nghiên cứu nhiều thập PHÂN ĐOẠN NGƯỜI NÓI kỷ qua ñó toán thực khó áp dụng vào môi trường âm thực tế có nhiều tiếng ồn, nhiễu, phản xạ cao Kỹ 1.1 Giới thiệu thuật phân ñoạn ñịnh vị người nói sử dụng mảng microphone Phân ñoạn người nói nhằm mục ñích chia file âm ñầu vào thành lĩnh vực nghiên cứu mở, ñang tìm kiếm thuật toán thực phiên người nói riêng biệt, nhiệm vụ tìm ñược ñiểm có thay tối ưu môi trường thực tế ñổi người nói Kết kỹ thuật phân ñoạn người nói ñược sử dụng Kết cấu luận văn làm tảng cho Kỹ thuật Phân nhóm người nói Các phiên người nói ñược gán nhãn cho phiên nói người có Chương – Phân ñoạn người nói: Nghiên cứu kỹ thuật phân nhãn, nhãn không ñược gán cho phiên nói người ñoạn người nói ñể tìm ñược ñiểm có thay ñổi người nói khác Chương 2–Định vị người nói: Nghiên cứu kỹ thuật ñịnh vị người nói dựa ước lượng vị trí nguồn phát tín hiệu âm dùng mảng microphone Chương – Phương pháp phân ñoạn ñịnh vị nhiều người nói lúc dựa phân tích không gian thời gian sử dụng mảng microphone:Nghiên cứu phương pháp phát hiện, ñịnh vị phân ñoạn nhiều người nói ñồng thời sử dụng mảng microphone hoàn chỉnh gần theo thời gian thực Chương – Các phương pháp thực hiện, kết ñánh giá Hình 1.1: Phân ñoạn người nói Nghiên cứu phương pháp ñể thực kỹ thuật ñịnh vị phân ñoạn người nói, sử dụng sở liệu thực tế AV16.3, M4 Một cách tổng quát, có kỹ thuật ñể phân ñoạn người nói: phân Corpus theo nhiều kịch bản, lập trình ngôn ngữ Matlab C Xây ñoạn theo tiếng nói/khoảng lặng , phân ñoạn ñựa metric, phân dựng phương pháp ñánh giá ñánh giá kết ñịnh vị ñoạn theo mô hình phân ñoạn người nói 1.2 Trích thuộc tính người nói Việc trích chọn ñặc trưng người nói có ý nghĩa quan trọng, tác dộng trực tiếp tới ñộ xác việc phân ñoạn người nói Để Footer Page of 126 Header Page of 126 phân biệt người nói, ta cần phải tìm cách ñể chuyển ñổi liệu thoại 1.3.2 Phân ñoạn người nói dựa chênh lệch Kullback-Leibler ñể ñặc trưng người nói trở nên rõ ràng tốt Các ñặc 1.3.3 Phân ñoạn người nói dùng BIC trưng ñó ñược mô tả thuộc tính liệu cụ thể Giá trị 1.4 Phân ñoạn người nói dựa mô hình thuộc tính ñó ñại diện cho mô hình khác nhau, mô Các Mô hình ban ñầu ñược tạo tương ứng với tập lớp hình cho người Để phân ñoạn người nói, hệ số Cepstral âm (ñiện thoại – băng rộng, nam - nữ, âm nhạc – thoại – im thường hay ñược sử dụng ñể phân biệt giọng nói người với lặng kết hợp chúng) cách sử dụng liệu ñược huấn người khác luyện Các ranh giới mô hình trở thành ñiểm thay ñổi phân ñoạn 1.2.1 Phương pháp cepstrum 1.2.2 Hệ số ceptrum tần số Mel 1.4.1 Mô hình Gaussian hỗn hợp 1.4.2 Huấn luyện GMM Phương pháp hệ số ceptrum tần số Mel (MFCC) ñược sử dụng ñể tính 1.5 Phân nhóm người nói toán hệ số cepstrum Mel ñơn vị ño lường dùng ñể mô tả 1.6 Phương pháp ñánh giá chất giọng cảm nhận ñược hay tần số giọng Việc ño lường Để ñánh giá Hiệu việc phát có thay ñổi người nói, hai liên quan ñến hoạt ñộng phận nghe người Tần số tiêu chuẩn ñược quan tâm: ñộ xác ñiểm có thay ñổi mel không tuyến tính với tần số thực tế việc cảm nhận ñược tần số người nói ñược tìm thấyvà số các ñiểm có thay ñổi người nói vật lý tai người không tuyến tính không tìm thấy 1.3 Phân ñoạn người nói dựa metric Việc phân ñoạn dựa Metric kỹ thuật ñược dùng phổ biến Kỹ thuật dựa việc tính toán khoảng cách hai ñoạn tiếng nói ñể xác ñịnh ñoạn ñó thuộc người nói hay người nói khác xác ñịnh có tồn thay ñổi người nói ñiểm ñang phân tích Hai ñoạn tiếng nói ñược xét thông thường liền kề (có thể chồng lấn không) ñiểm thay ñổi người nói ñược xem ñoạn Hầu hết khoảng cách hai ñoạn tín hiệu tiếng nói ñược áp dụng ñể phân nhóm người nói ñể so sánh xác ñịnh nhóm người nói thuộc người 1.3.1 Phân ñoạn người nói dựa GLR Footer Page of 126 Header Page of 126 10 2.2 Các vấn ñề gặp phải mô hình tín hiệu CHƯƠNG ĐỊNH VỊ NGƯỜI NÓI 2.2.1 Mô hình nguồn phát môi trường tự 2.2.2 Mô hình nhiều nguồn phát môi trường tự 2.1 Giới thiệu 2.2.3 Mô hình nguồn phát môi trường phản xạ Phần trình bày kỹ thuật ñịnh vị người nói dựa ước lượng vị 2.2.4 Mô hình nhiều nguồn phát môi trường phản xạ trí nguồn phát tín hiệu âm dùng mảng microphone Dựa 2.3 Định vị người nói dùng phương pháp tương quan chéo khoảng cách nguồn phát mảng microphone, việc ước lượng có 2.4 Định vị người nói dùng phương pháp tương quan chéo tổng thể ñược chia thành hai toán: ước lượng hướng (DOA) vị trí nguồn phát Xét microphone ñặt cách khoảng cách d, tín hiệu ñến quát (GCC) (2.26) TDOA microphone : microphone khoảng thời gian khác nhau, gọi τ ñộ lệch thời gian tới (TDOA) tín hiệu nhận ñược microphone Để ñịnh vị người nói, ta cần ước lượng hướng tớiDOA sóng âm (2.27 ) Trong ñó phổ chéo tổng quát hàm trọng số miền tần số Có nhiều phương pháp chọn hàm trọng số miền tần số dẫn ñến phương pháp GCC khác 2.4.1 Hình 2.1: xác ñịnh góc tới DOA dùng microphone trường hợp vùng xa (2.4) Footer Page of 126 Phương pháp tương quan chéo cổ ñiển Nếu gán 2.4.2 ta có phương pháp tương quan chéo cổ ñiển Phương pháp SCOT (2.33 ) Header Page of 126 2.4.3 12 11 CHƯƠNG Phương pháp chuyển ñổi pha GCC-PHAT (2.39 ) PHƯƠNG PHÁP PHÂN ĐOẠN VÀ ĐỊNH VỊ NHIỀU NGƯỜI NÓI CÙNG LÚC DỰA TRÊN PHÂN TÍCH KHÔNG GIAN VÀ THỜI GIAN SỬ DỤNG MẢNG MICROPHONE 2.5 Định vị người nói dùng lọc thích nghi Trong phần trình bày hai hệ thống thích nghi ñể xác ñịnh ñộ trễ Hệ thống ñầu giả sử ñường lan truyền sóng âm trực tiếp vượt trội ñường gián tiếp , mô hình hóa thời gian trễ hai microphone Phương pháp thứ hai ước lượng ñáp ứng xung AED (adaptive eigenvalue decomposition) Phương pháp mạnh sử dụng môi trường có phản xạ cao Cả hai phương pháp ñược thực cách có hiệu dùng lọc tần số thích nghi 2.5.1 Định vị người nói dùng Bộ lọc thích nghi LMS 2.5.2 Định vị người nói dùng AED 2.6 Định vị người nói dùng thuật toán SRP-PHAT 2.6.1 Công suất ñáp ứng theo hướng 2.6.2 SRP-PHAT 2.6.3 Ước lượng thời gian trễ TDOA dùng SRP-PHAT (2.101) (2.102) Thời gian trễ giá trị làm cho công suất ngõ SRP-PHAT ñạt giá trị lớn Hình 3.1: Các phần trình bày chương ñể thực ñịnh vị phân ñoạn nhiều người nói Footer Page of 126 Header Page of 126 13 14 Chương trình bày phương pháp phát hiện, ñịnh vị phân 3.1.5 Hàm chi phí Gradient hệ tọa ñộ Euclidean ñoạn nhiều người nói ñồng thời sử dụng mảng microphone Phương 3.1.6 Chi phí tính toán pháp chia không gian xung quanh mảng microphone thành 3.1.7 Phân loại tiếng nói/không phải tiếng nói hình quạt (sector) ñể phát vùng sector ñó có người - ñang nói hay không Phương pháp phát nhiều người nói cách có hiệu quả, lúc giảm vùng không gian dùng ñể ñịnh vị người nói Mặc khác kỹ thuật phân loại ngắn hạn (STC) ñược sử dụng Phương pháp phân loại tiếng nói/không phải tiếng nói với chi phí thấp: SNSLOW - Phương pháp phân loại tiếng nói/không phải tiếng nói dựa hiệp phương sai GMM: SNSGMM ñể nhóm loại bỏ nhiễu, ñược áp dụng ñể phân ñoạn tiếngnói 3.2 Phân ñoạn ngắn hạn dựa không gian thời gian nhiều người,bị chồng lấn, trường hợp thường hay gặp 3.2.1 hội họp Phần giới thiệu phương pháp phát ñịnh vị Ở phần trước ta ñã trình bày việc ñịnh vị tức thời nhiều người nói nhiều người nói hoàn chỉnh gần theo thời gian thực giới hạn khung thời gian (hình 3.7b) Phần ta trình 3.1 Phát ñịnh vị nhiều người nói bày cách phân tích tự ñộng kết ước lượng vị trí người nói theo 3.1.1 nhiều khung thời gian liên tiếp (hình 3.7c), ñưa phương Giới thiệu Giới thiệu Phần tập trung vào việc Phát ñịnh vị tức thời nhiều pháp ñể xác ñịnh ñường ñi nhiều người nói di chuyển nguồn phát âm: khoảng thời gian ngắn, họ phát biểu Các kết ước lượng vị - Phát có nguồn âm ñang phát trí tức thời (dấu chấm hình 3.7b) theo không gian thời gian - Định vị không gian vị trí nguồn phát ñược nhóm lại thành cluster ngắn hạn (các ñường kép kín Bước 1: Phát ñịnh vị dựa sector Không gian xung quanh hình 3.7c) Thời ñiểm bắt ñầu kết thúc chuỗi âm microphone ñược phân thành vùng hình quạt gọi sector Đối với ñược xác ñịnh cách xác (dấu ngoặc vuông hình 3.7c) khung thời gian sector, giá trị hoạt ñộng SAM-SPARSE- Các kết thực nghiệm cho thấy việc dùng phân loại ngắn hạn MEAN ñược tính từ nhiều tín hiệu microphone Dựa giá trị hoạt hiệu việc xử lý ghi âm thực tế hội nghị có ñộng tính ñược, xác ñịnh có hay không nguồn phát nhiều người nói ngồi vùng không gian sector tương ứng cách so sánh giá trị hoạt 3.2.2 ñộng với ngưỡng Sector có không gian chứa nguồn 3.3 Phân nhóm người nói phát ñược gọi sector tích cực 3.3.1 Tiêu chuẩn thông tin Bayesian cho phân ñoạn người nói 3.3.2 Kết hợp hai phương thức: vị trí âm 3.1.2 Độ lớn miền pha trích từ SRP 3.1.3 Hoạt ñộng âm sector 3.1.4 Định vị theo ñiểm Footer Page of 126 Phân ñoạn ngắn hạn theo không gian thời gian Header Page of 126 15 CHƯƠNG 4: 16 - CÁC PHƯƠNG PHÁP THỰC HIỆN, KẾT QUẢ VÀ ĐÁNH GIÁ 4.1 Phát – ñịnh vị nhiều người nói ñồng thời Phần mô tả phương pháp ñể thực việc phát – ñịnh vị nhiều người nói ñồng thời Đề tài ñã phát triển hai phương pháp dựa kỹ thuật tương quan chéo tổng quát (GCC) ñể nâng cao ñộ xác phát ñịnh vị người nói Trong phần ta tiến hành phân tích so sánh Hiệu phương pháp GCC SRP-PHAT 4.1.1 Các phương pháp phát – ñịnh vị người nói Bên cạnh ba phương pháp phát ñịnh vị nhiều người nói sử dụng mảng microphone ñược mô tả [12], ñề tài ñã ñưa thêm hai phương pháp FASTTDE CC FASTTDE SCOT FASTTDE CC (phương pháp phát triển): sử dụng kỹ thuật tương quan chéo cổ ñiển - FASTTDE SCOT (mới phát triển): sử dụng kỹ thuật SCOT - FASTTDE GCC-PHAT [12]: sử dụng kỹ thuật chuyển ñổi pha GCC-PHAT 4.1.2 Phương pháp ñánh giá 4.1.3 Cơ sở liệu ñể thực thuật toán phân ñoạn ñịnh vị người nói Giới thiệu Database AV16.3 Cơ sở liệu “AV 16.3” ñược xây dựng viện nghiên cứu IDIAP [9] “AV 16.3” ñược ghi bối cảnh phòng họp có 16 microphone camera Mục ñích việc dùng camera ñể cung cấp vị trí người nói không gian ñể làm sở kiểm tra, ñánh giá thuật toán dùng âm ñể ñịnh vị theo dõi người nói Nhóm giải pháp dựa SRP-PHAT: sử dụng thuật toán SRP-PHAT Sử dụng sở liệu “AV16.3” ñể thực thuật toán phát ñể ñịnh vị người nói, áp dụng thuật toán suy giảm SCG, sử dụng – ñịnh vị nhiều nguồn phát âm Các phương pháp phát microphone ñể tìm vị trí không gian có giá trị SRP-PHAT lớn ñịnh vị người nói ñược thực ghi khác sở nhất, gồm phương pháp: liệu AV16.3, dùng mảng microphone ñặt hình tròn - FULL [12]: SCG ñược áp dụng cho tất sector tích cực - FAST SRP-PHAT [12]: SCG ñược áp dụng với nhiều sector tích cực Nhóm giải pháp dựa GCC:Suy giảm SCG nhóm SRPPHAT ñược thay phương pháp trực tiếp dựa ước lượng thời gian trễ sử dụng kỹ thuật tương quan chéo tổng quát (GCC), sử dụng cặp microphone lấy từ hai mảng hình vuông mảng microphone, gồm phương pháp: Hình 4.4: Kịch ghi seq45: có ba người nói di chuyển Footer Page of 126 Header Page of 126 17 18 Hai ghi ñược tạo người nói không di chuyển nói: cứu [13] tiến hành so sánh thuật toán SRP-PHAT thuật - seq01: ghi người nói, ñứng 16 vị trí khác toán tương quan chéo tổng quát - seq37: Ba người nói ñồng thời, không di chuyển ñang nói Độ xác phát hiện: Hiệu phát ñược thể giá Có sáu ghi ñược tạo người nói di chuyển: trị bảng 4.3 4.4.Việc phát người nói dùng phương pháp - seq11: người nói liên tục, di chuyển nói GCC cho kết xác nhóm SRP-PHAT - seq15: người di chuyển, nói không liên tục với thời gian im Chi phí tính toán: thời gian tính toán ñược chia với thời gian kéo dài lặng kéo dài ghi (thời gian thực = 1) - seq18: hai người nói, nói ñối mặt với mảng microphone - - seq24: hai người nói di chuyển, ñi ngang qua trước mặt nhau, nói nhóm GCC sử dụng cặp microphone lấy từ hai mảng suốt thời gian thực ghi mảng microphone nhóm SRP-PHAT sử dụng tất seq40-3p-0111: tương tự Seq37-3p-0001, ngoại trừ người nói cặp microphone có mảng microphone - ñứng di chuyển liên tục - - seq45: ba người di chuyển, tất nói liên tục di chuyển 4.1.4 phí tính toán FASTTDE SCOT FASTTDE GCC-PHAT gần Điều ñược giải thích ñộ phức tạp Kết chung: phương pháp có khả năng: (1) Phát công thức phần 2.4 2.6 ñịnh vị nhiều nguồn phát âm Kết số người ñược phát trí ñược ước lượng sai thấp, ñiều ñược chứng minh kết tỉ lệ phần trăm vị trí ñược ñịnh vị ñúng bảng 4.1, 4.2 thường mức 95% ñến 100% Độ xác ñịnh vị: Hiệu ñịnh vị ñược thể cột ñộ lệch chuẩn (Std dev.) bảng 4.1 4.2 - Trong số nhóm phương pháp GCC, ñộ xác ñịnh vị phương pháp FASTTDE CC tốt phương pháp GCC lại Hiệu ñịnh vị FASTTDE SCOT tương tự FASTTDE GCC-PHAT - Hiệu ñịnh vị nhóm phương pháp SRP-PHAT cao hẳn nhóm phương pháp GCC Điều phù hợp với kết nghiên Footer Page of 126 Trong số phương pháp GCC, chi phí tính toán phương pháp FASTTDE CC thấp phương pháp GCC lại Chi Kết ñánh giá ñịnh vị xác bảng 4.3, 4.4 ñã nói lên ñiều ñó (2) Số vị Chi phí tính toán nhóm GCC nhỏ nhóm SRP-PHAT - Chi phí tính toán cho phương pháp FULL cao hẳn phương pháp khác FULL thực tìm kiếm toàn không gian Do ñó FULL không ñược áp dụng ñể ñịnh vị người nói theo thời gian thực Header Page 10 of 126 20 19 Bảng 4.1 Độ xác ñịnh vị, tính theo ñộ, phần trăm vị trí ñược ước lượng xác (FULL FAST SRP-PHAT) FULL Bản ghi FAST SRP-PHAT Bias Std dev % corr Bias Std dev % corr Seq01 Seq37 -0.47 -0.05 2.65 2.63 96.4 90.3 -0.33 0.63 2.60 2.68 97.6 95.8 Seq11 Seq15 Seq18 1.18 0.30 0.32 2.78 1.76 2.09 87.3 79.1 93.4 1.29 0.17 0.39 2.67 1.77 2.06 92.6 89.3 96.2 Seq24 Seq40 Seq45 0.16 -1.31 0.36 2.99 5.37 3.30 90.4 100 91.3 0.22 -1.94 0.38 2.99 6.02 2.46 96.3 99.7 88.3 TB 0.06 2.95 91.0 0.10 2.91 94.5 Hình 4.5b Kết phát ñịnh vị sau phân loại Tiếng nói/Nhiễu - Bản ghi seq11 Vị trí thực ñược cung cấp từ camera (ñường màu ñen) Hình 4.5c Kết phát ñịnh vị - Bản ghi seq18: hai người nói, nói ñối mặt với mảng microphone, di chuyển chậm gần Hình 4.5a Kết phát ñịnh vị (các dấu chấm) trước phân loại Tiếng nói/Nhiễu- Bản ghi seq11: Một người nói di chuyển Footer Page 10 of 126 di chuyển chậm phía xa Header Page 11 of 126 21 22 Bảng 4.5 Chi phí tính toán: thời gian tính toán chia với thời gian kéo dài ghi (thời gian thực =1) Bản FAST FASTTDE FASTTDE FASTTDE 13.29 24.39 SRP-PHAT 1.53 1.75 CC 1.21 1.12 SCOT 1.32 1.30 GCC-PHAT 1.33 1.29 Seq15 Seq18 Seq24 14.10 31.52 24.43 1.32 2.56 1.94 1.08 1.36 1.14 1.09 1.76 1.47 1.11 1.77 1.47 Seq37 Seq40 Seq45 26.93 33.55 28.71 3.27 2.3 2.04 2.81 1.26 1.18 3.79 1.28 1.50 3.79 1.62 1.51 TBình 24.62 2.09 4.2 Phân ñoạn người nói 1.39 1.68 1.73 FULL ghi Seq01 Seq11 Hình 4.5e Kết phát ñịnh vị - Bản ghi seq40: Ba người nói ñồng thời Bảng 4.2 Độ xác ñịnh vị vị trí ñược ước lượng xác (các phương pháp GCC) FASTTDE CC FASTTDE SCOT FASTTDE GCC- Std % Std % PHAT Std % dev corr dev corr dev corr Bản ghi Bias Bias Bias 0.53 2.41 3.29 4.12 98.9 99.2 0.28 2.58 3.36 6.26 99.1 97.1 0.38 2.75 3.46 6.57 98.7 97.4 Seq11 Seq15 Seq18 Seq24 Seq40 Seq45 1.94 1.19 1.22 0.44 -0.35 -0.26 3.85 6.27 3.64 4.57 5.59 4.41 98.1 98.0 99.1 96.3 100 100 2.33 1.27 0.51 -0.10 -0.07 -0.12 5.79 5.09 2.82 3.98 6.16 3.74 97.9 88.0 99.0 99.1 100 95.1 2.36 1.19 0.61 -0.01 -0.16 0.16 5.69 5.30 3.18 4.04 6.44 3.65 97.3 88.0 98.1 98.6 100 93.7 0.89 4.47 98.6 0.84 4.65 96.9 0.91 4.79 96.5 Footer Page 11 of 126 Phân loại Tiếng nói/Không phải tiếng nói Trong môi trường phòng họp thực tế, tiếng nói người Seq01 Seq37 T.Bình 4.2.1 có âm gây nhiễu khác như: máy chiếu, laptop Do ñó ta ñưa phương pháp mở rộng SAM-SPARE-MEAN ñể phân biệt Tiếng nói/ Không phải tiếng nói: phương pháp trích MFCC theo sector với phổ ñược lọc theo vị trí (phần 3.1.7) Kết Phân loại Tiếng nói/Không phải tiếng nói làm tảng ñể xây dựng phân ñoạn tiếng nói 4.2.2 Phân ñoạn người nói theo vị trí Sau thực phân loại tiếng nói/ tiếng nói, ta thực phân ñoạn tiếng nói theo vị trí ñể tự ñộng xác ñịnh: số vị trí vị trí thường có người nói buổi họp, xác ñịnh phân ñoạn tiếng nói Header Page 12 of 126 4.2.3 23 24 CSDL ñể thực thuật toán phân ñoạn tiếng nói KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI Cơ sở liệu M4 Corpus [20] gồm ghi 18 họp ngắn, * Các kết ñạt ñược tổng cộng kéo dài khoảng với liệu tiếng nói ña kênh M4 Corpus cung cấp liệu xác phân ñoạn tiếng nói/im Đề tài ñã nghiên cứu kỹ thuật phân ñoạn ñịnh vị người nói lặng người ghi môi trường nhiễu, có nhiều người nói ñồng thời, có chồng lấn 4.2.4 Phương pháp ñánh giá phân ñoạn tiếng nói: tiếng nói Đồng thời ñề tài ñã nghiên cứu ñược phương pháp Phân ñoạn Tiếng nói/Khoảng lặng tất người nói ñược ñánh giá hiệu ñể thực thuật toán phân ñoạn ñịnh vị nhiều người dựa thông số PRC, RCL, F nói theo thời gian thực môi trường thực tế, sử dụng mảng 4.2.5 microphone Các phương pháp ñịnh vị người nói ñược thực Kết So sánh SNSLOW/SNSGMM: Mặc dù kết SNSLOW thấp ñánh giá dựa sở liệu thực AV16.3 viện nghiên cứu chút so với SNSGMM, nhiên SNLOW ñơn giản IDIAP phương pháp phân ñoạn người nói sử dụng sở có chi phí tính toán thấp Kết thực SNSGMM liệu M4 Corpus loại bỏ nhiễu tốt (tiếng lật tài liệu giấy, tiếng thể người chuyển Trong phần ñịnh vị người nói, ñề tài ñã nghiên cứu hai nhóm giải pháp ñộng ) dựa SRP-PHAT dựa thuật toán tương quan chéo tổng quát GCC Trong nhóm giải pháp GCC, ñề tài ñã phát triển thêm hai phương pháp GCC ñược ñặt tên FASTTDE CC FASTTDE SCOT Sự khác phương pháp thể bước Định vị theo ñiểm ñể ñịnh vị người nói Nhóm giải pháp dựa SRP-PHAT: sử dụng thuật toán SRP-PHAT ñể ñịnh vị người nói, áp dụng thuật toán suy giảm SCG, sử dụng microphone ñể tìm vị trí không gian có giá trị SRP-PHAT lớn nhất, gồm phương pháp: - FULL [12]: SCG ñược áp dụng cho tất sector tích cực - FAST SRP-PHAT [12]: SCG ñược áp dụng với nhiều sector tích cực Nhóm giải pháp dựa GCC:Suy giảm SCG nhóm SRPHình 4.6f: Kết phân ñoạn tiếng nói theo vị trí ghi PHAT ñược thay phương pháp trực tiếp dựa ước Scripted-Meeting-TST-01 (M4 Corpus) lượng thời gian trễ sử dụng kỹ thuật GCC, sử dụng cặp Footer Page 12 of 126 Header Page 13 of 126 25 26 microphone lấy từ hai mảng hình vuông mảng microphone, có người nói liên tục cho ñộ lệch chuẩn tốt seq40 gồm phương pháp: ba tín hiệu tiếng nói bị nhiễu xuyên kênh - Phương pháp FASTTDE CC (phương pháp phát triển): sử dụng * Hướng phát triển kỹ thuật tương quan chéo cổ ñiển - Phương pháp FASTTDE SCOT (phương pháp phát triển): sử Đề tài ñã thực phân ñoạn, ñịnh vị nhiều người nói ñồng thời dựa dụng kỹ thuật SCOT thông tin âm mảng microphone, áp dụng - Phương pháp FASTTDE GCC-PHAT [12]: sử dụng kỹ thuật chuyển môi trường phòng họp thực tế.Tuy nhiên, phân ñoạn ñịnh vị người ñổi pha GCC-PHAT nói theo âm khôi phục, ñoán ñược ñường ñi người Hiệu hai phương pháp ñược ñánh giá so sánh với nói trường hợp người nói im lặng kéo dài di chuyển phương pháp GCC có trước: FASTTDE GCC-PHAT Đồng thời, hiệu Vì ñề tài ñược mở rộng nghiên cứu phương pháp kết hợp nhóm SRP-PHAT ñược so sánh với nhóm GCC Kết thông tin âm mảng microphone hình ảnh cho thấy:các phương pháp có khả năng: phát ñịnh vị nhiều camera ñể việc thực phân ñoạn ñịnh vị người nói môi nguồn phát âm, số vị trí ñược ước lượng sai thấp trường phức tạp (khu vực ñám ñông: giám sát, ñiều khiển - Trong nhóm phương pháp dựa GCC, phương pháp FASTTDE robot ) CC có ñộ xác ñịnh vị tốt chi phí tính toán thấp Trong tương lai, thuật toán khác ñể ñịnh vị người nói dựa ước phương pháp GCC lại Hiệu ñịnh vị phương pháp lượng thời gian trễ, chẳng hạn LMS, AED, ñược tiếp tục thêm vào FASTTDE SCOT tương ñương với phương pháp FASTTDE ñược nghiên cứu cách tích hợp chúng vào mô ñun Định vị theo GCC-PHAT ñiểm hệ thống phân ñoạn, ñịnh vị người nói mà ñề tài ñã nghiên - Nhóm phương pháp SRP-PHAT cho ñộ xác ñịnh vị cao cứu Việc phân tích hiệu phương pháp ñó môi hẳn nhóm GCC, việc phát người nói dùng nhóm trường nhiễu, có phản xạ góp phần hữu ích cho lĩnh vực phân ñoạn, phương pháp GCC cho kết xác nhóm SRP-PHAT ñịnh vị người nói chi phí tính toán nhóm GCC thấp nhóm SRP-PHAT Trường hợp ghi có người nói bị che khuất phần: (seq40) nhiễu xuyên kênh tín hiệu thoại mạnh, hiệu ñịnh vị phương pháp bị suy giảm ñáng kể Hiệu ñịnh vị phương pháp FASTTDE CC trở nên cao chút so với nhóm SRP-PHAT phương pháp FASTTDE GCC-PHAT Bản ghi seq45 Footer Page 13 of 126 ... tảng cho Kỹ thuật Phân nhóm người nói Các phiên người nói ñược gán nhãn cho phiên nói người có Chương – Phân ñoạn người nói: Nghiên cứu kỹ thuật phân nhãn, nhãn không ñược gán cho phiên nói người. .. 126 MỞ ĐẦU Nghiên cứu kỹ thuật phân ñoạn ñịnh vị người nói sử dụng mảng microphone.Dựa kỹ thuật ñó, phát triển thuật toán phân Tính cấp thiết ñề tài ñoạn ñịnh vị người nói môi trường nhiễu khác... hiệu, kỹ thuật ñịnh vị người nói dùng mảng microphone, kỹ thuật phân ñoạn người nói, Lập trình ñể thực thuật toán ngôn ngữ Matlab C Phương pháp nghiên cứu kỉ qua Các kỹ thuật giúp theo dõi cách

Ngày đăng: 19/05/2017, 21:10

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN