Giải Pháp Cải Thiện Chất Lượng Định Vị Nguồn Âm Dùng Mảng Micro Và Lưới Fibonacci Phạm Thành Công1, Trần Văn Chí2, Lê Thanh Bằng3, Lương Thị Ngọc Tú3, Trịnh Quang Kiên3 1Viện Điện tử, Viện Khoa học và[.]
Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) Giải Pháp Cải Thiện Chất Lượng Định Vị Nguồn Âm Dùng Mảng Micro Và Lưới Fibonacci Phạm Thành Cơng1, Trần Văn Chí2, Lê Thanh Bằng3, Lương Thị Ngọc Tú3, Trịnh Quang Kiên3 Viện Điện tử, Viện Khoa học Công nghệ Quân Viện Kỹ thuật Hải Quân, Quân chủng Hải Quân Khoa Vô tuyến điện tử, Học Viện Kỹ thuật Quân Email: thanhcongvdt@gmail.com, chitran.hq@gmail.com, bang.le@lqdtu.edu.vn, tuluong@lqdtu.edu.vn, kien.trinh@lqdtu.edu.vn đến độ xác thực thuật tốn; thực mô thực nghiệm đánh giá hiệu thuật toán liệu mô liệu thực tế LOCATA [3] Trên sở đó, báo đề xuất sử dụng lưới Fibonacci thuật tốn SRP-PHAT nhằm cải thiện độ xác q trình định vị Các mơ phỏng, thực nghiệm giải pháp đề xuất cho hiệu xác định vị trí nguồn âm tốt so sánh với trường hợp sử dụng lưới thường (đều) sử dụng giải pháp định vị nguồn âm dựa tảng ODAS [4] Phần lại báo tổ chức sau: Mục II giới thiệu phương pháp định vị nguồn âm sử dụng mảng micro Mục III trình bày thuật tốn định vị nguồn âm Mục IV đánh giá kết thực thuật toán theo lưới Fibonaci đề xuất so với phương pháp ODAS sở liệu LOCATA Mục V thảo luận hướng phát triển Mục VI kết luận báo Abstract— Trong báo này, đề xuất nghiên cứu sử dụng mảng micro dạng lưới Fibonaci, kết hợp với thuật toán để định vị tách nguồn âm Giải pháp tập trung vào nghiên cứu thuật toán GCC-PHAT SRP-PHAT kết hợp với thuật toán bám để định hướng tách nguồn âm Bên cạnh đó, nghiên cứu thực số mô phỏng, thực nghiệm đánh giá yếu tố tác động đến độ xác ước lượng vị trí nguồn âm hiệu sử dụng lưới so với nghiên cứu khác lĩnh vực Keywords— GCC-PHAT, SRP-PHAT, DoA, Định vị nguồn âm, Mảng micro, xử lý âm I GIỚI THIỆU Các kỹ thuật định vị tách nguồn âm ứng dụng rộng rãi dân quân sự, ứng dụng đa thủy âm, kỹ thuật rô-bốt, ứng dụng giám sát an ninh, ứng dụng cải thiện chất lượng âm cho hệ thống nhận dạng, hội nghị truyền hình… Một kỹ thuật định vị tách nguồn âm ứng dụng nhiều sử dụng mảng micro Mục tiêu xử lý tín hiệu âm mảng micro ước lượng số tham số âm trích xuất tín hiệu mong muốn, tùy vào ứng dụng, việc sử dụng thông tin mặt khơng gian – thời gian (và tần số) tín hiệu đầu mảng micro Cơ sở lý thuyết chung mơ hình truyền âm, mảng micro vấn đề liên quan tiền đề để xây dựng thuật toán định vị nguồn âm dựa mảng micro, thuật toán định vị nguồn âm dựa nguyên lý hướng sóng tới, có tương quan chéo, tương quan chéo tổng quát, số phương pháp áp dụng hàm trọng số hàm tương quan chéo tổng quát kết ước lượng tốt Trên sở đó, báo trình bày giải pháp điển hình xác định vị trí nguồn âm thơng qua ước lượng độ trễ thời gian theo cặp tín hiệu thu được, GCC-PHAT [1] Thuật tốn SRP-PHAT giới thiệu nhằm khai thác số lượng lớn micro sử dụng giảm nhiễu tiếng vọng [2] SRP-PHAT dựa nguyên lý tạo chùm tín hiệu (beamformer), theo đó, tín hiệu thu micro bị làm trễ khoảng thời gian sau kết hợp lại với để củng cố tín hiệu nhiễu theo hướng khác nhau, hướng cho cơng suất phản xạ lớn có khả vị trí nguồn âm Mối liên hệ GCC-PHAT SRPPHAT trình bày để làm sở đề xuất giải pháp báo Từ thực tế triển khai thuật toán định vị định hướng nguồn âm, thảo luận số vấn đề ảnh hưởng ISBN 978-604-80-7468-5 II ĐỊNH VỊ NGUỒN ÂM SỬ DỤNG MẢNG MICRO Mảng micro tập hợp micro bố trí khơng gian theo cách mà thơng tin mặt khơng gian tín hiệu thu nhận Sự khác mặt khơng gian tín hiệu từ nguồn phát đến micro xử lý sử dụng vào nhiều mục đích khác Dạng hình học mảng micro đóng vai trị quan trọng việc xây dựng thuật toán xử lý Đối với toán định vị nguồn âm, dạng hình học mảng micro phải biết trước định vị xác nguồn âm, dạng mảng mà micro cách đơn giản hóa tốn ước lượng, mảng micro cách tuyến tính mảng micro hình trịn thường sử dụng cho mục đích [1] Đối với số toán quan trọng khác khử nhiễu tách nguồn âm, dạng hình học mảng micro khơng quan trọng, phụ thuộc vào thuật tốn sử dụng, trường hợp khái niệm “mảng micro” “đa micro” thay cho Khi tín hiệu sóng âm lan truyền khơng gian hạn chế (trong phịng) có bề mặt phản xạ, sóng âm từ nguồn lan truyền theo nhiều đường khác đến micro Sự lan truyền đa đường gây nên tượng nhiễu dội (tiếng vọng), tác động lớn tới hiệu việc xử lý âm Quan hệ tín hiệu thu micro tín hiệu nguồn mơ hình hóa theo lý thuyết hệ thống tuyến tính [2] với đáp ứng xung ℎ(𝑡) sau: 129 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) 𝑥(𝑟⃗⃗⃗⃗𝑚 , ⃗⃗𝑟𝑠 , 𝑡) = 𝑠(𝑡) ∗ ℎ(𝑟⃗⃗⃗⃗𝑚 , ⃗⃗𝑟𝑠 , 𝑡) Khoảng cách lớn hai micro tương ứng với khoảng lệch pha [−𝜋/2, 𝜋/2], tức khoảng cách 𝑑 hai micro tương ứng với 𝜋 giá trị góc lệch pha (nửa chu kỳ), thế, điều kiện để bảo đảm không xảy tượng chồng phổ khơng gian viết lại sau: 𝜆𝑚𝑖𝑛 (4) 𝑑 ≤ Trong 𝑑 khoảng cách hai micro, 𝜆𝑚𝑖𝑛 giá trị nhỏ bước sóng thành phần tần số có tín hiệu Tín hiệu thu micro tín hiệu tương tự, liên tục, nhiên xử lý địi hỏi tín hiệu cần phải rời rạc hóa q trình lấy mẫu Do đó, độ trễ lớn hai tín hiệu thu micro số nguyên số mẫu tín hiệu Tại tần số lấy mẫu vận tốc âm định, với khoảng cách 𝑑 hai micro lớn cho số lượng mẫu sai khác hai tín hiệu thu nhiều hơn, chi tiết hơn, nói cách khác cho độ phân giải cao độ xác tính tốn tốt mơ tả theo Hình (1) Trong 𝑠(𝑡) tín hiệu nguồn, ⃗⃗𝑟𝑠 véc-tơ thể vị trí nguồn, 𝑥(𝑡) tín hiệu thu được, ⃗⃗⃗⃗ 𝑟𝑚 véc-tơ thể vị trí micro Nguồn âm Micro Hình Mơ hình lan trun âm đa đường Một mơ hình khác [3] thể đường lan truyền trực tiếp cộng với tín hiệu âm đến từ hướng khác là: 𝑎 (2) 𝑥(𝑟⃗⃗⃗⃗𝑚 , ⃗⃗𝑟𝑠 , 𝑡) ≈ 𝑠(𝑡 − 𝜏𝑚 ) + 𝑠(𝑡) ∗ 𝑢(𝑟⃗⃗⃗⃗𝑚 , ⃗⃗𝑟𝑠 , 𝑡) Nguồn âm 𝑟𝑚 z Nguồn âm z Nguồn âm Nguồn âm mic3 φ O O y mic4 (a) x mic2 θ Mic1 (b) Do đó, độ phân giải thuật toán định vị nguồn âm dựa sai khác độ trễ tín hiệu cặp micro phụ thuộc chặt chẽ vào khoảng cách micro xét (b) III CÁC THUẬT TỐN ĐỊNH VỊ NGUỒN ÂM A Thuật tốn GCC-PHAT Biểu thức hàm GCC-PHAT sở biến đổi FFT tín hiệu micro 𝑖 micro 𝑗 khung liệu 𝑏 định nghĩa sau: ∗ (5) 𝑅̂𝑖𝑗,𝑏 (𝜏̂ ) = 𝑅𝑒[𝐼𝐹𝐹𝑇(𝛹𝑖𝑗 [𝑘]𝑋𝑖,𝑏 [𝑘]𝑋𝑗,𝑏 [𝑘])](𝜏̂ ) ∗ 𝑋𝑖,𝑏 [𝑘]𝑋𝑗,𝑏 [𝑘] = 𝑅𝑒[𝐼𝐹𝐹𝑇( )](𝜏̂ ) ∗ |𝑋𝑖,𝑏 [𝑘]||𝑋𝑗,𝑏 [𝑘]| Trong điều kiện trường gần, mảng có 𝑀 micro, có 𝑀 hướng tới tín hiệu (DOA) Mỗi hướng tới hướng từ micro tới nguồn âm, giá trị khác nhau, mặt tốn học, hướng tới tín hiệu định nghĩa theo vị trí nguồn âm ⃗⃗𝑟𝑠 vị trí micro ⃗⃗⃗⃗ 𝑟𝑚 vec-tơ đơn vị sau: ⃗⃗⃗⃗⃗ −𝑟 ⃗⃗⃗ 𝑟 (3) ⃗⃗⃗⃗ 𝜀 ≡ 𝑚 𝑠 Với 𝑚 = … 𝑀, |𝜀⃗⃗⃗⃗ | = 𝑚 |𝑟 ⃗⃗⃗⃗⃗ 𝑟𝑠 | 𝑚 − ⃗⃗⃗ n mẫu Hình Minh họa độ phân giải mảng micro y Hình Mơ tả hướng thu tín hiệu micro mảng trường hợp trường gần (a), trường xa (b) với góc phương vị 𝜃 góc tà 𝜑 𝑚 Mic0 (a) mic1 mic4 mic1 x Mic1 Mic0 mic2 mic3 Trong Re[.] ký hiệu tốn tử lấy phần thực hàm phức IFFT phép biến đổi Fourier ngược FFT Biểu thức cho thấy cách để thực thuật toán GCC-PHAT dựa biến đổi FFT tín hiệu thu từ cặp micro Ước lượng TDOA cặp micro thực cách tìm độ trễ mà hàm GCC-PHAT 𝑅̂𝑖𝑗,𝑏 (𝜏̂ ) đạt giá trị lớn Đối với tín hiệu lan truyền khơng gian, chồng phổ khơng gian tượng mà tín hiệu khơng thể phân biệt lấy mẫu [4], [5] Lấy ví dụ với tín hiệu thu micro hình sau: Nguồn âm Đọc liệu từ micro Áp dụng hàm cửa sổ FFT Tính hàm trọng số IFFT Đọc liệu từ micro (a) (b) Hình Ví dụ tượng chồng phổ không gian ISBN 978-604-80-7468-5 FFT Biến đổi liên hợp phức Hình Sơ đồ thực thuật tốn GCC-PHAT Mic1 Mic0 Áp dụng hàm cửa sổ TDOA 130 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) Để thực thuật toán GCC-PHAT định vị định hướng nguồn âm với mảng có nhiều micro, micro bố trí bất kỳ, áp dụng thuật tốn có lưu đồ thuật tốn Hình 6, áp dụng kỹ thuật qt khơng gian để tìm điểm có sai số nhỏ so với thực tế Trong khâu tạo lưới đóng vai trị quan trọng tồn trình bởi: việc lựa chọn lưới phụ thuộc vào nhiều yếu tố, có phân bố điểm lưới (đều hay không đều), độ phân giải lưới (số điểm lưới), u cầu tính tốn thực lưới Mục đích chọn lưới cách xuất phát từ việc tối ưu phân bố điểm không gian để giảm tối đa lượng thời gian tính tốn muốn qt tồn khơng gian Việc chọn số điểm lưới quan trọng, số điểm lưới định độ phân giải lưới Lưới có nhiều điểm độ phân giải cao, sai số ước lượng vị trí nguồn hướng tới nguồn âm nhỏ, nhiên, tăng số điểm lưới đồng thời tăng yêu cầu tính tốn Do đó, cần phải có cân đối hợp lý độ phân giải lưới thời gian đáp ứng Mặt khác, lưới chọn bất kỳ, lưới chiều chiều tùy yêu cầu cụ thể Các điểm lưới tương ứng với điểm tiềm năng, hướng vị trí cụ thể nguồn âm Mỗi điểm lưới có giá trị tọa độ cụ thể hệ trục tọa độ chọn Tương tự sử dụng thuật toán GCC-PHAT với trường hợp nhiều micro vị trí để định vị nguồn âm, thuật toán SRP-PHAT sử dụng phương pháp quét không gian hàm SRP-PHAT để tìm điểm tương ứng với tập tham số độ trễ mà làm cho công suất đáp ứng lớn nhất, vị trí vị trí nguồn âm hướng nguồn âm Bắt đầu Khởi tạo tham số Tạo lưới Đọc liệu âm Xử lý phát Có Có liệu khơng? giọng nói (VAD) Khơng Khơng Tạo lưới Khơng Khơng Có giọng nói khơng? Có Tính TDOA Xuất hướng tới nguồn âm Tìm hướng tới nguồn âm (φ, θ ) C Đánh giá hiệu GCC-PHAT SRP-PHAT sử dụng lưới Fibonaci Phần thực mô để đánh giá hiệu thuật toán GCC-PHAT SRP-PHAT so với lý thuyết, yếu tố ảnh hưởng tới độ xác việc ứng dụng thuật toán vào định vị định hướng nguồn âm, với liệu đầu vào tập tin âm đơn âm liệu giọng nói ghi âm Với ưu điểm dễ thực (yêu cầu tính tốn khơng lớn, khơng cần bảng tra), độ phân giải điều chỉnh tùy ý, điểm lưới gần cách nhau, đó, nghiên cứu lựa chọn lưới Fibonacci để thực thuật toán Lưới Fibonacci giải pháp cận tối ưu, thực đơn giản, xây dựng theo đường xoắn ốc từ xuống theo “tỷ lệ Quét không gian Kết thúc Hình Lưu đồ thuật tốn thực định hướng nguồn âm sử dụng thuật toán GCC-PHAT B Thuật toán SRP-PHAT Tương tự sử dụng thuật toán GCC-PHAT với trường hợp nhiều micro vị trí để định vị nguồn âm, thuật tốn SRP-PHAT sử dụng phương pháp qt khơng gian hàm SRP-PHAT để tìm điểm tương ứng với tập tham số độ trễ mà làm cho công suất đáp ứng lớn nhất, vị trí vị trí nguồn âm hướng nguồn âm Điểm khác biệt SRP-PHAT khâu tính mảng GCC-PHAT khâu qt khơng gian Khung liệu tín hiệu sau biến đổi FFT 𝑋𝑚,𝑏 [𝑘], số 𝑚 số thứ tự micro, 𝑏 số khung liệu, SRP-PHAT thể sau: (6) 𝑃̂𝑏 (𝛿1 , … , 𝛿𝑀 ) 𝑀−1 𝑀 = ∑ ∑ 𝑅𝑒 [𝐼𝐹𝐹𝑇 ( 𝑚=1 𝑛=𝑚+1 ISBN 978-604-80-7468-5 Qt khơng gian Hình Lưu đồ thuật toán thực thuật toán SRPPHAT để định hướng nguồn âm Việc thực thuật toán SRP-PHAT để định vị định hướng nguồn âm mô tả cách chi tiết lưu đồ thuật tốn Hình Sử dụng kỹ thuật quét điểm không gian để xác định vị trí hướng nguồn âm nên việc thực thuật toán SRP-PHAT GCC-PHAT có nhiều điểm tương đồng Trong khâu xử lý tạo lưới điểm tiềm năng, đọc liệu âm thanh, hay xử lý phát giọng nói, tìm hướng tới nguồn âm (ánh xạ từ lưới hệ tọa độ cầu) tương tự thực thuật toán Khởi tạo tham số Xử lý phát Có Có liệu khơng? giọng nói (VAD) Tính mảng GCC-PHAT Có Tìm hướng tới nguồn âm (φ, θ ) Kết thúc Bắt đầu Đọc liệu âm Có giọng nói khơng? Xuất hướng tới nguồn âm 1+√5 vàng” ( ) Hình Ngoài ra, lưới Fibonacci số phương pháp phân bố mà thay đổi tùy ý số điểm lưới (độ phân giải) Mảng micro sử dụng để mô mảng phẳng, cần sử dụng lưới bán cầu để khảo sát, nên lưới bán cầu Fibonacci lựa chọn, với 20.000 điểm, khoảng cách hai điểm kế cận lưới xấp xỉ: (7) 2𝜋𝑅2 ∆𝑑 ≈ √ ≈ 1,77 (𝑐𝑚) 𝑠ố đ𝑖ể𝑚 𝑐ủ𝑎 𝑙ướ𝑖 ∗ 𝑋𝑚,𝑏 [𝑘]𝑋𝑛,𝑏 [𝑘] )] (𝛿𝑛𝑚 ) ∗ |𝑋𝑚,𝑏 [𝑘]||𝑋𝑛,𝑏 [𝑘]| Khoảng cách đủ nhỏ để sai số mà lưới tác động lên mô không đáng kể 131 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) Độ phân giải lưới ảnh hưởng tới độ xác ước lượng DOA sử dụng thuật toán GCC-PHATvà SRP-PHAT Lưới lựa chọn lưới bán cầu Fibonacci có 100, 300, 500, 1000, 10000, 20000, 50000 điểm, tương ứng với khả phân biệt 14o, 8,2o , 6,4o , 4,5o , 1,4o , 1o 0,6o Hình Minh họa lưới bán cầu Fibonacci Mảng micro mơ mảng hình vng gồm micro, khoảng cách micro 6,5 cm, nguồn âm mô nguồn cách mảng 10 mét, vị trí thay đổi bao quanh mảng Hình z Nguồn âm m3 φ θ m4 Hình 11 Thuật toán GCC-PHAT(trên) SRPPHAT(dưới) sử dụng lưới với độ phân giải khác m2 c) Ảnh hưởng số lượng micro đến định hướng nguồn âm sử dụng thuật toán GCC-PHAT SRP-PHAT với lưới Fibonaci y m1 x Phần thực mô với mảng micro khác Mảng thứ có micro có cấu Hình 9, với kích thước micro micro kề 6,5 cm, mảng thứ có micro, mảng thứ có 16 micro có khoảng cách micro gần 6,5 cm, Hình 12, với chấm trịn màu xanh thể micro, mảng micro mảng phẳng Hình Cấu hình mảng micro sử dụng để mô phỏng, nguồn âm mô bao quanh mảng micro góc phương vị góc tà khác a) Ảnh hưởng khoảng cách micro đến định hướng nguồn âm sử dụng thuật toán GCC-PHAT SRPPHAT Micro (a) (b) Hình 12 Cấu hình mảng micro sử dụng để mơ Hình 10 Kết đánh giá thuật toán GCCPHAT(trên) SRP-PHAT(dưới) với khoảng cách micro khác Các sai số giảm cách gần tuyến tính so với độ tăng khoảng cách micro Do đó, tăng khoảng cách micro mảng giải pháp hiệu để tăng độ xác ước lượng DOA phải nhỏ 𝜆𝑚𝑖𝑛 ⁄2 để đảm bảo không xảy tượng chồng phổ không gian b) Ảnh hưởng độ phân giải lưới đến định hướng nguồn âm sử dụng thuật toán GCC-PHAT SRP-PHAT với lưới Fibonaci ISBN 978-604-80-7468-5 Hình 13 Kết mơ đánh giá thuật toán GCCPHAT(trên) SRP-PHAT(dưới) sử dụng mảng micro khác 132 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) trình bày báo 5,3 o 3,86 o nhỏ so với 8,96 o ODAS Tuy nhiên, thực thuật toán định hướng nguồn âm tảng ODAS nhanh đáng kể so với thực thuật toán báo Nguyên nhân tảng ODAS có áp dụng kỹ thuật qt “lưới thơ - lưới tinh” (coarse to fine) [6], nên giảm đáng kể số điểm cần qt khơng gian, thời gian đáp ứng nhanh d) So sánh GCC-PHAT SRP-PHAT với ODAS ODAS [6] tảng phát triển để thực định hướng nguồn âm dựa thuật toán SRP-PHAT có sử dụng nhiều kỹ thuật để tối ưu hóa u cầu tính tốn để định hướng bám nguồn âm tảng nhúng F Grondin cộng đề xuất Một platform phương pháp ODAS sử dụng cấu hình mảng micro bố trí dạng đa diện lồi 20 mặt incosahedron IV ĐÁNH GIÁ KẾT QUẢ THỰC HIỆN CÁC THUẬT TOÁN TRÊN CƠ SỞ DỮ LIỆU THỰC LOCATA Thực nghiệm sử dụng liệu thực tế LOCATA để đánh giá hiệu thuật toán định vị nguồn âm Bộ liệu LOCATA [7] liệu ghi âm thực tế sử dụng mảng micro khác với mục đích đánh giá hiệu thuật toán ước lượng nguồn âm Trong phần thực nghiệm đánh giá thuật toán GCC-PHAT SRP-PHAT, phần liệu với mảng micro DICIT [8] (Hình 17) liệu sử dụng để đánh giá hiệu thuật toán Hình 14: Mảng micro bố trí đỉnh đa diện lồi incosahedron ODAS Các tập tin âm sử dụng để thực nghiệm tập tin ghi âm giọng nói tần số lấy mẫu 16 KHz, sau tạo độ trễ khác kênh âm ứng với nguồn âm trường xa góc phương vị là: 0o, o, 16 o, 31,5 o, 45 o, 58,5 o , 74,5 o, 89 o, 90 o; góc tà là: 6,5 o, 14o, 30 o, 46,5 o, 53,5 o, 65 o , 81 o Việc thực nghiệm so sánh được thực góc phần tư thứ góc phương vị góc tà Do mảng micro mảng gồm micro đối xứng qua gốc tọa độ, kết với góc phần tư cịn lại Hình 17.Mảng micro DICIT Mơ thực với phần Task mảng DICIT, với nguồn âm giọng nói bố trí trường xa với góc phương vị 5,33o góc tà 54,18o Mảng DICIT có 15 micro Hình 14, thực nghiệm với thuật toán GCC-PHAT SRPPHAT từ micro thứ đến micro thứ 10 mảng để tránh chồng phổ khơng gian Hình 15 Kết thực nghiệm so sánh thuật tốn GCC-PHAT SRP-PHAT (góc phương vị) Hình 18.Kết thực nghiệm đánh giá thuật tốn GCC-PHAT với liệu LOCATA, trục hồnh giá trị sai số, trục tung tỉ lệ % số ước lượng có sai số tương ứng tổng số ước lượng thực Kết thực nghiệm thuật toán GCC-PHAT SRP-PHAT thể Hình 16 Hình 17 Đối với thuật tốn GCCPHAT sai số chủ yếu tập trung góc phương vị nhỏ độ (59%), góc tà nhỏ 7o (60%) Trong đó, với thuật tốn SRP-PHAT, sai số góc phương vị chủ yếu nhỏ độ (65%) sai số góc tà nhỏ 2o (67%) Hình 16 Kết thực nghiệm so sánh thuật tốn GCC-PHAT SRP-PHAT (góc tà) Kết thực nghiệm so sánh thể Hình 15, Hình 16 cho thấy rằng, thuật toán thực báo có kết ước lượng hướng tới nguồn âm xác so với thuật tốn thực tảng ODAS Về góc phương vị, sai số DOA thuật toán GCC-PHAT SRP-PHAT 3,3 o 1,83 o, sai số ODAS 3,5 o Tương tự, sai số góc tà thuật toán GCC-PHAT SRP-PHAT thực ISBN 978-604-80-7468-5 133 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) VI KẾT LUẬN Bài báo tập trung vào thuật toán xử lý tham số nguồn âm toán định hướng nguồn âm GCC-PHAT SRP-PHAT lựa chọn cấu hình mảng micro phân bố dạng lưới Fibonaci để thực thuật tốn Trên sở phân tích, đánh giá yếu tố ảnh hưởng đến hiệu quả, độ xác thuật tốn hiệu cải thiện chất lượng nguồn âm thực lưới Fibonaci với phướng pháp sử dụng ODAS Bằng việc thực mô phỏng, cho thấy mức độ ảnh hưởng yếu tố đến hiệu quả, độ xác điểm hiệu việc thực thuật toán định hướng nguồn âm xây dựng lưới Fibonaci Các kết mô sở để thực giải pháp nhằm nâng cao tính hiệu quả, xác ước lượng áp dụng thuật toán vào thực tế Việc nghiên cứu thực thuật toán GCC-PHAT SRP-PHAT mở rộng trường hợp có nhiều nguồn âm xuất đồng thời di chuyển Bằng việc áp dụng lọc bám Kalman, kết mơ trình bày báo cho thấy, tính hiệu xác thuật tốn ước lượng DOA cải thiện rõ rệt sử dụng kết hợp với thuật toán bám thuật toán phân loại tối ưu Đây sở để thực việc tách nguồn âm cách hiệu Hình 19 Kết thực nghiệm đánh giá thuật toán SRP-PHAT với liệu LOCATA, trục hồnh giá trị sai số, trục tung tỉ lệ % số ước lượng có sai số tương ứng tổng số ước lượng thực Lưu ý rằng, mảng micro sử dụng micro nằm đường thẳng nên sai số góc tà thường lớn so với dạng hình vng sử dụng mơ Hình 12 Ta thấy hai thuật toán xác định tốt hướng tới nguồn âm với sai số nhỏ V THẢO LUẬN VÀ HƯỚNG PHÁT TRIỂN TIẾP THEO a) Định vị nhiều nguồn âm thuật toán GCC-PHAT Sử dụng thuật tốn GCC-PHAT để ước lượng vị trí nguồn âm điều kiện có nhiều nguồn âm xuất đồng thời có nhiều hạn chế Các đỉnh hàm GCC-PHAT tương ứng với nguồn âm tác động qua lại, gây nhiễu lẫn [9], việc ước lượng TDOA khó khăn Vấn đề trở nên khó khăn số lượng nguồn âm xuất đồng thời tăng lên Dirk Bechler Kristian Kroschel [10] tiêu chuẩn đánh giá khác ra, độ tin cậy ước lượng nguồn âm thứ lớn đạt 50% Do đó, nói rằng, thuật tốn GCC-PHAT khơng phù hợp để ước lượng vị trí nguồn âm trường hợp nhiều nguồn âm xuất đồng thời không kết hợp với phương pháp khác, thuật toán phân cụm K-mean, K-mean++[11] b) Các phương pháp bám nguồn âm ứng dụng Việc thực thuật toán bám nguồn âm nhằm mục đích nâng cao độ xác, khả chống nhiễu thuật toán định vị định hướng nguồn âm, đặc biệt điều kiện có nhiều nguồn âm xuất nguồn âm di chuyển Các thuật tốn bám tích lũy lọc thơng tin vị trí nguồn âm từ nhiều phép đo khác kết q trình xử lý dự đốn liên tiếp khung liệu thay kết xử lý định vị nguồn âm khung liệu Việc bám xem lọc kết đầu tức thời ước lượng vị trí nguồn âm quỹ đạo vị trí nguồn âm khơng gian cách hợp lý Bằng việc bám, ước lượng cho kết vị trí hướng nguồn âm khơng (vị trí nguồn thay đổi cách đột ngột quỹ đạo) ước lượng tự động thay đổi dựa kết ước lượng vị trí hướng tới nguồn âm trước đó, lúc vị trí hướng tới nguồn âm vị trí có khả xảy khơng gian, tùy thuộc vào vị trí hướng nguồn âm khứ Đối kỹ thuật thuật bám, có hai thuật tốn sử dụng rộng rãi là: lọc Kalman lọc phần tử Particle [12] c) Tách nguồn âm Có nhiều thuật toán sử dụng để thực tách nguồn âm, nhiên, thuật tốn thường thuộc hai nhóm phương pháp tách nguồn âm mù tạo chùm Bằng việc sử dụng mảng micro, hoàn tồn thực tách nguồn âm dựa kỹ thuật tạo chùm ISBN 978-604-80-7468-5 TÀI LIỆU THAM KHẢO [1] H Krim, M Viberg, "Two decades of array signal processing research: the parametric approach," IEEE Signal Process Mag., vol 13 (1996): 67–94 [2] L J Ziomek, Fundamentals of Acoustic Field Theory and SpaceTime Signal Processing, CRC Press, Inc, 1995 [3] J H DiBiase, "A high-accuracy, low-latency technique for talker localization in reverberant environments using microphone Arrays," Brown University, Providence, RI, USA, 2000 [4] M Ian, “Robust Speech Recognition using Microphone Arrays,” Queensland University of Technology, Australia, 2001 [5] Archontis Politis, Ville Pulkki, "Broadband analysis and synthesis for directional audio coding using a format input signals," in 131st International Convention of the Audio Engineering Society, New York, NY, USA, 2011 [6] F Grondin, D Létourneau, C Godin, J.-S Lauzon, J Vincent, S Michaud, S Faucher, F Michaud, "ODAS: Open embeddeD Audition System," ArXiV preprint, 2021 [7] Evers, Christine, Loellmann, Heinrich, Mellmann, Heinrich, Schmidt, Alexander, Barfuss, Hendrik, Naylor, Patrick A., Kellermann, Walter, "Data Corpus for the IEEE-AASP Challenge on Acoustic Source Localization and Tracking (LOCATA) [Data set]," 2020 [8] C Evers, H W Löllmann, H Mellmann, A Schmidt, H Barfuss, P A Naylor, W Kellerman, "The LOCATA Challenge: Acoustic Source Localization and Tracking," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol 28 (2020): 16201643 [9] Jacob Benesty, Jingdong Chen and Yiteng Huang, "Noise Reduction with Multiple Microphones: a Unified Treatment," in Microphone Array Signal Processing, Berlin, Springer-Verlag Berlin Heidelberg (2008): 85-114 [10] Bechler Dirk, Kristian Kroschel, "Considering the second peak in the gcc function for multi-source tdoa estimation with a microphone array," International Workshop on Acoustic Echo and Noise Control (IWAENC ’03) (2003): 315-318 [11] Kim, U., Okuno, H., "A Two Microphone-Based Approach for Multiple Speaker Localization on the SIG-2 Humanoid Robot," Kyoto, Japan, 2012 [12] A Project, "Localization and Tracking of Multiple Interlocutors with Multiple Sensors," AMI Consortium, 2007 134 ... Minh họa lưới bán cầu Fibonacci Mảng micro mô mảng hình vng gồm micro, khoảng cách micro 6,5 cm, nguồn âm mô nguồn cách mảng 10 mét, vị trí thay đổi bao quanh mảng Hình z Nguồn âm m3 φ θ m4 Hình... thời ước lượng vị trí nguồn âm quỹ đạo vị trí nguồn âm khơng gian cách hợp lý Bằng việc bám, ước lượng cho kết vị trí hướng nguồn âm khơng (vị trí nguồn thay đổi cách đột ngột quỹ đạo) ước lượng. .. thước micro micro kề 6,5 cm, mảng thứ có micro, mảng thứ có 16 micro có khoảng cách micro gần 6,5 cm, Hình 12, với chấm trịn màu xanh thể micro, mảng micro mảng phẳng Hình Cấu hình mảng micro