1.2 Mơ hình hệ thống định vị nguồn âm sử dụng nguyên lý TDOA
1.2.1 Phân loại các kỹ thuật định vị nguồn âm
Với khả năng ứng dụng rộng rãi trong nhiều mục đích đa dạng, có nhiều giải pháp kỹ thuật khác nhau được nghiên cứu phát triển để giải bài toán định vị nguồn âm thanh. Các giải pháp định vị nguồn âm được phát triển dựa trên một hệ thống gồm nhiều cảm biến âm thanh, trong đó sự khác biệt về đặc tính tín hiệu thu được tại các cảm biến có vị trí khác nhau là cơ sở cho những tính tốn định vị nguồn âm. Trên cơ sở đó, có thể phân chia các các phương pháp định vị nguồn âm thanh dựa trên đặc tính thời gian (TBL-Time Based Localization) và đặc tính năng lượng của tín hiệu (EBL-Energy Based Localization) [22] [21].
Trên hình 1.7 trình bày các phương pháp định vị nguồn âm thanh chính, trong đó có 3 phương pháp định vị nguồn âm thanh dựa trên đặc tính thời gian, bao gồm phương pháp thời gian đến (Time of Arrival -ToA), phương pháp sai lệch thời gian đến (Time Difference of Arrival - TDOA), và phương pháp định hướng phản hồi năng lượng (Steered Response Power - SRP) [21]. Tương tự có hai phương pháp định vị nguồn âm thanh dựa trên yếu tố cường độ tín hiệu gồm đánh giá tỉ lệ năng lượng (Energy Ratio - ER) và phương pháp xác định hướng đến của tín hiệu (Direction of Arrival - DoA) [22] [21].
Hình 1.7. Phân loại các phương pháp định vị nguồn âm thanh
Phương pháp định vị nguồn âm ER được xây dựng trên cơ sở đánh giá tỉ lệ năng lượng thu được trên từng cặp cảm biến. Tỉ lệ năng lượng này được liên hệ với khoảng cách từ nguồn âm tới các cảm biến, dựa trên mối quan hệ này các mặt cầu có khả năng chứa vị trí nguồn âm được xây dựng, qua đó vị trí nguồn âm là giao điểm của các mặt cầu [37]. Phương pháp ER đơn giản, dễ tính tốn và triển khai, tuy nhiên sai số định vị lớn do cường độ tín hiệu thu được tại các cảm biến chịu ảnh hưởng mạnh bởi nhiễu, tạp âm cũng như các điều kiện của môi trường truyền [12].
Phương pháp định vị nguồn âm dựa trên nguyên lý DoA được xây dựng thông qua việc triển khai một hệ thống định vị gồm nhiều cụm cảm biến, trong đó mỗi cụm cảm biến có khả năng ước lượng hướng đến của âm thanh. Sử dụng
thơng tin định hướng từ ít nhất 2 cụm cảm biến khác nhau để tìm được vị trí của nguồn âm. Với sự phát triển của kỹ thuật xử lý mảng và công nghệ sản xuất cảm biến, rất nhiều kỹ thuật khác nhau đã được nghiên cứu trong cả định hướng và xác định vị trí nguồn âm [8] [47] [44]. Hiện nay phương pháp DoA đang được áp dụng cho nhiều mục đích, phổ biến là các hệ thống Sensor Network phục vụ các ứng dụng nhà thông minh [21].
Phương pháp định vị nguồn âm dựa trên nguyên lý ToA dựa trên việc đo lường khoảng thời gian τi khi âm thanh lan truyền từ nguồn âm tới các cảm biến. Trên cơ sở đó xác định được mặt cầu có tâm là vị trí cảm biến, mặt cầu là các vị trí có khả năng xuất hiện nguồn âm [20]. Với thông tin từ nhiều cặp cảm biến, các mặt cầu khác nhau được xây dựng, xác định được điểm giao cắt giữa các mặt cầu là vị trí nguồn âm. Phương pháp ToA tương đối hiệu quả trong các ứng dụng mà nguồn phát được đồng bộ thời gian với các cảm biến, tuy nhiên số lượng các ứng dụng như vậy là không nhiều, phần lớn âm thanh cần định vị xảy ra ngẫu nhiên [22].
Phương pháp định vị nguồn âm dựa trên nguyên lý SRP hay còn gọi là phương pháp GCF (Global Coherence Field) được xây dựng trên cơ sở thiết lập một bản đồ tồn cục đánh giá xác suất vị trí của nguồn âm. Bản đồ tồn cục hình thành dựa trên bộ lọc tổng định hướng, trong đó kết hợp thơng tin về năng lượng nhận được trên các cảm biến và thiết lập các giả định sai khác thời gian đến tương ứng với vị trí nguồn âm [19] [23]. Phương pháp SRP cho kết quả định vị tương đối chính xác, ngay cả trong các điều kiện có ảnh hưởng của nhiễu và tạp âm, tuy nhiên phương pháp này địi hỏi năng lực tính tốn của hệ thống phải rất mạnh. Mặt khác, việc xây dựng bản đồ vị trí xác suất nguồn âm dẫn tới độ phân giải định vị nguồn âm là hữu hạn, kết quả định vị về ngun tắc sẽ ln ln có sai số [21].
Cùng với phương pháp định vị nguồn âm dựa trên nguyên lý TDOA sẽ được phân tích trong phần sau của luận án, các phương pháp nêu trên là các giải
pháp cơ bản đã được nghiên cứu và ứng dụng trong bài tốn định vị nguồn âm, ngồi ra cịn có một số giải pháp mở rộng hoặc kết hợp của các phương pháp cơ bản.
1.2.2. Mơ hình hệ thống định vị nguồn âm
Các kỹ thuật định vị nguồn âm được xây dựng trên cơ sở sự khác nhau về đặc tính tín hiệu âm thanh thu được trên các cảm biến tại những vị trí khác nhau trong khơng gian. Do đó các hệ thống định vị nguồn âm có chung một mơ hình như trên hình 1.8 [21], bao gồm nguồn âm cần định vị xs vàK cảm biến được bố trí trong khơng gian.
Hình 1.8. Mơ hình định vị nguồn âmTrong đó: Trong đó:
xs = [xs, ys, zs]T là vị trí của nguồn âm;
mi = [xi, yi, zi]T là vị trí của các cảm biến;
ri là khoảng cách từ vị trí của cảm biến tới nguồn âm;
τi là thời gian âm thanh truyền từ nguồn phátxs tới cảm biến thứi.
Khi nguồn âm xs phát ra một tín hiệu âm thanh s(t)tới vị trí của K cảm biến âm thanh, tín hiệu thu được trên cảm biến âm thanh thứicó dạng như sau: xi(t) = αis(t−τi) +bi(t) i = 1,2, ...K (1.1) Trong đó:
τi là thời gian lan truyền của âm thanh từ nguồn âm tới cảm biến thứi; bi(t) là tạp âm có phân bố Gauss tác động lên tín hiệu.
Tuy nhiên trên thực tế, tín hiệu thu được tại các cảm biến khơng chỉ chịu tác động của tạp âm mà cịn phụ thuộc vào âm vang, hay nói cách khác là chịu ảnh hưởng của hiện tượng lan truyền đa đường của sóng âm, khi đó tín hiệu nhận được trên các cảm biến được biểu diễn dưới dạng:
xi(t) = h∗s(t) +bi(t) i = 1,2, ...K (1.2) Trong đó:
hlà đáp ứng xung của kênh truyền;
Dấu(∗)thể hiện cho phép tốn tích chập.
Mặt khác, nhiều nghiên cứu đã chỉ ra rằng kênh truyền âm thanh có thể được coi là một hệ thống tuyến tính và bất biến, cụ thể như sau:
• Tính tuyến tính: Cho phép khi điều chỉnh tỉ lệ tín hiệu phát bằng một hằng số, tín hiệu thu được trên các cảm biến cũng tỉ lệ với hằng số đó;
• Tính bất biến: Khi tín hiệu phát phát ra từ nguồn âm được giữ chậm, thì tín hiệu thu được trên các cảm biến cũng có thời gian giữ chậm tương tự.
Những đặc điểm trên cho phép kênh truyền âm thanh có thể được đặc trưng bằng đáp ứng xung của kênh, khi nắm được đáp ứng xung của kênh có thể dự đốn được phản ứng của kênh khi biết tín hiệu đàu vào.
Đáp ứng xung của kênh âm thanh thường rất dài, tuy nhiên các bộ lọc đáp ứng xung hữu hạn (FIR - Finite Impulse Respone) thường được sử dụng để mơ hình hóa kênh âm thanh thay vì bộ lọc đáp ứng xung vơ hạn (IIR - Infinite Impulse Respone), do đặc tính của bộ lọc FIR được kiểm soát và độ dài các hệ số lọc được giới hạn. Mặt khác bộ lọc FIR có thể mơ hình hóa kênh âm thanh với độ chính xác đủ để đáp ứng hầu hết các tiêu chí thiết kế hệ thống mà khơng cần năng lực tính tốn xử lý q cao.
Giống như nhiều kênh truyền thông khác, các kênh âm thanh vốn là những hệ thống thay đổi theo thời gian. Tín hiệu âm thanh có thể dễ dàng bị tác động của các yếu tố môi trường như: nhiễu, tạp âm, môi trường truyền... Nhưng những thay đổi của môi trường truyền thường chậm hơn đáng kể so với thời gian truyền âm. Do đó trong thời gian âm thanh lan truyền từ nguồn âm tới các cảm biến có thể coi kênh âm thanh là tuyến tính và bất biến, có thể được mơ hình hóa bằng bộ lọc FIR.
Khi đó cơng thức (1.2) được thể hiện dưới dạng vector như sau:
xi(t) = hTs(t) +bi(t) (1.3) Trong đó: h = h h0 h1 · · · hL−1 iT s(t) = h s(t) s(t−1)· · ·s(t−L+ 1) iT
vớiL là độ dài của kênh truyền.
Một cách tổng quát hơn, có thể coi mơ hình hệ thống định vị nguồn âm là một hệ thống SIMO (Single-Input Multiple-Output) với 01 tín hiệu đầu vào phát ra từ nguồn âm và nhiều tín hiệu đầu ra thu được tại các cảm biến. Khi đó tín hiệu thu được trên các cảm biến có thể được tổng qt hóa theo cơng thức:
x(t) = Hs(t) +bn(t) (1.4) trong đó: x(t) = h x1(t) x2(t) · · · xK(t) iT H = h1,0 h1,1 · · · h1,L−1 h2,0 h2,1 · · · h2,L−1 ... ... . . . ... hK,0 hK,1 · · · hK,L−1 K×L b(t) = h b1(t) b2(t) · · · bK(t) iT
Có thể nói mơ hình lan truyền đơn đường là trường hợp đặc biệt của lan truyền đa đường. Giả sử trong môi trường truyền âm, tín hiệu đi theo đường thẳng có cường độ tại các cảm biến lớn nhất, khi đó thơng tin về khác biệt thời gian tới có thể được xác định thơng qua kênh truyền trực tiếp. Đối với hệ thống định vị nguồn âm thanh ngoài trời, ảnh hưởng của việc lan truyền đa đường tới tín hiệu thu được trên các cảm biến sẽ nhỏ hơn so với các hệ thống định vị nguồn âm trong nhà. Với mơi trường truyền âm rộng cường độ tín hiệu gây ra bởi các âm vang nhỏ hơn so với tín hiệu truyền trực tiếp từ nguồn âm tới cảm biến, điều đó cho phép việc ước tính khác biệt thời gian đến trở nên dễ dàng hơn so với các ứng dụng trong nhà. Khi đó đáp ứng xung của kênh truyền có thể được suy biến theo cơng thức:
h = [ h0 h1 · · · hD · · · hL−1]T
= [ 0 0 · · · αi · · · 0]T (1.5)
Trong trường hợp đó cơng thức (1.3) suy biến trở thành công thức (1.1).
1.2.3. Định vị nguồn âm dựa trên nguyên lý TDOA
Hệ thống định vị nguồn âm thanh theo nguyên lý TDOA được xây dựng trên cơ sở xác định khác biệt thời gian đến giữa các cặp cảm biến, cụ thể hơn nếu thời gian tín hiệu âm thanh truyền từ nguồn âm tới cảm biến thứ i là τi và cảm biến thứ j là τj. Khi đó khác biệt thời gian đến giữa hai cảm biến được định nghĩa theo công thức:
τij ≜ τi−τj (1.6)
Mặt khác, khoảng khác biệt thời gian đến τij cũng có thể được tính tốn dựa trên chênh lệch khoảng cách giữa hai cảm biến với nguồn âm theo biểu thức: τij = ∥ri −rj∥ v = ∥xs−mi∥ − ∥xs −mj∥ v (1.7)
Trong đó:
xs là vị trí của nguồn âm;
mi vàmj lần lượt là vị trí của cảm biến thứivà cảm biến thứ j; v là vận tốc lan truyền của âm thanh trong khơng khí.
Từ biểu thức (1.7) có thể nhận thấy vị trí của hai cảm biến hồn tồn có thể xác định, tốc độ lan truyền của âm thanh v là một đại lượng biết trước. Khi đó nếu xác định được đại lượng τij thì ẩn số khơng biết cịn lại là vị trí của nguồn âm thanh xs trong không gian. Mặt khác dễ dàng nhận thấy biểu thức (1.7) là phương trình chính tắc biểu diễn một hypeboloit trong khơng gian 3 chiều, trong đó tọa độ của hai cảm biến chính là tiêu điểm của hypeboloit. Do đó, để xác định tọa độxs = [xs, ys, zs]T của nguồn âm trong khơng gian 3 chiều, cần giao hội của ít nhất 3 mặt hypeboloit, tương ứng cần ít nhất 4 cảm biến âm thanh để tạo thành 3 cặp cảm biến độc lập. Khi đó, tọa độxs = [xs, ys, zs]T của nguồn âm chính là nghiệm của hệ phương trình (1.8):
vτ12 = ∥xs −m1∥ − ∥xs −m2∥ vτ13 = ∥xs −m1∥ − ∥xs −m3∥ vτ14 = ∥xs −m1∥ − ∥xs −m4∥ (1.8)
Như vậy, để định vị một nguồn âm sử dụng nguyên lý TDOA, thông thường phải trải qua hai bước. Bước thứ nhất cần ước tính khác biệt thời gian đến τij của sự kiện âm thanh trên ít nhất 3 cặp cảm biến, bước thứ hai dựa trên thông tinτij để thiết lập và giải hệ phương trình phi tuyến, nghiệm tìm được là tọa độ của nguồn âm trong không gian.
1.3. Các yếu tố ảnh hưởng tới chất lượng định vị nguồn âm sử dụng nguyênlý TDOA lý TDOA
1.3.1. Các bước thực hiện định vị nguồn âm sử dụng nguyên lý TDOA
Như đã trình bày, để định vị nguồn âm sử dụng nguyên lý TDOA cần thực hiện hai bước bao gồm, ước lượng khác biệt thời gian đến và tính tốn vị trí
nguồn âm. Tuy vậy với hệ thống trong đó âm thanh cần định vị được xác định trước, việc phát hiện chính xác sự kiện âm thanh là yêu cầu kiên quyết, cần phải thực hiện trước quá trình định vị nguồn âm, là cơ sở cho các tính tốn phía sau. Mặt khác tín hiệu âm thanh cần định vị ngồi việc chịu ảnh hưởng của tạp âm nền còn chịu tác động của nhiều âm thanh mơi trường khác nhau, do đó cần thiết phải sử dụng những thuật tốn tiền xử lý tín hiệu phù hợp nhằm tách tín hiệu cần định vị khỏi nhiễu và tạp âm, qua đó nâng cao khả năng phát hiện sự kiện âm thanh và độ chính xác ước lượng khác biệt thời gian đến.
Trên hình 1.9 thể hiện sơ đồ khối các bước thực hiện của một hệ thống định vị nguồn âm thanh với tín hiệu cần định vị được xác định trước.
Hình 1.9. Sơ đồ khối chức năng hệ thống định vị nguồn âm
Trước hết tín hiệu từ các cảm biến âm thanh được tiếp nhận, đánh số hiệu tương ứng với từng vị trí cảm biến, tiếp theo được tiền xử lý bằng những bộ lọc phù hợp cho từng trường hợp. Tiền xử lý tín hiệu âm thanh là một bước có vai trị quan trọng, tiền xử lý hiệu quả giúp nâng cao khả năng phát hiện chính xác sự kiện âm thanh qua đó nâng cao chất lượng ước lượng khác biệt thời gian đến. Tiếp theo tín hiệu được đưa qua khối phát hiện sự kiện âm thanh, tùy vào các đặc tính của tín hiệu cần định vị mà các bộ lọc phát hiện sự kiện âm thanh được thiết kế theo các đặc trưng của âm thanh như biên độ hoặc tần số... Phát hiện sự kiện âm thanh là bước khởi đầu của q trình định vị, khi phát hiện tín hiệu âm thanh cần định vị q trình trích xuất cửa sổ, ước tính vị trí nguồn âm mới được tiến hành nhằm tìm ra vị trí nguồn âm. Ngược lại khi khối phát hiện sự kiện âm thanh hoạt động khơng chính xác sẽ khơng có nguồn âm nào được định vị, hoặc định vị nguồn âm khơng mong muốn. Do đó, bước phát hiện sự
kiện âm thanh đóng vai trị quyết định trong việc giảm định vị sai mục tiêu cũng như bỏ sót mục tiêu cần định vị, nâng cao năng lực phát hiện sự kiện âm thanh là một phương pháp hiệu quả nâng cao chất lượng định vị nguồn âm.
Sau khi sự kiện âm thanh được phát hiện, tín hiệu chứa sự kiện đó sẽ được trích xuất theo những cửa sổ đồng bộ trên toàn bộ các cảm biến. Các cặp cửa sổ tín hiệu này được đưa vào so sánh để tìm khác biệt thời gian đếnτij, dựa trên bộ số τij đã tìm được thiết lập hệ phương trình định vị nguồn âm theo cơng thức (1.8) để tính tốn vị trí nguồn âm thanh trong không gian.
1.3.2. Các yếu tố ảnh hưởng tới chất lượng định vị nguồn âm sử dụng nguyên lý TDOA
Để đánh giá các yếu tố ảnh hưởng tới chất lượng định vị nguồn âm, trước hết phải làm rõ chất lượng định vị nguồn âm bao gồm những tham số nào. Một cách tự nhiên, một hệ thống định vị nguồn âm cần giải quyết hai vấn đề chính, bao gồm:
• Xác định chính xác loại âm thanh cần định vị. • Xác định chính xác vị trí nguồn âm.
Trước hết, việc xác định chính xác loại âm thanh cần định vị là nhiệm vụ