Thuật tốn LNBNN (Q, K)
Đầu vào:
𝑇 = {𝑇1, 𝑇2, … , 𝑇𝑁} là tập N mẫu huấn luyện Ti = {di1,di2, … , di Ni} với dij ∈ Rm ∀j = 1. . Ni 𝐶 = {𝐶1, 𝐶2, . . , 𝐶𝐿} là tập nhãn L nhãn 𝑄 = {𝑑1, 𝑑2, . . , 𝑑𝑁𝑄}, 𝑑𝑖 ∈ 𝑅𝑚 ∀𝑖 = 1. . 𝑁𝑄, 𝑡𝑟𝑢𝑦 𝑣ấ𝑛 𝑐ĩ 𝑁𝑄 đ𝑖ể𝑚 đặ𝑐 𝑡𝑟ư𝑛𝑔 Tham số K Đầu ra: nhãn của Q 1.for all di ∈ Qdo 2: find {𝑝1, 𝑝2, . ., 𝑝𝐾+1} 𝑙à 𝐾 + 1 hàng xĩm gần nhất của 𝑑𝑖 3: 𝑑𝑖𝑠𝑡𝐵 = ‖𝑑𝑖 − 𝑝𝐾+1‖2
4: for all classes C in the K nearest neighbors do
5: 𝑑𝑖𝑠𝑡𝐶 = 𝑚𝑖𝑛{𝑝𝑗| 𝐶𝑙𝑎𝑠𝑠 (𝑝𝑗) = 𝐶}‖𝑑𝑖 − 𝑝𝑗‖2 6: 𝑡𝑜𝑡𝑎𝑙𝑠[𝐶] ← 𝑡𝑜𝑡𝑎𝑙𝑠[𝐶] + 𝑑𝑖𝑠𝑡𝐶 − 𝑑𝑖𝑠𝑡𝐵 7: end for 8: end for 9: return argmin 𝐶 𝑡𝑜𝑡𝑎𝑙𝑠[𝐶]
3.6. Hướng tiếp cận trích chọn đặc trưng tiếng nĩi dựa trên phổ tần số cho bài tốn nhận thức tiếng nĩi cho bài tốn nhận thức tiếng nĩi
Trong nghiên cứu này, chúng tơi đề xuất mơ hình nhận thức tiếng nĩi dựa trên trích chọn đặc trưng SIFT từ phổ tần số của tín hiệu tiếng nĩi kết hợp với phương pháp phân lớp LNBNN. Sơ đồ minh họa mơ hình được miêu tả ở hình 3.9.
Hình 3. 9 Mơ hình phân lớp tiếng nĩi bằng LNBNN-SIFT-SPEECH
Thuật tốn phân lớp LNBNN kết hợp với đặc trưng SIFT trích chọn từ phổ tần số được mơ tả ở thuật tốn 3.3.
Xây dựng cây KD-TREE
Pha huấn luyện Pha phân lớp
Tín hiệu tiếng
nĩi Tín hiệu tiếng nĩi Biểu diễn thành phổ tần số Biểu diễn thành phổ tần số Trích xuất đặc trưng SIFT Trích xuất đặc trưng SIFT Tìm K hàng xĩm gần nhất cho mỗi đặc trưng của truy
vấn trong KD-TREE Tính khoảng cách đến hàng
xĩm thứ K+1 (distB) Tính khoảng cách của các đặc trưng đến mỗi lớp trong
K hàng xĩm gần nhất (distC)
Cập nhật hiệu khoảng cách totals[C]+=distC – distB cho
các lớp tương ứng Tìm lớp C cĩ tổng khoảng
Bước 1. Biến đổi tín hiệu tiếng nĩi thành phổ tần số
Đầu tiên tín hiệu tiếng nĩi được tiền xử lý để loại bỏ nhiễu và nhấn mạnh các thành phần tần số mà tai người cảm nhận được tốt hơn thơng qua các bộ lọc tần số. Tiếp theo, tín hiệu tiếng nĩi được phân thành các đoạn tín hiệu ngắn để đảm bảo tính ổn định của tín hiệu khi thực hiện phép biến đổi DFT.
Trong nghiên cứu này, chúng tơi chia tín hiệu tiếng nĩi thành các đoạn 10ms, các đoạn này chồng lên nhau 5 ms. Sau đĩ, tiến hành biến đổi DFT cho từng đoạn tín hiệu ngắn này để thu được phổ tần số cho từng đoạn tín hiệu tiếng nĩi. Ghép nối các véc tơ phổ của từng đoạn này theo thứ tự thời gian sẽ thu được một ma trận các thành phần tần số cĩ trong tín hiệu tiếng nĩi theo tồn bộ thời gian của tín hiệu. Ma trận này chính là phổ tần số của tín hiệu tiếng nĩi.