Thuật tốn NBNN (Q)
Đầu vào:
𝐶 = {𝐶1, 𝐶2, . . , 𝐶𝐿} là tập nhãn của dữ liệu huấn luyện
T = {T1, T2, …,TL} là tập các đặc trưng của dữ liệu huấn luyện
𝑄 = {𝑑1, 𝑑2, . . , 𝑑𝑄}𝑤𝑖𝑡h𝑑𝑖 ∈ 𝑅𝑚∀𝑖 = 1 … 𝑄 là một truy vấn
Đầu ra: Class of Q
1. for all 𝑑𝑖 ∈ 𝑄 do 2. for all classes C do
3. 𝑡𝑜𝑡𝑎𝑙𝑠[𝐶] ← 𝑡𝑜𝑡𝑎𝑙𝑠[𝐶] + ‖𝑑𝑖 − 𝑁𝑁𝐶(𝑑𝑖)‖2 4. end for 5. end for 6. return argmin 𝐶 𝑡𝑜𝑡𝑎𝑙𝑠[𝐶] 3.5. Phương pháp phân lớp LNBNN
Phương pháp Local Nạve Bayes Nearest neighbor (LNBNN) [Sancho, 2012] được Sancho đề xuất năm 2012 nhằm cải tiến thuật tốn NBNN cho bài tốn phân lớp ảnh. Đối với thuật tốn NBNN, thuật tốn phải tìm khoảng cách nhỏ nhất từ mỗi điểm đặc trưng trong tập truy vấn tới các lớp, như vậy với bài tốn phân lớp cĩ nhiều lớp và trong trường hợp điểm đặc trưng này quá xa so với hầu hết các lớp và chỉ gần một số lớp nhất định nào đĩ thì việc tính khoảng cách này là khơng cần thiết. Vì vậy Sancho đề xuất phương pháp cải tiến cho NBNN bằng cách thay vì phải tìm khoảng cách ngắn nhất từ mỗi điểm đặc trưng tới tất cả các lớp thì LNBNN chỉ tìm khoảng cách ngắn nhất đến các lớp cĩ mặt trong K hàng xĩm gần nhất của điểm đặc trưng đĩ. Như vậy, để thực hiện được thuật tốn này, đầu tiên LNBNN thực hiện trộn tất cả điểm đặc trưng thu được từ tập huấn luyện tạo thành một cơ sở dữ liệu các điểm đặc trưng cho tất cả các lớp. Tiếp theo, LNBNN tìm tập hợp K điểm đặc trưng gần nhất của mỗi điểm đặc trưng trong tập truy vấn và cập nhật khoảng cách ngắn nhất tìm được đến các lớp cĩ mặt trong K hàng xĩm đĩ. Như vậy, nếu thực hiện tính tổng như NBNN thực hiện thì lớp nào càng xuất hiện nhiều trong K hàng xĩm gần nhất của mỗi điểm đặc trưng của truy vấn thì tổng khoảng cách từ truy vấn
đến lớp đĩ càng tăng do đĩ khơng xác định được tổng khoảng cách nhỏ nhất. Vì vậy, thay vì cập nhật khoảng cách từ điểm đặc trưng đến lớp cĩ mặt trong K hàng xĩm gần nhất, LNBNN cập nhật hiệu khoảng cách nhỏ nhất tới lớp đĩ với khoảng cách tới hàng xĩm thứ K+1 (hàng xĩm thứ K+1 được coi như là biên giới, một khoảng cách đủ xa để cĩ thể coi 2 phần tử là gần nhau). Do đĩ, tổng luơn được cập nhật một số âm. Khi đĩ, lớp nào càng xuất hiện nhiều thì tổng này càng âm, lớp nào càng ít xuất hiện thì tổng này càng gần 0 và lớp nào khơng xuất hiện trọng K hàng xĩm gần nhất của tất cả các điểm đặc trưng của truy vấn sẽ cĩ tổng là 0. Như vậy, tổng nào cĩ giá trị nhỏ nhất chính là nhãn lớp cần tìm.