Cách thức hoạt động của từng thành phần

Một phần của tài liệu Nghiên cứu ứng dụng kỹ thuật BoostMetric nhằm tăng hiệu quả phân lớp dữ liệu lớn (Trang 35)

Chương 2 Kết hợp giữa BoostMetric và WkNN 2.1 Mô hình tổng quan

2.2. Cách thức hoạt động của từng thành phần

( là kích thước tập các hàm trọng số) ( là kích thước tập kiểm chứng)

False 37

Hình 2.2: Mô hình chi tiết kết hợp BoostMetric và WkNN

Bước 1: Chia ngẫu nhiên tập dữ liệu ban đầu thành 2 tập: tập dữ liệu huấn luyện và tập dữ liệu kiểm chứng. Kích thước các tập tương ứng thường theo tỉ lệ 70/30.

Bước 2: Sinh tập các bộ ba: bằng thuật toán ở hình 2.3 bên dưới. Tập các bộ ba này dùng để huấn luyện các ma trận cơ sở Zj.

Hình 2.3: Thuật toán sinh tập các bộ ba dùng để huấn luyện các ma trận cơ sở Zj

Input:

• Tập huấn luyện T gồm các đối tượng quan sát có nhãn lớp.

• Giá trị k (số láng giềng gần nhất sử dụng trong phán đoán lớp).

Begin

• Khởi tạo hai tập Tdiff và Tsame đều rỗng;

• N = Số các quan sát trong tập T;

fori = 1,2,…,N do

ai = T[i]; // Đối tượng quan sát thứ i trong tập T

 Tìm tdiff = Tập gồm k láng giềng gần nhất khác lớp với ai;

 Tìm tsame = Tập gồm k láng giềng gần nhất có cùng lớp với ai;

Tdiff [i] = tdiff;  Tsame [i] = tsame; end; • triplets_count = 1; fori = 1,2,…,N do forj = 1,2,…,kdo forq = 1,2,…,kdo  [triplets_count][1] = T[i]; // ai

 [triplets_count][2] = Tsame[i][j]; // aj: láng giềng thứ j có cùng lớp với ai

 [triplets_count][3] = Tdiff[i][q]; // aq: láng giềng thứ q khác lớp với ai

 triplets_count = triplets_count + 1; end; end; end; End; Output:

Bước 3: Tìm các ma trận cơ sở Z và ma trận dựa vào thuật toán ở hình 1.7. X là ma trận tham số của hàm khoảng cách Mahalanobis.

Bước 4: Sử dụng ma trận tham số X và công thức (1.16) để tính khoảng cách Mahalanobis giữa từng đối tượng quan sát trong tập dữ liệu kiểm chứng với mọi đối tượng quan sát trong tập dữ liệu huấn luyện.

Bước 5: Với mỗi quan sát trong tập kiểm chứng, ta chọn k+1 láng giềng gần nhất (trong tập huấn luyện) của nó.

Bước 6: Thực hiện chuẩn hóa k khoảng cách của mỗi đối tượng quan sát trong tập kiểm chứng (ứng với k láng giềng gần nhất) sử dụng láng giếng gần nhất thứ k+1 của nó. Ta có: . Với m là kích thước tập kiểm chứng.

Bước 7: Khởi tạo .

Bước 8: Dùng hàm trọng số , (n là kích thước tập các hàm trọng số sử dụng) để gán trọng số cho k láng giếng gần nhất của mỗi quan sát trong tập kiểm chứng.

Bước 9: Phân lớp cho các quan sát trong tập kiểm chứng. Tính tỉ lệ lỗi:

(2.1) với .

Bước 10: . Nếu thì quay lại bước 8, ngược lại thì dừng chương trình. Khi chương trình kết thúc, ta thu được ma trận tham số X và hàm trọng số , có tỉ lệ lỗi nhỏ nhất.

Một phần của tài liệu Nghiên cứu ứng dụng kỹ thuật BoostMetric nhằm tăng hiệu quả phân lớp dữ liệu lớn (Trang 35)

Tải bản đầy đủ (DOCX)

(58 trang)
w