Phân tích

3. 5 Kết luận

3.4.4. Phân tích

Để phân tích, đánh giá độ tin cậy và xác định trong thuật toán COREG khi nào một dữ liệu mới được gán nhãn được sử dụng để thêm vào tập mẫu có nhãn ban đầu nhằm trợ giúp làm cải tiến bộ học hồi quy. Để tổng quát, ta giả sử tập U‟ không có vai trò gì ở đây, và tập U được sử dụng thay cho U‟, hay các dữ liệu chưa gán nhãn được lấy từ tập U.

Vẫn với độ đo được đánh giá là sai số trung bình phương tối thiểu MSE, ta thấy trong mỗi vòng lặp thuật toán COREG, với mỗi dữ liệu chưa gán nhãn xu, ta xác định tập u là tập chứa k láng giềng gần nhất của xu. Như đã đề cập tới ở phần trên thì một dữ liệu mới được gán nhãn thực sự tốt khi nó làm cho bộ học trở nên phù hợp hơn

(more consistent) với các dữ liệu đã có nhãn, hay độ tốt của xu ở đây được xác định dựa trên giá trị biểu thức sau :

Trong đó h là hàm hồi quy ban đầu nhận được bằng phương pháp học giám sát trên tập mẫu đã có nhãn, h’ là hàm hồi quy khi thêm dữ liệu (xu, ŷu), với ŷu=h(xu), vào tập dữ liệu đã có nhãn L = L + (xu, ŷu). Dễ dàng thấy được, ở đây khi Δu >0 thì tổng độ chênh lệch của h’(xi) so với yi (nhãn đúng của xi) sẽ nhỏ hơn tổng độ lệch của h(xi) cùng so với yi, điều đó chứng tỏ việc thêm (xu, ŷu) vào L là có ích.

Song ta đang xét điểm dữ liệu (xu, ŷu) được xác định trong thuật toán kNN, nên nó chỉ có vai trò trong k láng giềng của nó, tập u với các dữ liệu khác trong L nó không có ý nghĩa, hay nó chỉ làm thay đổi bộ học hồi quy trên tập u. Bởi vậy thay vì ta đánh giá (3.16) ta sẽ đánh giá biểu thức sau:

So sánh (3.15) với (3.17) ta thấy khi đạt tới giá trị cực đại thì Δu cũng đạt tới giá trị cực đại. Và rõ ràng nếu (xu, ŷu) không nằm trong bất cứ tập k láng giềng nào thì giá trị của là 0, do đó (xu, ŷu) sẽ không được chọn theo thuật toán COREG.

Mặt khác nếu ta biểu diễn (3.7) dưới dạng :

Trong đó, tập u là tập k láng giềng của xu, còn tập (L-u) gồm m điểm (x‟1, y‟1),…,(x‟m,y‟m) là phần nằm ngoài k láng giềng đó.

Nhìn vào (3.18) ta thấy, khi đạt giá trị cực đại thì số hạng đầu trong (3.18) cũng đạt cực đại, nhưng để Δu dương ta cần phải xét thêm số hạng thứ hai trong (3.18). Mà trong thực tế để đánh giá được giá trị của số hạng này quả thật là bài toán quá phức tạp trừ khi tất cả các thông số láng giềng giữa các dữ liệu với điểm (xu, ŷu) có thể đánh giá được. Do vậy việc sử dụng giá trị của sẽ thuận lợi, đơn giản hơn là xấp xỉ Δu. Trong bài toán thực nghiệm nhóm tác giả cũng dùng thông số này để xét việc có thêm vào tập dữ liệu đã có nhãn ban đầu hay không một dữ liệu mới được gán nhãn xu nào đó.

Phạm vi sử dụng học bán giám sát

Sơ đồ thiết lập đồng huấn luyện