3. 5 Kết luận
3.4.2. Co-training trong bài toán hồi quy
Không như các bài toán phân lớp khác khi số lớp là xác định được (hữu hạn), bài toán hồi quy được coi như bài toán phân lớp vô hạn bởi “nhãn”, hay biến phụ thuộc mang giá trị thực (real-value). Từ việc phân tích sự phụ thuộc giữa biến phụ thuộc vào biến độc lập trong tập mẫu L ta phát triển được hai bộ học hồi quy h1 và h2. Ban đầu, hai bộ học này cùng được xây dựng bằng phương pháp học giám sát với phương pháp hồi quy tuyến tính sử dụng thuật toán k lân cận gần nhất (k-Nearest Neighbor). Hai bộ học này cùng được huấn luyện lại trong quá trình học nhờ vào sự kết hợp và trao đổi lẫn nhau khi sử dụng kết quả đáng tin cậy của hàm này thêm vào làm mẫu cho hàm kia và ngược lại. Việc gán nhãn nhờ vào việc tính giá trị trung bình của k lân cận gần nó nhất. Sở dĩ ở đây ta dùng phương pháp hồi quy k lân cận vì:
+ Thứ nhất: Trong học bán giám sát thì các hàm hồi quy sẽ được phát triển lại sau mỗi vòng huấn luyện, mà phương pháp k lân cận gần nhất lại có tính đơn giản, dễ
thực hiện, không bị đứt đoạn trong quá trình huấn luyện, mặc dù trên thực tế việc xác định giá trị k sao cho phù hợp là cả một bài toán khó, nó còn phụ thuộc rất nhiều vào các yếu tố ví dụ như kinh nghiệm đánh giá bài toán thực tế ..v.v.
+ Thứ hai: Với bài toán hồi quy, để có thể gán nhãn đúng cho các mẫu ta cần đánh giá độ tin cậy của mẫu dựa vào nhãn của các lân cận của mẫu đó. Do vậy tính trơn cục bộ luôn được xem xét. Phương pháp K-NN là phương pháp thích hợp với đặc điểm yêu cầu của bài toán.
* Phƣơng pháp hồi quy tuyến tính k-lân cận gần nhất (kNN)
Khi dữ liệu được biểu diễn dưới dạng các phần tử trong không gian nhiều chiều thì sẽ hình thành nên khái niệm láng giềng. Giả sử chúng ta muốn dự báo hành vi của một tập khách hàng với một cơ sở dữ liệu mô tả về các khách hàng đó. Một giả định quan trọng đòi hỏi đặt ra là khách hàng cùng một kiểu sẽ có cùng một hành động. Trong không gian dữ liệu, một kiểu khách hàng không gì hơn là một vùng dữ liệu mà các bộ có cùng kiểu. Nói khác đi, các bộ có cùng kiểu sẽ phân bố gần nhau vào chúng sẽ là “láng giềng” của nhau. Dựa trên ý tưởng này, chúng ta có thể phát triển một thuật toán học rất đơn giản nhưng hiệu quả “k - láng giềng gần nhất”. Phương châm của phương pháp k - láng giềng gần nhất là “làm như láng giềng làm”. Nếu như chúng ta muốn dự báo hành vi của một cá nhân nào đó, chúng ta bắt đầu bằng cách nhìn vào các hành vi của chẳng hạn 10 cá nhân gần nhất với anh ta. Và giá trị trung bình của các hành vi của các láng giềng này sẽ dự báo cho hành vi của anh ta. Số k trong phương pháp k - láng giềng gần nhất dùng để chỉ số láng giềng được xem xét.
Bài toán hồi quy : Xét miền giới nội D trong Rn và f : D (Rn)Rm là một hàm liên tục xác định trên D. Người ta chỉ mới xác định được tại tập T gồm N điểm (x1, y1), (x2, y2),…, (xN, yN) trong D, với mọi i=1,2…,N và cần tính giá trị y(x) tại các điểm x khác trong D (x= x1,…,xn).
Ta tìm một hàm xác định trên D có dạng đã biết sao cho:
h(xi)yi , i=1,…N. (3.11) Phương pháp là tìm giá trị của tập các tham số i sao cho biểu thức tổng các sai số bình phương sau đạt giá trị cực tiểu:
Áp dụng kNN cho bài toán hồi quy này ta chọn trước số tự nhiên k. Với mỗi
D
x , x= x1,…,xn ta xác định giá trị h(x)qua giá trị của y tại k mốc nội suy gần nó nhất như sau.
Ký hiệu z1,…,zk là k điểm trong gần x nhất (với d(u,v) là khoảng cách của hai điểm u,v bất kỳ trong D đã cho), khi đó h(x)xác định như sau, ở đây ta đang xét x là vector n chiều, x= x1,…,xn:
(3.12)
Trong đó i được xác định để tổng bình phương sai số trên tập điểm z1,…,zk đạt cực tiểu.
Hay ta có thể tìm giá trị nhỏ nhất của bình phương trung bình, tức là:
nhỏ nhất. Ta tìm các hệ số i (phụ thuộc x) bằng cách lấy đạo hàm của biểu thức theo : 0 0,..., p p n
Từ đó ta có hệ phương trình:
(3.13)
(3.14)
Giải hệ (3.13, 3.14) trên, với mỗi x ta xác định được bộ p,p1,...,n tương ứng để xác định h(x)theo (3.12).
Dễ thấy rằng khi xu dần tới các mốc thì h(xu) xác định như trên hội tụ tới giá trị y của mốc tương ứng.
Phương pháp này có ưu điểm là cách tính toán đơn giản và dễ thực hiện, tuy nhiên trên thực tế việc xác định giá trị k phù hợp là một vấn đề khó (phụ thuộc rất nhiều vào kinh nghiệm đánh giá bài toán thực tế), hơn nữa, mỗi khi cần xác định giá trị của một điểm, phương pháp này lại “dò” trong tất cả các giá trị đã biết để tìm được các lân cận gần nhất sau đó mới xác định được hàm nội suy chứ không tính trước hàm để dùng được như mạng nơron. Tuy phương pháp không đánh giá được chặt chẽ được nhưng nó vẫn được ưa dùng trong thực nghiệm bởi tính đơn giản dễ thực hiện.