Co-training trong bài tốn hồi quy

CHƢƠNG 3 MỘT SỐ LƢỢC ĐỒ ỨNG DỤNG CO-TRAINING

3. 5 Kết luận

3.4. Co-training trong bài tốn hồi quy nửa giám sát

3.4.2. Co-training trong bài tốn hồi quy

Khơng như các bài tốn phân lớp khác khi số lớp là xác định được (hữu hạn), bài tốn hồi quy được coi như bài tốn phân lớp vơ hạn bởi “nhãn”, hay biến phụ thuộc mang giá trị thực (real-value). Từ việc phân tích sự phụ thuộc giữa biến phụ thuộc vào biến độc lập trong tập mẫu L ta phát triển được hai bộ học hồi quy h1 và h2. Ban đầu, hai bộ học này cùng được xây dựng bằng phương pháp học giám sát với phương pháp hồi quy tuyến tính sử dụng thuật tốn k lân cận gần nhất (k-Nearest Neighbor). Hai bộ học này cùng được huấn luyện lại trong quá trình học nhờ vào sự kết hợp và trao đổi lẫn nhau khi sử dụng kết quả đáng tin cậy của hàm này thêm vào làm mẫu cho hàm kia và ngược lại. Việc gán nhãn nhờ vào việc tính giá trị trung bình của k lân cận gần nĩ nhất. Sở dĩ ở đây ta dùng phương pháp hồi quy k lân cận vì:

+ Thứ nhất: Trong học bán giám sát thì các hàm hồi quy sẽ được phát triển lại sau mỗi vịng huấn luyện, mà phương pháp k lân cận gần nhất lại cĩ tính đơn giản, dễ

thực hiện, khơng bị đứt đoạn trong quá trình huấn luyện, mặc dù trên thực tế việc xác định giá trị k sao cho phù hợp là cả một bài tốn khĩ, nĩ cịn phụ thuộc rất nhiều vào các yếu tố ví dụ như kinh nghiệm đánh giá bài tốn thực tế ..v.v.

+ Thứ hai: Với bài tốn hồi quy, để cĩ thể gán nhãn đúng cho các mẫu ta cần đánh giá độ tin cậy của mẫu dựa vào nhãn của các lân cận của mẫu đĩ. Do vậy tính trơn cục bộ luơn được xem xét. Phương pháp K-NN là phương pháp thích hợp với đặc điểm yêu cầu của bài tốn.

* Phƣơng pháp hồi quy tuyến tính k-lân cận gần nhất (kNN)

Khi dữ liệu được biểu diễn dưới dạng các phần tử trong khơng gian nhiều chiều thì sẽ hình thành nên khái niệm láng giềng. Giả sử chúng ta muốn dự báo hành vi của một tập khách hàng với một cơ sở dữ liệu mơ tả về các khách hàng đĩ. Một giả định quan trọng địi hỏi đặt ra là khách hàng cùng một kiểu sẽ cĩ cùng một hành động. Trong khơng gian dữ liệu, một kiểu khách hàng khơng gì hơn là một vùng dữ liệu mà các bộ cĩ cùng kiểu. Nĩi khác đi, các bộ cĩ cùng kiểu sẽ phân bố gần nhau vào chúng sẽ là “láng giềng” của nhau. Dựa trên ý tưởng này, chúng ta cĩ thể phát triển một thuật tốn học rất đơn giản nhưng hiệu quả “k - láng giềng gần nhất”. Phương châm của phương pháp k - láng giềng gần nhất là “làm như láng giềng làm”. Nếu như chúng ta muốn dự báo hành vi của một cá nhân nào đĩ, chúng ta bắt đầu bằng cách nhìn vào các hành vi của chẳng hạn 10 cá nhân gần nhất với anh ta. Và giá trị trung bình của các hành vi của các láng giềng này sẽ dự báo cho hành vi của anh ta. Số k trong phương pháp k - láng giềng gần nhất dùng để chỉ số láng giềng được xem xét.

Bài tốn hồi quy : Xét miền giới nội D trong Rn và f : D (Rn)Rm là một hàm liên tục xác định trên D. Người ta chỉ mới xác định được tại tập T gồm N điểm (x1, y1), (x2, y2),…, (xN, yN) trong D, với mọi i=1,2…,N và cần tính giá trị y(x) tại các điểm x khác trong D (x= x1,…,xn).

Ta tìm một hàm xác định trên D cĩ dạng đã biết sao cho:

h(xi)yi ,  i=1,…N. (3.11) Phương pháp là tìm giá trị của tập các tham số i sao cho biểu thức tổng các sai số bình phương sau đạt giá trị cực tiểu:

Áp dụng kNN cho bài tốn hồi quy này ta chọn trước số tự nhiên k. Với mỗi

x , x= x1,…,xn ta xác định giá trị h(x)qua giá trị của y tại k mốc nội suy gần nĩ nhất như sau.

Ký hiệu z1,…,zk là k điểm trong  gần x nhất (với d(u,v) là khoảng cách của hai điểm u,v bất kỳ trong D đã cho), khi đĩ h(x)xác định như sau, ở đây ta đang xét x là vector n chiều, x= x1,…,xn:

(3.12)

Trong đĩ i được xác định để tổng bình phương sai số trên tập điểm z1,…,zk đạt cực tiểu.

Hay ta cĩ thể tìm giá trị nhỏ nhất của bình phương trung bình, tức là:

nhỏ nhất. Ta tìm các hệ số i (phụ thuộc x) bằng cách lấy đạo hàm của biểu thức  theo : 0 0,..., p p n      

Từ đĩ ta cĩ hệ phương trình:

(3.13)

(3.14)

Giải hệ (3.13, 3.14) trên, với mỗi x ta xác định được bộ p,p1,...,n tương ứng để xác định h(x)theo (3.12).

Dễ thấy rằng khi xu dần tới các mốc thì h(xu) xác định như trên hội tụ tới giá trị y của mốc tương ứng.

Phương pháp này cĩ ưu điểm là cách tính tốn đơn giản và dễ thực hiện, tuy nhiên trên thực tế việc xác định giá trị k phù hợp là một vấn đề khĩ (phụ thuộc rất nhiều vào kinh nghiệm đánh giá bài tốn thực tế), hơn nữa, mỗi khi cần xác định giá trị của một điểm, phương pháp này lại “dị” trong tất cả các giá trị đã biết để tìm được các lân cận gần nhất sau đĩ mới xác định được hàm nội suy chứ khơng tính trước hàm để dùng được như mạng nơron. Tuy phương pháp khơng đánh giá được chặt chẽ được nhưng nĩ vẫn được ưa dùng trong thực nghiệm bởi tính đơn giản dễ thực hiện.

Co-training trong bài tốn VSSVM

Bài tốn thực nghiệm phân lớp văn bản