Trong chương này, tác giả muốn giới thiệu một phương pháp học kết hợp mới được xây dựng dựa trên bộ phân loại cây Hoeffding cho bài toán học trực tuyến. Trong một hệ thống học kết hợp, có hai thủ tục cần thực hiện đó là tạo ra (generation) và kết hợp (combination). Phương pháp học kết hợp không đồng nhất (heterogeneous ensemble) tập trung vào bước kết hợp, tức là họ tập trung phát triển thuật toán kết hợp các kết quả đầu ra của các bộ phân loại cơ sở khác nhau trên cùng một tập dữ liệu ban đầu [ , ]. Ngược lại, phương40 56 pháp học kết hợp đồng nhất (homogeneous ensemble) như Bagging hay Random Subspace tập trung vào bước tạo ra. Cụ thể hơn, các thuật toán này sẽ thực hiện kết hợp kết quả của nhiều bộ phân loại cùng một thuật toán cơ sở giống nhau nhưng mỗi bộ phân loại này được thực hiện trên các tập dữ liệu khác nhau được sinh ra từ tập dữ liệu ban đầu.
Trong nghiên cứu này, dữ liệu mới đến trước tiên sẽ được chiếu xuốngKkhông gian thấp hơn để tạo raK tập dữ liệu mới. Sau đó mỗi tập dữ liệu này sẽ được phân loại bằngKbộ phân loại cơ sở, kết quả đầu ra là xác suất hậu nghiệm của quan sát được được dự đoán vào các lớp thành phần (class membership). Kết quả phân loại cuối cùng thu được bằng cách kết hợp các giá trị xác suất dự đoán theo từng lớp thành phần đó. Cuối cùng, dữ liệu sau khi chiếu sẽ được sử dụng để cập nhật lại bộ phân loại cơ sở tương ứng. Do đó, mô hình mà tác giả đề xuất được xếp vào loại mô hình học kết hợp đồng nhất [ ].56
Mô tả chi tiết hơn, quá trình học sẽ bắt đầu bằng việc khởi tạo K bộ phân loại cây Hoeffding Hk với k=1,. .. ,K. Do chưa có dữ liệu nào ở giai đoạn khởi tạo nên các bộ phân loại này đều được khởi tạo là dữ liệu ban đầu là rỗng. Bước tiếp theo, ta cần xây dựng ma trận ngẫu nhiênK {R( )k}k=1,. .. ,Kvới mỗi ma trận có kích thước là(p×q)để xây dựng bộ học kết hợp.
Tại bước thứtthcủa quá trình học trực tuyến, quan sát mới đếnxtsẽ được chiếu xuống không gian thấp hơn bằng cách sử dụng các ma trận ngẫu nhiên. Ta ký hiệuz( )tk là kết quả phép chiếuxttương ứng với ma trận ngẫu nhiên thứkth (R( )k), ta có:
z( )tk = 1
√qxtR( )k k=1, .. .,K (4.3) Dữ liệu sau khi chiếu zt( )k sẽ được phân loại bằng bộ phân loại Hk để thu được xác suất hậu nghiệm {Pk(ym|xt)}tương ứng với lớp thứm m( =1, .. .,M)màxt thuộc vào. Trong nghiên cứu này, tác giả sử dụng xác suất hậu nghiệm dưới dạng mềm (soft label):Pk(ym|xt)∈[0 1, ]và ∑Mm=1Pk(ym|xt) =1[ ]. Đầu ra của40 K bộ phân loại cơ sở có dạng:
P1(y1|xt) .. . P1(yM|xt)
ãã ã ... ãã ã PK(y1|xt) . .. PK(yM|xt)
(4.4)
Kết quả củaKbộ phân loại cơ sở dưới dạng (4.4) được kết hợp để thu được kết quả phân loại đối với quan sátxt. Một số luật kết hợp phổ biến thường được sử dụng là Sum, Product, Majority Vote, Max, Min và Median [ ]. Trong số các luật kết hợp kể trên, Sum và Majority Vote được sử dụng phổ biến nhất và đã được ứng dụng40
thành công trong nhiều bài toán xây dựng bộ học kết hợp [ ]. Luật Sum:40 xt∈ysnếus=arg maxm=1,...,M
K
∑
k=1
Pk(ym|xt) (4.5)
Luật Majority Vote:
xt ∈ys nếus=arg maxm=1,...,M
K
∑
k=1
∆km (4.6)
∆k j=
1 nếuj=arg maxm=1,...,MPk(ym|xt) 0 khác
(4.7)
Cuối cùng, dữ liệu sau khi chiếuz( )tk sẽ được sử dụng để cập nhật lại các bộ phân loại cơ sởHk. Do tính chất không ổn định của phép chiếu ngẫu nhiên nênziit vàz( )tj vớii6= jlà khác nhau. Điều này giúp làm tăng tính đa dạng trong quá trình cập nhật các bộ phân loại cơ sở. Do đó, các bộ phân loại cơ sởHksẽ đa dạng hơn. Bên cạnh đó, thời gian tính toán của các bộ phân loại dựa trên cây quyết định như cây Hoeffding nhìn chung là phụ thuộc vào số chiều của dữ liệu [ ]. Nếu số chiều của không gian chiếu xuống được lựa chọn là thấp hơn nhiều57 so với số chiều của không gian ban đầu thì các bộ phân loại cây Hoeffding cơ sở sẽ huấn luyện nhanh hơn khi học trực tiếp từ không gian ban đầu.
Mô hình mà tác giả đề xuất là hoàn toàn khác biệt so với các mô hình học kết hợp đã có như Online Bagging.
Trong mô hình Online Bagging, các tập dữ liệu con được tạo ra bằng cách sử dụng thủ tục bootstrapping (lấy mẫu ngẫu nhiên có hoàn lại). Tuy nhiên trong bài toán học trực tuyến, bootstrapping là không khả thi do các quan sát đến theo thời gian. Để giải quyết vấn đề đó, thuật toán Online Bagging sử dụng một phân phối Poisson(1) để xác định thời điểm mà một quan sát mới đến sẽ được dùng để cập nhật lại bộ phân loại cơ sở.
Thay vì việc dùng lại các quan sát đến, mô hình mà tác giả đề xuất tạo ra dữ liệu mới từ các quan sát đến bằng cách sử dụng phép chiếu ngẫu nhiên để cập nhật lại bộ phân loại cơ sở. Thuật toán chi tiết về mô hình mà tác giả đề xuất được minh họa như sau:
Algorithm 8Bộ học kết hợp dựa trên phép chiếu ngẫu nhiên và cây Hoeffding Input: Kích thước của hệ học kết hợp , Số chiều của không gian con (down-space)K q
(Khởi tạo bộ phân loại cơ sở)
1: fork=1.. .Kdo
2: Khởi tạo cây Hoeffding rỗngHk
3: end for
(Tạo các ma trận ngẫu nhiên)
4: fork=1.. .Kdo
5: TạoR( )k ={r( )i jk }
6: end for
(Phân loại và cập nhật lại cây Hoeffding)
7: repeat
8: Lấy về quan sát mới đến(xt,y(xt))từ luồng dữ liệu
9: fork=1. ..Kdo
10: z( )tk= √1qxtR( )k
11: Áp dụng bộ phân loạiHk trên tậpz( )tk để thu được đầu ra dưới dạng xác suất hậu nghiệm (soft label) {Pk(ym|xt)}m=1,. .. ,M
12: Cập nhật lại bộ phân loạiHk sử dụngzt( )k
13: end for
14: Dự đoán nhãn lớp củaxtsử dụng luật kết hợp Sum hoặc Product
15: until(Còn quan sát mới đến)
Hình sau minh họa trực quan quy trình hoạt động của thuật toán dựa trên cây Hoeffding và ma trận ngẫu nhiên (RP Hoeffding) do tác giả luận văn đề xuất.
xt
z( )1
z( )2
. . .
z( )K
Cây Hoeffding 1
Cây Hoeffding 2
. . .
Cây HoeffdingK
Bộ kết hợp yˆt
yt Độ đo đánh giá R1
R2
RK
Tiếp tục với quan sát mới
Tiến hành cập nhật
Hình 4.1: Quy trình hoạt động của thuật toán RP Hoeffding
Chương 5
THỬ NGHIỆM VÀ ĐÁNH GIÁ