Đặc tính này rất phù hợp cho các ứng dụng mà dữ liệu đến liêntục theo luồng như các giao dịch trong hệ thống chứng khoán hoặc các bộ phân tích dữ liệu nhận được từ cảmbiến môi trường.Tro
Cấu trúc luận văn
Nội dung luận văn được chia làm 5 chương, trong đó chương nhằm giới thiệu về bài toán, các vấn đề còn1 tồn tại Sau đó, tác giả tiến hành mô tả tổng quan về học máy trực tuyến cùng với các phương pháp nổi bật hiện nay trong Chương Chương và Chương tác giả mô tả 2 phương pháp học trực tuyến mới mà tác giả và2 3 4 đồng nghiệp đề xuất (đã được công bố tại hội nghị DICTA 2016 và 2017) Cuối cùng, tác giả sẽ mô tả các kết quả thử nghiệm và đánh giá của hai mô hình với các thuật toán học máy trực tuyến hiện nay cùng với các kết luận và hướng phát triển tiếp theo trong Chương 5
Các ký hiệu toán học
Trước khi đi sâu vào phân tích các thuật toán học máy trực tuyến trong Chương , tác giả định nghĩa các ký2 hiệu toán học trong các công thức theo bảng sau:
X Tập dữ liệu quan sát (Tập huấn luyện) x= (x ( ) 1 ,x ( ) 2 , ,x ( ) D ) T Quan sát được biểu diễn dưới dạng vector,x x ( ) i là đặc trưng thứ của quan sáti p r( ) Xác suất của biến ngẫu nhiên Trong trường hợp là biến ngẫu nhiên rời rạc thìr r p r( ) được hiểu là mật độ xác suất củar
M Số nhãn lớp của tập dữ liệu
N Số quan sát trong tập dữ liệu
Y Tập nhãn lớp của dữ liệu.Y ={−1 1, }trong trường hợp phân lớp nhị phân hoặc
Y ={1 2, , .,M}trong trường hợp nhiều lớp. à,Σ Trung bỡnh và ma trận hiệp phương sai của phõn phối chuẩn nhiều chiều Λ Ma trận nghịch đảo của ma trận hiệp phương saiΛ=Σ − 1
D Số chiều của dữ liệu
W 0 ,v 0 Giá trị khởi tạo của ma trận mở rộng và bậc tự do của phân phối Whilshartq( )Λ m 0 ,β 0 Giỏ trị khởi tạo của vector trung bỡnh và độ mở rộng của phõn phối chuẩnq( )à m H , vector trung bỡnh và ma trận precision của phõn phối chuẩnq( ) =à N( à | m H , − 1 )
W ,v Ma trận mở rộng và bậc tự do của phân phối Wilshartq( ) =Λ W(Λ | W ,v)
Tr( )ã Vết của ma trận (Tổng cỏc thành phần trờn đường chộo chớnh) Γ( )ã Hàm gamma được định nghĩa làΓ( ) =ã R 0 ∞ x t − 1 e − x dx
L ( ) q Cận dưới của suy diễn biến thiên (Variational Inference)
| ã | Lực lượng (cardinality) tương đối của một tập hợp
L t Mô hình phân lớp trực tuyến tại thời điểmt x t Quan sát mới đến tại thời điểmt y t Nhãn lớp thật của quan sátx t ˆ y t Nhãn lớp dự đoán cho quan sátx t l y( t ,yˆ t ) Hàm mất mát sign( )ã Hàm dấu, nhận giỏ trị{−1 0 1, , }tương ứng với cỏc trường hợp >, = và < 0
I Hàm chỉ thị cho kết quả là 1 nếu thỏa mãn điều kiện, 0 trong các trường hợp khác w t Vector trọng số tại thời điểm t của thuật toán tuyến tính
( )ã T Thủ tục chuyển vị k ã k Chuẩn Euclide (ChuẩnL 2)
Bảng 1.1: Các ký hiệu toán học
TỔNG QUAN CÁC PHƯƠNG PHÁP
Chương của luận văn sẽ giới thiệu tổng quan về một số thuật toán học trực tuyến phổ biến và nổi bật đã2 được công bố Để thuận tiện cho việc giải thích ý tưởng cũng như phân tích ưu điểm và nhược điểm, các thuật toán được chia làm 4 nhóm như minh họa trong hình sau:
Học máy trực tuyến tuyến tính
Học máy trực tuyến dựa trên Bayesian
Học máy trực tuyến dựa trên cây Học máy trực tuyến kết hợp
Hình 2.1: Phân loại các phương thức học trực tuyến
Các thuật toán học trực tuyến đều có chung một quy trình tổng quát bao gồm 3 bước như sau:
• Dự đoán: Khi một quan sátx t mới tới, mô hình học hiện tạiL t sẽ được dùng để dự đoán nhãn củax t , ký hiệu làyˆ t
• Tính hàm tổn thất: Do bài toán là học trực tuyến có giám sát, nhãn đúng củax t có thể biết được ký hiệu lày t , dựa trên cặp (y t ,yˆ t ), ta tính hàm tổn thất để đo sự khác biệt giữa nhãn dự đoán và nhãn thật.
• Cập nhật: Nếu có tổn thất xảy ra trên cặp(y t ,yˆ t ), mô hình học sẽ được cập nhật (L t →L t+1) sử dụng quan sátx t và nhãn thật của nóy t
Tùy từng cách tiếp cận mà mỗi bước trong quy trình tổng quát sẽ có những khác biệt ví dụ như dùng các dạng hàm tổn thất khác nhau hoặc mô hình phân lớp khác nhau Tác giả luận văn sẽ tiến hành giới thiệu tổng quan cho các tiếp cận dựa trên quy trình này.
Quy trình hoạt động của các thuật toán học trực tuyến được khái quát theo hình sau:
Thu được mô hình tại thời điểm t
Hình 2.2: Quy trình hoạt động của thuật toán học trực tuyến
Phương pháp học trực tuyến tuyến tính
Phương pháp học trực tuyến tuyến tính sử dụng hàm phân loại tuyến tính để phân lớp cho các quan sát. Trong trường hợp phân lớp nhị phân tức là tập nhãn gồm 2 giá trịY={−1,+1}, hàm phân loại có dạng: ˆ y t =sign f( t (x t )) =sign(w T t ã x t ) (2.1) trong đów t ,x t là hai vector cột∈R D ,w t là vector trọng số cần xác định,signlà hàm dấu trả về hai giá trị -1 và 1 Trong trường hợp phõn loại cho tập nhiều lớpY ={1, ,K}hàm phõn loại cú dạng f t i , (x t ) =w T t i , ã x t , trong đów t i , là vector trọng số ứng với classi i( =1, .,K) Nhãn lớp dự đoán dựa trên cực đại hàm phân loại trên toàn bộ tập nhãn: ˆ y t =arg max i ∈{ 1, , K } f t i , (x t ) =arg max i ∈{ 1, , K } w T t i , ã x t (2.2) Các thuật toán học trực tuyến tuyến tính khác nhau sử dụng các hàm tổn thấtl y( t ,yˆ t )khác nhau và cơ chế cập nhật mô hìnhL t →L t+1 , cụ thể là cách cập nhật vector trọng sốw t → w t+1 khác nhau Hai dạng hàm tổn thất phổ biến được sử dụng trong các phương pháp học trực tuyến tuyến tính là hàm tổn thất 0-1 (Zero-One) và hàm tổn thất Hinge Hàm tổn thất 0-1 được định nghĩa như sau: l y( t ,yˆ t ) = (I yˆ t 6=y t )
Khi sử dụng hàm tổn thất 0-1, mô hình sẽ được cập nhật nếu nhãn dự đoán chox t bởi mô hình hiện tạiyˆ t khác với nhãn lớp đúngy t Perceptron [ ] là giải thuật học trực tuyến lâu đời nhất dựa trên tiếp cận này với2 phiên bản ban đầu được phát triển cho phân lớp nhị phân Crammer and Singer [ ] sau đó mở rộng thuật toán3 Perceptron cho trường hợp nhiều lớp Hàm tổn thất Hinge cho trường hợp phân loại nhị phân được định nghĩa như sau: l y( t ,yˆ t ) =max(0 1, −y t f t (x t )) =max(0 1, −y t (w T t ã x t )) (2.4) Trong trường hợp phân loại nhiều lớp, hàm tổn thất Hinge được định nghĩ như sau: l y( t ,yˆ t ) =max(0 1, −(f t y , t (x t )−max i y 6= t f t i , (x t )))
Hàm tổn thất Hinge được định nghĩa dựa trên biểu thứcy t (x t ), được gọi là lề của quan sát (x t ,y t ) ứng với hàm phõn loại f t Giỏ trị tuyệt đối của lề|y t (w T t ã x t )| |= w T t ã x t |được gọi là độ tin cậy của dự đoỏn trong đú giá trị này dương và càng lớn có nghĩa là độ tin cậy dự đoán đúng càng cao Trong trường hợp cho nhiều lớp, giá trị dự đoánw T t y , t ã x t càng lớn hơn giỏ trị lớn nhất ứng với cỏc nhón lớp cũn lại thỡmax i y 6 = t w T t i , ã x t dự đoỏn là càng tin cậy Không giống như hàm tổn thất 0-1, khi sử dụng hàm tổn thất Hinge mô hình học có thể sẽ được cập nhật cả khi dự đoỏn saiy t (w T t ã x t )≤0và thậm chớ là dự đoỏn đỳngy t f t (x t )>0 Hàm này quan tõm tới lề của quan sát hiện tại, nếu lề đóy t f t (x t ) N 2 → 2λ N SC k
0vàd i 0
Sai (Tiếp tục với quan sát mới) Đúng
Hình 3.1: Mô tả trực quan quy trình hoạt động của thuật toán VIGO với kích thước lô là| |B =1
MÔ HÌNH HỌC ONLINE DỰA TRÊN CÂY HOEFFDING VÀ PHÉP CHIẾU
Trong chương này, tác giả hướng tới việc giới thiệu một mô hình học Online mới theo hướng tiếp cận học nhóm (Ensemble) dựa trên thuật toán cây Hoeffding và các phép chiếu ngẫu nhiên (Random Projections) Tác giả luận văn bắt đầu chương này bằng việc thảo luận các nghiên cứu liên quan, tiếp theo đó là mô tả kiến trúc mô hình thông qua phần4.2 Sau đó là các kết quả thử nghiệm đạt được cùng với những phân tích, so sánh tính hiệu quả của mô hình đối với các thuật toán hiện có.
Các nghiên cứu liên quan
Bộ phân loại cây Hoeffding
Bộ phân loại cây Hoeffding là một trong những thuật toán được xếp vào dạng phân loại dựa trên cây quyết định (decision tree) được giới thiệu lần đầu tiên vào năm 2000 [32] Thuật toán này được phát triển đặc biệt để giải quyết bài toán học trực tuyến (Online learning) khi dữ liệu đến liên tục Thuật toán cây Hoeffding được xây dựng theo một giả định rằng phân bố của dữ liệu đến sẽ không thay đổi theo thời gian Trong thuật toán này, một biên Hoeffding (bound) [33,34] được sử dụng để xác định chính xác số quan sát (mẫu) cần thiết để có thể chắc chắn rằng việc phân tách cây là cần thiết tại mỗi nút.
Xét biến ngẫu nhiên có giá trị thực có giá trị tối đa là (ví dụ với giá trị xác suất thìr R R=1hoặc nếu nó là giá trị Information Gain thìR=log 2( )c , với là số nhãn lớp của dữ liệu) Giả sử rằng tại thời điểm hiện tại tac đã có quan sát độc lập và giá trị trung bình Biên Hoeffding được phát biểu rằng với giá trị xác suấtn r 1−δ, giá trị trung bình ít nhất của biến ngẫu nhiên làr r−εvới được tính như sau:ε ε rR 2 ln 1( /δ)
2n (4.1) trong đó R là giá trị tối đa của biến ngẫu nhiên và là số quan sát độc lập [11].n
Biên Hoeffding có đặc điểm là độc lập với phân phối xác suất của dữ liệu Tuy nhiên, sự khái quát hóa này cũng phải đánh đổi bởi các ràng buộc khác khi so sánh với các phương pháp phụ thuộc phân phối xác suất của dữ liệu (ví dụ như cần phải có nhiều quan sát hơn để đạt được xác suất và tương đương) Gọiδ ε G x( ( ) i là giá trị heuristic dùng để đánh giá xem thuộc tính nào là tốt để phân tách cây (ví dụ như giá trị Information Gain trong thuật toán C4.5 hay chỉ số Gini trong thuật toán CART) Mục đích của biên Hoeffding được sử dụng để đảm bảo rằng việc lựa chọn thuộc tínhx ( ) i nào đủ tốt để phân tách cây với chỉ quan sát thay vì phải dùng toànn bộ quan sát trong tập dữ liệu Giả sửx ( ) a là thuộc tính có giá trị heuristic cao nhất sau khi quan sát được mẫun vàx ( ) b là thuộc tính có giá trị heuristic có giá trị cao thứ hai Đặt∆G= (G x ( ) a )−G x( ( ) b )≥0là sự khác biệt giữa hai giá trị heuristic của 2 thuộc tính được quan sát Với một xác suất định trước, biên Hoeffding sẽ đảmδ bảo rằng thuộc tínhx ( ) a là thuộc tính khả quan nhất có thể chọn để chia tách cây với xác suất là1−δ khi cón quan sát đã biết và giá trị∆G>ε Mặt khác, nếu giá trị∆G>εthì biên Hoeffding cũng đảm bảo rằng giá trị
∆G≥∆G−εvới xác suất là1−δ Vì vậy thuộc tínhx ( ) a chính là thuộc tính tốt nhất để chia tách cây với độ tin cậy là1−δ.
Domingos và Hulten đưa ra một chứng minh rằng cây Hoeffding phân loại thu được sẽ tương tự cây quyết định học được thông qua phương pháp học theo lô Nói cách khác, bản chất gia tăng của thuật toán cây Hoeffding không ảnh hưởng đáng kể đến chất lượng của cây mà nó sinh ra Điều này cho thấy rằng thuật toán có thể tạo ra các cây có cùng chất lượng như các cây học theo lô, mặc dù được tạo ra theo cách gia tăng Phát hiện này rất quan trọng vì các cây quyết định được học như C4.5 và CART là một trong những mô hình học máy hiệu quả. Dựa trên các cây Hefting và một số cải tiến, Domingo’s và Holtan cũng đưa ra mô tả cho thuật toán học trực tuyến dựa trên cây có tên VFDT - Very Fast Decision Tree Mã giả của thuật toán VFDT được trình bày dưới đây:
• Các thông số thống kê để tính toán giá trị Information Gain khi xác định thuộc tính cần để chia tách nút như entropy.
• n min là tham số giai đoạn Grace, giúp cho thuật toán xác định biên saun min quan sát đến.
• x ( ) φ mô tả thuộc tính rỗng tức là không còn chia tách nào nữa Do vậy việc chia tách trên cây chỉ xảy ra khi đạt được ngưỡng của độ tin cậy1−δ.
• τlà ngưỡng kết thúc nếu sự khác biệt giữa hai giá trịG l thứ nhất và thứ hai là không lớn hơn thì cây sẽτ được chia tách luôn tại nút hiện tại.
Mô hình cây Hoeffding là khác biệt với các thuật toán học theo dạng cây quyết định khác như ID3, C4.5 vàCART Các thuật toán học theo dạng cây quyết định thường được giả định rằng toàn bộ không gian dữ liệu được lưu trữ trong bộ nhớ của máy, trong khi quá trình cập nhật cây Hoeffding chỉ thực hiện với các dữ liệu mới đến và sau đó sẽ loại bỏ nó khỏi bộ nhớ Một đặc tính quan trọng của mô hình cây Hoeffding đó là nó có thể tạo ra được cây gần tiệm cận với cây mà được tạo ra bởi thuật toán học theo lô (batch learning) [ ] Hiện nay có một47 số biến thể của thuật toán cây Hoeffding được biết đến là CVFDT [ ], VFDT48 c [ ], UFT [ ] và Adaptive49 50 Hoeffding tree [ ].51 Đối với các thiết lập theo đợt, các nghiên cứu gần đây [ ] đã chỉ ra rằng các cây quyết định đơn không còn27 là phương pháp học tốt nhất Tuy nhiên, chúng có tính cạnh tranh khi được sử dụng làm mô hình cơ sở trong các phương pháp học kết hợp Vì lý do này, hầu hết các cây quyết định trực tuyến được thực hiện trong một thuật toán kết hợp để có được hiệu suất phân loại cao hơn.
Algorithm 7Mô tả giải thuật VFDT
1: Khởi tạo câyH Tvới nút lá cũng chính là nút gốc.l
3: Đưa quan sát vào nút lá lá của câyl H T
4: Cập nhật tham số thống kê hiệu quả của nútl
5: Tăng giá trị số quan sát đã đếnn l
6: if n l modn min = 0 và số quan sát đến thời điểm hiện tại đều không thuộc cùng một lớpthen
7: Tính giá trịG l (x ( ) i )với mỗi thuộc tínhx ( ) i
8: Đặt thuộc tínhx ( ) a là thuộc tính có giá trịG l cao nhất
9: Đặt thuộc tínhx ( ) b là thuộc tính có giá trịG l cao thứ hai
10: Tính giá trị biên Hoeffdingε r
R 2 ln( δ 1 ) 2n l 11: if x ( ) a 6=x ( ) φ và(G l (x ( ) a )−G l (x ( ) b )>εhoặcε 20000) Thông tin chi tiết về mỗi tập dữ liệu được minh họa trong bảng5.1.
Tập dữ liệu Số đặc trưng Số quan sát Số lớp Tập dữ liệu Số đặc trưng Số quan sát Số lớp
Bảng 5.1: Thông tin về các tập dữ liệu dùng để đánh giá mô hình
Cấu hình thử nghiệm mô hình và phương pháp so sánh
Nhìn chung, các thuật toán học trực tuyến hiện nay hầu như không thể hoạt động đồng thời với bài toán phân lớp nhị phân hoặc đa lớp, trong khi thuật toán mà nhóm tác giả đề xuất (VIGO) có thể làm được Để tiến hành so sánh kết quả của mô hình đề xuất, nhóm tác giả lựa chọn một số thuật toán học trực tuyến bậc nhất nổi bật hiện nay là PA [ , ] và 2 thuật toán học trực tuyến bậc hai là SCW, AROW (những thuật toán này có trong7 8 thư viện LIBOL) với các tham số mặc định (nếu có) Các thuật toán như AROW, cây Hoeffding và SCW đều là những thuật toán đã được công bố tại các hội nghị đầu ngành về học máy như NIPS, KDD hay ICML Đối với thuật toán đề xuất dựa trên Bayes, nhóm tác giả sử dụng tham số mặc định như đã thảo luận ở phần3.2và thực hiện thử nghiệm với kích thước lô là| |B =1.
Giai đoạn huấn luyện (training) và kiểm thử (testing) gần như hoàn thành đồng thời tại thời điểm quan sát đầu tiên đến sau đó mô hình sẽ cập nhật khi các quan sát mới đến lần lượt nếu thỏa mãn điều kiện cập nhật. Nhóm tác giả tiến hành so sánh độ sai số của 5 thuật toán để đánh giá độ hiệu quả của các thuật toán, đặc biệt là thuật toán được đề xuất Để đảm bảo tính khách quan và công bằng, nhóm tác giả thực hiện sinh ra 100 hoán vị của tập dữ liệu gốc Thử nghiệm các thuật toán trên với 100 tập dữ liệu hoán vị này và sau đó lấy trung bình các kết quả để thu được kết quả cuối cùng. Đồng thời tác giả cũng tiến hành so sánh kết quả của thuật toán dựa trên cây Hoeffding và ma trận ngẫu nhiên (tác giả đặt tên là thuật toán RP Hoeffding) với thuật toán dựa trên Bayes (VIGO) với cùng các cấu hình như số tập hoán vị Ngoài ra, tác giả còn tiến hành so sánh kết quả với thuật toán cây Hoeffding và Online Bagging (tác giả sử dụng thuật toán Online Bagging đã được cài đặt trong thư viện MOA, phân lớp cơ sở được lựa chọn là cây Hoeffding) Bên cạnh đó, Online Bagging cũng là một thuật toán học kết hợp trực tuyến cho độ chính xác cao trong các bài toán thực tế. Đối với mô hình đề xuất, các phép chiếu ngẫu nhiên theo phân phối Gauss (Gaussian random projections) được sử dụng để tạo ra các ma trận ngẫu nhiên dùng cho việc tạo ra các tập dữ liệu con có số chiều nhỏ hơn tập dữ liệu ban đầu Số chiều của các tất cả các tập dữ liệu con được đặt làq=2 log 2 p Số bộ phân loại cơ sở trong thuật toán Online Bagging và tham số trong mô hình đề xuất được cài đặt là 200 như trong tài liệu [ ].K 40 Kết quả của mô hình đề xuất được so sánh với kết quả của các thuật toán khác dựa trên 2 thước đo chính là độ sai số (error rate) và F1 (trung bình điều hòa của Precision và Recall) Quy trình thử nghiệm của mô hình được minh họa trong hình5.1 Đầu tiên, tác giả lựa chọn ngẫu nhiên ra hoán vị của tập dữ liệu ban đầu và sauS đó tiến hành thử nghiệm mô hình đề xuất trên các tập hoán vị này ta thu được sai số và F1 Tiếp theo, ta tính trung bình và phương sai của toàn bộ các kết quả ta thu được kết quả cuối cùng Trong mô hình đề xuất, tác giả cố định số tập hoán vị là 100.
Sau khi thu được kết quả thử nghiệm, tác giả tiến hành làm kiểm định thống kê để đảm bảo rằng sự khác biệt giữa các kết quả không phải là ngẫu nhiên Trong số các phương pháp kiểm định giả thuyết thống kê, tác giả lựa chọn sử dụng kiểm định Wilcoxon signed rank với mức ý nghĩa làα=0 05 (5%) để đánh giá kết quả của phương pháp đề xuất với các thuật toán còn lại Giả thuyết kiểm định được đặt ra ở đây là "Hai phương pháp có kết quả tương đương nhau" Dựa trên kết quả của thủ tục kiểm định Wilcoxon, ta có thể thu được giá trị
Tập hoán vị 1 Tập hoán vị 2 Tập hoán vị S
Kết quả thử nghiệm 1 Kết quả thử nghiệm 2 Kết quả thử nghiệm S
Trung bình và phương sai
Hình 5.1: Quy trình thử nghiệm trong mô hình đề xuất
P-value dùng để đánh giá giả thuyết Mức độ hiệu quả của hai phương pháp được xem là khác nhau hoàn toàn nếu giá trị P-value nhỏ hơn mức ý nghĩa Khi kiểm định cho thấy rằng kết quả của hai phương pháp là hoànα toàn khác biệt, tác giả sử dụng sai số và F1 để quyết định xem thuật toán nào hiệu quả hơn và thống kê số lần thắng (win) hoặc thua (lose) trên từng tập dữ liệu cụ thể Bên cạnh đó tác giả cũng tiến hành kiểm định phương sai của sai số và F1 bằng cách sử dụng công cụ kiểm định Levene với mức ý nghĩa 0.05 trên 100 tập hoán vị từ dữ liệu ban đầu Mục đích của việc kiểm thử phương sai là để đánh giá xem liệu thuật toán có ổn định hay không.
Kết quả thử nghiệm và so sánh
Bảng sau biểu diễn giá trị sai số thử nghiệm của các thuật toán trên 25 tập dữ liệu Thuật toán VIGO là thuật toán dựa trên Bayes do tác giả và đồng nghiệp đề xuất năm 2016 Ngoài ra, thuật toán RP Hoeffding là thuật toán dựa trên cây Hoeffding và ma trận ngẫu nhiên.
Tập dữ liệu Online Hoeffding Online Bagging PA SCW AROW VIGO RP Hoeffding
Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai banana 3.70E-01 3.42E-04 3.53E-01 1.30E-04 4.83E-01 5.85E-05 4.51E-01 1.57E-03 4.49E-01 3.31E-04 3.93E-01 7.88E-05 3.13E-01 7.23E-05 breast-cancer 4.39E-02 6.86E-06 4.79E-02 1.95E-05 2.04E-01 8.17E-05 1.66E-01 9.92E-05 1.45E-01 5.77E-05 6.38E-02 2.84E-05 3.94E-02 6.20E-06 haberman 2.66E-01 1.14E-04 2.64E-01 9.14E-05 3.86E-01 5.04E-04 2.87E-01 2.05E-04 2.64E-01 7.84E-05 2.62E-01 1.86E-04 2.69E-01 7.27E-05 hepatitis 2.01E-01 1.39E-04 1.34E-01 3.20E-04 2.66E-01 1.24E-03 2.47E-01 8.25E-04 1.93E-01 9.13E-04 1.58E-01 3.35E-04 1.93E-01 6.88E-05 ionosphere 1.35E-01 1.92E-04 1.81E-01 4.44E-04 2.28E-01 2.76E-04 1.93E-01 1.84E-04 1.76E-01 1.16E-04 9.58E-02 9.46E-05 1.75E-01 2.19E-04 ring1 2.71E-02 1.65E-06 2.33E-02 6.88E-07 3.14E-01 1.11E-05 2.83E-01 6.90E-06 2.65E-01 3.54E-06 3.43E-03 1.90E-06 2.31E-02 6.71E-07 sonar 3.20E-01 3.39E-04 3.38E-01 5.32E-04 4.32E-01 5.58E-07 2.91E-01 5.82E-08 2.75E-01 3.09E-07 2.51E-01 4.54E-09 3.06E-01 1.44E-04 spambase 2.08E-01 2.21E-05 1.83E-01 2.47E-05 3.32E-01 2.61E-05 1.13E-01 1.01E-05 9.71E-02 2.71E-05 1.67E-01 2.08E-05 3.24E-01 3.04E-05 tic-tac-toe 3.11E-01 9.20E-05 3.24E-01 1.20E-04 4.37E-01 2.40E-04 3.57E-01 7.22E-05 3.39E-01 7.52E-05 2.77E-01 9.09E-05 3.47E-01 2.40E-05 titanic 2.33E-01 7.78E-05 2.27E-01 7.07E-06 3.48E-01 6.47E-05 2.31E-01 6.34E-06 2.36E-01 7.82E-05 2.30E-01 1.23E-05 2.31E-01 3.19E-06 two norm 3.14E-02 2.22E-06 2.53E-02 8.45E-07 3.60E-02 2.06E-06 2.80E-02 1.11E-06 2.45E-02 7.63E-07 2.94E-02 1.15E-06 2.40E-02 4.76E-07 wdbc 7.29E-02 2.05E-05 7.42E-02 3.84E-05 6.27E-01 1.77E-30 6.27E-01 1.77E-30 6.28E-01 1.83E-06 6.84E-02 3.60E-05 8.79E-02 2.16E-05 balance 1.37E-01 6.63E-05 1.35E-01 5.26E-05 2.09E-01 9.15E-05 1.36E-01 5.21E-05 1.34E-01 4.30E-05 1.45E-01 1.30E-04 1.29E-01 2.17E-05 conn bench vowel 4.11E-01 5.99E-05 4.06E-01 2.60E-04 7.66E-01 3.06E-04 6.10E-01 4.22E-04 6.20E-01 4.52E-04 2.71E-01 1.40E-04 3.68E-01 2.16E-04 dermatology 9.40E-02 1.20E-04 1.47E-01 1.12E-04 5.30E-01 4.05E-04 1.17E-01 7.37E-05 8.73E-02 1.87E-04 7.91E-02 5.59E-05 2.75E-01 5.59E-04 iris 9.40E-02 1.20E-04 1.04E-01 1.87E-04 3.97E-01 1.13E-03 1.47E-01 1.76E-04 1.13E-01 8.45E-04 6.51E-02 8.16E-05 8.27E-02 6.40E-05 letter 3.68E-01 4.87E-06 3.65E-01 9.34E-06 5.33E-01 8.76E-06 4.85E-01 5.15E-04 4.62E-01 5.95E-04 1.45E-01 3.86E-06 3.66E-01 3.69E-05 libras 4.74E-01 1.42E-04 4.76E-01 3.25E-04 8.46E-01 2.67E-04 5.12E-01 3.99E-04 4.73E-01 6.55E-04 3.05E-01 1.64E-04 4.06E-01 2.84E-04 newthyroid 6.00E-02 4.95E-05 6.94E-02 8.40E-05 4.46E-01 4.73E-04 1.38E-01 1.49E-04 9.63E-02 6.22E-04 6.85E-02 5.76E-05 1.15E-01 2.50E-04 nursery 1.22E-01 1.65E-04 9.34E-02 2.17E-06 3.83E-01 1.12E-05 3.24E-01 1.22E-05 2.46E-01 5.23E-06 8.38E-02 7.38E-06 1.34E-01 4.43E-05 penbased 1.30E-01 2.87E-05 1.24E-01 1.98E-05 1.77E-01 5.75E-06 1.41E-01 2.98E-04 1.90E-01 9.66E-04 3.44E-02 2.03E-06 1.25E-01 2.70E-06 segment 2.15E-01 3.85E-05 2.11E-01 8.27E-05 4.49E-01 5.17E-05 1.59E-01 6.24E-04 2.44E-01 3.82E-03 1.17E-01 6.24E-05 2.51E-01 1.23E-05 vehicle 5.37E-01 3.12E-04 5.33E-01 2.18E-04 6.94E-01 2.64E-04 3.26E-01 4.73E-04 3.28E-01 9.43E-04 2.26E-01 8.77E-05 5.82E-01 1.44E-04 waveform_wo_noise 1.93E-01 1.33E-06 1.92E-01 4.66E-06 2.06E-01 1.83E-05 1.65E-01 1.25E-05 1.59E-01 3.30E-05 1.68E-01 1.05E-05 1.81E-01 2.40E-05 wine 8.26E-02 1.20E-04 8.86E-02 1.62E-04 6.53E-01 1.09E-03 2.46E-01 4.37E-04 1.17E-01 5.68E-04 1.08E-01 1.40E-04 2.99E-01 2.26E-04
*Giá trị in đậm minh họa cho thuật toán có độ sai số thấp nhất Bảng 5.2: Trung bình và phương sai theo sai số của thuật toán đề xuất và các thuật toán so sánh
Từ bảng kết quả trên ta dễ thấy rằng, thuật toán VIGO đạt mức độ hiệu quả vượt trội hơn các thuật toán học máy trực tuyến nổi bật như AROW, Online Bagging và phân lớp đơn Hoeffding Cụ thể hơn, giải thuật VIGO đạt độ sai số thấp nhất trên 16 tập dữ liệu trong khi các thuật toán so sánh chỉ tốt nhất trên 1-3 tập dữ liệu (ví dụ AROW tốt nhất trên 3 tập dữ liệubreast-cancer, spambasevàwaveform_wo_noise) Đồng thời ta cũng thấy rằng thuật toán VIGO thậm chí còn vượt trội hoàn toàn thuật toán PA và SCW khi hai thuật toán đó không đạt được sai số tốt nhất trên bất kỳ tập dữ liệu thử nghiệm nào Bên cạnh đó, thuật toán dựa trên cây Hoeffding và ma trận ngẫu nhiên cũng cho kết quả khá tốt Giải thuật này đạt độ sai số thấp nhất trên 4 tập dữ liệu và sai số trên các tập còn lại cũng tương đương với thuật toán VIGO Từ đó, ta có thể khẳng định rằng mô hình đề xuất có hiệu năng cao hơn các thuật toán (benchmarks) được so sánh Hình5.2mô tả thống kê về thuật toán có độ sai số thấp nhất trên 25 tập dữ liệu thử nghiệm.
VIGO RP Hoeffding AROW Online Bagging Hoeffding Tree 0
Số tậ p dữ liệ u có độ sa is ố tố tn hấ t
Hình 5.2: Thống kê độ hiệu quả của các thuật toán trên 25 tập dữ liệu
Ngược lại với giá trị độ sai số, thì giá trị F1 thể hiện mức độ phân loại hiệu quả của thuật toán Đối với độ đo này, thuật toán nào đạt giá trị càng cao thì càng tốt hơn Tác giả luận văn cũng tiến hành so sánh kết quả của các thuật toán dựa trên độ đo F1 vì giá trị độ sai số không phản ánh chính xác việc phân loại đúng nếu tập dữ liệu mất cân bằng Bảng5.3mô tả chi tiết các giá trị F1 của các thuật toán trong thử nghiệm.
Từ bảng5.3ta quan sát được rằng, thuật toán VIGO đạt giá trị F1 cao nhất trên 12 tập dữ liệu, thuật toánAROW và thuật toán dựa trên cây Hoeffding và ma trận ngẫu nhiên có kết quả tốt nhất trên 4 tập dữ liệu Các thuật toán khác như Online Bagging, Hoeffding Tree, SCW chỉ đạt được giá trị F1 tốt nhất trên 2 tập dữ liệu.Tác giả luận văn tiến hành làm kiểm định thống kê để đảm bảo rằng các kết quả thử nghiệm sai số và F1 của các thuật toán là hoàn toàn khác biệt nhau Hình sau mô tả kết quả kiểm định sai số của các thuật toán trong thử nghiệm Ta dễ dàng thấy rằng thuật toán VIGO thắng các thuật toán so sánh (benchmarks) như PA, SCW,AROW trên 23 tập dữ liệu, chỉ thua trên 2 tập dữ liệu (thua trên tậpspambasevàwaveform_wo_noiseđối với thuật toán AROW) Ngoài ra, nếu chỉ xét thuật toán dựa trên cây Hoeffding và ma trận ngẫu nhiên cùng các thuật toán PA, SCW, AROW, Online Bagging và Online Hoeffding Tree thì thuật toán mà tác giả đề xuất chiến thắng trên toàn bộ tập dữ liệu thử nghiệm đối với thuật toán PA, thắng 16 thua 6 đối với thuật toán SCW Hình sau mô tả kết quả kiểm định sai số của thuật toán dựa trên cây Hoeffding và ma trận ngẫu nhiên.
Tập dữ liệu Online Hoeffding Online Bagging PA SCW AROW VIGO RP Hoeffding
Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai banana 5.93E-01 7.74E-04 6.10E-01 2.72E-04 5.15E-01 5.11E-05 5.57E-01 1.31E-03 5.56E-01 1.75E-04 6.05E-01 6.12E-05 6.44E-01 1.51E-04 breast-cancer 9.52E-01 7.36E-06 9.48E-01 2.15E-05 7.56E-01 8.15E-05 8.20E-01 8.37E-05 8.37E-01 5.71E-05 9.23E-01 3.77E-05 9.57E-01 7.02E-06 haberman 5.11E-01 3.09E-03 5.28E-01 1.93E-03 4.99E-01 2.88E-04 5.51E-01 7.80E-04 5.18E-01 6.57E-04 5.77E-01 7.13E-04 4.79E-01 2.55E-03 hepatitis 5.62E-01 5.10E-03 6.78E-01 1.72E-03 5.15E-01 2.20E-03 5.64E-01 1.54E-03 6.62E-01 3.31E-03 6.12E-01 1.97E-03 5.03E-01 2.73E-03 ionosphere 8.53E-01 1.89E-04 8.09E-01 4.14E-04 7.42E-01 1.40E-04 7.82E-01 1.55E-04 7.89E-01 1.19E-04 8.87E-01 1.28E-04 8.11E-01 2.14E-04 ring1 9.73E-01 1.66E-06 9.77E-01 6.87E-07 6.74E-01 1.38E-05 7.02E-01 1.21E-05 7.19E-01 8.14E-06 9.60E-01 1.72E-06 9.77E-01 6.72E-07 sonar 6.78E-01 4.08E-04 6.61E-01 5.37E-04 5.68E-01 3.03E-04 7.07E-01 6.60E-04 7.27E-01 4.68E-04 7.30E-01 3.90E-04 6.88E-01 1.57E-04 spambase 7.91E-01 2.17E-05 8.16E-01 2.33E-05 6.42E-01 2.51E-05 8.84E-01 3.87E-06 9.00E-01 2.31E-05 8.24E-01 2.09E-05 6.00E-01 1.39E-04 tic-tac-toe 5.49E-01 1.09E-03 4.95E-01 1.28E-03 5.15E-01 3.03E-04 5.12E-01 5.65E-04 5.43E-01 2.08E-04 6.93E-01 7.16E-05 4.09E-01 2.31E-04 twonorm1 9.69E-01 2.22E-06 9.75E-01 8.45E-07 9.64E-01 1.03E-06 9.72E-01 6.53E-07 9.75E-01 5.70E-07 9.63E-01 1.74E-06 9.76E-01 4.76E-07 wdbc 9.22E-01 2.30E-05 9.20E-01 4.19E-05 6.34E-01 1.35E-04 8.99E-01 6.63E-05 9.36E-01 1.84E-05 9.04E-01 6.29E-05 9.04E-01 2.31E-05 balance 6.04E-01 1.40E-04 5.91E-01 1.17E-04 5.99E-01 1.91E-04 7.74E-01 3.75E-04 6.37E-01 1.19E-03 7.31E-01 2.78E-04 6.09E-01 5.25E-05 conn-bench-vowel 5.91E-01 6.55E-05 2.29E-01 2.99E-04 2.34E-01 1.93E-04 3.92E-01 3.86E-04 3.70E-01 3.47E-04 7.24E-01 1.44E-04 6.31E-01 2.51E-04 dermatology 8.36E-01 2.44E-04 5.43E-01 5.18E-04 4.45E-01 6.23E-04 9.04E-01 3.97E-05 9.09E-01 1.61E-04 8.89E-01 1.13E-04 6.87E-01 5.85E-04 iris 9.06E-01 1.17E-04 8.68E-01 3.63E-04 6.01E-01 1.43E-03 8.76E-01 3.27E-04 8.75E-01 8.31E-04 9.32E-01 1.10E-04 9.17E-01 6.07E-05 letter 6.28E-01 5.91E-06 1.36E-01 6.25E-06 4.64E-01 1.94E-06 5.06E-01 8.33E-04 5.19E-01 5.15E-04 8.53E-01 3.18E-06 6.21E-01 4.93E-05 libras 5.35E-01 1.23E-04 1.49E-01 1.95E-04 1.61E-01 1.77E-04 5.15E-01 5.31E-04 5.15E-01 1.08E-03 6.79E-01 1.86E-04 5.98E-01 2.16E-04 newthyroid 9.14E-01 9.10E-05 7.96E-01 5.91E-04 3.68E-01 1.05E-03 8.45E-01 2.03E-04 8.88E-01 4.53E-04 8.85E-01 1.88E-04 8.30E-01 4.78E-04 nursery 5.89E-01 7.71E-05 5.35E-01 4.09E-05 3.93E-01 1.25E-05 4.60E-01 1.24E-04 4.53E-01 3.80E-06 7.17E-01 6.66E-04 5.50E-01 6.88E-05 penbased 8.70E-01 3.07E-05 5.60E-01 9.61E-05 8.21E-01 6.68E-06 8.58E-01 4.47E-04 8.14E-01 1.29E-03 9.63E-01 1.88E-06 8.74E-01 3.32E-06 segment 7.71E-01 6.26E-05 5.95E-01 1.74E-04 5.49E-01 4.12E-05 8.41E-01 3.61E-04 7.71E-01 1.70E-03 8.94E-01 4.12E-05 7.30E-01 3.06E-05 vehicle 4.42E-01 5.18E-04 2.85E-01 1.93E-04 3.07E-01 9.83E-05 6.69E-01 2.53E-03 6.69E-01 1.12E-03 7.50E-01 7.90E-05 3.69E-01 2.64E-04 waveform_wo_noise 7.95E-01 1.35E-06 7.18E-01 1.02E-05 7.94E-01 1.83E-05 8.39E-01 1.49E-05 8.39E-01 2.88E-05 8.24E-01 1.32E-05 8.09E-01 3.33E-05 wine 9.19E-01 1.33E-04 8.59E-01 3.91E-04 3.42E-01 8.30E-04 7.76E-01 5.46E-04 8.84E-01 5.15E-04 8.57E-01 1.84E-04 6.95E-01 2.09E-04
*Giá trị in đậm minh họa cho thuật toán có giá trị F1 cao nhất Bảng 5.3: Trung bình và phương sai theo F1 của thuật toán đề xuất và các thuật toán so sánh
Hoeffding Tree AROW SCW PA Online Bagging
Hình 5.3: Kết quả kiểm định thống kê sai số của thuật toán RP Hoeffding với các thuật toán khác trên 25 tập dữ liệu
Tương tự với kiểm định giá trị F1, các kết quả được mô tả trực quan trong hình5.4
Hoeffding Tree AROW SCW PA Online Bagging
Hình 5.4: Kết quả kiểm định thống kê F1 của thuật toán RP Hoeffding và các thuật toán khác trên 25 tập dữ liệu
Bên cạnh các độ đo hiệu quả như độ sai số và F1 thì thời gian thực hiện các thuật toán cũng là một khía cạnh khi phát triển bất kỳ một thuật toán nào ta cũng cần phải quan tâm Đối với thuật toán VIGO thì độ phức tạp của thuật toán nằm ở bước tối ưu các xấp xỉ phân phối xác suất Thủ tục này có độ phức tạp làO(n×p) trong đó là số bước lặp để tìm giá trị tối ưu và là số chiều của không gian dữ liệu Tương tự, sau khi phânn p tích thuật toán RP Hoeffding ta thấy rằng độ phức tạp tính toán của giải thuật này làO(K× ×p N)vớiK là số cây trong hệ học kết hợp, là số quan sát Do đó, ta thấy rằng thuật toán RP Hoeffding có độ phức tạp caoN hơn thuật toán VIGO Ta xét kết quả thử nghiệm của tập dữ liệu Letter (20000 quan sát) làm ví dụ, thời gian thực hiện thuật toán VIGO trung bình trên 100 tập hoán vị là 37s trong khi thời gian thực hiện của thuật toán
RP Hoeffding là 434s, cao hơn rất nhiều so với thuật toán VIGO Tuy nhiên, thuật toán RP Hoeffding lại có ưu điểm là dễ dàng song song hóa, chính vì thế nếu cài đặt song song thì thuật toán RP Hoeffding có thể đạt được thời gian tốt hơn thuật toán VIGO.
Dữ liệu nhiễu
Để đánh giá mức độ suy giảm về độ hiệu quả của mô hình đối với dữ liệu nhiễu, tác giả tiến hành tạo ra các bộ dữ liệu nhiễu bằng cách lựa chọn ngẫu nhiên nhãn lớp của quan sát khác trong tập huấn luyện để thay thế với tỉ lệ lần lượt là 0%,10% và 20% Sau đó tập dữ liệu này được thử nghiệm với thủ tục 10-folds Cross Validation,quá trình này được lặp lại 10 lần Kết quả của thuật toán VIGO và 3 thuật toán khác trên 25 tập dữ liệu nhiễu được minh họa trong hình5.5.
Tr un g bì nh sa is ố
Hình 5.5: Trung bình sai số của thuật toán VIGO và 3 thuật toán PA, SCW, AROW trên 25 tập dữ liệu nhiễu
Dễ thấy rằng, thuật toán VIGO vẫn đạt được kết quả tốt hơn các thuật toán còn lại khi xử lý dữ liệu có nhiễu.Ngoài ra, thuật toán này còn có thể dễ dàng cải thiện bằng cách thay đổi kích thước lô| |B (minibatch size).
Trong luận văn này, tác giả đã giới thiệu tổng quan về phương pháp học trực tuyến (Online learning) được áp dụng trong việc giải quyết các bài toán dự đoán, phân loại phổ biến hiện nay theo hướng tiếp cận học máy. Học máy trực tuyến là một phương pháp tiên tiến và nổi bật hiện nay giúp giải quyết các bài toán dự đoán khi mà dữ liệu đến liên tục theo thời gian và đặc biệt là với số lượng rất lớn dữ liệu Phương pháp này giải quyết được các nhược điểm còn tồn tại của học máy truyền thống như không thể lưu trữ lượng lớn dữ liệu và đặc biệt là khi dữ liệu đến nhanh và liên tục theo thời gian Trong chương của luận văn, tác giả đã giới thiệu tổng quan2 về các phương pháp học trực tuyến hiện nay Cụ thể là học trực tuyến được chia thành 4 nhóm chính bao gồm: học trực tuyến tuyến tính, học trực tuyến dựa trên Bayesian, học trực tuyến dựa trên cây và học trực tuyến kết hợp.
Tiếp theo đó, trong chương và chương tác giả đã mô tả cụ thể hai phương pháp học trực tuyến mới được3 4 đề xuất gần đây và cũng là hai công trình nghiên cứu của tác giả và đồng nghiệp Trong đó, chương tác giả mô3 tả giải thuật VIGO là một giải thuật học trực tuyến tiếp cận theo hướng sử dụng lý thuyết Bayes Cụ thể hơn, trong giải thuật VIGO, tác giả sử dụng phương pháp VI để xấp xỉ phân phối xác suất hậu nghiệm p(x |y= )k theo một phân phối chuẩn nhiều chiều (Multivariate Gaussian distribution) Các kết quả thử nghiệm được mô tả đầy đủ trong chương Từ các kết quả thử nghiệm đó, có thể kết luận rằng phương pháp đề xuất đã đạt được5 độ hiệu quả tương đương với các thuật toán học trực tuyến nổi bật đã được đề xuất trước đây và thậm chí còn có kết quả tốt đối với các tập dữ liệu có nhiễu.
Trong chương , tác giả đã giới thiệu một mô hình học online kết hợp đồng nhất (homogeneous ensemble4 method) cho bài toán học online có giám sát bằng cách sử dụng các phép chiếu ngẫu nhiên và bộ phân loại cây Hoeffding Khi số chiều của dữ liệu là rất lớn, cây Hoeffding thường mất rất nhiều thời gian để huấn luyện Để hạn chế điều này, tác giả sử dụng các phép chiếu ngẫu nhiên để tạo ra các không gian con có số chiều thấp hơn không gian ban đầu nhưng vẫn bảo tồn được khoảng cách giữa các điểm dữ liệu Ngoài ra tính không ổn định của các phép chiếu ngẫu nhiên là một lợi thế khi có thể tạo ra các tập dữ liệu đa dạng, điều này rất phù hợp cho một bộ học kết hợp Các kết quả thử nghiệm cho thấy rằng phương pháp đề xuất đã đạt được các kết quả đối với bộ phân loại cây Hoeffding và một số thuật toán học Online phổ biến hiện nay. Định hướng phát triển
Các nội dung liên quan đến phương pháp học máy trực tuyến đã được tác giả trình bày từ tổng quan cho đến chi tiết các giải thuật đề xuất Tiếp theo đây, tác giả và đồng nghiệp mong muốn có thể nghiên cứu sâu hơn về phương pháp học trực tuyến để đưa ra đánh giá tổng quan về tất cả các phương pháp học máy trực tuyến hiện nay Ngoài ra tác giả cũng mong muốn phát triển các thuật toán hiện có thành thư viện để đóng góp vào sự phát triển chung của cộng đồng nghiên học máy nói riêng và các doanh nghiệp có nhu cầu áp dụng các kỹ thuật học máy tiên tiến vào sản phẩm của họ Điều đó không chỉ giúp nâng cao chất lượng dịch vụ mà còn thúc đẩy xã hội tiếp cận và nắm bắt được cơ hội trong thời đại công nghiệp 4.0.
[1] A Mojgan, "Inforgraphic: Exploiting Big Data for creating new products and innovation," 2014.
[2] F Rosenblatt, "The perceptron: A probabilistic model for information storage and organization in the brain," Psychological Review, vol 65, no 6, pp 386–408, 1958.
[3] K Crammer and Y Singer, "Ultraconservative online algorithms for multiclass problems", Journal of Machine Learning Research, vol 3, pp 951–991, 2003.
[4] C Gentile, "A new approximate maximal margin classification algorithm," Journal of Machine Learning Research, vol 2, pp 213–242, 2001.
[5] Y Li and P M Long, "The relaxed online maximum margin algorithm.," Machine Learning, vol 46, no. 1-3, pp 361–387, 2002.
[6] M Zinkevich, "Online convex programming and generalized infinitesimal gradient ascent," in ICML, 2003.
[7] K Crammer, O Dekel, S Shalev-Shwartz, and Y Singer, "Online passive aggressive algorithms," in NIPS, 2003.
[8] K Crammer, O Dekel, J Keshet, S Shalev-Shwartz, and Y Singer, "Online passive aggressive algo- rithms," Journal of Machine Learning Research, vol 7, pp 551–585, 2006.
[9] N Cesa-Bianchi, A Conconi, and C Gentile, "A second-order perceptron algorithm," SIAM Journal on Computing, vol 34, no 3, pp 640–668, 2005.
[10] M Dredze, K Crammer, and F Pereira, "Confidence-weighted linear classification," in ICML, 2008.
[11] L Yang, R Jin, and J Ye, "Online learning by ellipsoid method," in ICML, 2009.
[12] K Crammer, A Kulesza, and M Dredze, "Adaptive regularization of weight vectors," in NIPS, 2009.
[13] K Crammer, A Kulesza, and M Dredze, "Adaptive regularization of weight vectors " Machine Learning, vol 91 no 2, pp 155–187, 2013.
[14] F Orabona and K Crammer, "New adaptive algorithms for online classification," in NIPS, 2010.
[15] K Crammer and D D Lee, "Learning via gaussian herding," in NIPS, 2010.
[16] J Wang, P Zhao, and S C H Hoi, "Exact soft confidence-weighted learning," in ICML, 2012.
[17] J R Quinlan, C4.5: programs for machine learning Morgan Kaufmann, San Francisco, 1993.
[18] L Breiman, J Friedman, R Olshen, and C J Stone, "Classification and Regression Trees," Wadsworth and Brooks, Monterey, CA, 1984
[19] J R Quinlan, "Induction of decision trees," Machine Learning, vol 1, pp 81-106, 1986.
[20] S L Crawford, "Extensions to the CART algorithm," International journal of man-machine studies, vol.
[21] J C Schlimmer and D Fisher, "A case study of incremental concept induction," in Fifth National Con- ference on Artificial Intelligence, Philadelphia, 1986.
[22] P E Utgoff, "ID5: An incremental ID3," in ICML, 1988.
[23] P E Utgoff, "Incremental induction of decision trees," Machine Learning, vol 4, pp 161-186, 1989.
[24] P E Utgoff, N C Berkman, and J A Clouse, "Decision tree induction based on efficient tree restructur- ing," Machine Learning, vol 29, no 1, pp 5-44, 1997.
[25] P Domingos and G Hulten, "Mining high-speed data streams," presented at the KDD, New York, 2000.
[26] W Hoeffding, "Probability inequalities for sums of bounded random variables," Journal of the American Statistical Association, vol 58, pp 13-30, 1963.
[27] R Caruana and A Niculescu-Mizil, "An empirical comparison of supervised learning algorithms," in ICML, 2006, pp 161-168.
[28] C M Bishop, Pattern Recognition and Machine Learning Springer-Verlag, New York, 2006.
[29] L Breiman, "Bagging predictors," Machine Learning, vol 26, pp 123-140, 1996.
[30] T K Ho, “The random subspace method for constructing decision forests,” IEEE Trans Pattern Anal. Mach Intell., vol 20, no 8, pp 832–844, Aug 1998.
[31] L Breiman, “Random forest,” Mach Learning, vol 45, no 1, pp 5–32, Oct 2001.
[32] Y Freund and R.E Schapire, “Experiments with a new boosting algorithm,” in Proc of Int Conf on Mach Learning (ICML), vol 96, 1996, pp 148–156.
[33] N Oza and S Russell, "Online bagging and boosting," in Artificial Intelligence and Statistics, 2001.
[34] A Fern and R Givan, "Online ensemble learning: An empirical study," Machine Learning, vol 53, no.1/2, pp 71-109, 2003.
[35] C Domingo and O Watanabe, "MadaBoost: A modification of AdaBoost," in ACM Annual Workshop on Computational Learning Theory, 2000, pp 180-189.
[36] N H Bshouty and D.Gavinsky, "On boosting with polynomially bounded distributions," Journal of Ma- chine Learning Research, vol 3, pp 483–506, 2002.
[37] S Wang, L L Minku, and X Yao, "Dealing with Multiple Classes in Online Class Imbalance Learning," presented at the International Joint Conference on Artificial Intelligence, 2016.
[38] M Sokolova, G Lapalme, "A systematic analysis of performance measures for classification tasks," In- formation Processing and Management 45(4) (2009), 427-437.
[39] J Demsar, Statistical comparisons of classifiers over multiple datasets, Journal of Machine Learning Research 7 (2006), 1–30.
[40] T.T Nguyen, T.T.T Nguyen, X.C Pham, A.W.-C Liew, “A novel combining classifier method based on Variational Inference,” Pattern Recognition (2016).
[41] N Balakrishnan, V.B Nevzorov, A Primer on Statistical Distributions, Wiley & Sons Press, 2003.
[42] C Désir, S Bernard, C Petitjean, L Heutte, One class random forests, Pattern Recognit 46 (12) (2013) 3490–3506.
[43] C.M Bishop, Pattern Recognition and Machine Learning, Springer-Verlag, New York, 2006.
[44] N Nasios, A.G Bors, Variational learning for Gaussian mixture models, IEEE Trans Syst Man Cybern. Part B Cybern 36 (2006) 849–862.
[45] D.M Blei, M.I Jordan, Variational methods for the Dirichlet process, in: Proceedings of ACM Interna- tional Conference on Machine Learning, 2004.
[46] D.M Blei, M.I Jordan, Variational Inference for Dirichlet process mixtures, Bayesian Anal 1 (2006) 121–143.
[47] P Domingos and G Hulten, “Mining high-speed data streams,” in Proceedings of the KDD conference,
[48] Geoff Hulten, L Spencer and P Domingos, “Mining time-changing data streams,” in Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining, 2001, pp. 97–106.
[49] J Gama, R Fernandes and R Rocha, “Decision trees for mining data streams,” Intelligent Data Analysis, vol 10, no 1, pp 23–45, 2006.
[50] J Gama, P Medas and P Rodrigues, “Learning decision trees from dynamic data streams,” Journal ofUniversal Computer Science, vol 1, no 8, pp 1353–1366, 2005.