Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
0,94 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO BÀI TẬP LỚN MÔN: HỆ HỖ TRỢ QUYẾT ĐỊNH ĐỀ TÀI ĐẠI CƯƠNG VỀ HỌC KẾT HỢP Giảng viên hướng dẫn: TS LÊ CHÍ NGỌC Nhóm sinh viên thực hiện: Nhóm (K62) Họ tên Nguyễn Trung Nghĩa Nguyễn Văn Hưng Tăng Thu Thảo Vũ Tiến Đạt MSSV 20173561 20173522 20173587 20173492 Hà Nội, tháng 04 năm 2020 Mã lớp 116446 116446 116446 116446 ĐẠI CƯƠNG VỀ HỌC KẾT HỢP Mục lục Các khái niệm 2 Một số thuật tốn học phổ biến 2.1 Phép phân tích phân biệt tuyến tính (Linear Discriminant Analysis) 2.2 Cây định 2.3 Mạng neural 2.4 Trình phõn lp Naăve Bayes 2.5 Thuật toán k -Láng giềng Gần (k -Nearest Neighbor) 2.6 Máy vector hỗ trợ (Support Vector Machines) Phương pháp Hạt nhân (Kernel Methods) 11 Ước lượng so sánh 14 Phương pháp kết hợp 17 Ứng dụng phương pháp học kết hợp (Ensemble Methods) 19 Một số tài liệu nâng cao 21 Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt 4 10 11 ĐẠI CƯƠNG VỀ HỌC KẾT HỢP Các khái niệm Một nhiệm vụ máy học (machine learning), nhận diện mẫu (pattern recognition) khai phá liệu (data mining) để xây dựng lên mơ hình tốt từ liệu (data set) Một liệu bao gồm vector đặc trưng (feature vector) vector thể vật thể cách sử dụng nhóm đặc trưng Ví dụ, nhìn vào liệu three-Gaussian thể hình Trong hình này, vật thể điểm liệu thể trục x, trục y hình dạng, vector đặc trưng (ví dụ: (.5, 8, chữ thập) (.4, 5, hình trịn)) Số đặc trưng liệu gọi số chiều liệu; ví dụ, số chiều liệu nói Các đặc trưng cịn gọi thuộc tính, vector đặc trưng gọi trường hợp (instance) đơi liệu gọi mẫu thử (sample) Hình 1: Bộ liệu tổng hợp 3-Gaussian Một mơ hình thường mơ hình dự đốn mơ hình cấu trúc liệu mà ta muốn xây dựng tìm từ liệu, ví dụ định (decision tree), mạng neural, máy vector hỗ trợ (support vector machine), Quá trình tạo mơ hình từ liệu gọi q trình học (learning) trình luyện (training), trình thực thuật tốn học (learning algorithm) Có nhiều kiểu học khác số này, phổ biến học có giám sát (supervised learning) học không giám sát (unsupervised learning) Với học có giám sát, mục tiêu dự đốn giá trị đặc điểm mục tiêu liệu chưa gặp Ví dụ, ta muốn dự đốn hình dạng điểm liệu threeGaussians, ta gọi “chữ thập” “hình trịn” nhãn (label), mơ hình cần dự đốn nhãn thực thể chưa có nhãn Nếu nhãn phân loại được, ví dụ hình Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt ĐẠI CƯƠNG VỀ HỌC KẾT HỢP khối, toán gọi toán phân loại; nhãn số, ví dụ tọa độ x, tốn gọi hồi quy Trong hai trường hợp, trình luyện thực liệu bao gồm thông tin nhãn dán thực thể biết sẵn nhãn dán làm ví dụ Với phân loại nhị phân, thường dùng “dương tính” “âm tính” để biểu thị hai nhãn Học không giám sát không phụ thuộc vào thông tin nhãn liệu, mục tiêu cơng việc tìm thuộc tính cố hữu liệu Công việc thường gặp q trình học khơng giám sát phân cụm (clustering), sử dụng để tìm cấu trúc cụm điểm liệu Một mơ hình coi “tốt” khơng phụ thuộc vào việc đáp ứng yêu cầu người dùng hay khơng Những người dùng khác có kỳ vọng khác vào kết trình học công việc xác định đâu mức yêu cầu trước vấn đề bắt đầu xử lý cơng việc khó khăn Một chiến thuật phổ biến đánh giá ước lượng thể mơ hình, sau để người dùng định liệu có phải mơ hình chấp nhận được, chọn mơ hình tốt nhóm mơ hình Vì mục tiêu thiết yếu việc ‘học’ tính khái quát, ví dụ khái quát tri thức thu từ liệu luyện đến số liệu chưa gặp, mơ hình tốt thường có khả khái quát tốt, ví dụ sai số dự đốn nhỏ Tuy nhiên, khơng thể ước đốn sai số khát quát cách trực tiếp việc đòi hỏi phải biết nhãn, đầu thực thông tin, điều thực với liệu chưa gặp qua Quy trình phổ thơng để mơ hình dự đốn đưa dự đốn tập liệu kiểm tra (các nhãn biết), lấy sai số tập làm ước lượng cho sai số chung (generalization error) Quá trình sử dụng mơ hình luyện cho liệu mà mơ hình chưa gặp qua gọi trình kiểm tra (testing) Trước kiểm tra, mơ hình cần định hình, điều chỉnh tham số, trình liên quan đến sử dụng liệu biết nhãn, đầu xác để đánh mức độ thể tốt hay khơng mơ hình; gọi q trình đánh giá (validation) liệu gọi liệu đánh giá Bộ liệu kiểm tra không nên bị trùng lặp với liệu đánh giá, khơng mức độ thể mơ hình bị đánh giá cao so với thực tế Một cơng thức thường thấy q trình học sau: Giả thiết X không gian thực thể, D phân phối X , f hàm mục tiêu Cho liệu luyện D = (x1 , y1 ) , (x2 , y2 ) , , (xm , ym ) , thực thể xi lấy từ D cách i.i.d (independently and identically distributed - phân phối độc lập nhau) yi = f (xi ) Lấy tốn phân lớp làm ví dụ, mục tiêu xây dựng chương trình máy học h cho sai số tổng quát cực tiểu: err (h) = Ex∼D I h (x) = f (x) Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt (1) ĐẠI CƯƠNG VỀ HỌC KẾT HỢP 2.1 Một số thuật tốn học phổ biến Phép phân tích phân biệt tuyến tính (Linear Discriminant Analysis) Một trình phân lớp tuyến tính gồm vector trọng số w độ lệch b Cho thực thể x, nhãn lớp dự đoán y tính theo: y = sign(w x + b) (2) Quá trình phân loại bao gồm bước Đầu tiên, không gian thực thể minh họa khơng gian chiều (ví dụ: đường thẳng) qua vector trọng số w; sau đó, điểm đường thẳng xác định để phân biệt thực thể có giá trị dương thực thể có giá trị âm Để tìm giá trị w b giúp đạt hiệu tốt việc phân lớp, sử dụng thuật tốn học tuyến tính phép phân tích phân biệt tuyến tính Fisher (LDA) Ý tưởng LDA làm thực thể thuộc lớp khác có khoảng cách cách xa thực thể thuộc lớp có khoảng cách gần nhau; điều đạt kéo dãn khoảng cách trung tâm lớp khác giữ phương sai lớp nhỏ Có liệu luyện gồm lớp, từ thực thể có giá trị dương tìm kỳ vọng µ+ ma trận hiệp phương sai Σ+ ; tương tự, ta tìm kỳ vọng µ− ma trận hiệp phương sai Σ− Khoảng cách trung tâm lớp tính sau: SB (w) = w µ+ − w µ− , (3) SW (w) = w Σ+ w + w Σ− w (4) phương sai lớp tính sau: LDA kết hợp hai yếu tố hàm cực đại: J(w) = SB (w)/SW (w), (5) w∗ = (Σ+ + Σ− )−1 (µ+ + µ− ) (6) nghiệm tối ưu có dạng: Sau đạt giá trị w, dễ để tính độ lệch b Cách đơn giản để b trở thành điểm trung tâm, ví dụ: b∗ = w (µ+ + µ− ) /2, (7) đạt tối ưu hai lớp có phân phối chuẩn có phương sai Hình minh họa ranh giới định trình phân lớp LDA Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt ĐẠI CƯƠNG VỀ HỌC KẾT HỢP Hình 2: Ranh giới định LDA liệu 3-Gaussian 2.2 Cây định Một định bao gồm tổ hợp kiểm tra định theo cấu trúc hoạt động theo cách chia để trị Mỗi nút gắn với đặc điểm để kiểm tra gọi cách chia (split); liệu vào nút chia thành phần nhỏ dựa đặc điểm kiểm tra Mỗi gắn liền với nhãn, nhãn gán cho thực thể vào nút Trong việc dự đoán, chuỗi đặc điểm kiểm tra thực nút gốc, đến nút thu kết Lấy hình làm ví dụ Q trình phân loại việc kiểm tra xem giá trị tung độ có lớn 0.73 khơng; có, thực thể phân loại “chữ thập”, không tiếp tục kiểm tra giá trị hồnh độ có lớn 0.64 khơng; có, thực thể phân loại “chữ thập”, cịn khơng phân loại “hình trịn” Thuật tốn định nhìn chung trình hồi quy Ở bước, liệu đưa cách chia lựa chọn, sau đó, sử dụng cách chia để chia liệu thành nhỏ hơn, nhỏ coi liệu cho bước Chìa khóa thuật tốn định cách để lựa chọn cách chia Trong thuật tốn ID3 (Quinlan, 1998), lượng thơng tin thu được sử dụng làm tiêu chuẩn để lựa chọn cách chia Cho liệu luyện D, entropy D định nghĩa sau: Ent(D) = − P (y|D) log P (y|D) (8) y∈Y Nếu liệu luyện D chia thành nhiều nhỏ D1 , D2 , , Dk , lượng entropy có Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt ĐẠI CƯƠNG VỀ HỌC KẾT HỢP Hình 3: Một ví dụ định thể giảm lượng giảm coi thơng tin thu được, ví dụ: k G(D; D1 , , Dk ) = Ent(D) − i=1 |Dk | Ent(Dk ) |D| (9) Như vậy, đặc điểm - giá trị đưa đến lượng thông tin thu lớn chọn làm cách chia Một vấn đề với việc dùng lượng thơng tin thu làm tiêu chí đặc tính với nhiều giá trị khả thi ưu ái, bất chấp tính liên quan với việc phân loại Ví dụ, có vấn đề phân loại nhị phân thực thể có “id” riêng biệt, “id” coi đặc tính, lượng thơng tin thu coi đặc tính cách chia lớn cách chia chia thực thể cách xác; nhiên, cách làm thiếu tính khái qt hóa khơng thể sử dụng để đưa dự đoán cho liệu chưa gặp qua Việc thiếu hiệu tiêu chí thơng tin thu được đề cập đến C4.5 (Quinlan, 1993), thuật toán định tiếng C4.5 sử dụng tỷ lệ tăng thông tin (gain ratio): −1 k |Dk | |Dk | P (D; D1 , , Dk ) = G(D; D1 , , Dk ) − log , (10) |D| |D| i=1 Đây thực biết thể tiêu chí lượng thơng tin thu được, sử dụng chuẩn hóa vào số lượng giá trị đặc tính Trong thực tế, đặc tính với tỷ lệ tăng thơng tin cao số đặc tính khác lựa chọn làm cách chia CART (Breiman Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt ĐẠI CƯƠNG VỀ HỌC KẾT HỢP et al., 1984) thuật toán tiếng định khác, sử dụng số Gini (Gini Index) để lựa chọn cách chia để tối đa hóa Gini: k Ggini (D; D1 , , Dk ) = I(D) − i=1 |Dk | I(Dk ), |D| (11) P (y|D)2 I(D) = − (12) y∈Y Quan sát định, người ta thường thấy kết cho từ liệu luyện thường tốt hơn, tệ khả khái quát hóa thơng tin có kết khơng tốt liệu luyện; tượng gọi khớp (overfitting), thường bị gây xuất số tính riêng biệt liệu luyện, ví dụ liệu nhiễu trình thu thập liệu luyện, bị nhận biết sai thành xu hướng ẩn mơ hình học Để giảm nguy khớp, chiến thuật chung đưa “tỉa” (pruning) bớt số cành tạo liệu nhiễu tập luyện Pre-pruning phương pháp tỉa cành trước hoàn thành cây, post-pruning kiểm tra lại hoàn thành định nên bỏ cành Nếu có tập liệu đánh giá, tỉa dựa lỗi tập liệu đánh giá; với pre-pruning, cành không phát triển lỗi tập đánh giá tăng thêm vào cành này; với post-pruning, cành bị loại bỏ việc giúp giảm lỗi tập đánh giá Các thuật toán định ban đầu, ID3, xử lý với đặc tính phân loại Các thuật toán sau, C4.5 CART, xử lý đặt tính số Cách đơn giản để đánh giá điểm chia đặc tính số chia liệu luyện thành phần, với tập chứa thực thể có đặc tính nhỏ điểm chia tập chứa thực thể lại Khi chiều dài định hạn chế 1, nghĩa cần lần kiểm tra để đưa định, gọi gốc định (decision stump) Mặc dù định phân loại không tuyến tính nói chung, gốc định kiểu phân loại tuyến tính Hình minh họa cho danh giới định định bình thường 2.3 Mạng neural Mạng neural, hay gọi mạng thần kinh nhân tạo (artificial neural networks), có nguồn gốc từ việc mô mạng lưới thần kinh sinh học Chức mạng neural xác định dựa vào mơ hình nơron, cấu trúc mạng lưới Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt ĐẠI CƯƠNG VỀ HỌC KẾT HỢP Hình 4: Ranh giới định định điển hình liệu three-Gaussian thuật tốn học Mỗi nơron cịn gọi đơn vị (unit), thành phần tính tốn mạng nơron Mơ hình nơron phổ biến nhất, ví dụ mơ hình McCulloch-Pitts (mơ hình M-P), minh họa Hình 5(a) Trong mơ hình này, đầu tiên, tín hiệu đầu vào nhân với trọng số kết nối tương ứng, sau tín hiệu tổng hợp lại so sánh với giá trị ngưỡng (threshold), gọi độ lệch (bias) nơron Nếu tín hiệu tổng hợp lớn độ lệch, nơron kích hoạt tín hiệu đầu tạo hàm kích hoạt (activation function), cịn gọi hàm chuyển (transfer function) hay hàm nén (squashing function) Các nơron liên kết với trọng số kết nối để cấu thành mạng lưới Có nhiều cấu trúc mạng có, số cấu trúc phổ biến phải kể tới mạng chuyển tiếp đa lớp (multi-layer feed-forward network), minh họa Hình 5(b) Đối với cấu trúc này, nơron kết nối với theo lớp, không tồn kết nối lớp kết nối lớp với Có lớp đầu vào (input layer) tiếp nhận vector đặc trưng đầu vào, nơron thường tương ứng với phần tử vector đặc trưng Hàm kích hoạt nơron đầu vào thường đặt f (x) = x Một lớp đầu (output layer) xuất nhãn, nơron thường tương ứng với nhãn có, phần tử vector nhãn (label vector) Các lớp nằm lớp đầu vào lớp đầu gọi lớp ẩn (hidden layers) Các nơron ẩn nơron đầu đơn vị chức (functional units), hàm kích hoạt phổ biến cho chúng hàm Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt ĐẠI CƯƠNG VỀ HỌC KẾT HỢP sigmoid (sigmoid function): f (x) = + e−x (13) Mặc dù người ta sử dụng mạng neural với nhiều lớp ẩn, cài đặt phổ biến sử dụng hai lớp ẩn, người ta biết mạng chuyển tiếp với lớp ẩn xấp xỉ hàm liên tục nào, thuật toán phức tạp cần thiết để ngăn chặn mạng có nhiều lớp ẩn khỏi vấn đề phân kỳ (ví dụ, mạng không hội tụ trạng thái ổn định) Hình 5: Minh họa (a) nơron (b) mơ hình mạng neural Mục tiêu việc luyện mạng neural xác định giá trị trọng số kết nối độ lệch nơron Một giá trị định, hàm tính tốn mạng neural định Có nhiều thuật tốn để luyện mạng neural Ý tưởng áp dụng thường xuyên để luyện mạng neural chuyển tiếp đa lớp là, hàm kích hoạt khả vi (differentiable) tồn mạng neural xem hàm khả vi tối ưu hóa phương pháp gradient descent Thuật tốn thành công nhất, lan truyền ngược (Back-Propagation, BP) [Werbos, 1974, Rumelhart et al., 1986], hoạt động sau Đầu tiên, đầu vào truyền dẫn từ lớp đầu vào qua lớp ẩn tới lớp đầu ra, sai số tính tốn cách so sánh đầu mạng với với nhãn thực (ground-truth) Sau đó, sai số lan truyền ngược trở lại lớp ẩn lớp đầu vào, trọng số kết nối độ lệch điều chỉnh để giảm dần sai số Quá trình thực cách điều Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt ĐẠI CƯƠNG VỀ HỌC KẾT HỢP chỉnh theo hướng độ dốc Quá trình lặp lại nhiều lần, sai số trình luyện nhỏ trình luyện bị dừng lại để tránh khớp (overfitting) 2.4 Trình phân lp Naăve Bayes phõn lp mt thc th th nghiệm x, phương pháp tiếp cận xây dựng mơ hình xác suất để ước lượng xác suất hậu nghiệm P y|x giá trị y khác nhau, dự đốn mơ hình có xác suất hậu nghiệm lớn nhất; phương pháp gọi quy tắc cực đại xác suất hậu nghiệm (the maximum a posterior (MAP) rule) Theo định lý Bayes, ta có: P x|y P (y) P y|x = , (14) P (x) P (y) ước lượng cách đếm số lần xuất lớp y tập liệu đào tạo, P (x) bỏ qua so sánh giá trị y khác x Do cần xem xét P x|y Nếu ước lượng xác P x|y , ta thu trình phân lớp tốt mặt lý thuyết từ liệu đào tạo cho trước, trình phân lớp Bayes tối ưu (Bayes optimal classifier) với hệ số sai sót Bayes (Bayes error rate), hệ số sai sót nhỏ theo lý thuyết Tuy nhiên, việc ước lượng P x|y khơng đơn giản, liên quan đến việc ước lượng số mũ xác suất liên hợp (joint-probabilities) đặc trưng Để dễ kiểm soát ước lượng, cần số giả thiết Trỡnh phõn lp Naăve Bayes gi thit rng, cho nhón lớp, đặc trưng thứ n độc lập với lớp Như vậy, ta có: n P xi |y , P x|y = (15) i=1 ngụ ý cần ước lượng giá trị đặc trưng lớp để ước lượng xác suất có điều kiện, dó tránh việc tính tốn xác suất liên hợp Trong q trình luyn, trỡnh phõn lp Naăve Bayes c lng cỏc xỏc suất P (y) tất lớp y ∈ Y , P xi |y với đặc trưng i = 1, , n giá trị đặc trưng xi từ tập huấn luyện Trong trình thử nghiệm, thực thể thử nghiệm x dự đốn có nhãn y y tiến đến giá trị lớn n P y|x ∝ P (y) P xi |y (16) i=1 số tất nhãn phân lớp Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt 10 ĐẠI CƯƠNG VỀ HỌC KẾT HỢP 2.5 Thuật toán k -Láng giềng Gần (k -Nearest Neighbor) Thuật toán k -láng giềng gần (k -nearest neighbor, k NN) dựa ý tưởng đối tượng giống khơng gian đầu vào giống khơng gian đầu Đây phương pháp tiếp cận theo kiểu lười học (lazy learning approach) khơng có q trình đào tạo tường minh, thay vào đơn giản lưu trữ tập huấn luyện Đối với thực thể thử nghiệm, chương trình máy học sử dụng k -láng giềng gần xác định k thực thể từ liệu huấn luyện gần thực thể thử nghiệm Sau đó, để phân lớp, thực thể thử nghiệm phân vào lớp chiếm đa số k thực thể đó, hồi quy, thực thể thử nghiệm gán giá trị trung bình k thực thể Hình 6(a) minh họa cách thức phân lớp thực thể trình phân lớp 3-láng giềng gần Hình 6(b) cho thấy ranh giới trình phân lớp 1-láng giềng gần nhất, cịn gọi trình phân lớp láng giềng gần Hình 6: Minh họa (a) cách thức trình phân loại k -láng giềng gần dự đoán nhãn thực thể thử nghiệm, (b) định ranh giới trình phân lớp láng giềng gần thử nghiệm liệu three-Gaussians 2.6 Máy vector hỗ trợ (Support Vector Machines) Phương pháp Hạt nhân (Kernel Methods) Máy vector hỗ trợ (Support vector machines, SVMs) [Cristianini Shawe-Taylor, 2000], vốn ban đầu thiết kế để giải tốn phân chia hai lớp (binary classification), trình phân lớp lề rộng (large margin classifiers) với nguyên tắc cố gắng phân tách thực thể vào hai lớp khác với lề (margin) tới siêu phẳng lớn Lề định nghĩa khoảng cách nhỏ từ thực thể lớp tới siêu phẳng phân lớp Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt 11 ĐẠI CƯƠNG VỀ HỌC KẾT HỢP Xét trình phân lớp tuyến tính y = sign w x + b , viết gọn lại (w, b), sử dụng hàm mát hinge loss để đánh giá tương ứng liệu: m max 0, − yi w xi + b (17) i=1 Khoảng cách Euclidean từ thực thể xi đến siêu phẳng w x + b là: w xi + b (18) w Nếu ta giới hạn w xi + b ≥ với thực thể, khoảng cách nhỏ tới siêu phẳng w −1 Do đó, SVMs cực đại hóa w −1 Thật vậy, SVMs giải toán tối ưu: w (w , b ) = arg w,b,ξi ∗ m ∗ +C ξi (19) i=1 với điều kiện yi (w xi + b) ≥ − ξi (∀i = 1, , m) ξi ≥ 0(∀i = 1, , m), C tham số ξi biến không chặt (slack variables) đưa vào nhằm cho phép máy học phân phối liệu chưa phân chia hoàn chỉnh, chẳng hạn liệu nhiễu Một ví dụ minh họa SVM trình bày Hình 19 gọi dạng tắc tốn tối ưu Dạng đối ngẫu cho lời giải tối ưu với dạng tắc là: m ∗ α = arg max α i=1 αi − m m αi αj yi yj xi , xj (20) i=1 j=1 m αi yi = với điều kiện: i=1 αi ≥ (∀i = 1, , m) , ·, · nội tích (tích vơ hướng) Nghiệm tối ưu w∗ dạng tắc lúc biểu diễn dạng: m ∗ αi∗ yi xi , w = (21) i=1 Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt 12 ĐẠI CƯƠNG VỀ HỌC KẾT HỢP Hình 7: Minh họa SVM tích vơ hướng w∗ với thực thể x tính bởi: m ∗ αi∗ yi xi , x w ,x = (22) i=1 Một hạn chế trình phân lớp tuyến tính là, chất liệu phi tuyến, trình phân lớp tuyến tính khơng thể phân chia tốt thành lớp Trong trường hợp vậy, cách tiếp cận tổng quát ánh xạ điểm liệu vào không gian đặc trưng nhiều chiều hơn, liệu bất khả ly tuyến tính (linearly non-separable) khơng gian gốc trở nên khả ly tuyến tính (linearly separable) Tuy nhiên, tiến trình học trở nên chậm khó xử lý việc tích vơ hướng không gian với số chiều lớn trở nên khó khăn May mắn thay, có lớp hàm, gọi hàm hạt nhân (hay hạt nhân) giúp giải vấn đề Không gian đặc trưng suy từ hàm hạt nhân gọi Không gian Hillbert nhân tự sinh (Reproducing Kernel Hillbert Space, RKHS) Một tích vơ hướng khơng gian RKHS với hạt nhân ánh xạ tích vơ hướng thực thể không gian đặc trưng gốc (với số chiều thấp hơn) Nói cách khác: K xi , xj = φ (xi ) , φ xj (23) với xi , φ ánh xạ từ không gian đặc trưng gốc vào không gian nhiều chiều K hạt nhân Vì vậy, ta thay cách đơn giản tích vơ hướng tốn tối ưu đối ngẫu hạt nhân Theo Định lý Mercer (Mercer’s Theorem) [Cristianini Shawe-Taylor, 2000], hàm đối xứng bán xác định dương (positive semi-definite symmetric function) Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt 13 ĐẠI CƯƠNG VỀ HỌC KẾT HỢP hạt nhân Trong số hạt nhân phổ biến có lẽ phải kể đến hạt nhân tuyến tính (linear kernel): K xi , xj = xi , xj , (24) hạt nhân đa thức (polynomial kernel): K xi , xj = xi , xj d , (25) d bậc đa thức, hạt nhân Gauss (Gaussian kernel) (hay gọi hạt nhân RBF (RBF kernel)): xi − xj (26) K xi , xj = exp − 2σ σ tham số tự Thủ thuật hạt nhân (kernel trick), ví dụ như, ánh xạ liệu điểm với nhân sau hồn thành nhiệm vụ học không gian RKHS, chiến lược phổ biến kết hợp với thuật tốn học máy khác nhằm mục đích tính tích vơ hướng vector đặc trưng đầu vào Một thủ thuạt hạt nhân sử dụng, thuật toán học máy gọi phương pháp hạt nhân Thật vậy, SVMs loại phương pháp hạt nhân đặc biệt, chẳng hạn trình phân lớp tuyến tính trở nên nhẹ nhàng với thủ thuật hạt nhân Ước lượng so sánh Thông thường, ta phải cân nhắc lựa chọn thuật toán luyện số biến số cần điều chỉnh Việc chọn thuật toán tốt biến số phù hợp gọi lựa chọn mơ hình (model selection), mục đích đó, ta cần ước lượng trước mức độ hiệu chương trình học máy Qua thực nghiệm, việc giúp thiết kế thí nghiệm kiểm định giả thuyết nhằm so sánh mơ hình Thật sai lầm đánh giá sai số chương trình học máy sai số luyện (training error), ví dụ, sai số mà chương trình học máy tạo liệu luyện, sai số luyện với chương trình phức tạp tốt so với chương trình tối ưu tốt Thơng thường, chương trình học máy có độ phức tạp cao đạt sai số luyện 0, định đầy đủ; nhiên, chương trình học máy thể tệ với liệu khớp Một phương pháp phù hợp tính tốn tập kiểm định (validation set) Chú ý nhãn liệu luyện kiểm định tiên nghiệm (priori) trình luyện, nên dùng chung để xuất phát điều chỉnh chương trình học máy cuối Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt 14 ĐẠI CƯƠNG VỀ HỌC KẾT HỢP mô hình lựa chọn Trên thực tế, phần lớn trường hợp, liệu luyện kiểm định có cách chia liệu có thành hai phần Khi chia, tính chất liệu ban đầu phải giữ lại nhiều có thể; khơng, liệu kiểm định cho xấp xỉ sai, cụ thể hơn, tập luyện chứa trường hợp dương, tập kiểm định có trường hợp âm Trong phân loại, liệu ban đầu chia ngẫu nhiên, phần trăm phân loại phải tính từ luyện lẫn kiểm định; gọi xếp tầng (stratification), hay lấy mẫu theo tầng (stratified sampling) Nếu khơng có đủ liệu dán nhãn để tạo liệu kiểm định, cách thường thấy để thực kiểm định kiểm định chéo (cross – validation) Với phương pháp kiểm định chéo k nếp (k–fold cross – validation), liệu ban đầu chia thành k tập rời nhau, D1 , , Dk , chạy k lần liệu luyện Trong lần chạy thứ i, Di dùng liệu kiểm định hợp tập cịn lại, ví dụ, j=i Dj , dùng liệu luyện Kết trung bình k lần chạy lấy làm kết trình kiểm định chéo Để giảm ảnh hưởng việc ngẫu nhiên chia liệu, ta thực kiểm định chéo k nếp t lần, gọi t lần kiểm định chéo k nếp Cấu hình thường thấy 10 lần kiểm định chéo 10 nếp, lần kiểm định chéo nếp, Dietterich [1998] khuyên dùng Hơn nữa, k với số trường hợp liệu ban đầu, có trường hợp liệu kiểm định; ta gọi kiểm định kiểm định leave-one-out (LOO) Sau thu sai số xấp xỉ, ta so sánh thuật tốn học khác Một phép so sánh đơn giản sai số trung bình, nhiên, khơng đáng tin thuật tốn chiến thắng vơ tình thực tốt nhờ ngẫu nhiên chia liệu Kiểm định giả thuyết (hypothesis test) thường dùng nhằm mục đích Để so sánh thuật tốn mà đủ khả chạy 10 lần, t–bài kiểm định chéo theo cặp × lựa chọn tốt [Dietterich, 1998] Trong kiểm định này, ta chạy lần kiểm định chéo nếp Ở lần chạy kiểm định chéo nếp, liệu D chia ngẫu nhiên thành hai tập D1 D2 kích cỡ Hai thuật tốn a b luyện kiểm định lại, kết thu sau ước lượng (1) (1) (2) (2) sai số: erra errb (luyện D1 kiểm định D2 ) erra errb (luyện D2 kiểm định D1 ) Ta có hiệu sai số: (i) d(i) = erra(i) − errb (i = 1, 2) (27) với trung bình phương sai, là: µ= d(1) + d(2) , Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt (28) 15 ĐẠI CƯƠNG VỀ HỌC KẾT HỢP s2 = d(1) − µ + d(2) − µ (29) (1) Kí hiệu s2i phương sai kiểm định chéo nếp lần thứ i, d1 kí hiệu hiệu sai số lần Theo giả thuyết không, t – thống kê kiểm định chéo × 2: (1) t= d1 5 i=1 ∼ t5 , (30) s2i phân phối theo t - phân phối Student với bậc tự Ta chọn mức ý nghĩa α phù α α hợp Nếu t nằm khoảng −t5 ; t5 , giả thuyết không chấp nhận, 2 cho ta biết khơng có sai lệch đáng kể hai thuật toán Thường α đặt 0.05 0.1 Để so sánh thuật tốn chạy lần, kiểm định McNemar dùng thay [Dietterich, 1998] Đặt err01 số trường hợp mà thuật toán thứ dự đoán sai thuật toán thứ hai dự đoán đúng, err10 định nghĩa ngược lại Nếu hai thuật toán thể gần nhau, tức err01 gần với err10 , đại lượng: |err01 − err10 | − err01 + err10 có phân phối tuân theo phân phối χ2 ∼ χ21 (31) Đôi khi, ta đánh giá nhiều thuật toán học nhiều liệu Trong trường hợp này, ta dùng kiểm định Friedman [Demˇsar, 2006] Đầu tiên, ta xếp thuật toán với liệu dựa sai số trung bình chúng Ở liệu, thuật toán tốt gán hạng 1, thuật toán tệ gán hạng cao dần, hạng trung gian xếp theo thứ tự Sau đó, ta lấy trung bình hạng thuật tốn tồn liệu, dùng kiểm định post – hoc Nemeny [Demˇsar, 2006] để tính giá trị sai số tới hạn (critical difference) k (k + 1) (32) 6N k số thuật toán, N số tập liệu qα giá trị tới hạn [Demˇsar, 2006] Một cặp thuật tốn cho có sai khác đáng kể hiệu trung bình hạng hai thuật toán lớn so với sai số tới hạn CD = qα Kết kiểm định Friedman hình dung qua việc vẽ đồ thị sai số tới hạn (critical difference diagram), minh hoạ hình 8, đó, thuật tốn tương ứng với có trung điểm giá trị hạng trung bình với độ dài giá trị sai số tới hạn Hình cho thấy thuật tốn A tốt rõ ràng so với thuật tốn cịn lại, thuật toán D rõ ràng tệ thuật toán kia, thuật toán B C gần không khác nhiều, dựa vào mức ý nghĩa cho Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt 16 ĐẠI CƯƠNG VỀ HỌC KẾT HỢP Hình 8: Minh hoạ đồ thị sai số tới hạn Phương pháp kết hợp Phương pháp kết hợp luyện nhiều chương trình học máy để giải toán Trái ngược với cách tiếp cận học thông thường, cố gắng xây dựng chương trình học máy từ liệu luyện, phương pháp kết hợp cố gắng xây dựng tập chương trình kết hợp chúng với Học kết hợp gọi học dựa theo uỷ ban (committee-based learning) học nhiều hệ thống phân loại (multiple classifier systems) Hình cho ta thấy kiến trúc kết hợp thơng thường Một (mơ hình) kết hợp gồm số chương trình học máy gọi chương trình học máy Chương trình học máy thường tạo qua việc luyện liệu thuật tốn học định, mạng neural thuật toán học khác Phần lớn phương pháp kết hợp dùng thuật toán học để sinh chương trình học máy đồng nhất, ví dụ, chương trình dạng, dẫn đến kết hợp đồng dạng (homogeneous ensemble), có số phương pháp dùng nhiều thuật toán học khác để sinh kết hợp hỗn tạp (heterogeneous ensembles) Ở trường hợp sau, mà khơng có thuật tốn vậy, số người hay gọi chương trình học máy chương trình học máy cá nhân (individual learners) hay chương trình học máy thành phần (component learners) thay chương trình học máy Khả tổng qt hố mơ hình kết hợp thường mạnh nhiều so với chương trình học máy Thực tế, phương pháp kết hợp phần lớn hấp dẫn chúng đẩy chương trình học máy yếu thường tốt chút so với đoán ngẫu nhiên thành chương trình học máy mạnh dự đốn Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt 17 ĐẠI CƯƠNG VỀ HỌC KẾT HỢP Hình 9: Một kiến trúc kết hợp thơng thường xác Vậy, chương trình học máy thường ám chương trình học máy yếu Rất khó để lần điểm bắt đầu phương pháp kết hợp ý tưởng xây dựng nhiều mơ hình lúc xuất xã hội người từ lâu Ví dụ, trước giới thiệu dao cạo Occam (Occam’s razor), cách giả sử thông thường nghiên cứu khoa học thích giả thuyết đơn giản giả thuyết phức tạp mà phù hợp với quan sát được, nhà triết học Hy Lạp Epicurus (341 – 270 trước Công nguyên) giới thiệu nguyên lý lời giải thích (principle of multiple explanations) [Asmis, 1984], ủng hộ giữ lại tất giả thuyết mà ln với quan sát Có ba hướng đóng góp ban đầu dẫn tới lĩnh vực nghiên cứu phương pháp kết hợp ngày nay; là, phối hợp phân loại (combining classifiers), kết hợp chương trình học máy yếu (ensembles of weak learners) hỗn hợp chuyên gia (mixture of experts) Phối hợp phân loại phần lớn nghiên cứu làm mẫu cộng đồng làm nhận diện Trong hướng này, nhà nghiên cứu nhìn chung làm với phân loại mạnh, cố gắng thiết kế quy luật phối hợp mạnh mẽ để phân loại mạnh Hậu là, hướng chồng chất hiểu biết sâu thiết kế sử dụng quy luật phối hợp khác Kết hợp chương trình học máy yếu thường nghiên cứu cộng đồng máy học (machine learning) Với hướng này, nhà nghiên cứu thường làm với chương trình học máy yếu cố gắng thiết kế thuật toán mạnh mẽ để tăng cường hiệu suất từ yếu thành mạnh Hướng dẫn đến phương pháp kết hợp tiếng AdaBoost, Bagging, v.v., hiểu biết mặt lý thuyết cách mà chương trình học máy yếu lại trở thành mạnh vật Hỗn hợp chuyên gia phần lớn nghiên cứu cộng đồng mạng neutral Theo hướng này, nhà nghiên cứu nhìn chung quan tâm đến chiến lược chia để trị (divide-and-conquer), cố gắng học hỗn hợp mơ hình chứa tham số với dùng quy luật kết hợp để có kết cuối Phương pháp kết hợp trở thành mơ hình học từ năm 1990s, với Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt 18 ĐẠI CƯƠNG VỀ HỌC KẾT HỢP Hình 10: Minh hoạ đơn giản cho quan sát Hansen Salamon [1990]: Mơ hình kết hợp thường tốt với mơ hình tốt việc quảng bá tốt nhờ hai cơng trình mở đường Một kinh nghiệm [Hansen Salamon, 1990], người ta tìm dự đốn tổ hợp tập mơ hình phân loại thường hiệu so với dự đốn mơ hình phân loại tốt Hình minh hoạ đơn giản hình 10 Cịn lại lý thuyết [Schapire, 1990], chứng minh chương trình học máy yếu tăng hiệu suất thành chương trình học máy mạnh Bởi chương trình học máy mạnh khó đạt được, chương trình học máy yếu dễ dàng có qua thực tế thực hành, kết mở hướng đầy hứa hẹn, sinh chương trình học máy mạnh phương pháp kết hợp Nhìn chung, mơ hình kết hợp xây dựng hai bước, ví dụ, sinh chương trình học máy bản, kết hợp chúng lại Để có mơ hình kết hợp tốt, người ta tin chương trình học máy nên hiệu có thể, khác Một điểm đáng lưu ý cần nhắc tới, là, nhìn chung, mức độ tính tốn xây dựng mơ hình kết hợp khơng lớn nhiều so với tạo chương trình học máy Đó ta muốn chương trình học máy nhất, ta thường muốn sinh nhiều phiên khác chương trình để lựa chọn mơ hình điều chỉnh biến số; tương đương với việc sinh chương trình học máy mơ hình kết hợp, mức độ tính tốn để kết hợp chương trình học máy thường nhỏ nhiều chiến lược kết hợp đơn giản Ứng dụng phương pháp học kết hợp (Ensemble Methods) Cúp KDD thi khai phá liệu tiếng Từ năm 1997, giải đấu tổ chức hàng năm thu hút nhóm khai phá liệu từ khắp nơi tồn Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt 19 ĐẠI CƯƠNG VỀ HỌC KẾT HỢP giới Những toán dùng làm đề thi giải nhiều vấn đề thực tiến, từ phát xâm nhập mạng (1999), dự đốn vị trí vi sinh vật phân tử protein (2001), dự báo bệnh tắc mạch phổi (2006), quản lí mối quan hệ với khách hàng (2009), khai phá liệu liên quan đến giáo dục (2010), gợi ý nhạc (2011), vân vân Trong thi KDD trước đây, số phương pháp khác nhau, phương pháp học kết hợp ý nhiều giành chức vô địch nhiều Minh chứng cho điều năm từ 2009 đến 2011, tất đội vô địch quân dung phương pháp học kết hợp Một thi tiếng khác giải thưởng Netflix (the Netflix Prize), tổ chức dich vụ cho thuê DVD trực tuyến Netflix Cuộc thi hướng tới mục tiêu tăng cường độ xác viêc dự đốn xem người có thich phim hay khơng dựa sở thích họ Nếu đội chơi cải thiện độ xác thuật tốn Netflix lên 10%, họ giành giải thưởng 1000000$ Vào 21/9/2009, Netflix trao giải thưởng cho đội “BellKor’s Pragmatic Chaos” Đội sử dụng thuật toán kết hợp nhiều phương pháp máy Boltzmann bị hạn chế (restricted Boltzmann machines), yếu tố ma trận (matrix factorization), k -láng giềng gần nhất, Một đội khác, có hệ thống có độ xác tốt bị loại nộp dự thi chậm 20 phút, chí cịn đặt tên đội đội “the Ensemble”, có nghĩa học kết hợp Theo dõi vật thể (Object tracking) hướng tới việc gán nhãn cụ thể cho vật thể mục tiêu khung hình liên tiếp video Bằng cách coi theo dõi toán phân loại nhị phân (binary classification), Avidan (2007) đề xuất thuật toán Theo dõi kết hợp (Ensemble tracking), thuật tốn luyện online mơ hình học kết hợp để phân biệt vật thể phông Nền tảng liên tục cập nhật danh sách trình phân loại yếu (week classifiers) để thêm vào loại bỏ sau nhằm khớp vào thông tin Avidan cho thấy phương pháp hiệu với nhiều video, kích thước vật thể có độ xác cao với video nhiều khung hình/giây mà khơng cần tối ưu hố, qua dùng ứng dụng online Các phương pháp kết hợp phù hợp để phân loại lỗ hổng an tồn máy tính (computer security problems) Lí hoạt động máy tính quan sát từ nhiều lớp trừu tương (abstraction levels) khác thơng tin liên quan thu thập từ nhiều nguồn Giacinto (2003) sử dụng phương pháp kết hợp để giải vấn đề nhận diện đột nhập (intrusion detection) Trong toán này, có nhiều đặc trưng mơ tả kết nối, họ xây dựng mơ hình học kết hợp khác độc lập với dựa đặc trưng, sau kết hợp kết để đưa kết cuối Giacinto cho phát công biết, phương pháp kết hợp cho kết tốt Sau đó, Giacinto đề xuất phương pháp học kết hợp dành cho cho đột nhập bất thường, dùng để nhận diện đột nhập chưa thấy Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt 20 ĐẠI CƯƠNG VỀ HỌC KẾT HỢP Phần mềm đối phó chương trình độc (Malicious executables) chương trình thiết kế nhằm đối phó với mã độc mà khơng cần can thiệp người dùng Các phần mềm xấu, độc chủ yếu loại chính: virus, worm trojan Schultz đề xuất phương pháp kết hợp nhằm phát mã độc cách tự động, cách biểu diễn chương trình dạng nhị phân (binary profiling), xâu kết xuất hex (hexdumps) Kolter Maloof (2006) giới thiệu phần mềm sử dụng đoạn lệnh n-grams byte cho định tăng cường (boosted decision trees) có kết tốt Họ đề xuất phương pháp dùng hệ thống phát mã độc chưa ghi nhận từ trước tới Các phương pháp kết hợp cho hữu dụng chẩn đốn y tế máy tính, nhằm tăng độ tin cậy chẩn đoán y học Zhou (2002) thiết kế kiến trúc học kết hợp hai lớp nhằm nhận diện tế bào ung thư phổi Trong đó, lớp thứ đưa kết luận ung thư lành tính tất mơ hình thành tố (component learners) đưa kết lành tính Nếu khơng, ca bệnh đưa xuống lớp thứ hai để đưa chẩn đoán xem ung thư lành tính dạng ung thư khác Zhou cho mơ hình kết hợp hai lớp cho kết với độ xác cao tỉ lệ chẩn đoán sai thấp Nhằm chẩn đoán sớm chứng Alzheimer, phương pháp trước thường dùng đến kênh liệu từ điện não đồ (EEG) Để tận dụng nhiều kênh liệu, Polikar để xuất phương pháp học kết hợp mơ hình thành tố luyện nguồn liệu khác từ điện cực khác với phản ứng khác dải tần số khác kết kết hợp cho kết sau Ngoài ứng dụng nêu trên, phương pháp kết hợp dùng nhiều lĩnh vực khác nhận diện lửa đảo thẻ tín dụng (Chan, 1999 Panigrahi, 2009), dự đoán nguy phá sản (West, 2005), phân loại cấu trúc protein (Tan, 2003, Shen Chou, 2006), dự báo phân phối giống loài (Arau’jo New, 2007), dự báo thời tiết (Maqsood, 2004, Gneiting Raftery, 2005), dự báo tải điện (Taylor Buizza, 2002), chẩn đoán lỗi động máy bay (Goenel, 2000, Yan Xue, 2008), phân loại thể loại nhạc nhạc sĩ (Bergstra, 2006), Một số tài liệu nâng cao Có số tài liệu tốt mà kể đến Về học máy (machine learning) tác giả: Mitchell (1997), Alpaydin(2010), Bishop (2006), Hastie (2001) Về nhận diện khuôn mẫu (pattern recognition) tác giả: Duda (2000), Theodoridis Koutroumbas (2009), Ripley (1996), Bishop (1995) Về khai phá liệu (data mining) Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt 21 ĐẠI CƯƠNG VỀ HỌC KẾT HỢP tác giả: Han Kamber (2006), Tan (2006), Hand (2001) Các tư liệu tham khảo tìm thấy sách Phân tích phân biệt tuyến tính (Linear discriminant analysis - LDA) có liên hệ với phân tích thành phần (Principal component analysis - PCA) (Jolliffe), tìm cơng thức tuyến tính liên hệ đặc trưng để biểu diễn liệu LDA cách tiếp cận có giám sát (supervised approach) tập trung vào ciệc tìm điểm khác biệt lớp Trong PCA cách tiếp cận không giám sát (unsupervised appproach) thường dùng để xác định đặc trưng có tầm quan trọng cao Cây định thuật toán dạng "nếu-thì" (Quinlan, 1993) Các định dùng yếu tố phân nhánh (splits) “ x ≥ 1” hay “ y ≥ 2”, dẫn tới việc phân vùng trường hợp theo đường song song với trục Tuy nhiên có ngoại lệ định xiên (Oblique decision trees) (Murthy, 1984) dùng phân nhánh “ x + y ≥ 3” dẫn tới đường phân vùng khơng song song với trục Thuật tốn BP thuật tốn thành cơng phổ biến thuật tốn mạng noron Thuật tốn có nhiều biến thể dùng để luyện mạng noron có cấu trúc khác với mạng noron suy luận tiến (feed-forward networks), mạng noron hồi quy (recurrent neural networks), mạng có liên kết vượt lớp Haykin (1998) sáng lập giới thiệu tốt mạng noron Mặc dù thuật toán đơn giản, k -láng giềng gần (k NN) lại hoạt động tốt hầu hết trường hợp Sai số k NN không lớn gấp đôi so với thuật tốn Bayes với lượng liệu vơ tận (Cover Hart, 1967), k NN có độ sai số gần Bayes với số giá trị k cụ thể với số liệu cụ thể “Khoảng cách” điểm liệu không thiết khoảng cách Euclide, tầm quan trọng láng giềng tính tốn Các thơng tin sâu k NN tìm thấy tài liệu Dasarathy (1991) Thuật toán phân loại Naăve Bayes da trờn gi thit c lp cú iu kiện hoạt động tốt hầu hết trường hợp (Domingos Pazzani, 1997) Tuy nhiên độ xác thuật tốn cho cịn cải thiên cách sử dụng giả thiết lỏng hn T ú, nhiu thut toỏn phõn loi bỏn-Naăve Bayes (semi-Naăve Bayes classifiers) nh TAN (Friedman, 1997) hay LBR (Zheng Webb) phát triển Một thuật toán đặc biệt thành công AODE (Webb, 2005), kết hợp thêm phương pháp học kết hợp thường tốt TAN LBR, liệu cỡ trung bình SVMs thuật tốn dựa giả thuyết học theo xác suất (statistical learning theory) (Vapnik, 1998) Những tài liệu tham khảo SVMs phương pháp hạt nhân (kernel methods) tìm thấy tài liệu Cristianini Shawe-TayLor (2000), Scholkopf (1999) Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt 22 ĐẠI CƯƠNG VỀ HỌC KẾT HỢP Tài liệu hướng dẫn thử nghiệm giả thuyết có tài liệu Fleiss (1981) Các thử nghiệm giả thuyết khác dựa giả thiết khác nhau, nên áp dụng cho trường hợp khác Phương pháp kiểm chứng chéo (cross-validation) 10-fold, t-test thường dùng; nhiên, Dietterich (1998) kết luận phương pháp xem nhẹ thay đỏi nhiều khả dự báo sai thay đổi khơng có thay đổi tồn (VD: sai lầm loại I), thay vào × 2cv t-test theo cặp khuyến nghị Giả thuyết “Khơng có bữa trưa miễn phí” (No Free Lunch Theorem) (Wolpert, 1996 Macready, 1997) khẳng định khơng thể tìm thuật tốn học máy tốt thuật toán khác trường hợp Điểm quan trọng giả tuyết nói tồn khơng gian tốn (problem space) trong thực tiễn, ta thường quan tâm đến trường hợp cụ thể Và trường hợp cụ thể, việc cố gắng tìm thuật tốn tốt có ý nghĩa Từ kinh nghiệm tác giả sách, phần nhiều trường hợp, kĩ thuật học máy tốt thời điểm phương pháp học kết hợp rừng ngẫu nhiên (Random Forest), kèm với xây dựng thuộc tính (feature engineering) Xây dựng thuộc tính kĩ thuật giúp ta sinh nhiều thuộc tính thay làm việc với thuộc tính ban đầu Kuncheva (2004) Rokach (2010) tư liệu phương pháp học kết hợp Xu Amary (2009) nhắc đến mối quan hệ kết hợp trình phân loại (combining classifiers) kết hợp mơ hình học mạnh (mixture of experts) Viện MCS (International Workshop on Multiple Classifier Systems) diến đàn lĩnh vực Các viết khác học kết hợp tìm thấy báo, nghiên cứu học máy, nhận diện khuôn mẫu khai phá liệu Nhóm thực hiện: Nguyễn Trung Nghĩa, Nguyễn Văn Hưng, Tăng Thu Thảo, Vũ Tiến Đạt 23 ... Đạt 16 ĐẠI CƯƠNG VỀ HỌC KẾT HỢP Hình 8: Minh hoạ đồ thị sai số tới hạn Phương pháp kết hợp Phương pháp kết hợp luyện nhiều chương trình học máy để giải toán Trái ngược với cách tiếp cận học thơng... dựng chương trình học máy từ liệu luyện, phương pháp kết hợp cố gắng xây dựng tập chương trình kết hợp chúng với Học kết hợp gọi học dựa theo uỷ ban (committee-based learning) học nhiều hệ thống... việc sinh chương trình học máy mơ hình kết hợp, mức độ tính tốn để kết hợp chương trình học máy thường nhỏ nhiều chiến lược kết hợp đơn giản Ứng dụng phương pháp học kết hợp (Ensemble Methods)