Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 19 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
19
Dung lượng
306,52 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - TRẦN VŨ LINH NGHIÊN CỨU KẾT HỢP CÁC BỘ PHÂN LOẠI CHO CÁC BÀI TOÁN NHẬN DẠNG VÀ DỰ ĐOÁN CHUYÊN NGÀNH : TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH MÃ SỐ : 60.48.15 Người hướng dẫn khoa học: PGS.TS TỪ MINH PHƯƠNG TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2011 MỞ ĐẦU Trong năm gần đây, với phát triển mạnh mẽ công nghệ thông tin truyền thông, khối lượng thông tin nhân loại trở thành số khổng lồ, lượng thơng tin khơng ngừng tăng lên ngày Qua tài liệu nghiên cứu, trang thông tin điện tử, báo chí, truyền hình, tất thơng tin, liệu người cơng bố, truyền bá cách rộng rãi Điều đặt thách thức lĩnh vực nghiên cứu cơng nghệ tri thức nói chung ngành khoa học máy tính nói riêng tìm cách để khai thác lượng liệu khổng lồ cách hiệu Việc khai thác liệu ứng dụng thành công vào nhiều lĩnh vực đời sống thương mại, tài chính, y học , thiên văn, môi trường, giáo dục viễn thông,… Được định hướng hướng dẫn Thầy giáo PGS.TS Từ Minh Phương, nhận đề tài: “Nghiên cứu kết hợp phân loại cho toán nhận dạng dự đốn” Mục đích luận văn nghiên cứu lý thuyết phương pháp kết hợp phân loại áp dụng giải toán phát URL độc hại phân loại Cấu trúc luận văn gồm chương : CHƯƠNG - TỔNG QUAN 1.1 TỔNG QUAN VỀ PHÂN LOẠI Phân loại (hay phân lớp) tiến trình xử lý nhằm xếp mẫu liệu hay đối tượng vào lớp định nghĩa trước Các mẫu liệu hay đối tượng xếp lớp dựa vào giá trị thuộc tính (attributes) cho mẫu liệu hay đối tượng Sau xếp tất đối tượng biết trước vào lớp tương ứng, lúc lớp đặc trưng tập thuộc tính đối tượng chứa lớp Các thuật tốn phân loại tiêu biểu bao gồm mạng neural, định, suy luận quy nạp, mạng Beyesian, Support Vector Machine… Tất cách tiếp cập xây dựng mô hình có khả phân loại cho mẫu chưa biết dựa vào mẫu tương tự học Bài tốn phân loại xử lý thông tin thu thập từ lĩnh vực hoạt động người giới tự nhiên biểu diễn dạng bảng Bảng bao gồm đối tượng thuộc tính Các phần tử bảng giá trị xác định thuộc tính (attributes hay features) đối tượng Trong số cột số thuộc tính đối tượng, cột thuộc tính số dịng số đối tượng chứa liệu Mọi liệu biểu diễn dạng khác chuyển thành dạng bảng để thực q trình phân loại 1.2 BÀI TỐN PHÂN LOẠI Một toán phân loại bao gồm bước sau: Bước 1: Huấn luyện Mục đích bước xây dựng mơ hình xác định tập lớp liệu Mơ hình xây dựng cách phân tích liệu sở liệu, liệu xác định giá trị thuộc tính Giả sử liệu thuộc lớp đựơc định nghĩa trước, điều xác định thuộc tính, gọi thuộc tính phân loại Trong ngữ cảnh tốn phân loại, liệu xem mẫu, ví dụ, hay đối tượng Những liệu phân tích để xây dựng mơ hình phân loại lấy từ tập liệu học hay liệu huấn luyện (training data set) Những liệu riêng lẻ tạo thành tập liệu huấn luyện gọi mẫu huấn luyện (training samples) chọn ngẫu nhiên từ kho mẫu Bước 2: Kiểm tra đánh giá, bước sử dụng mơ hình phân lớp xây dựng bước vào việc phân lớp Đầu tiên, đánh giá độ xác mơ hình hay phân lớp này, cách sử dụng tập mẫu phân lớp để thử (test) gọi thử (test set) Những mẫu chọn ngẫu nhiên độc lập với mẫu học bước gọi mẫu thử (test sample) Độ xác mơ hình phân lớp dựa thử tỷ lệ mẫu thử phân lớp mơ hình phân lớp Nghĩa với mẫu thử, so sánh lớp mà mẫu thử thuộc với lớp mà mơ hình phân lớp dự đốn cho mẫu thử 1.3 MỘT SỐ BỘ PHÂN LOẠI PHỔ BIẾN 1.3.1 Cây định Một định cấu trúc cây, node biểu thị cho phép phân nhánh tương ứng cho thuộc tính, nhánh biểu thị cho kết phép thử, node biểu thị cho lớp phân bố lớp Node gọi gốc Minh họa cho định, hình 2-1 lấy lại ví dụ phân lớp tế bào ung thư với node biểu diễn hình chữ nhật, node biểu diễn hình ellipse Để phân lớp mẫu chưa biết, giá trị thuộc tính mẫu thử ngược lại định Một đường dẫn từ gốc đến node sở cho việc dự đoán lớp mẫu Cây định dễ dàng chuyển đổi sang tập luật phân lớp Cơ sở toán học định thuật toán tham lam, thuật toán xây dựng định đệ quy từ xuống dưới, theo phương pháp chia để trị 1.3.2.Mạng Bayes Bayesian phương pháp phân lớp dựa vào thống kê Ta dự đốn xác suất lớp tập liệu, dựa vào xác suất xếp mẫu vào lớp riêng biệt Thuật toán phân lớp Bayesian giả thiết giá trị thuộc tính lớp độc lập với giá trị thuộc tính khác, giả thiết cịn gọi lớp độc lập có điều kiện, làm đơn giản tính tốn sau Mạng Bayesian đồ thị, đồ thị cho phép biểu diễn mối quan hệ thuộc tính 1.3.3 Support Vector Machine SVM phương pháp để phân lớp liệu Nó dễ sử dụng mạng neural, nhiên khơng sử dụng xác dễ bị bỏ qua số bước đơn giản cần thiết, dẫn đến kết không thỏa mãn Mục đích phương pháp SVM phát sinh mơ hình từ tập mẫu học, mơ hình có khả dự đốn lớp cho mẫu thử SVM tìm hàm định phi tưyến tập mẫu học cách ánh xạ hoàn tồn mẫu học vào khơng gian đặc trưng kích thước lớn phân lớp tuyến tính phân lớp liệu không gian cách cực đại khoảng cách lề (geometric margin) cực tiểu lỗi học lúc Vấn đề tối ưu chủ yếu 1.4 MỘT SỐ VẤN ĐỀ VỚI BÀI TỐN PHÂN LOẠI Có vấn đề xảy với kết dự đốn phân loại kết dự đoán bị lệch (bias), tức kết có thiên hướng sai giống kết dự đoán khác biệt (variance) Tưởng tượng có tập liệu huấn luyện khác nhau, tốt Một thuật toán coi dự đoán lệch (bias) với liệu đầu vào x huấn luyện thuật tốn với tập liệu huấn luyện, kết sai cách có hệ thống dự đoán nhãn đầu x Một thuật toán coi variance với liệu đầu vào x kết dự đốn nhãn đầu khác huấn luyện với tập liệu đầu vào khác Lỗi dự đoán phân loại tổng lỗi bias variance thuật tốn học máy mà sử dụng (a) Bias cao, variance thấp (b) Bias thấp, variance (c) Bias cao, variance cao (d) Bias thấp, variance thấp Hình 1.6 Biểu diễn trực quan bias variance Hình 1.6 biểu diễn bias, variance mũi tên bảng tiêu Bias biểu diễn mũi tên chệch đích cách hệ thống phía Các mũi tên có xu hướng chệch phía bias cao Variance biểu diễn phân bố mũi tên Các mũi tên có phân bố xa variance cao Vậy mục đích việc xây dựng phân loại tốt tìm phương pháp để bias variance thấp Có phương pháp phổ biến để giảm variance xây dựng tập phân loại đơn lẻ, sau thực biểu dựa kết phân loại chúng với liệu đầu vào Nghĩa với thuật toán, ta xây dựng nhiều phân loại, kết phân loại cuối kết tìm thấy nhiều phân loại Có nhiều cách để tạo phân loại đơn lẻ, có nhiều mơ hình để biểu chúng Một ý tưởng đề xuất lựa chọn thuật tốn học máy có bias thấp, sau sử dụng phương pháp biểu để làm giảm variance Chương sau mơ tả chi tiết cách thức để tạo biểu kết phân loại đơn lẻ 1.5 KẾT LUẬN CHƯƠNG Chương giới thiệu chung toán phân loại tự động, trình bày nội dung số thuật tốn phân loại phổ biến: thuật toán đinh, mạng Bayes, Support Vector Machine Các phân loại xây dựng thuật toán lại thường cho kết xác khơng cao với liệu lớn, phức tạp Dẫn đến việc cần thiết tìm phương pháp để giải toán phân loại tự động 8 CHƯƠNG – TRÌNH BÀY PHƯƠNG PHÁP KẾT HỢP CÁC BỘ PHÂN LOẠI 2.1 KẾT HỢP CÁC BỘ PHÂN LOẠI 2.1.1 Khái niệm kết hợp phân loại Bộ kết hợp phân loại (Ensemble) tập hợp phân loại bản, phân loại một phân loại cổ điển như: định, naives bayes, mạng nơ-ron, Khi ví dụ phân loại, xử lý phân loại kết hợp mà kết chúng kết hợp theo cách để đưa dự đốn cuối kết hợp ví dụ Chúng ta muốn có phân loại phân loại tốt kết phân loại khơng có độ tương quan cao với 2.1.2 Các cách tiếp cận phương pháp kết hợp phân loại Có hai cách tiếp cận kết hợp: - Thứ xây dựng phân loại cách độc lập với nhau, sau sử dụng phương pháp biểu để chọn kết cuối kết hợp Tức phân loại xây dựng độc lập với phân loại khác cách thay đổi tập liệu huấn luyện đầu vào, thay đổi đặc trưng tập huấn luyện - Thứ hai xây dựng phân loại gán trọng số cho kết phân loại Việc lựa chọn phân loại ảnh hưởng tới việc lựa chọn phân loại khác trọng số gán cho chúng 9 2.2 PHƯƠNG PHÁP BAGGING 2.2.1 Mô hình hoạt động Bagging Bagging sử dụng cách tiếp cận thứ Bagging tạo phân loại từ tập mẫu có lặp từ tập mẫu ban đầu thuật toán học máy, tập mẫu tạo phân loại Các phân loại kết hợp phương pháp biểu theo số đơng Tức có ví dụ cần phân loại, phân loại cho kết Và kết xuất nhiều lấy làm kết kết hợp 2.2.2 Thuật toán Bagging Bagging tạo N tập huấn luyện chọn có lặp từ tập liệu huấn luyện ban đầu Trong ví dụ huấn luyện chọn lần không chọn lần Từ tập huấn luyện mới, Bagging cho chạy với thuật toán học máy Lb để sinh M phân loại hm Khi có ví dụ phân loại mới, kết kết hợp kết nhận nhiều chạy M phân loại Hình 2.3: Mơ hình hoạt động Bagging 10 Trong hình 2.3, mũi tên bên trái mơ tả việc lấy mẫu lần có lặp Bộ mũi tên mô tả việc gọi thuật tốn học mơ hình ví dụ để tạo mơ hình Bagging trả lại hàm h(x) biểu lớn h1,h2,….,hM phân lớp ví dụ việc trả lại lớp y tập lớp Y Trong hình 2.3, có phân loại để biểu đáp án cuối Trong bagging, tập huấn luyện M tạo khác Nếu khác đủ để dẫn đến khác M mơ hình hiệu mơ hình đủ tốt thì kết hợp có hiệu tốt mơ hình 2.3 PHƯƠNG PHÁP BOOSTING 2.3.1 Mơ hình hoạt động Boosting Khác với phương pháp Bagging, xây dựng phân loại kết hợp với ví dụ huấn luyện có trọng số nhau, phương pháp Boosting xây dựng phân loại kết hợp với ví dụ huấn luyện có trọng số khác Sau bước lặp, ví dụ huấn luyện dự đốn sai đánh trọng số tăng lên, ví dụ huấn luyện dự đoán đánh trọng số nhỏ Điều giúp cho Boosting tập trung vào cải thiện độ xác cho ví dụ dự đoán sai sau bước lặp 2.3.2 Thuật toán Boosting Một thuật toán boosting ban đầu định nghĩa thuật toán dùng để chuyển thuật toán học máy yếu thành thuật toán học máy mạnh Có nghĩa chuyển thuật tốn học máy giải toán phân loại lớp tốt cách giải chọn ngẫu nhiên thành thuật tốn giải tốt tốn Thuật toán 11 boosting ban đầu Schapire thuật tốn đệ quy Tại bước cuối đệ quy, kết hợp giả thuyết tạo thuật toán học máy yếu Xác suất lỗi kết hợp chứng minh nhỏ xác suất lỗi giả thuyết yếu Adaboost thuật toán kết hợp tập phân loại làm đa dạng việc chạy thuật toán học máy với phân bố khác tập huấn luyện 2.3.3 Thuật toán AdaBoost Thuật toán AdaBoost thuật toán boosting dùng để tạo chuỗi mơ hình phân bố trọng số khác tập liệu huấn luyện Thuật tốn Adaboost mơ tả hình 2.4 Hình 2.4: Thuật tốn AdaBoost 12 2.4 KẾT LUẬN CHƯƠNG Chương trình bày khái niệm phương pháp kết hợp phân loại Và sở lý thuyết, chứng minh phương pháp kết hợp phân loại có khả đạt độ xác cao việc sử dụng phân loại đơn lẻ toán nhận dạng dự đoán Bagging Boosting hai phương pháp tiêu biểu họ phương pháp kết hợp phân loại CHƯƠNG – PHÁT HIỆN URL ĐỘC HẠI BẰNG CÁCH PHÂN LOẠI 3.1 BÀI TỐN PHÁT HIỆN URL ĐỘC HẠI Trước tiên, ta tìm hiểu số khái niệm URL vấn đề liên quan đến phân loại URL độc hại WWW mạng thơng tin tồn cầu mà người dùng truy cập qua Internet, mạng bao gồm tập Web sites Mỗi web site lại tập hợp trang văn bản, hình ảnh liên quan đến đặt máy chủ web site Thơng thường, người dùng truy cập web site thơng qua trình duyệt - phần mềm khách lấy biểu diễn liệu văn bản, hình ảnh nội dung khác liên quan tới site (các trình duyệt thơng dụng Internet Explorer, Firefox, Chrome, Safari) Tuy nhiên, trình duyệt phải xác định vị trí site mong muốn trước lấy về, Uniform Resource Locators(URLs) cách đặt tên vị trí chuẩn Web Trong phạm vi đề tài, thuật ngữ URL hiểu tương đương với trang web mà trỏ tới 13 Bởi URL xử lý trình duyệt nên phải tn theo định dạng chuẩn sau: :// Trong giao thức mạng dùng để lấy tài nguyên yêu cầu URL giống với đường dẫn tệp ổ cứng máy tính.ví dụ: /customer/home.htm Đường dẫn phân cách dấu chấm, gạch nhằm mục đích mơ tả tổ chức site Tuy nhiên kẻ gian làm mờ phân cách đường dẫn để tránh giám sát, xây dựng phân cách bắt chước site thật để xác định máy chủ web site Internet Đơi địa IP, thường tên miền mà người đọc Bản thân URL khơng gây hại người dùng, mà URL đường dẫn để dẫn người dùng đến trang độc hại 3.2 PHƯƠNG PHÁP PHÂN LOẠI URL ĐỘC HẠI Một phương pháp để phân loại URL độc hại xây dựng danh sách URL dẫn tới trang độc hại Dựa vào kinh nghiệm cá nhân nhiều người dùng để xây dựng danh sách URL độc hại, người dùng truy cập URL vào trang web phát trang web độc hại, người dùng đánh dấu URL độc hại Khi gom nhiều URL ta có danh sách URL độc hại – gọi danh sách đen Nhưng có vấn đề tốc độ phát triển URL độc hại nhanh, khiến cho danh sách đen không kịp cập nhật đầy đủ Phương pháp trích chọn đặc trưng URL để phân loại chúng 14 có độc hại hay khơng cách tiếp cận tiềm giải vấn đề 3.3 ÁP DỤNG PHƯƠNG PHÁP KẾT HỢP CÁC BỘ PHÂN LOẠI ĐỂ NHẬN BIẾT URL ĐỘC HẠI Bài toán phân biệt URL độc hại sử dụng phương pháp kết hợp phân loại gồm bước: - Bước 1: Biểu diễn URL đặc trưng - Bước 2: Sử dụng liệu phân loại độc hại, hay không độc hại để làm liệu huấn luyện - Bước 3: Áp dụng phương pháp Kết hợp phân loại để xây dựng phân loại đánh giá kết 3.3.1 Biểu diễn URL đặc trưng Các đặc trưng URL chia làm hai loại đặc trưng ngữ nghĩa đặc trưng host Bảng 3.1 biểu diễn đặc trưng kiểu ngữ nghĩa đặc trưng host với số lượng đặc trưng sưu tập loại Trong đặc trưng kiểu ngữ nghĩa chiếm 38%, lại 62% đặc trưng host Bây mô tả chi tiết kiểu đặc trưng mục đích việc đưa kiểu đặc trưng vào phân loại 3.3.1.1 Đặc trưng kiểu ngữ nghĩa Các đặc trưng cho phép bắt thuộc tính để phân biệt URL độc hại URL không độc hại Để dễ hình dung, xem xét ví dụ sau: vị trí cụm từ ‘.com’ URL www.ebay.com hồn tồn bình thường Tuy nhiên nhìn vào vị trí cụm từ ‘.com’ hai URL ‘www.ebay.com.phishy.biz’ 15 ‘phish.biz/www.ebay.com/index.php’ ta nhận thấy có nỗ lực giả mạo tên miền nhà cung cấp trang web hợp pháp Tương tự vậy, bắt từ khóa có mặt URL độc hại để phân biệt URL độc hại hay khơng Ví dụ mà từ khóa ‘ebayisapi’ xuất thường xuyên đường dẫn URL, có nhiều khả URL cố gắng giả mạo trang eBay, phân loại URL độc hại 3.3.1.2 Đặc trưng host Các đặc trưng mô tả thuộc tính trang web xác định phần tên miền URL Chúng cho dự đoán gần máy chủ mà trang độc hại đặt, sở hữu chúng, cách chúng quản lý Chúng ta phân tích tập thuộc tính sau để xây dựng đặc trưng host - Thơng tin WHOIS: thơng tin đăng ký với nhà cung cấp tên miền Nó bao gồm ngày đăng ký tên miền, người đăng ký nhà cung cấp tên miền Vì có nhiều tên miền độc hại đăng ký cá nhân tổ chức cá nhân sở hữu tổ chức coi đặc trưng cho URL độc hại - Vị trí địa lý: Đề cập tới vị trí địa lý máy chủ, phần đầu địa IP số AS(autonomous) Vì URL độc hại có xu hướng đặt phần đầu địa IP nhà cung cấp dịch vụ Internet ISP đề cập đến nhà cung cấp phân loại URL - Tốc độ kết nối: đề cập phần trước, kẻ gian có xu hướng làm lây nhiễm máy cá nhân người dùng sử dụng máy tính bị lây nhiễm làm nơi cư trú trang độc hại họ Nhưng máy cá nhân thường kết nối với mạng Internet 16 thông qua cáp DSL có tốc độ kết nối chậm nhiều so với trang đặt các nhà cung cấp thức Vì dựa vào tốc độ kết nối máy tính tới trang thơng qua URL dự đốn trang mà URL trỏ tới có phải độc hại khơng - Danh sách đen: phương pháp truyền thống, lưu URL nhận biết độc hại, URL độc hại danh sác đen dùng làm đặc trưng để phân loại 3.3.2 Dữ liệu huấn luyện thực nghiệm Bộ liệu URL sử dụng Luận văn liệu URL trình bày Hội thảo quốc tế học máy 2009 nhóm tác giả Justin Ma, Lawrence Saul, Stefan Savage, Geoff Voelker Bộ liệu bao gồm triệu URL thu thập 100 ngày Trong URL độc hại cung cấp Nhà cung cấp dịch vụ thư điện tử lớn, họ cung cấp 6000 – 7500 ví dụ URL rác URL giả mạo Các URL độc hại phân tích từ thư điện tử mà người dùng đánh dấu spam, sau Nhà cung cấp sử dụng lọc để xác định lại URL thực độc hại Các URL không độc hại cung cấp kho lưu trữ Yahoo 3.3.3 Tiến hành thực nghiệm Đề tài sử dụng liệu huấn luyện để huấn luyện kiểm thử phương pháp Boosting Random Forest Sau so sánh kết phân loại phương pháp Boosting Random Forest (là phương pháp dựa ý tưởng Bagging kết hợp với việc chọn ngẫu nhiên đặc trưng để tạo tập định có độ đa dạng kiểm soát) với thuật toán học máy J48 Nạve Bayes Cơng cụ sử dụng để huấn luyện kiểm thử Weka, công cụ phổ biến để đánh giá phân loại 17 Các bước tiến hành thực nghiệm sau: - Thứ nhất, chuyển liệu huấn luyện định dạng công cụ Weka - Thứ hai, huấn luyện phân loại sử dụng J48, Naïve Bayes, Boosting, Random Forest - Thứ ba, so sánh độ xác phân loại Bảng 3.2 Bảng kết thực nghiệm Độ xác (%) Bộ liệu Bộ liệu Bộ liệu Bộ liệu Bộ liệu Bộ liệu Bộ liệu Bộ liệu Bộ liệu Bộ liệu 10 Bộ liệu 11 Bộ liệu 12 Bộ liệu 13 Bộ liệu 14 Bộ liệu 15 J48 Naïve Bayes Boosting Random Forest 77.8 94.44 83.33 88.9 79 68.4 89.5 84.2 89 89 100 94.44 89 89 94.44 88.9 94 82.3 100 76.47 58.3 91.67 100 83.33 58.3 91.67 100 83.33 58.3 91.67 100 83.33 58.3 91.67 100 83.33 58.3 91.67 100 83.33 50 83.33 50 50 100 66.67 100 83.33 66.67 66.67 100 83.33 100 66.67 100 50 100 100 100 100 18 Nhìn vào bảng kết thực nghiệm thấy đa số trường hợp độ xác kết hợp Boosting cao so với hai phân loại đơn lẻ phân loại Random Forest Độ xác Radom Forest lớn J48 hầu hết trường hợp, lại thấp độc xác Nạve Bayes 3.4 KẾT LUẬN CHƯƠNG Chương đặt vấn đề cho toán “Phát URL độc hại cách phân loại” Sau trình bày phương thức biểu diễn URL đặc trưng, xây dựng phân loại dựa vào liệu huấn luyện đưa kết trình thực nghiệm với phân loại đơn lẻ J48, Naïve Bayes kết hợp phân loại Boosting, Random Forest Chúng ta chứng minh thực nghiệm so với phân loại đơn lẻ, phương pháp kết hợp phân loại có độ xác cao phần lớn trường hợp KẾT LUẬN Luận văn giới thiệu mơ hình, cách tiếp cận phương pháp kết hợp phân loại Và chứng minh mặt lý thuyết phương pháp kết hợp phân loại giúp cải tiến độ xác tăng khả tìm kết tốt Bằng kết thực nghiệm, Luận văn cho thấy phương pháp kết hợp phân loại trở thành lựa chọn tốt giải toán phân loại dự đoán thực tế 19 KIẾN NGHỊ CÁC HƯỚNG NGHIÊN CỨU TIẾP THEO Nâng cao độ xác phương pháp cách thử kết hợp phân loại đơn lẻ khác Lựa chọn tìm đặc trưng phân loại tập trung vào đặc trưng để phân loại Mở rộng áp dụng phương pháp kết hợp phân loại vào ứng dụng khác như: dự đoán lưu lượng người truy cập mạng, phân loại mục đích truy cập người dùng dựa hoạt động họ trang web, TÀI LIỆU THAM KHẢO [1] Prof Haibo He (Fall 2009), Applied Machine Learning – Ensemble Learning, Department of Electrical and Computer Engineering Stevens Institute of Technology, Hoboken NJ 07086 [2] Jeke S.H.Chan and Nik Kasabov(2005), Fast Neural Network Ensemble Learning via Negative-Correlation Data Correction, IEEE Transactions on Neural Networks Vol 16 [3] Martin Sewell (2008), Ensemble Learning, Department of Computer Science University Collage London ... BÀY PHƯƠNG PHÁP KẾT HỢP CÁC BỘ PHÂN LOẠI 2.1 KẾT HỢP CÁC BỘ PHÂN LOẠI 2.1.1 Khái niệm kết hợp phân loại Bộ kết hợp phân loại (Ensemble) tập hợp phân loại bản, phân loại một phân loại cổ điển như:... Phương, nhận đề tài: ? ?Nghiên cứu kết hợp phân loại cho toán nhận dạng dự đốn” Mục đích luận văn nghiên cứu lý thuyết phương pháp kết hợp phân loại áp dụng giải toán phát URL độc hại phân loại Cấu... mạng nơ-ron, Khi ví dụ phân loại, xử lý phân loại kết hợp mà kết chúng kết hợp theo cách để đưa dự đốn cuối kết hợp ví dụ Chúng ta muốn có phân loại phân loại tốt kết phân loại khơng có độ tương