Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
634,31 KB
Nội dung
ĐẠI HỌC ĐÀ NẴNG ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA LÂM THỊ HẬU NGHIÊN CỨU MƠ HÌNH CẢI TIẾN KỸ THUẬT PHÂN NHÓM K-MEANS Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 01 TĨM TẮT LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Đà Nẵng, năm 2018 Cơng trình hồn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: TS NGUYỄN VĂN HIỆU Phản biện 1: PGS.TS Huỳnh Công Pháp Phản biện 2: PGS.TS Lê Mạnh Thạnh Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ ngành Khoa học máy tính họp Trường Đại học Bách khoa vào ngày 08 tháng 12 năm 2018 Có thể tìm hiểu luận văn tại: − Trung tâm Học liệu, Đại học Đà Nẵng Trường Đại học Bách khoa − Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa ĐHĐN MỞ ĐẦU Lý chọn đề tài Những năm gần đây, tiến vượt bậc công nghệ thông tin với phát triển kinh tế, xã hội Internet tạo nguồn liệu khổng lồ, đa dạng thể loại ngành nghề Bên cạnh đó, giới xu tồn cầu hóa, tổ chức phủ, y tế, giáo dục, thương mại, … phải đối mặt với nhiều khó khăn, thách thức, dẫn đến nhu cầu cấp thiết làm để trích xuất thơng tin, tri thức hữu ích từ nguồn liệu này, để vận dụng cải thiện hiệu hoạt động hệ thống thông tin ban đầu nhằm đem lại lợi ích mục đích tốt Giải pháp hữu hiệu để người giải vấn đề nêu khai phá khối lượng liệu gia tăng chóng mặt Có nhiều kỹ thuật để khai phá liệu phân lớp, dự đốn, phân nhóm, luật kết hợp, Trong phân nhóm bước quan trọng khai phá liệu Kỹ thuật đã, có nhiều ứng dụng lĩnh vực thương mại điện tử, chăm sóc sức khỏe, ngân hàng, viễn thơng, v.v… Với mong muốn góp phần nghiên cứu ứng dụng kỹ thuật phân nhóm vào việc khai phá liệu để giải vấn đề thực tế, định chọn đề tài “Nghiên cứu mô hình cải tiến kỹ thuật phân nhóm Kmeans” Mục tiêu nhiệm vụ nghiên cứu Mục tiêu: - Xây dựng mơ hình cải tiến kỹ thuật phân nhóm sở phương pháp K-means; - Đánh giá hiệu phương pháp cải tiến so với phương pháp phân nhóm truyền thống; - Xây dựng thử nghiệm thành cơng mơ hình cải tiến liệu thử Nhiệm vụ: - Tìm hiểu kỹ thuật phân nhóm; - Tìm hiểu mơ hình lập trình song song MapReduce; - Tìm hiểu liệu thực tế (cụ thể toán thực tế) Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu - Kỹ thuật phân nhóm liệu tập trung vào kỹ thuật K-means; - Mơ hình lập trình song song MapReduce Phạm vi nghiên cứu - Các thuật toán kỹ thuật phân nhóm liệu; - Mơ hình lập trình song song MapReduce - Các tốn đặc trưng cho thuật tốn phân nhóm với liệu thực nghiệm gồm có: Individual Household Electric Power Consumption (House) thuộc tính, 2.049.280 điểm, kích thước 126 MB tải UCI Machine Learning Repository http://archive.ics.uci.edu/ml/index.php liệu tự tạo Data_fake thuộc tính có số lượng 5.000.000 điểm, kích thước 144 MB Phương pháp nghiên cứu Nghiên cứu lý thuyết - Tìm hiểu lý thuyết thuật tốn phân nhóm liệu K-means; - Tìm hiểu mơ hình lập trình song song MapReduce; - Tìm hiểu toán thực tế Nghiên cứu thực nghiệm - Xây dựng liệu thử nghiệm; - Xây dựng chương trình thực nghiệm để so sánh mơ hình đề xuất mơ hình truyền thống Ý nghĩa khoa học thực tiễn Về mặt khoa học: - Nghiên cứu, tìm hiểu kỹ thuật phân nhóm liệu sở thuật toán K-means để ứng dụng vào toán thực tế; - Nghiên cứu hướng cải tiến K-means truyền thống kết hợp với lập trình song song Về mặt thực tiễn: Kết nghiên cứu đề tài góp phần mở rộng lĩnh vực ứng dụng kỹ thuật phân nhóm liệu việc khai thác nguồn thông tin khổng lồ gia tăng ngày Cấu trúc của luận văn Sau phần mở đầu, nội dung luận văn chia thành chương: Chương 1: Trình bày tổng quan khai phá liệu, phân nhóm liệu trình phân nhóm Các phương pháp phân nhóm liệu ứng dụng, … Chương 2: Trình bày kỹ thuật phân nhóm theo mơ hình K-means truyền thống, giới thiệu lập trình song song MapReduce đề xuất mơ hình K-means cải tiến sử dụng phương pháp lấy mẫu Chương 3: Trình bày mơi trường, cơng cụ thử nghiệm toán với liệu thực tế, so sánh đánh giá chất lượng tốc độ thuật toán K-means truyền thống K-means cải tiến Cuối cùng phần đánh giá kết luận hướng phát triển đề tài CHƯƠNG 1: TỔNG QUAN VỀ KỸ THUẬT PHÂN NHÓM 1.1 Giới thiệu khai phá liệu Khai phá liệu bước trình khám phá tri thức, bước quan trọng phát thơng tin có ích, tiềm ẩn chưa biết trước sở liệu Trong ngành công nghiệp, truyền thông nghiên cứu, thuật ngữ khai phá liệu thường sử dụng để tồn q trình khám phá tri thức (khám phá tri thức từ liệu) Từ đó, khai phá liệu định nghĩa trình khám phá đánh giá mẫu, rút trích thơng tin hữu ích, chưa biết, tiếm ẩn khối liệu lớn Các nguồn liệu bao gồm sở liệu, kho liệu, Web, kho lưu trữ thông tin khác liệu truyền trực tiếp vào hệ thống 1.2 Phân nhóm liệu gì? Quá trình khai phá liệu bao gồm nhiều bước, việc lựa chọn kỹ thuật phù hợp để thực khai phá liệu quan trọng Đối với số lĩnh vực cần tìm kiếm trích lọc tri thức trực tiếp từ sở liệu phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, xử lý ảnh, phân loại trang web,… phân nhóm liệu kỹ thuật phù hợp để tiến hành khai phá liệu ❖ Định nghĩa Phân nhóm (clustering) qui trình tìm cách nhóm đối tượng cho vào nhóm (clusters), cho đối tượng cùng nhóm tương tự (similar) đối tượng khác nhóm khơng tương tự (dissimilar) Phân nhóm Hình 1.2 Mơ hình phân nhóm liệu Cho sở liệu D={t1,t2,…,tn} số nguyên k, phân nhóm toán xác định ánh xạ f : D → {1,…,k} cho ti gán vào nhóm kj,