TỔNG QUAN QUÁ TRÌNH KHAI PHÁ DỮ LIỆUPHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN K-MEANS GIỚI THIỆU VỀ PHẦN MỀM WEKA GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN WEKA KẾT LUẬN NỘI DUNG TRÌNH BÀY... TỔNG QUAN QÚ
Trang 1Môn: Hệ hỗ trợ ra quyết định
GOM CỤM TRONG DATA MINING VÀ BÀI TOÁN HỔ TRỢ RA QUYẾT ĐỊNH
VỚI GIAO DIỆN WEKA
GOM CỤM TRONG DATA MINING VÀ BÀI TOÁN HỔ TRỢ RA QUYẾT ĐỊNH
VỚI GIAO DIỆN WEKA
GVHD: PGS.TS Đỗ Phúc HVTH: 1 Huỳnh Ngọc Ca – CH1401002
2 Hứa Phước Trường – CH1401023
3 Chu Thị Huế - CH1401004
4 Phạm Thị Thắm – CH1401019
GVHD: PGS.TS Đỗ Phúc HVTH: 1 Huỳnh Ngọc Ca – CH1401002
2 Hứa Phước Trường – CH1401023
3 Chu Thị Huế - CH1401004
4 Phạm Thị Thắm – CH1401019
Trang 2TỔNG QUAN QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
GIỚI THIỆU VỀ PHẦN MỀM WEKA
GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN
WEKA
KẾT LUẬN
NỘI DUNG TRÌNH BÀY
Trang 3TỔNG QUAN QÚA TRÌNH KHAI PHÁ DỮ LIỆU
PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
GIỚI THIỆU VỀ PHẦN MỀM WEKA
GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN
WEKA
KẾT LUẬN
NỘI DUNG TRÌNH BÀY
Trang 41.1 QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
Có thể hiểu đơn giản là quá trình chắt lọc hay khai phá tri thức từ một khối dữ liệu lớn
Trang 5QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
Trang 61.2 NHIỆM VỤ CỦA KHAI PHÁ DỮ LIỆU
Trang 71.3 CƠ SỞ DỮ LIỆU PHỤC VỤ CHO KHAI PHÁ DỮ LIỆU
Cơ sở dữ liệu quan hệ
Cơ sở dữ liệu giao tác
Cơ sở dữ liệu không gian
Cơ sở dữ liệu có yếu tố thời gian
Cơ sở dữ liệu đa phương tiện
Trang 81.4 CÁC PHƯƠNG PHÁP CHÍNH CHO KHAI PHÁ DỮ LIỆU
Phân lớp và dự đoán
Phân cụm và phân đoạn
Luật kết hợp (Association rules)
Trang 91.5 CÁC ỨNG DỤNG KHAI PHÁ DỮ LIỆU
Phân tích dữ liệu và hỗ trợ ra quyết định (Analysis & decition support)
Điều trị trong y học (Medical
Phân lớp văn bản, tóm tắt văn bản và phân lớp các trang Web (Text mining & Web mining)
Tin sinh học (Bio-informaticsNhận dạng
Tài chính và thị trường chứng khoán (Finance & stock market
Bảo hiểm (Insurance), giáo dục (Education),…
Trang 101.6 NHỮNG KHÓ KHĂN TRONG QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
Cơ sở dữ liệu lớn
Số chiều các thuộc tính lớp
Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn phù hợp
Dữ liệu bị thiếu hoặc bị nhiễu
Quan hệ giữa các trường phức tạp
Giao tiếp với người sử dụng và kết hợp với các tri thức đã có
Tích hợp với các hệ thống khác
Trang 11TỔNG QUAN QÚA TRÌNH KHAI PHÁ DỮ LIỆU
PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
GIỚI THIỆU VỀ PHẦN MỀM WEKA
GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN
WEKA
KẾT LUẬN
NỘI DUNG TRÌNH BÀY
Trang 122 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
1 Phân cụm là gì?
Quá trình phân chia 1 tập dữ liệu ban đầu thành các cụm dữ liệu thỏa mãn:
Các đối tượng trong 1 cụm “tương tự” nhau
Các đối tượng khác cụm thì “không tương tự” nhau
Giải quyết vấn đề tìm kiếm, phát hiện các cụm, các mẫu dữ liệu trong 1 tập hợp ban đầu các dữ liệu không có nhãn
2.1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU
Trang 132 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
2 Mục đích của phân cụm
Xác định được bản chất của việc nhóm các đối tượng trong 1 tập dữ liệu không có nhãn
Phân cụm không dựa trên 1 tiêu chuẩn chung nào, mà dựa vào tiêu chí mà người dùng cung cấp trong từng trường hợp
2.1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU
Trang 142 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
3 Một số phương pháp phân cụm điển hình
Phân cụm phân hoạch
Phân cụm phân cấp
Phân cụm dựa trên mật độ
Phân cụm dựa trên lưới
Phân cụm dựa trên mô hình
Phân cụm có ràng buộc
2.1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU
Trang 152 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
Thuật toán phân cụm K-Means
Phân cụm phân cấp (Hierarchical Clustering)
Phân cụm theo mật độ DBSCAN
Phân cụm mô hình EM
2.2 MỘT SỐ THUẬT TOÁN PHÂN CỤM TIÊU BIỂU
Trang 162 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
Thuật toán phân cụm K-Means
Phân cụm phân cấp (Hierarchical Clustering)
Phân cụm theo mật độ DBSCAN
Phân cụm mô hình EM
2.2 MỘT SỐ THUẬT TOÁN PHÂN CỤM TIÊU BIỂU
Trang 172 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
2.3 THUẬT TOÁN GOM CỤM K-MEANS
• Determine the centroid coordinate
• Determine the distance of each object to the centroids
• Group the object based on minimum distance
Trang 182 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
2.3 THUẬT TOÁN GOM CỤM K-MEANS
Trang 192 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
2.3 THUẬT TOÁN GOM CỤM K-MEANS
Trang 202 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
2.3 THUẬT TOÁN GOM CỤM K-MEANS
Trang 21TỔNG QUAN QÚA TRÌNH KHAI PHÁ DỮ LIỆU
PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
GIỚI THIỆU VỀ PHẦN MỀM WEKA
GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN
WEKA
KẾT LUẬN
NỘI DUNG TRÌNH BÀY
Trang 223 GIỚI THIỆU VỀ PHẦN MỀM WEKA
GIỚI THIỆU VỀ PHẦN MỀM WEKA
Waikato Enviroment for Knowledge Analysis
Được phát triển bởi ĐH Waikato, New Zealand
Là phần mềm mã nguồn mở viết bằng Java và tích hợp các thuật toán máy
học và khai thác dữ liệu
Có thể tải về từ địa chỉ:
http://www.cs.Waikato.ac.nz/ml/weka/
Trang 233 GIỚI THIỆU VỀ PHẦN MỀM WEKA
WEKA – Các môi trường chính
Simple CLI : giao diện đơn giản kiểu dòng lệnh (như MS – DOS)
Explorer : môi trường cho phép sử dụng tất cả các chức năng của Weka để khám phá dữ liệu
Experimenter: môi trường cho phép tiến hành các thí nghiệm và thực hiện các kiểm tra thống kê giữa các mô hình học máy.
KnowledgeFlow: môi trường cho phép tương tác đồ họa kiểu kéo/thả để thiết kế các bước của một thí nghiệm
Trang 24TỔNG QUAN QÚA TRÌNH KHAI PHÁ DỮ LIỆU
PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
GIỚI THIỆU VỀ PHẦN MỀM WEKA
GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN
WEKA
KẾT LUẬN
NỘI DUNG TRÌNH BÀY
Trang 254 GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN
WEKA
Mô tả bài toán
Cả nước hầu hết các tỉnh/TP đều có diện tích sản xuất lúa nhất định Cùng với việc sản xuất thì sản lượng lúa của mỗi địa
phương đem lại sẽ khác nhau Nhằm mục đích đánh giá sự hiệu quả về sản lượng mà các địa phương sản xuất lúa mang để có cái nhìn và kế hoạch phát triển việc sản xuất ở mỗi địa phương.
Giải pháp gom cụm dữ liệu để giúp đánh giá về việc sản lượng lúa của các tỉnh/ TP Qua đó có cái nhìn tổng thể và đưa ra những định hướng để phát triển việc sản xuất cho các địa phương.
Trang 264 GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN
WEKA
DEMO
Trang 285 KẾT LUẬN
TÀI LIỆU THAM KHẢO
[1] Nguyễn Thị Ngọc Diễm, Học viện Công Nghệ Bưu Chính Viễn Thông, Luận văn Thạc sỹ, So sánh một số thuật toán phân cụm dữ liệu, 2014
[2] PGS.TS Đỗ Phúc, Đại Học CNTT TP.HCM, slide bài giảng “ Hệ Hỗ Trợ Quyết Định”, 2015
[3] https://en.wikipedia.org/wiki/Weka_(machine_learning)
[4] http://www.cs.waikato.ac.nz/ml/weka/