1. Trang chủ
  2. » Công Nghệ Thông Tin

Thuyết trình GOM cụm TRONG DATA MINING và bài TOÁN hổ TRỢ RA QUYẾT ĐỊNH với GIAO DIỆN WEKA

26 878 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 4,23 MB

Nội dung

TỔNG QUAN QUÁ TRÌNH KHAI PHÁ DỮ LIỆUPHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN K-MEANS GIỚI THIỆU VỀ PHẦN MỀM WEKA GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN WEKA KẾT LUẬN NỘI DUNG TRÌNH BÀY TỔNG QUAN QUÁ T

Trang 1

2 Hứa Phước Trường – CH1401023

3 Chu Thị Huế - CH1401004

4 Phạm Thị Thắm – CH1401019

Trang 2

TỔNG QUAN QUÁ TRÌNH KHAI PHÁ DỮ LIỆU

PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN

K-MEANS GIỚI THIỆU VỀ PHẦN MỀM WEKA

GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN

WEKA KẾT LUẬN

NỘI DUNG TRÌNH BÀY

TỔNG QUAN QUÁ TRÌNH KHAI PHÁ DỮ LIỆU

Trang 3

1.1 KHÁI NIỆM

Trang 4

1.1 KHÁI NIỆM

Data mining là quá trình tự động tìm kiếm và trích xuất các mẫu

thông tin có giá trị ẩn chứa từ tập dữ liệu lớn (Data Set) trong

thực tế

Trang 5

1.3 QUÁ TRÌNH KHAI PHÁ DỮ LIỆU

Trang 6

1.2 NHIỆM VỤ CỦA KHAI PHÁ DỮ LIỆU

Trang 7

1.4 CÁC PHƯƠNG PHÁP CHÍNH CHO KHAI PHÁ DỮ LIỆU

 Phân lớp và dự đoán

 Phân cụm và phân đoạn

 Luật kết hợp (Association rules)

Trang 8

1.5 CÁC ỨNG DỤNG KHAI PHÁ DỮ LIỆU

 Phân tích dữ liệu và hỗ trợ ra quyết định (Analysis & decition

support)

 Điều trị trong y học (Medical)

 Phân lớp văn bản, tóm tắt văn bản và phân lớp các trang Web

(Text mining & Web mining)

 Tin sinh học (Bio-informatics), Nhận dạng

 Tài chính và thị trường chứng khoán (Finance & stock market

 Bảo hiểm (Insurance), giáo dục (Education),…

Trang 9

TỔNG QUAN QÚA TRÌNH KHAI PHÁ DỮ LIỆU

PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN

K-MEANS GIỚI THIỆU VỀ PHẦN MỀM WEKA

GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN

WEKA KẾT LUẬN

NỘI DUNG TRÌNH BÀY

Trang 10

2 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN

Trang 11

2 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN

Trang 12

2 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN

K-MEANS

3 Một số phương pháp phân cụm điển hình

 Phân cụm phân hoạch

 Phân cụm phân cấp

 Phân cụm dựa trên mật độ

 Phân cụm dựa trên lưới

 Phân cụm dựa trên mô hình

 Phân cụm có ràng buộc

2.1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU

Trang 13

2 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN

K-MEANS

 Thuật toán phân cụm K-Means

 Phân cụm phân cấp (Hierarchical Clustering)

 Phân cụm theo mật độ DBSCAN

 Phân cụm mô hình EM

2.2 MỘT SỐ THUẬT TOÁN PHÂN CỤM TIÊU BIỂU

Trang 14

2 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN

K-MEANS

 Thuật toán phân cụm K-Means

 Phân cụm phân cấp (Hierarchical Clustering)

 Phân cụm theo mật độ DBSCAN

 Phân cụm mô hình EM

2.2 MỘT SỐ THUẬT TOÁN PHÂN CỤM TIÊU BIỂU

Trang 15

2 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN

K-MEANS

2.3 THUẬT TOÁN GOM CỤM K-MEANS

• Determine the centroid coordinate

• Determine the distance of each object to the centroids

• Group the object based on minimum distance

Trang 16

2 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN

K-MEANS

2.3 THUẬT TOÁN GOM CỤM K-MEANS

Trang 17

2 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN

K-MEANS

2.3 THUẬT TOÁN GOM CỤM K-MEANS

Trang 18

2 PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN

K-MEANS

2.3 THUẬT TOÁN GOM CỤM K-MEANS

Trang 19

TỔNG QUAN QÚA TRÌNH KHAI PHÁ DỮ LIỆU

PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN K-MEANS

GIỚI THIỆU VỀ PHẦN MỀM WEKA

GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN WEKA

KẾT LUẬN

NỘI DUNG TRÌNH BÀY

Trang 20

3 GIỚI THIỆU VỀ PHẦN MỀM WEKA

GIỚI THIỆU VỀ PHẦN MỀM WEKA

 Waikato Enviroment for Knowledge

Analysis

 Được phát triển bởi ĐH Waikato, New

Zealand

 Là phần mềm mã nguồn mở viết bằng Java

và tích hợp các thuật toán máy học và khai

thác dữ liệu

Có thể tải về từ địa chỉ:

http://www.cs.Waikato.ac.nz/ml/weka/

Trang 21

3 GIỚI THIỆU VỀ PHẦN MỀM WEKA

WEKA – Các môi trường chính

 Simple CLI : giao diện đơn giản kiểu dòng lệnh (như MS – DOS)

 Explorer : môi trường cho phép sử dụng tất cả các chức năng của Weka để

khám phá dữ liệu

 Experimenter: môi trường cho phép tiến hành các thí nghiệm và thực hiện các

kiểm tra thống kê giữa các mô hình học máy.

 KnowledgeFlow: môi trường cho phép tương tác đồ họa kiểu kéo/thả để thiết

kế các bước của một thí nghiệm

Trang 22

TỔNG QUAN QÚA TRÌNH KHAI PHÁ DỮ LIỆU

PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN K-MEANS

GIỚI THIỆU VỀ PHẦN MỀM WEKA

GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN WEKA

KẾT LUẬN

NỘI DUNG TRÌNH BÀY

Trang 23

4 GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN

WEKA

Mô tả bài toán

Cả nước hầu hết các tỉnh/TP đều có diện tích sản xuất lúa nhất định

Cùng với việc sản xuất thì năng suất lúa của mỗi địa phương đem lại sẽ

khác nhau Nhằm mục đích đánh giá sự hiệu quả về sản lượng mà các địa

phương sản xuất lúa mang để có cái nhìn và kế hoạch phát triển việc sản

xuất ở mỗi địa phương.

Giải pháp gom cụm dữ liệu để giúp đánh giá về việc sản lượng lúa của

các tỉnh/ TP Qua đó có cái nhìn tổng thể và đưa ra những định hướng để phát

triển việc sản xuất cho các địa phương.

Trang 24

4 GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN

WEKA

DEMO

Trang 25

5 KẾT LUẬN

Qua đề tài này, nhóm nghiên cứu đã tìm hiểu và nắm được kiến thức về gom cụm dữ liệu và thuật toán để gom cụm dữ liệu, cơ bản hiện thực việc gom cụm dữ liệu trên phần mềm Weka.

Vì thời gian và kiến thức có hạn nên trong quá trình thực hiện báo cáo không thể tránh những thiếu sót, nhóm chúng em rất mong sự đóng góp ý kiến của Thầy và của mọi người.

Trang 26

5 KẾT LUẬN

TÀI LIỆU THAM KHẢO

[1] Nguyễn Thị Ngọc Diễm, Học viện Công Nghệ Bưu Chính Viễn

Thông, Luận văn Thạc sỹ, So sánh một số thuật toán phân cụm dữ liệu, 2014

[2] PGS.TS Đỗ Phúc, Đại Học CNTT TP.HCM, slide bài giảng “ Hệ

Hỗ Trợ Quyết Định”, 2015

Ngày đăng: 14/09/2015, 18:51

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w