xây dựng cây fp tree và tìm các tập mục phổ biến bằng thuật toán fpgrow với min sup 3 cho csdl giao dịch sa

BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC KINH TẾ - KĨ THUẬT CÔNG NGHIỆP KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO NHÓM 2 MÔN KHAI PHÁ DỮ LIỆUGiảng viên hướng dẫn : Trần Thanh ĐạiSinh viên thực hiện :

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KINH TẾ - KĨ THUẬT CÔNG NGHIỆP

KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO NHÓM 2 MÔN KHAI PHÁ DỮ LIỆU

Giảng viên hướng dẫn : Trần Thanh ĐạiSinh viên thực hiện : Nguyễn Hồng Phước

Nguyễn Thị Hải Phương Nguyễn Tiến Đại Phạm Thị Hà Thu Trần Trung Sơn Đàm Ngọc Huyền Khúc Trần Ánh Ngân Lớp : DHTI14A4HN

Hà Nội, tháng 4 năm 2024

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KINH TẾ - KĨ THUẬT CÔNG NGHIỆP

KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO NHÓM 2 MÔN KHAI PHÁ DỮ LIỆU

Giảng viên hướng dẫn : Trần Thanh ĐạiSinh viên thực hiện : Nguyễn Hồng Phước

Nguyễn Thị Hải Phương Nguyễn Tiến Đại Phạm Thị Hà Thu Trần Trung Sơn Đàm Ngọc Huyền Khúc Trần Ánh Ngân Lớp : DHTI14A4HN

Hà Nội, tháng 4 năm 2024

Trang 3

Lời mở đầu

Trong những năm gần đây, việc nắm bắt được thông tin được coi là cơ sở của mọihoạt động sản xuất, kinh doanh Cá nhân hoặc tổ chức nào thu thập và hiểu được thôngtin và hành động dựa trên các thông tin được kết xuất từ các thông tin đã có sẽ đạt đượcthành công trong mọi hoạt động Chính vì lý do đó, việc tạo ra thông tin, tổ chức lưutrữ và khai thác ngày càng trở nên quan trọng và gia tăng không ngừng.

Sự tăng trưởng vượt bậc của các cơ sở dữ liệu (CSDL) trong cuộc sống như:thương mại, quản lý và khoa học đã làm nảy sinh và thúc đẩy sự phát triển của kỹ thuậtthu thập, lưu trữ, phân tích và khai phá dữ liệu không chỉ bằng các phép toán đơngiản thông thường như: phép đếm, thống kê mà đòi hỏi cách xử lý thông minh hơn,hiệu quả hơn Từ đó các nhà quản lý có được thông tin có ích để tác động lại quá trìnhsản xuất, kinh doanh của mình đó là tri thức Các kỹ thuật cho phép ta khai thác đượctri thức hữu dụng từ CSDL (lớn) được gọi là các kỹ thuật khai phá dữ liệu (DM – DataMining) Khai phá luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu.

Kỹ thuật khám phá tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứngdụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuậtnày tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứngdụng.

Khai phá dữ liệu (Data Mining) được coi là quá trình trích xuất các thông tin cógiá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ kháccó ý nghĩa tương tự như: Khám phá tri thức từ cơ sở dữ liệu (Knowledge Discovery inDatabase-KDD), trích lọc dữ liệu (knowlegde extraction), phân tích dữ liệu mẫu(data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (datadredging).

Tiểu luận này trình bày một số vấn đề về khám phá tri thức, khai phá dữ liệu, vàtrình bày rõ vấn đề khai phá luật kết hợp và ứng dụng một số thuật toán khai phá luậtkết hợp trong CSDL.

Trang 4

Bài 1: Xây dựng cây Tree và tìm các tập mục phổ biến bằng thuật toán Grow với min_sup=3 cho CSDL giao dịch sau:

Trang 5

- Sắp xếp lại thứ tự các danh mụctrong từng giao dịch:

Trang 6

- Tìm tập phổ biến của C:

- Vì min_Sup = 3 => Bỏ W : 2

=> Tập phổ biến của C là: { A , C : 3 }; { T , C : 3 }; { A , T , C : 1 }

Trang 7

- Tìm tập phổ biến cảu T:

=> Tập phổ biến của T là: { A , T : 4 }; { W , T : 3 }; { A , W , T : 3 }

- Tìm tập phổ biến của W:

=> Tập phổ biến của W là: { A , W : 4 }

Trang 8

Bài 2: Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định mộtsinh viên trẻ với mức thu nhập trung bình, được đánh giá tín dụng bình thường thì cómua hay không mua máy tính.

- Biểu diễn bài toán phân loại :

+ z = (Age = Young , Income = Medium , Student = Yes , Credit_rating = Fair)+ Có hai lớp phân thê :

C1= Yes ( Mua máy tính )C2 = No (Không mua máy tính )- Tính giá trị xác suất trước cho mỗi phân lớp :

+ P(c1) = 4/14+ P(c2) = 10/14

- Tính giá trị xác suất của mỗi giá trị thuộc tính đối với mỗi phân lớp :+ P(Age = Young|c1) = 1/4

+ P(Income = Medium |c1) = 2/4

Trang 9

- Tính xác suất có thể xảy ra của bài toán đối với mỗi phân lớp :+ Đối với phân lớp c1 :

+ Đối với phân lớp c2 :

- Xác định phân lớp có thể nhất :+ Đối với phân lớp c1 :

P(c1) * P(z|c1) = 4/14 * 0.023 = 0.006 + Đối với phân lớp c2 :

P(c2) * P(z|c2) = 10/14 * 0.006 = 0.0064

Nhận xét : Vì P(z|c1) > P(z|c2) => Sinh viên sẽ mua máy tính

Bài 3: Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau

Trang 10

- Tính khoảng cách từ các đối tượng đến tâm của các nhóm: D0; G1(2, 2); G2(3, 2)

Trang 11

- Nhóm các đối tượng vào nhóm gần nhất: J1

- Tâm cụm mới:

G1 = (2+3

2+22 ) = (5

2, 2)G2 = (4 +5

3+42 ) = (9

- Tính khoảng cách từ các đối tượng đến tâm mới của các nhóm: D2; G1(52, 2); G2(92, 72)

√ 412√ 34

3 √ 22

√ 22

- Nhóm các đối tượng vào nhóm gần nhất: J2