Báo cáo nhóm 3 môn khai phá dữ liệu

Lời mở đầu Trong những năm gần đây, việc nắm bắt được thông tin được coi là cơ sở của mọi hoạt động sản xuất, kinh doanh.. Cá nhân hoặc tô chức nào thu thập và hiểu được thông tin và hàn

Trang 1

NNN BỘ GIÁO DỤC VÀ ĐÀO TẠO ar

1 RƯỜNG ĐẠI HỌC KINH TẾ - KĨ THUẬT CÔNG NGHIỆP

KHOA CÔNG NGHỆ THÔNG TIN Wee xe Rehan Sak

BAO CAO NHOM 3 MON KHAI PHA DU LIEU

Giảng viên hướng dẫn : Trần Thanh Dai Sinh viên thực hiện : Nguyễn Hồng Phước

Phạm Thị Hà Thu

;

Nguyễn Tiến Đại Trần Trung Sơn Đàm Ngọc Huyền Khúc Trần Ánh Ngân Lớp : DHTI14A4HN

Hà Nội, thủng 4 năm 2024

ais

Bh Ha Het yl

= De SK esc

Trang 2

; BỘ GIÁO DỤC VÀ ĐÀO TẠO _

TRƯỜNG ĐẠI HỌC KINH TẾ - KĨ THUẬT CONG NGHIEP

KHOA CONG NGHE THONG TIN

BAO CAO NHOM 3

MON KHAI PHA DU LIEU

Giảng viên hướng dẫn : Trần Thanh Dai Sinh viên thực hiện : Nguyễn Hồng Phước

Phạm Thị Hà Thu Nguyễn Hải Phương Nguyễn Tiến Đại Trần Trung Sơn Đàm Ngọc Huyền Khúc Trần Ánh Ngân Lớp : DHTI14A4HN

Hà Nội, thủng 4 năm 2024

Trang 3

Lời mở đầu Trong những năm gần đây, việc nắm bắt được thông tin được coi là cơ sở của mọi

hoạt động sản xuất, kinh doanh Cá nhân hoặc tô chức nào thu thập và hiểu được thông tin và hành động dựa trên các thông tin được kết xuất từ các thông tin đã có sẽ đạt được thành công trong mọi hoạt động Chính vi ly do đó, việc tạo ra thông tm, tô chức lưu

trữ và khai thác ngày càng trở nên quan trọng và gia tăng không ngừng

Sự tăng trưởng vượt bậc của các cơ sở đữ liệu (CSDL) trong cuộc sống như: thương mại, quản lý và khoa học đã làm nảy sinh và thúc đây sự phát triển của kỹ thuật thu thập, lưu trữ, phân tích và khai phá dữ liệu không chỉ bằng các phép toán đơn giản thông thường như: phép đếm, thống kê mà đòi hỏi cách xử lý thông minh hơn, hiệu quả hơn Từ đó các nhà quản lý có được thông tin có ích đề tác động lại quá trình sản xuất, kinh doanh của mình đó là tri thức Các kỹ thuật cho phép ta khai thác được tri thức hữu dụng từ CSDL, (lớn) được gọi là các kỹ thuật khai phá dữ liệu (DM — Data Mining) Khai phá luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu

Kỹ thuật khám phá tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng

Khai phá đữ liệu (Data Miing) được coi là quá trình trích xuất các thông tin có

giá trị tiềm ân bên trong lượng lớn đữ liệu được lưu trữ trong các CSDL,, kho đữ liệu

Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác

có y nghĩa tương tự như: Khám phá trị thức từ cơ sở đữ liệu (Knowledge Discovery in Database-KDD), trích lọc đữ liệu (knowlegde extraction), phan tich dữ liệu mẫu (data/pattem analysis), khảo cô đữ liệu (data archaeology), nạo vét dữ liệu (data dredging)

Tiểu luận này trình bày một số vẫn đề về khám phá tri thức, khai phá dữ liệu, và trình bày rõ vẫn đề khai phá luật kết hợp và ứng dụng một số thuật toán khai phá luật

kết hợp trong CSDL.

Trang 4

Bài 1: Xay dựng cây FP-Tree và tìm các tập mục phô biến bằng thuật toán FP- Grow với mịn sup=3 cho CSDL giao dich sau:

TID Content

DW

ATW

ACTW ACDTW ACT

AW

- TacoLl:

Vì mm Sup = 3 => Bỏ danh mục D có độ phô biến bằng 2

=>

Trang 5

- _ Sắp xếp lại thứ tự các danh mụctrong từng giao dich:

Content

W AWT AWTC AWTC ATC

AW

Trang 6

- Tim tap phé bién ctia C:

T:2

=> Tập phô biến của C la: § A, C:3};4T,C:3}:;{A,T,C:1}

Trang 7

- Tim tap pho bién cau T:

Root Root

W:3

=> Tập phô biến của T là: ƒ A,T:4}:ƒW,T:3}:(A,W.,T:3}

Root

A:4

=> Tập phô biến của W là: {A,W:4}

Trang 8

Bài 2: Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một sinh viên trẻ với mức thu nhập trung bình, được đánh giá tín dụng bình thường thì có mua hay không mua máy tính

- Biểu diễn bài toán phân loại :

+ z= (Age = Young , Income = Medium, Student = Yes , Credit_rating = Fair) + Có hai lớp phân thê :

Cl= Yes ( Mua may tinh )

C2 =No (Không mua máy tính )

- Tinh gia tri xác suất trước cho mỗi phân lớp :

+ P(cl) = 4/14

+ P(c2) = 10/14

- Tinh gia trị xác suất của mỗi giá trị thuộc tính đối với mỗi phân lớp :

+ P(Age = Young|cl) = 1/4

+ PUncome = Medium |cl) = 2/4

Trang 9

+ P(Student = Yes |cl) = 3/4

+ P(Credit_rating = Fair|cl) = 1/4

+ P(Age = Young|c2) = 5/10

+ PUncome = Medium |c2) = 2/10

+ P(Student = Yes |c2) = 2/10

+ P(Credit_rating = Fair|c2) = 3/10

- _ Tính xác suất có thê xảy ra của bài toán đôi với mỗi phân lớp :

+ Đối với phân lớp cl :

P(z|cl) = P(Age = Younglcl)# P(Income = Medium |cL) *P(Student = Yes |cl) * P(Credit_rating = Farlel) = (1⁄4 * 2/4 *3/4 *1/4) = 3/128

+ Đối với phân lớp c2 :

-_ Xác định phân lớp có thể nhất :

+ Đối với phân lớp cl :

P(c1) * P(z|el) = 4/14 * 3/128 = 3/448

+ Đối với phân lớp c2 :

P(c2) * P(z|e2) = 10/14 * 3/500 = 3/700

Kết luận : Sinh viên sẽ mua máy tính

Bài 3: Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu điễn bởi 2 đặc trưng X,Y như sau

Sử dụng thuật toán K-Mean đề phân loại 4 đối tượng trên vào 2 nhom G1 va G2

với tâm cụm ban đầu là G1(2,2); G2(3.2).

Trang 10

Tính khoảng cách từ các đối tượng đến tâm của các nhóm: D0; G1(2, 2); G2(3, 2)

Nhóm các đối tượng vào nhóm gần nhất: J0

A

Group | cé 1 déi tượng la A

Group 2 có 3 đối tượng là B, C, D

Vi group l chỉ có 1 đối tượng là A => G1 không đổi

Tính G2 mới:

_ |3+4+5 2+3+4

G2= 3° °° ~3

=(4,3)

Tính khoảng cách từ các đối tượng đến tâm mới của các nhóm: D1; G1(2, 2); G2(4, 3)

v13 v2

Trang 11

- Nhóm các đối tượng vào nhóm gần nhất: J1

Group | có 2 déi tuong la A va B

Group 2 có 2 đối tượng là C và D

=> Tính tâm cụm mới

- Tâm cụm mới:

2+3 2+2 _ |5

ai = (243,242) =|Š,2|

_(4t5 344) _/9 7

- Tính khoảng cách từ các đôi tượng đến tâm mới của các nhóm: D2; GIG, 2); G2 3)

- Nhóm các đối tượng vào nhóm gần nhất: J2

- Group |

=> JI =J2 ® Không có sự thay đối cụm nào của đối tượng => Dừng

Tiêu đề	Báo Cáo Nhóm 3 Môn Khai Phá Dữ Liệu
Tác giả	Nguyễn Hồng Phước, Phạm Thị Hà Thu, Nguyễn Hải Phương, Nguyễn Tiến Đại, Trần Trung Sơn, Đàm Ngọc Huyền, Khỳc Trần Ánh Ngõn
Người hướng dẫn	Trần Thanh Dai
Trường học	Trường Đại Học Kinh Tế - Kĩ Thuật Công Nghiệp
Chuyên ngành	Khoa Công Nghệ Thông Tin
Thể loại	báo cáo
Năm xuất bản	2024
Thành phố	Hà Nội

Định dạng
Số trang	12
Dung lượng	1,32 MB