Lời mở đầu Trong những năm gần đây, việc nắm bắt được thông tin được coi là cơ sở của mọi hoạt động sản xuất, kinh doanh.. Cá nhân hoặc tô chức nào thu thập và hiểu được thông tin và hàn
Trang 1
NNN BỘ GIÁO DỤC VÀ ĐÀO TẠO ar
1 RƯỜNG ĐẠI HỌC KINH TẾ - KĨ THUẬT CÔNG NGHIỆP
KHOA CÔNG NGHỆ THÔNG TIN Wee xe Rehan Sak
BAO CAO NHOM 3 MON KHAI PHA DU LIEU
Giảng viên hướng dẫn : Trần Thanh Dai Sinh viên thực hiện : Nguyễn Hồng Phước
Phạm Thị Hà Thu
;
Nguyễn Tiến Đại Trần Trung Sơn Đàm Ngọc Huyền Khúc Trần Ánh Ngân Lớp : DHTI14A4HN
Hà Nội, thủng 4 năm 2024
ais
Bh Ha Het yl
= De SK esc
Trang 2
; BỘ GIÁO DỤC VÀ ĐÀO TẠO _
TRƯỜNG ĐẠI HỌC KINH TẾ - KĨ THUẬT CONG NGHIEP
KHOA CONG NGHE THONG TIN
BAO CAO NHOM 3
MON KHAI PHA DU LIEU
Giảng viên hướng dẫn : Trần Thanh Dai Sinh viên thực hiện : Nguyễn Hồng Phước
Phạm Thị Hà Thu Nguyễn Hải Phương Nguyễn Tiến Đại Trần Trung Sơn Đàm Ngọc Huyền Khúc Trần Ánh Ngân Lớp : DHTI14A4HN
Hà Nội, thủng 4 năm 2024
Trang 3Lời mở đầu Trong những năm gần đây, việc nắm bắt được thông tin được coi là cơ sở của mọi
hoạt động sản xuất, kinh doanh Cá nhân hoặc tô chức nào thu thập và hiểu được thông tin và hành động dựa trên các thông tin được kết xuất từ các thông tin đã có sẽ đạt được thành công trong mọi hoạt động Chính vi ly do đó, việc tạo ra thông tm, tô chức lưu
trữ và khai thác ngày càng trở nên quan trọng và gia tăng không ngừng
Sự tăng trưởng vượt bậc của các cơ sở đữ liệu (CSDL) trong cuộc sống như: thương mại, quản lý và khoa học đã làm nảy sinh và thúc đây sự phát triển của kỹ thuật thu thập, lưu trữ, phân tích và khai phá dữ liệu không chỉ bằng các phép toán đơn giản thông thường như: phép đếm, thống kê mà đòi hỏi cách xử lý thông minh hơn, hiệu quả hơn Từ đó các nhà quản lý có được thông tin có ích đề tác động lại quá trình sản xuất, kinh doanh của mình đó là tri thức Các kỹ thuật cho phép ta khai thác được tri thức hữu dụng từ CSDL, (lớn) được gọi là các kỹ thuật khai phá dữ liệu (DM — Data Mining) Khai phá luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu
Kỹ thuật khám phá tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng
Khai phá đữ liệu (Data Miing) được coi là quá trình trích xuất các thông tin có
giá trị tiềm ân bên trong lượng lớn đữ liệu được lưu trữ trong các CSDL,, kho đữ liệu
Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác
có y nghĩa tương tự như: Khám phá trị thức từ cơ sở đữ liệu (Knowledge Discovery in Database-KDD), trích lọc đữ liệu (knowlegde extraction), phan tich dữ liệu mẫu (data/pattem analysis), khảo cô đữ liệu (data archaeology), nạo vét dữ liệu (data dredging)
Tiểu luận này trình bày một số vẫn đề về khám phá tri thức, khai phá dữ liệu, và trình bày rõ vẫn đề khai phá luật kết hợp và ứng dụng một số thuật toán khai phá luật
kết hợp trong CSDL.
Trang 4Bài 1: Xay dựng cây FP-Tree và tìm các tập mục phô biến bằng thuật toán FP- Grow với mịn sup=3 cho CSDL giao dich sau:
TID Content
DW
ATW
ACTW ACDTW ACT
AW
- TacoLl:
Vì mm Sup = 3 => Bỏ danh mục D có độ phô biến bằng 2
=>
Trang 5- _ Sắp xếp lại thứ tự các danh mụctrong từng giao dich:
Content
W AWT AWTC AWTC ATC
AW
Trang 6
- Tim tap phé bién ctia C:
T:2
=> Tập phô biến của C la: § A, C:3};4T,C:3}:;{A,T,C:1}
Trang 7- Tim tap pho bién cau T:
Root Root
W:3
=> Tập phô biến của T là: ƒ A,T:4}:ƒW,T:3}:(A,W.,T:3}
Root
A:4
=> Tập phô biến của W là: {A,W:4}
Trang 8Bài 2: Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một sinh viên trẻ với mức thu nhập trung bình, được đánh giá tín dụng bình thường thì có mua hay không mua máy tính
- Biểu diễn bài toán phân loại :
+ z= (Age = Young , Income = Medium, Student = Yes , Credit_rating = Fair) + Có hai lớp phân thê :
Cl= Yes ( Mua may tinh )
C2 =No (Không mua máy tính )
- Tinh gia tri xác suất trước cho mỗi phân lớp :
+ P(cl) = 4/14
+ P(c2) = 10/14
- Tinh gia trị xác suất của mỗi giá trị thuộc tính đối với mỗi phân lớp :
+ P(Age = Young|cl) = 1/4
+ PUncome = Medium |cl) = 2/4
Trang 9+ P(Student = Yes |cl) = 3/4
+ P(Credit_rating = Fair|cl) = 1/4
+ P(Age = Young|c2) = 5/10
+ PUncome = Medium |c2) = 2/10
+ P(Student = Yes |c2) = 2/10
+ P(Credit_rating = Fair|c2) = 3/10
- _ Tính xác suất có thê xảy ra của bài toán đôi với mỗi phân lớp :
+ Đối với phân lớp cl :
P(z|cl) = P(Age = Younglcl)# P(Income = Medium |cL) *P(Student = Yes |cl) * P(Credit_rating = Farlel) = (1⁄4 * 2/4 *3/4 *1/4) = 3/128
+ Đối với phân lớp c2 :
P(z|c2) = P(Age = Young|c2)* P(Income = Medium |c2) *P(Student = Yes |c2) * P(Credit_rating = Fair|c2) = (5/10*2/10*2/10*3/10 ) = 3/500
-_ Xác định phân lớp có thể nhất :
+ Đối với phân lớp cl :
P(c1) * P(z|el) = 4/14 * 3/128 = 3/448
+ Đối với phân lớp c2 :
P(c2) * P(z|e2) = 10/14 * 3/500 = 3/700
Kết luận : Sinh viên sẽ mua máy tính
Bài 3: Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu điễn bởi 2 đặc trưng X,Y như sau
Sử dụng thuật toán K-Mean đề phân loại 4 đối tượng trên vào 2 nhom G1 va G2
với tâm cụm ban đầu là G1(2,2); G2(3.2).
Trang 10Tính khoảng cách từ các đối tượng đến tâm của các nhóm: D0; G1(2, 2); G2(3, 2)
Nhóm các đối tượng vào nhóm gần nhất: J0
A
Group | cé 1 déi tượng la A
Group 2 có 3 đối tượng là B, C, D
Vi group l chỉ có 1 đối tượng là A => G1 không đổi
Tính G2 mới:
_ |3+4+5 2+3+4
G2= 3° °° ~3
=(4,3)
Tính khoảng cách từ các đối tượng đến tâm mới của các nhóm: D1; G1(2, 2); G2(4, 3)
v13 v2
Trang 11- Nhóm các đối tượng vào nhóm gần nhất: J1
Group | có 2 déi tuong la A va B
Group 2 có 2 đối tượng là C và D
=> Tính tâm cụm mới
- Tâm cụm mới:
2+3 2+2 _ |5
ai = (243,242) =|Š,2|
_(4t5 344) _/9 7
- Tính khoảng cách từ các đôi tượng đến tâm mới của các nhóm: D2; GIG, 2); G2 3)
- Nhóm các đối tượng vào nhóm gần nhất: J2
- Group |
=> JI =J2 ® Không có sự thay đối cụm nào của đối tượng => Dừng