BỘ GIÁO DỤC VÀ ĐÀO TẠO
DAI HOC HUE
TRUONG DAI HOC KHOA HOC
NGUYEN THI THU THAO
UNG DUNG PHAN CUM DU LIEU
VAO VIEC DANH GIA GIANG VIEN
TAI TRUONG DAI HOC AN GIANG
CHUYEN NGANH: KHOA HOC MAY TINH
MA SO: 60.48.01.01
LUAN VAN THAC SI KHOA HOC
DINH HUONG UNG DUNG
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS HOANG THI LAN GIAO
Thừa Thiên Huế, 2018
Trang 2Chuong 1 TONG QUAN VE KHAI PHA DU LIEU 1.1 QUA TRINH KHAI PHA DU LIEU
1.1.1 Dinh nghia
Khai phá dữ liệu là quá trình khai thác (rút trích) những thông tin tiểm ân có tính đự đốn, những thơng tin có nhiều ý nghĩa, hữu ích từ những CSDL lớn, nó được coi như là một bước trong quá trình khám phá tri thức (Knowledge DIiscovery in Databases - KDD) Khai phá đữ liệu là giai đoạn quan trọng nhất trong tiến trình khám phá tri thức từ CSDL [4] Quá trình khám phá tri thức tiến hành qua các giai đoạn như hình I.I: : ile | Khai pha ị Dữ liệu ra Mo hinh i a ị ¥ Lira chon va Chuyến đổi Lam sạch va Tich hop Cơ sở dữ liệu Hình 1 1 Quá trình khám phá tri thức [4]
Bắt đầu của quá trình là kho dữ liệu thô và kết thúc là tri thức được chiết xuất
ra Về lý thuyết thì có vẻ rất giản đơn nhưng thực sự đây là một quá trình rất khó khăn, gặp phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại
Trang 3LỜI CẢM ƠN
Hoàn thành luận văn này, tôi xin bày tỏ lòng biết ơn sâu sắc đến TS Hoàng
Thị Lan Giao, Trường Đại học Khoa học - Đại học Huế, đã tận tình hướng dẫn tôi
trong suốt quá trình thực hiện dé tai
Xin chân thành cảm ơn sự giúp đỡ về mọi mặt của Ban Giám hiệu, Phòng Đào tạo Sau đại học, Khoa Công nghệ Thông tin - Trường Đại học Khoa học - Đại
học Huế cùng tất cả quý thầy cô đã tận tình truyền dạy kiến thức và kinh nghiệm chuyên môn trong quá trình giảng dạy và hoàn thành luận van nay
Xin gửi lời cảm ơn đến Ban Giám hiệu, Phòng Khảo thí và Đảm bảo chất
lượng, Trường Đại học An Giang đã hỗ trợ và tạo điều kiện thuận lợi đồng thời cung cấp các tài liệu, số liệu để tơi hồn thành luận văn
Cuối cùng, xin gửi lời cảm ơn tất cả bạn bè, đồng nghiệp và người thân đã động viên và giúp đỡ tơi hồn thành tốt luận văn này
Thừa Thiên Huế, tháng 08 năm 2018 Tác giả
Nguyễn Thị Thu Thảo
Trang 4MỤC LỤC 0909.0609790 i LG CAM ON esesssevsescesecccrsserversesemversseurvoressersesceneerncess suavisenvecesnucasnenesmnensters ii h/0/90090155 ii ID 0\)28)/10/019 (00:70 ca Vv DANH MUC CAC HINHQ ccessesssssssssscsssssesssccssssscssscssssscsucsssssucsucsssssecesesssenecesees vi DANH MUC CAC KY HIEU, CHU VIET TAT
Chương 1 TÔNG QUAN VỀ KHAI PHÁ DỮ LIỆU . -. 3 1.1 QUÁ TRÌNH KHAI PHÁ DỮ LIỆU 25s S2 EEE2E2ExEEE.zExcrxe 3
In? in e aajaăă _ăa 3 1.1.2 Quy trình khai phá đữ lIẾU scseezeesorrsdirtrdrritioitsentytirtpdithgpaisngpai 4
1.2 MỘT SÓ KỸ THUẬT TRONG KHAI PHÁ DỮ LIỆU - 5 1.3 MỘT SÓ LĨNH VỰC ỨNG DỰNG THỰC TIẾN CỦA KHAI PHÁ DU
LIỆU - 52-2252 2211221122211222112221221222111221112211121122222222 re 7
1.4 NHUNG THACH THUC - KHO KHAN TRONG KHAM PHA TRI THUC VA KHAI PHA DU LIỆU -©2222222E222112211221122112212221221222 e6 8
1.5 TIỂU KÉT CHƯƠNG l ©-2-222222222122212112211221122122122 E2 te 10
Chương 2 MỘT SÓ PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU 11
2.1 TONG QUAN VE PHAN CUM DỮ LIỆU 22 22222E222222222222-e2 11 2.2 MOT SO KY THUAT TIEP CAN TRONG PHAN CUM DU LIEU 14
2.2.1 Phương pháp phân cụm phân hoạch - ¿5c cc +2 cv 14 2.2.2 Phương pháp phân cụm phân cấp 22-222 222222222522122222-e 14 2.2.3 Phương pháp phân cụm dựa trên mật độ . -csccscc: 18 2.2.4 Phương pháp phân cụm dựa trên lưới - -¿ cccsscssccssrxsrres 19 2.2.5 Phương pháp phân cụm dựa trên mô hình - :c-cs:csccc+ 20 2.2.6 Phương pháp phân cụm có dữ liệu ràng buộc ::-:-: 22
2.3 MOT SO YEU TO CAN THIET CHO CAC THUẬT TOÁN TRONG PHAN CUM DU LIBU ooo coo csocsosseeseeeeveesteeter ete tevterteseestsesteseneseeseeeees 23
2.3.1 Phân loại các kiểu đữ liệu 2- 22 22222222111211211212 2e 23
Trang 52.3.2 Độ đo tương tự và phi tương tự cà snehhhenrereere 24
2.4 MOT SO THUAT TOAN CO BAN TRONG PHAN CUM DU LIEU .27
2.4.1 Thuật toán dựa trén mat dd DBSCAN 0 occcecceceeceeeeteeeenseeeennees 27
2.4.2 Thuật toán PAM 22-222 22222112111221121121112212222222 re 29
2.4.3 Thuật toán K-Means 0 0122111221119 x1 nn xnxx xnxx 30
2.5 TIỂU KÉT CHƯƠNG 2 ©2222222222251211122112111211121122121221 xe 36 Chương 3 ỨNG DỤNG PHAN CUM DU LIEU VAO VIEC DANH GIÁ
GIẢNG VIÊN TẠI TRƯỜNG ĐẠI HỌC AN GIANG - 37
3.1 TONG QUAN VE HOAT DONG DANH GIA GIANG VIEN TAI
TRƯỜNG ĐẠI HỌC AN GIANG 2 22 22122212211221122122.222 re 37
3.2 UNG DUNG THUAT TOAN PHAN CUM DANH GIA GIANG VIEN
TẠI TRƯỜNG ĐẠI HỌC AN GIANG 222 22222212222222222 re 40
3.2.1 Tiền xử lý dữ liệu -©222222221222122112211221122122122 2e 40 3.2.2 Giới thiệu phần mềm Weka 222222 22122212211221122122 xe 4
3.2.3 Chạy thực nghiệm trên Weka tn nhe 43
Trang 6DANH MỤC CÁC BẢNG
Bang:3: 1D 1 Gu thy tha p assessor eronsemereseornmreneesmncennnm meses cerned 39 Bang 3 2 Kết quả xếp loại 52-222 2222212211121112112112212121221222 re 40 Bảng 3 3 Dữ liệu đã được Xử lý ích HH HH HH g he ere 41 Bảng 3 4 Kết quả của thuật toán K-means được đánh giá qua 5 lần chạy 34
Trang 7Hình 1 Hình 1 Hình 1 Hình 1 Hình 1 Hình 2 Hình 2 Hình 2 Hình 2 Hình 2 Hình 2 Hình 2 Hình 2 Hình 2 Hình 3 Hình 3 DANH MỤC CÁC HÌNH
1 Quá trình khám phá tri thức [4] c5: 2S S2 2EEEerEtxetrerrerrrrerres 3 2 Quá trình khai phá dữ liệu .- 5 2 2 212112112 211 ty tkerey 5
3 Vi du vé phan cum dit Ou 2 eee eeceececeeeeeeeeeeeeeneeneeseneeneeseereeens 11 4 Phân cụm các đối tượng dựa trên khoảng cách -sc sec 12 5 Phân cụm các đối tượng dựa trên kích cỡ -cccseiernreree 13
1 Các chiến lược phân cụm phân cấp [4] . -22-22222222222222222-<e 15 2 Ví dụ về phương pháp kết nối đơn -2-©222222222221221522112212222e 16 3 Ví dụ về phương pháp kết nối đầy đủ - 2222222221121 xe 16 4 Ví dụ về phương pháp trọng tâm -.©22- 22 22112212221222122112221 222 2e 17
5 Ví dụ về phân cụm theo mật độ [4] 2¿©2s+22E222122212221221222 22x 19 6 Cấu trúc phân cụm dựa trên lưới [4] -©-22222222222E2221222222x2ze 20
7 Ví dụ về phân cụm dựa trên mô hình [4] - -:-:+s:++ccsssxsvxse2 21
8 Các cách mà các cụm có thể đưa ra [4] s- 5c 5s 2 t2 EEtczcxe 23
9 Các thiết lập để xác định ranh giới các cụm ban đầu cccccce 31
1 Giới thiệu về Weka 55: 22221 nh2t thue 42
2 Chức năng classes to clusters evaluafIon . ccccssccceirerreee 44
Trang 8DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
CSDL Database (Cơ sở dữ liệu)
DBSCAN Density — Based Spatial Clustering of Applications with Noise (Phan
cụm dựa trên mật độ)
DM Data Mining (Khai phá dữ liệu)
KDD Knowledge Discovery in Database (Kham pha tri thức trong CSDL)
Trang 9MỞ ĐẦU
> Lý do chọn đề tài
Chúng ta đang sống trong thế giới thừa thông tin, thiếu tri thức - đó là nhận định của nhiều người trong thời đại bùng nỗ thông tin hiện nay
Đối với các dữ liệu lớn, kỹ thuật thống kê truyền thống và các công cụ quản lý CSDL không còn phù hợp Khai phá dữ liệu đã trở thành lĩnh vực quan trọng vì nó rất hữu ich trong việc phân tích đữ liệu từ những quan điểm khác nhau và tông kết nó thành thông tin có lợi Khai phá dữ liệu trong giáo dục là lĩnh vực đang được
quan tâm, dữ liệu có thể được thu thập tử các cơ sở giáo dục khác nhau, các dữ liệu
có thể là thông tin cá nhân và kết quả đánh giá
Việc lựa chọn các thuật toán tốt nhất cho một tập dữ liệu cho trước là một vấn
dé rat phô biến Do đó, đòi hỏi chúng ta phải thực hiện một số phương pháp dé lựa
chọn phù hợp Khai phá dữ liệu giáo dục có thể sử dụng nhiều kỹ thuật như k- Nearest Neighbor, Naive Bayes, phân cụm, mạng nơron, cây quyết định v.v Trong đó, phân cụm là phương pháp được sử dụng rộng rãi
Phân cụm đữ liệu là quá trình nhóm các đối tượng tương tự nhau trong tập dữ
liệu vào các cụm sao cho các đối tượng cùng cụm là tương đồng Phân cụm chính là
nhiệm vụ chính trong khai phá dữ liệu và là một kỹ thuật phố biến để phân tích số
liệu thông tin, các hệ hỗ trợ quyết định, các thuật toán nhận dạng mẫu và phân lớp
mâu, Vv.V
Phân cụm dữ liệu đã được ứng dụng trong nhiều lĩnh vực khác nhau: kinh tế, giáo dục, bảo hiểm, quy hoạch đô thị, y tế
Để đánh giá hoạt động giảng dạy của giảng viên, các trường đại học đã áp dụng rất nhiều hình thức như: tự đánh giá của giảng viên, đánh giá thông qua ý kiến
của đồng nghiệp, lãnh đạo, qua hồ sơ giảng dạy, kết quả học tập của học sinh, sinh
Trang 10chính và là sản phâm của quá trình đào tạo Do đó, đánh giá chất lượng theo quan điểm của người học là một trong những thước đo chất lượng dao tao [1]
Nhằm tìm hiểu sâu hơn các kỹ thuật khai phá dữ liệu, cụ thể là các phương pháp phân cụm dữ liệu, trên cơ sở các tiêu chí đánh giá hoạt động giảng dạy của giảng viên hiện đang áp dụng tại trường Đại học An Giang, tác giả muốn có phương pháp khoa học để đánh giá các tiêu chí, hỗ trợ cho Ban Giám hiệu, giảng viên và phòng chức năng điều chỉnh một cách hợp lý Do đó, với mong muốn hồn thiện bộ cơng cụ đánh giá, giúp Nhà trường đánh giá giảng viên một cách khách quan hơn và góp phần nâng cao chất lượng đào tạo, tác giả đã chọn dé tài “Ứng dung phân cụm dữ liệu vào việc đánh giá giảng viên tại Trường Đại học An Giang” đê thực hiện
> Mục tiêu nghiên cứu
- Tìm hiểu kỹ thuật phân cụm trong khai phá dữ liệu
- Đánh giá giảng viên thông qua kết quả phân hồi từ người học về hoạt động giảng dạy của giảng viên tại Trường Đại học An Giang
> Ý nghĩa đề tài
- Về mặt lý luận: đi sâu tìm hiểu các kỹ thuật khai phá dữ liệu
- Về mặt thực tiến: hỗ trợ Nhà trường hồn thiện bộ cơng cụ đánh giá, đưa ra
những đề xuất, khuyến nghị nhằm nâng cao hơn nữa hiệu quả của công tác đánh giá hoạt động giảng đạy của giảng viên và đáp ứng yêu cầu về nâng cao chất lượng giáo dục trong giai đoạn hiện nay
Cấu trúc luận văn
Cấu trúc luận văn bao gồm phần mở đầu, ba chương nội dung, phần kết luận
và tài liệu tham khảo, trong đó:
Chương 1 - Tổng quan về khai phá đữ liệu
Chương 2 - Một số phương pháp phân cụm đữ liệu
Trang 11Chuong 1 TONG QUAN VE KHAI PHA DU LIEU 1.1 QUA TRINH KHAI PHA DU LIEU
1.1.1 Dinh nghia
Khai phá dữ liệu là quá trình khai thác (rút trích) những thông tin tiểm ân có tính đự đốn, những thơng tin có nhiều ý nghĩa, hữu ích từ những CSDL lớn, nó được coi như là một bước trong quá trình khám phá tri thức (Knowledge DIiscovery in Databases - KDD) Khai phá đữ liệu là giai đoạn quan trọng nhất trong tiến trình khám phá tri thức từ CSDL [4] Quá trình khám phá tri thức tiến hành qua các giai đoạn như hình I.I: : ile | Khai pha ị Dữ liệu ra Mo hinh i a ị ¥ Lira chon va Chuyến đổi Lam sạch va Tich hop Cơ sở dữ liệu Hình 1 1 Quá trình khám phá tri thức [4]
Bắt đầu của quá trình là kho dữ liệu thô và kết thúc là tri thức được chiết xuất
ra Về lý thuyết thì có vẻ rất giản đơn nhưng thực sự đây là một quá trình rất khó khăn, gặp phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại
Trang 12Quá trình khám phá trị thức được thực hiện trình tự lặp đi lặp lại các bước sau: e Làm sạch dữ liệu (Data cleaning): Loại bỏ nhiễu và các dữ liệu không cần
thiết
e Tich hop dit ligu (Data integration): khi nhiéu nguồn dữ liệu được kết hợp lại
e Trich chon dit liéu (Data selection): lua chọn những dữ liệu thích hợp cho việc phân tích được thực hiện lay tr CSDL
° Chuyển đổi dữ liệu (Data transformation): Các dữ liệu được chuyển đổi
sang các dạng phù hợp cho quá trình xử lý
e Khai phá dữ liệu (Data mining): Là một trong các bước quan trọng nhất, trong đó sử đụng những phương pháp thông minh đề chắt lọc ra những mẫu đữ liệu
e Đánh gid mau (Patterns evaluation): Qua trình đánh giá các kết quả tìm được thông qua các độ đo nào đó
e Biểu diễn tri thức (Knowledge presentation): Quá trình này sử dụng các kỹ thuật đề biêu diễn và thể hiện trực quan cho người dùng
Trong các giai đoạn của quá trình khám phá tri thức, khai phá dữ liệu (hay con gọi đó là Data Mining) là giai đoạn được quan tâm nhiều nhất
1.1.2 Quy trình khai phá dữ liệu
Khai phá dữ liệu là một giai đoạn quan trọng trong quá trình khám phá tri thức Về bản chất là giai đoạn đuy nhất tìm ra được thông tin mới, thông tin tiềm ẩn có trong CSDL (chủ yếu phục vụ cho mô tả và dự đốn)
Mơ tả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của những thuộc
tính dữ liệu trong kho dữ liệu mà con người có thể hiểu được
Trang 13ra các mẫu, dự đoán được những giá trị chưa biết hoặc những giá trị tương lai của
các biên quan tâm
Quá trình khai phá đữ liệu bao gồm các bước chính được thê hiện [2]: Thống kê tóm tắt Xác Xác Thu Thuật định định dữ thập và toán Mẫu nhiện liệu tiên xử khai va | liên |3} lýđữ phá dữ quan liệu liệu Dữ liệu trực tiếp
Hình 1 2 Quá trình khai phá dữ liệu
e Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết
e Xác định các dữ liệu liên quan: Dùng đề xây đựng giải pháp
e Thu thập và tiền xử lý dữ liệu: Thu thập các đữ liệu liên quan và tiền xử lý chúng sao cho thuật toán khai phá đữ liệu có thê hiểu được Đây là một quá trình rất khó khăn, có thể gặp phải rất nhiều các vướng mắc như: dữ liệu phải được sao ra nhiều bản, quản lý tập các dữ liệu, phải lặp đi lặp lại nhiều lần tồn bộ q trình (nếu mơ hình đữ liệu thay đổi), v.v
e Thuật toán khai phá dữ liệu: Lựa chọn thuật toán khai phá dữ liệu và thực hiện việc khai phá dữ liệu để tìm được các mẫu có ý nghĩa, các mẫu này được biểu
diễn dưới dạng luật kết hợp, cây quyết định tương ứng với ý nghĩa của nó
1.2 MỘT SÓ KỸ THUẬT TRONG KHAI PHÁ DỮ LIỆU
Các kỹ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính [2]:
Trang 14(clustering), tóm tắt (summerization), trực quan hóa (visualization), phân tích sự
phát hiện biến đổi và độ lệch, phân tích luật kết hop (association rules) ;
- Kỹ thuật dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời Các kỹ thuật này gồm có: phân lớp (classification), hồi quy (regression) ;
Với hai mục đích khai phá dữ liệu là mô tả và dự đoán, người ta thường sử
dụng các kỹ thuật sau cho khai phá dữ liệu:
- Phân cụm: Phân cụm dữ liệu là một ví dụ của phương pháp học không giám sát Không giống như phân loại đữ liệu, phân cụm đữ liệu không đòi hỏi phải định
nghĩa trước các mẫu đữ liệu huấn luyện Vì thế, có thể coi phân cụm dữ liệu là một
cách học bằng quan sát, trong khi phân loại dữ liệu là học bằng ví dụ Trong phương pháp này bạn sẽ không thể biết kết quả các cụm thu được sẽ như thế nào khi bắt đầu quá trình Vì vậy, thông thường cần có một chuyên gia về lĩnh vực đó để đánh giá
các cụm thu được Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web Ngoài ra, phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử
lý cho các thuật toán khai phá dữ liệu khác
- Luật kết hợp: là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm
được
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các
giá trị đữ liệu trong CSDL Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được Khai phá luật kết hợp được thực hiện qua 2 bước:
+ Bước I: Tìm tất cả các tập mục phổ biến, một tập mục phổ biến được xác định qua độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu
Trang 15Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như marketing, phân tích quyết định, quản lý kinh doanh
- Phân lớp: là việc xác định một hàm ánh xạ từ một mẫu dữ liệu vào một
trong số các lớp đã được biết trước đó Mục tiêu của thuật toán phân lớp là tìm ra mối quan hệ nào đó giữa thuộc tính dự báo và thuộc tính phân lớp Như thế quá trình phân lớp có thê sử dụng mối quan hệ này đề dự báo cho các mục mới
- Hồi qui: là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự
đoán có giá trị thực Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác nhau
chính là ở chỗ thuộc tính để dự báo là liên tục chứ không phải là rời rạc Việc dự
báo các giá trị số thường được xác định bởi các phương pháp thống kê cổ điển, chẳng hạn như hồi quy tuyến tính
- Tổng hợp: là công việc liên quan đến các phương pháp tìm kiếm một mô tả tập con dữ liệu Kỹ thuật tổng hợp thường áp đụng trong việc phân tích đữ liệu có
tính thăm dò và báo cáo tự động Nhiệm vụ chính là sản sinh ra các mô tả đặc trưng cho một lớp Mô tả loại này là một kiểu tổng hợp, tóm tắt các đặc tính chung của tất
cả hay hầu hết các mục của một lớp
Có nhiều phương pháp khai phá dữ liệu được nghiên cứu ở trên, trong đó có ba phương pháp được các nhà nghiên cứu sử dụng nhiều nhất đó là: Phân cụm dữ
liệu, Luật kết hợp và Phân lớp dữ liệu
13 MOT SO LINH VUC UNG DUNG THUC TIEN CỦA KHAI PHÁ DU
LIEU
Khai phá dữ liệu là một lĩnh vực mới phát triển nhưng thu hút được khá
nhiều nhà nghiên cứu nhờ vào những ứng dụng thực tiễn của nó Sau đây là một
số lĩnh vực ứng dụng thực tế điển hình của khai phá dữ liệu:
- Khai phá đữ liệu trong tài chính: Số liệu tài chính được thu thập trong các ngân hàng và các ngành tài chính thường là tương đối đầy đủ, đáng tin cậy và có
chất lượng cao, tạo điều kiện phân tích đữ liệu hệ thống và dữ liệu khai phá dữ liệu
Trang 16- Khai phá dữ liệu các ngành thương mại: Các ngành thương mại là một lĩnh
vực ứng dụng chủ yếu cho khai phá dữ liệu, vì nó thu thập một lượng lớn dữ liệu về doanh số bán hàng, lịch sử mua săm của khách hàng, vận chuyền hàng hóa, tiêu thụ, và dịch vụ Qua đó doanh nghiệp có thể xác định thị hiếu mua của khách hàng, xu
hướng mua sắm của khách hàng, từ đó nâng cao chất lượng dịch vụ khách hàng, khách hàng yêu thích mô hình của doanh nghiệp tốt hơn, nâng cao tỷ lệ tiêu thụ hàng hóa và giảm chi phí kinh doanh
- Khai phá đữ liệu trong y học: Nhiều năm qua đã chứng kiến sự tăng trưởng trong nghiên cứu về gen, protein và các nghiên cứu khác trong sinh học Các ví đụ bao gồm từ việc xác định và phân tích so sánh bộ gen của con người và các loài khác (bằng cách khám phá các mô hình trình tự, chức năng gen, và con đường tiến hóa) để điều tra về các mạng di truyền và các con đường protein và sự phát triển của dược phâm mới và những tiến bộ trong điều trị bệnh hiểm nghèo
- Khai phá dữ liệu trong nhiều lĩnh vực khác: bảo hiểm, dự đoán lỗi phần mêm, giáo dục, V.V
1.4 NHUNG THACH THUC - KHO KHAN TRONG KHAM PHA TRI THUC VA KHAI PHA DU LIEU
Kham phá tri thức và khai phá đữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực trong thực tế, vì vậy các thách thức và khó khăn ngày càng nhiều, càng lớn hơn Sau đây là một số các thách thức và khó khăn cần được quan tâm [2]:
- Các CSDL lớn hơn rất nhiều: CSDL với hàng trăm trường và bảng, hàng
triệu bản ghi và kích thước lớn là vấn đề hoàn toàn bình thường
- Số chiều cao: không chỉ thường có một số lượng rất lớn các bản ghi trong
CSDL mà còn có một số lượng rất lớn các trường (các thuộc tính, các biến) làm cho số chiều của bài toán trở nên cao Thêm vào đó, nó tăng thêm cơ hội cho một giải thuật khai phá dữ liệu tìm ra các mẫu không hợp lệ
Trang 17một CSDL ứng dụng cho trước có thể bị sửa đổi, xóa bỏ hay tăng thêm các phép đo mới Các giải pháp hợp lý bao gồm các phương pháp tăng trưởng để cập nhật các mẫu và xử lý thay đổi
- Dữ liệu thiếu và bị nhiễu: bài toán này đặc biệt nhạy trong các CSDL thương mại Các thuộc tính quan trọng có thể bị mắt nếu CSDL không được thiết kế với sự
khám phá bằng trí tuệ Các giải pháp có thể gồm nhiều chiến lược thống kê phức tạp
để nhận biết các biến ẩn và các biến phu thuộc
- Mối quan hệ phức tạp giữa các trường: các thuộc tính hay giá các giá trị có cầu trúc phân cấp, các quan hệ giữa các thuộc tính và các phương tiện tinh vi hơn
cho việc biểu diễn tri thức về nội dung của một CSDL sẽ đòi hỏi các giải thuật phải
có khả năng sử dụng hiệu quả các thông tin này Về mặt lịch sử, các giải thuật khai
phá dữ liệu được phát triển cho các bản ghi có giá trị thuộc tính đơn giản, mặc dù
các kỹ thuật mới bắt nguồn từ mối quan hệ giữa các biến đang được phát trién - Tính dễ hiểu của các mẫu: trong nhiều ứng dụng, điều quan trọng là những gì khai thác được phải càng dễ hiểu đối với con người thì càng tốt Các giải pháp có
thể thực hiện được bao gồm cả việc biểu diễn được minh họa bằng dé thị, cấu trúc
luật với các đồ thị có hướng, biểu diễn bằng ngôn ngữ tự nhiên và các kỹ thuật hình dung ra dữ liệu và tri thức
- Người đùng tương tác và tri thức sẵn có: nhiều phương pháp khám phá tri thức và các công cụ không tương tác thực sự với người dùng và không thể đễ dàng
kết hợp chặt chẽ với tri thức có sẵn về một bài toán loại trừ theo các cách đơn giản
Việc sử dụng của miễn tri thức là quan trọng trong toàn bộ các bước của xử lý khám phá trị thức
- Tích hợp với các hệ thống khác: Một hệ thống phát hiện đứng một mình có
thê không hữu ích lắm Các vấn đề tích hợp điển hình gồm có việc tích hợp với một DBMS (tire la qua mot giao diện truy vấn), tích hợp với các bảng tính và các công
Trang 181.5 TIEU KET CHUONG 1
Trang 19Chương 2 MỘT SỐ PHƯƠNG PHÁP PHAN CUM DU LIEU
2.1 TONG QUAN VE PHAN CUM DU LIEU
Phân cụm dữ liệu là một trong các kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu đữ liệu tự nhiên tiềm ẩn và quan trọng trong tập
dữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định [5]
Phân cụm dữ liệu là chia dữ liệu mẫu vào các nhóm không có nhãn hay có nhãn sao cho các đối tượng trong một cụm có sự “tương tự”/cùng nhau và các đối
tượng trong các cụm khác nhau sẽ có sự “không tương tự”/không cùng nhau Số các
cụm đữ liệu ở đây có thể được xác định trước như phân lớp theo kinh nghiệm hoặc có thể được tự động xác định A A ° 2° J o ° eo ee 0° % eo? e eo © 0, ọ e® o6 6 °°o °e e9 ® © Hình 1 3 Ví dụ về phân cụm dữ liệu Y Vv
Trong trường hợp này, chúng ta dễ dàng xác định được 4 cụm dựa vào các dữ liệu đã cho, các tiêu chí “tương tự” để phân cụm trong trường hợp này là khoảng
cách: hai hoặc nhiều đối tượng thuộc nhóm của chúng được “nhóm” theo một
khoảng cách nhất định Điều này được gọi là phân cụm dựa trên khoảng cách
Một kiểu khác của phân cụm dữ liệu là phân cụm dữ liệu dựa vào khái niệm:
hai hay nhiều đối tượng thuộc cùng nhóm nếu có một định nghĩa khái niệm chung cho tất cả các đối tượng trong đó Nói cách khác, đối tượng của nhóm phải phù hợp
Trang 20với nhau theo miêu tả các khái niệm đã được định nghĩa, không phải theo những biện pháp đơn giản tương tự
Mục tiêu của phân cụm dữ liệu là để xác định các nhóm nội tại bên trong một
bộ dữ liệu không có nhãn hay có nhãn Nhưng làm thế nào để quyết định cái gì đã
tạo nên một phân cụm dữ liệu tốt Nó có thể được hiển thị rằng không có tiêu chuẩn tuyệt đối “tốt nhất” mà sẽ là độc lập với mục đích cuối cùng của phân cụm dữ liệu
Do đó, người sử dụng phải cung cấp tiêu chuẩn, theo cách như vậy mà kết quả của
phân cụm dữ liệu sẽ phù hợp với nhu cầu họ cần
Ví dụ 1: Chúng ta có thể quan tâm đến việc tìm kiếm đối tượng đại diện cho
các nhóm đồng nhất trong “các cụm tự nhiên” và mô tả thuộc tính không biết của chúng trong việc tìm kiếm các nhóm hữu ích và phù hợp hoặc trong việc tìm kiếm
các đối tượng bất thường trong dữ liệu (cá biệt, ngoại lệ, nhiễu)
‘ee ° oe °° ` ®
oof
eo t9
‘ °° è: $
Hình 1 4 Phân cụm các đối tượng dựa trên khoảng cách
Một vấn đề thường gặp trong phân cụm là hầu hết các dữ liệu cần phân cụm
đều có chứa dữ liệu nhiễu do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ,
vì vậy cần phải xây dựng chiến lược cho bước tiền xử lý đữ liệu nhằm khắc phục
Trang 21Nhiễu ở đây được hiểu là các đối tượng dữ liệu không chính xác, không tường
minh hoặc là các đối tượng dữ liệu khuyết thiếu thông tin về một số thuộc tính
Một trong các kỹ thuật xử lý nhiễu phổ biến là việc thay thế giá trị các thuộc tính của đối tượng nhiễu bằng giá trị thuộc tính tương ứng Ngoài ra, đò tìm đối tượng ngoại lai cũng là một trong những hướng nghiên cứu quan trọng trong phân cụm,
chức năng của nó là xác định một nhóm nhỏ các đối tượng dữ liệu khác thường so với các dữ liệu trong CSDL, tức là các đối tượng dữ liệu không tuân theo các hành
vi hoặc mô hình dữ liệu nhằm tránh sự ảnh hưởng của chúng tới quá trình và kết quả của phân cụm
Hình 1 5 Phân cụm các đối tượng dựa trên kích cỡ
Theo các nghiên cứu đến thời điểm hiện nay thì chưa có một phương pháp phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc CSDL Hơn nữa, đối với các phương pháp phân cụm cần có cách thức biểu diễn cấu
trúc của CSDL, với mỗi cách thức biểu diễn khác nhau sẽ có tương ứng một thuật
toán phân cụm phù hợp Vì vậy phân cụm dữ liệu vẫn đang là một vấn đề khó và mở, vì phải giải quyết nhiều vấn để cơ bản một cách trọn vẹn và phủ hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là đối với dữ liệu hỗn hợp đang ngày cảng tăng trong các hệ quản trị dữ liệu và đây cũng là một trong những thách thức lớn trong
lĩnh vực khai phá dữ liệu
Trang 222.2 MỘT SÓ KỸ THUẬT TIẾP CẬN TRONG PHÂN CỤM DỮ LIỆU 2.2.1 Phương pháp phần cụm phân hoạch
Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành k nhóm cho
đến khi xác định số các cụm được thiết lập Số các cụm được thiết lập là các đặc
trưng được lựa chọn trước Phương pháp này là tốt cho việc tìm các cụm hình cầu trong khơng gian Euclidean Ngồi ra, phương pháp này cũng phụ thuộc vào
khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nảo có quan hệ là
gần nhau với mỗi điểm khác và các điểm dữ liệu nào không có quan hệ hoặc có quan hệ là xa nhau so với môi điệm khác
Tuy nhiên, phương pháp này không thể xử lý các cụm có hình đạng kỳ quặc
hoặc các cụm có mật độ các điểm dầy đặc Các thuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vẫn để phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phân hoạch có thể được Chính vì vậy, trên thực
tế thường đi tìm giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch đữ liệu Như vậy, ý tưởng chính của thuật toán phân cụm phân
hoạch tối ưu cục bộ là sử dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm
Điền hình trong phương pháp tiếp cận theo phân cụm phân hoạch là các thuật toan nhu: K-means, K-medoids, CLARA (Clustering Large Applications), CLARANS (Clustering Large Applications based on RAndomized Search) 2.2.2 Phương pháp phân cụm phân cấp
Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữ liệu đang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phổ biến của kỹ thuật này đó là: hòa nhập nhóm, thường được gọi là tiếp cận (Bottom-Up); phân chia nhóm, thường được gọi là tiếp cận (Top-Down)
Phương pháp “đưới lên”(Bottom up): Phương pháp này bắt đầu với mỗi đối
Trang 23đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trung tâm của hai
nhóm), quá trình này được thực hiện cho đến khi tất cả các nhóm được hòa nhập
vào một nhóm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sử đụng chiến lược ăn tham trong quá trình phân cụm Bước Bude l Bước 2 Bước 3 Bước 4 | | | | | Bottom - Up Top - Down
Buée 4 Bước 3 Bước 2 Bước l Bước 0
Hình 2 1 Các chiến lược phân cụm phân cấp [4]
Các thuật toán phân cấp thường đưa về bài toán nhỏ hơn tính khoảng cách giữa 2 cụm/lớp, một số phương pháp tính khoảng cách này có thể kế đến:
- Phương pháp kết nối đơn: Khoảng cách giữa 2 lớp Œ; và €¡ được tính toán dựa trên khoảng cách ngắn nhất giữa các thành phần nằm trong 2 lớp đó
d(Œ;, Œ;) = min{dŒ, x;)} voi x; € C,, x, E GM)
Trang 24
Hình 2.2 Ví dụ về phương pháp kết nối đơn
Ví dụ 2: Như trên hình khoảng cách giữa hai cụm/lớp sẽ được tính bằng khoảng cách giữa 2 phần tử gần nhất của 2 cụm/lớp là 4; và Bị
- Phương pháp kết nối đầy đủ: Khoảng cách giữa 2 lớp Œ¿ và Cc; duoc tinh toán dựa trên khoảng cách lớn nhất giữa các thành phần nằm trong 2 lớp đó
d(c;, C;) = max{d(x, x;)} vol x; € Œ¿ x; € G
Hình 2 3 Ví dụ về phương pháp kết nối đầy đủ
Ví dụ 3: Như trên hình khoảng cách giữa hai cụm/lớp sẽ được tính bằng khoảng cách giữa 2 phần tử xa nhất của 2 cụm/lớp là A, va Bo
- Phương pháp trọng tâm: Khoảng cách giữa hai trọng tâm của hai cụm được chọn làm khoảng cách của hai cụm đó Khoảng cách phù hợp để phát hiện các cụm/lớp có dạng khối và tốc độ tính toán nhanh do chỉ quan tâm đến trọng tâm nên giảm khối lượng tính toán
d(C, i> Cj) = đ(%,, X)
Trang 25
Hình 2 4 Ví dụ về phương pháp trọng tâm
Ví dụ 4: Như trên hình khoảng cách giữa hai cụm/lớp sẽ được tính bằng khoảng cách giữa 2 trọng tâm của 2 cụm/lớp là Ävà B
Ví dụ 5: Cho 2 lớp Œị, Œ¿ gồm các điểm trong mặt phẳng tọa độ như sau:
@~ {1.3), (2.4), G.5)) Œ; = {(4,5) (8.9)}
Dựa vào phương pháp trọng tâm, ta có:
Trọng tâm của lớp £¡ có tọa độ: m, ( —— : —= ), vay m, (2:4)
4+8 5+9
Trọng tâm của lớp £; có tọa độ: m, on š a vậy m, (6:7)
Trang 26Phương pháp “trên xuống” (Top Down): Bắt đầu với trạng thái là tất cả các
đối tượng được xếp trong cùng một cụm Mỗi vòng lặp thành công, một cụm được tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự nào đó cho
đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiện đừng thỏa mãn Cách
tiếp cận này sử dụng chiến lược chia dé tri trong quá trình phân cụm
Điền hình trong phương pháp tiếp cận theo phân cụm phân cấp là các thuật toán nhu: AGNES (Agglomerative Nesting), DIANA (Divisive Analysis), BIRCH
(1996), CURE (1998), CHAMELEON (1999)
Thực tế áp đụng, có nhiều trường hợp kết hợp cả hai phương pháp phân cum phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có thê cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phương pháp phân cụm dữ liệu cổ điển, hiện đã có rất nhiều thuật toán cải tiến dựa trên hai phương pháp này đã được áp dụng phô biến trong khai phá dữ liệu
2.2.3 Phương pháp phân cụm dựa trên mật độ
Kỹ thuật này nhóm các đối tượng dữ liệu dựa trên hàm mật độ xác định, mật độ là số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó Trong cách tiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được phát triển
thêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận này phải lớn hơn
một ngưỡng đã được xác định trước Phương pháp phân cụm dựa trên mật độ của các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra các cụm dữ liệu với
hình thù bất kỳ Kỹ thuật này có thê khắc phục được các phần tử ngoại lai hoặc giá
trị nhiễu rất tốt, tuy nhiên việc xác định các tham số mật độ của thuật toán là rất khó
Trang 27(b)z=06 (djo=15
(a) ¢=2 (ệ=? (¿=1
Hình 2.5 Ví dụ về phân cụm theo mật độ [4]
Điền hình trong phương pháp tiếp cận theo phân cụm dựa trên mật độ là các thuật toán như: DBSCAN, DENCLUE, CLIQUE, OPTICS
2.2.4 Phương pháp phân cụm dựa trên lưới
Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên
cấu trúc đữ liệu lưới dé phân cụm, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian Mục tiêu của phương pháp này là lượng hóa dữ liệu thành
các ô tạo thành cấu trúc dữ liệu lưới Sau đó, các thao tác phân cụm chỉ cần làm việc
với các đối tượng trong từng ô trên lưới chứ không phải các đối tượng dữ liệu Cách tiếp cận đựa trên lưới này không di chuyển các đối tượng trong các ô mà xây dựng nhiều mức phân cấp của nhóm các đối tượng trong một ô Phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chúng không trộn các ô, đồng thời giải quyết khắc phục yêu cầu đối với đữ liệu nhiều chiều mà phương pháp phân phân cụm dựa trên mật độ không giải quyết được Ưu điểm của phương pháp phân
Trang 28tập dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số ô trong mỗi chiều của không gian lưới | Tang 1 Mức 1 (mức cao nhất) có thẻ chỉ chứa một cell | | : : | i a a A ĩ Tang i-1 Vi , : ‘ a —— <1 | Ị ˆ “ell i-1 có thể # tu ở: PT [ Cell mức 1-1 có thẻ tương ứng với In rio 4 cell của mức ¡
Hình 2 6 Cấu trúc phân cụm đựa trên lưới [4]
Điền hình trong phương pháp tiếp cận theo phân cụm dựa trên lưới là các thuật toan nhu: STING (a STatistical [Nformation Grid approach) boi Wang, Yang va Muntz (1997), WAVECLUSTER boi Sheikholeslami,Chatterjee va Zhang (1998), CLIQUE (Clustering In QUEst) bởi Agrawal, Gehrke, Gunopulos, Raghavan (1998)
2.2.5 Phương pháp phân cụm dựa trên mô hình
Phương pháp này cố gắng khám phá các phép xấp xỉ tốt của các tham số mô
hình sao cho khớp với dữ liệu một cách tốt nhất Chúng có thể sử dụng chiến lược phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình mà
chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mô hình này để nhận đạng ra các phân hoạch
Trang 29T.ayer 5 Tnhibitrory clusters Exicitatocy connections Layer 2 Tnhibitocy clusters Layer 1 Input units Input pattern
Hinh 2 7 Vi du vé phân cụm dựa trên mô hình [4|
Phương pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu với
mơ hình tốn học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân
phối xác suất cơ bản Các thuật toán phân cụm dựa trên mô hình có hai cách tiếp cận chính: mô hình thống kê và mạng noron Phuong pháp này gần giống với phương pháp phân cụm dựa trên mật độ, vì chúng phát triển các cụm riêng biệt
nhằm cải tiến các mô hình đã được xác định trước đó, nhưng đôi khi nó không bắt
đầu với một số cụm cố định và không sử dụng cùng một khái niệm mật độ cho các cụm
Điền hình trong phương pháp tiếp cận theo phân cụm dựa trên mô hình là các
thuật toán như: EM, COBWEB, CLASSIT, AutoClass (Cheeseman and Stutz,
1996)
Trang 302.2.6 Phương pháp phân cụm có dữ liệu ràng buộc
Sự phát triển của phân cụm dữ liệu không gian trên CSDL lớn đã cung cấp
nhiều công cụ tiện lợi cho việc phân tích thông tin địa lí, tuy nhiên hầu hết các thuật
toán này cung cấp rất ít cách thức cho người dùng đề xác định các ràng buộc trong thế giới thực cần phải được thỏa mãn trong quá trình phân cụm Để phân cụm dữ liệu không gian hiệu quả hơn, các nghiên cứu bổ sung cần được thực hiện đề cung cấp cho người đùng khả năng kết hợp các ràng buộc trong thuật toán phân cụm
Hiện nay, các phương pháp phân cụm trên đã và đang được phát triển và áp
dụng nhiều trong các lĩnh vực khác nhau và đã có một số nhánh nghiên cứu được
phát triển trên cơ sở của các phương pháp đó như:
Phân cụm thống kê: Dựa trên các khái niệm phân tích hệ thống, nhánh nghiên
cứu này sử dụng các độ đo tương tự để phân hoạch các đối tượng, nhưng chúng chỉ
áp dụng cho các dữ liệu có thuộc tính SỐ
Phân cụm khái niệm: Kỹ thuật này được phát triển áp dụng cho dữ liệu hạng
mục, chúng phân cụm các đối tượng theo các khái niệm mà chúng xử lý
Phân cụm mờ: Sử đụng kỹ thuật mờ để phân cụm dữ liệu Các thuật toán thuộc
loại này chỉ ra lược đồ phân cụm thích hợp với tất cả các hoạt động đời sống hàng ngày, chúng chỉ xử lý các đữ liệu thực không chắc chắn
Phân cụm mạng Kohonen: Loại phân cụm này dựa trên khái niệm của các
Trang 31pad Phân lớp Phan chia thang 1 23 aba 019$ hÓI 050! c3 01504 dat 0198 củ4 0204 fal 0405 g9.7 0.20.1 BOS 40 Cây phân lớp gac¡ cdkbjfh Hình 2 8 Các cách mà các cụm có thê đưa ra [4] 2.3 MOT SO YEU TO CAN THIẾT CHO CÁC THUẬT TOÁN TRONG PHÂN CỤM DỮ LIỆU
2.3.1 Phân loại các kiểu dữ liệu
Cho một CSDL Ð chứa n đối tượng trong không gian k chiều trong đó x, y, z
là các đối tượng thuộc D: x =(XI,X›, ,Xk ); ÿ =(V1,V2, ,Vk); Z2 =(Z1,Z2, ,Zk), trong do xi, Vi, Z¡ VỚI 1= I k là các đặc trưng hoặc thuộc tính tương ứng của các đối tuong x, y, Z
Sau đây là các kiểu đữ liệu:
e Phân loại các kiểu dữ liệu dựa trên kích thước miền
- Thuộc tính liên tục: nếu miễn giá trị của nó là vô hạn không đếm được - Thuộc tính rời rạc: Nếu miễn giá trị của nó là tập hữu hạn, đếm được
- Lớp các thuộc tính nhị phân: là trường hợp đặc biệt của thuộc tính rời rạc ma mién gia tri cua nó chỉ có 2 phan tử được diễn tả như: Yes/⁄No hoặc Nam/Nữ, False/true,
Trang 32e Phân loại các kiểu dữ liệu dựa trên hệ đo
Giả sử rằng chúng ta có hai đối tượng x, y và các thuộc tính xi, yi tương ứng với thuộc tính thứ ¡ của chúng Chúng ta có các lớp kiêu dữ liệu như sau:
- Thuộc tính định danh (Nominal Scale): đây là dạng thuộc tính khái quát hoá của thuộc tính nhị phân, trong đó miễn giá trị là rời rạc không phân biệt thứ tự và có
nhiều hơn hai phần tử - nghĩa là nếu x và y là hai đối tượng thuộc tính thì chỉ có thể
xác định là x # y hoặc x = y
- Thuộc tính có thứ tự (Ordinal Scale): là thuộc tính định danh có thêm tính thứ tự, nhưng chúng không được định lượng Nếu x và y là hai thuộc tính thứ tự thi ta có thể xác định là x # y hoặc x = y hoặc x > y hoặc x <y
- Thuộc tính khoảng (Interval Scale): Với thuộc tính khoảng, chúng ta có thể
xác định một thuộc tính là đứng trước hoặc đứng sau thuộc tính khác với một
khoảng là bao nhiêu Nếu xi > yi thì ta nói x cách y một khoảng xi - yi tương ứng
với thuộc tính thứ 1
- Thuộc tính tỉ lệ (Ratio Scale): là thuộc tính khoảng nhưng được xác định một cách tương đối so với điểm mốc, thí dụ như thuộc tính chiều cao hoặc cân nặng lấy điểm 0 làm mốc Trong các thuộc tính dữ liệu trình bày ở trên, thuộc tính định danh và thuộc tính có thứ tự gọi chung 1a thudc tinh hang muc (Categorical), thudc tính khoảng và thuộc tính tỉ lệ được gọi là thuộc tính số (Numeric)
2.3.2 D6 do tuong tu va phi tương tự
Để phân cụm, người ta phải đi tìm cách thích hợp đề xác định “khoảng cách” giữa các đối tượng, hay là phép đo tương tự dữ liệu Đây là các hàm để đo sự giống nhau giữa các cặp đối tượng đữ liệu, thông thường các hàm này hoặc là để tính độ tương tự (Similar) hoặc là tính độ phi tương tự (Dissimilar) giữa các đối tượng dữ
Trang 33Tất cả các độ đo dưới đây được xác định trong không gian độ đo metric Một
không gian metric là một tập trong đó có xác định các “khoảng cách” giữa từng cặp phan tir, với những tính chất thông thường của khoảng cách hình học Nghĩa là, một tập X (các phần tử của nó có thể là những đối tượng bất kỳ) các đối tượng dữ liệu trong CSDL D như đã đề cập ở trên được gọi là một không gian metric nếu:
- Với mỗi cặp phan tu x, y thudc X đều có xác định, theo một quy tắc nào đó, một số thực Š(x,y), được gọi là khoảng cách giữa x và y
- Quy tắc nói trên thoả mãn hệ tính chất sau: (i) (x.y) > 0 nếu x # y ; đi) ð(x, y)Ƒ0 nếu x =y, (ii) ð(xy) = ð(y.x) voi moi xy: (iv) ð(&y) < 8(x,z)+8(z.y)
Hàm ð(x.y) được gọi là một metric của không gian Các phần tử của X được gọi là các điểm của không gian này
e Thuộc tính khoảng cách
Sau khi chuẩn hoá, độ đo phi tương tự của hai đối tượng dữ liệu x, y được xác
Trang 34Độ đo khoảng cách Manhattan: đ y) = ` |x, — y, z1 e Thuộc tính định danh: Độ đo phi tương tự giữa hai đối tượng x và y được định nghĩa như sau: — ƒ?1 d(x.y)= pom P trong đó m là số thuộc tính đối sánh tương ứng trùng nhau, và p là tổng số các thuộc tính e Thuộc tính có thứ tự:
Giả sử ¡ là thuộc tính thứ tu co Mi giá trị (Mi kích thước miễn giá trị): Các
trạng thái Mi được sắp thứ tự như sau: [1 Mi], chúng ta có thể thay thế mỗi giá trị của thuộc tính bằng giá trị cùng loại ri, với ri €{1 MI}
Mỗi một thuộc tính có thứ tự có các miền giá trị khác nhau, vi vay chúng ta
chuyển đổi chúng về cùng miễn giá trị [0,1] bằng cách thực hiện phép biến đổi sau
cho mỗi thuộc tính
a”
Zz = i ol
M,-1
Sử dụng công thức tính độ phi tương tự của thuộc tính khoảng đối với các giá
trị Zi(j) , đây cũng chính là độ phi tương tự của thuộc tính có thứ tự
e Thuộc tính tỉ lệ
Có nhiều cách khác nhau để tính độ tương tự giữa các thuộc tính tỉ lệ Một
trong những số đó là sử đụng công thức tính logarit cho mỗi thuộc tính Hoặc loại
Trang 35đã được gán trọng số tương ứng wi (1 <= ¡ <= k), độ tương đồng đữ liệu được xác
dG@.2=ÍƯ2Ww,G =0
2.4 MOT SO THUAT TOAN CO BAN TRONG PHAN CUM DU LIEU 2.4.1 Thuat toan dua trén mat d6 DBSCAN
định như sau:
Thuat toan DBSCAN (Density — Based Spatial Clustering of Applications
with Noise) là một giải thuật phân cụm dựa trên mật độ, được phat triển bởi Ester,
Kriegel, Sander va Xu nim 1996 Giải thuật này tăng trưởng các miền với mật độ cao vào trong các cụm và khám phá ra các cụm có hình dạng bất kỳ trong không
gian CSDL có nhiễu [4]
Y tưởng cơ bản của phân cụm dựa trên mật độ: Đối với mỗi đối tượng của một
cụm, láng giểng trong một bán kính cho trước (£) (gọi là z-láng giềng) phải chứa ít
nhất một số lượng tối thiểu các đối tuong (MinPts)
Một đối tượng nằm trong một bán kính cho trước (e) chứa nhiều hơn số lượng
tối thiểu các đối tượng lang giéng (MinPts), được gọi là đối tượng nồng cốt (core object) đối với bán kính () và số lượng tối thiểu các điểm (MinPts)
Một đối tượng p là mật độ trực tiếp tiến (directly đensity-reachable) từ đối tượng q với bán kính e và số lượng tối thiểu các điểm MinPts trong một tập các đối tượng D nếu p trong phạm vi e-láng giềng của q với q chứa ít nhất một số lượng tối
thiểu điểm MinPts
Một đối tượng p là mật độ tiến (đensity-reachable) từ đối tượng q với bán kính
e va MinPts trong một tập hợp các đối tượng D nếu như có một đối tượng p], p2,
,pn, pl=q và pn=p với 1 <i <n, pi D và pi+l là mật độ trực tiếp tiến từ pi đối với e và MinPts
DBSCAN có thể tìm ra các cụm với hình thù bắt kỳ trong khi đó tại cùng một
thời điểm ít bị ảnh hưởng bởi thứ tự của các đối tượng đữ liệu nhập vào Khi có một
Trang 36đối tượng được chèn vào chỉ tác động đến một láng giéng xac dinh Mat khac, DBSCAN st dung tham số e và MinPts trong thuật toán để kiểm soát mật độ của
các cụm DBSCAN bắt đầu với một điểm tuỳ ý và xây dựng mật độ láng giềng có thê được đối với e và MinPts Vì vậy, DBSCAN yêu cầu người đùng xác định bán kính e của các láng giềng và số các láng giêng tối thiéu MinPts, các tham số này khó mà xác định được tối ưu, thông thường nó được xác định bằng phép chọn ngẫu
nhiên hoặc theo kinh nghiệm
Độ phức tạp của DBSCAN là O(#?) nhưng nếu áp đụng chỉ số không gian để giúp xác định các láng giềng của một đối tượng đữ liệu thì độ phức tạp của
DBSCAN đã được cải tiến là O(nlogn)
Thuật toán DBSCAN:
Thuật toán DBSCAN: Độ phức tạp O(n’)
BI: chọn ngẫu nhiên đối tượng p
B2: tìm tất cả các đối tượng có mật độ có thể đạt được từ p theo Eps, MinPts
B3: nếu p là đối tượng nòng cốt thì hình thành nhóm
Nếu pla déi tượng biên (không có đối tượng nào là đối tượng có mật độ đạt
được từ p) thì DBSCAN xem xét đôi tượng tiệp theo trong CSDL B4: tiếp tục cho đến khi tất cả các đối tượng đều được xử lý Nhận xét DBSCAN:
Ưu điểm:
Làm việc tốt với dữ liệu nhiễu
Có thể giải quyết các trường hợp các nhóm có hình dáng và kích thước khác nhau
Nhược điểm:
Gặp vấn để khi các nhóm có mật độ khác nhau Độ phức tạp cao đối với dữ liệu nhiều chiều
Trang 372.4.2 Thuật toán PAM
Ý tưởng của k-medodis lấy một đối tượng đại diện trong cụm, gọi là medoid,
nó là điểm đại diện được định vị trung tâm nhất trong cụm Do vậy, phương pháp
phân chia vẫn được thực hiện dựa trên nguyên tắc tối thiểu hố tổng các độ khơng tương đồng giữa mỗi đối tượng với điểm tham khảo tương ứng của nó, điểm này thiết lập nên cơ sở của phương pháp k-mediods
Giai thuat PAM (Partition Around Mediods), day la giai thuat phan cum kiéu
k-mediods Nó tìm k cụm trong n đối tượng bằng cách trước tiên tìm một số đối
tượng đại diện (medoid) cho mỗi cụm Tap các medoid ban đầu được lựa chọn tuỳ
ý Sau đó nó lặp lại thay đổi một trong số medoid bằng một trong số cái không phải medoid miễn là tổng khoảng cách của kết quả phân cụm được cải thiện [4]
Giải thuật thử xác định k phần phân chia cho n đối tượng Sau khi lựa chọn được k-medoids ban đầu, giải thuật lặp lại việc thử để có một sự lựa chọn các
medoid tốt hơn bằng cách phân tích tất cả các cặp đối tượng có thê để một đối tượng là medoid và đối tượng kia thì không phải Phép đo chất lượng phân cụm
được tính cho mỗi sự kết hợp như vậy Lựa chọn các điểm tốt nhất trong một lần lặp được chọn với tư cách là các medoid cho lần lặp tiếp theo Độ phức tạp cho một lần
lặp don 1a O(k(n - k)), với độ phức tạp như trén khong thich hop cho phân cụm dữ
liệu có số lượng n lớn và số cụm cân chia là nhiễu
Thuật toán PAM bao gồm các bước cơ bản sau: Đầu vào: Số cụm k và một CSDL chứa n đối tượng
Trang 384 Tính hàm mục tiêu (tổng các độ đo tương đồng của tất cả các đối trong tới medoid gần nhất của chúng)
5 Đồi međoid x bằng một đối tượng y nếu như việc thay đổi này làm giảm
hàm mục tiêu
6 Until: không có sự thay đổi nào
Kết thúc
Khi có sự hiện diện của nhiễu và các phần tử ngoại lai, phương pháp m- medoids xử lý tốt, medoid ít bị ảnh hưởng hơn bởi các phần tử ngoại lai hay các giá trị ở rất xa khác nữa Tuy nhiên, xứ lý tốn nhiều thời gian
2.4.3 Thuật toán K-Means
K - Means là thuật toán phân cụm mà định nghĩa các cụm bởi trung tâm của
các phần tử Phương pháp này dựa trên độ đo khoảng cách của các đối tượng dữ
liệu trong cụm Nó được xem như là trung tâm của cụm Như vậy, nó cần khởi tạo
một tập trung tâm các trung tâm cụm ban đầu và thông qua đó nó lặp lại các bước gồm gán mỗi đối tượng tới cụm mà trung tâm gần nhất, và tính toán tại trung tâm của môi cụm trên cơ sở gán mới cho các đôi tượng
K-Means là thuật toán rất quan trọng và được sử dụng phô biến trong kỹ thuật phân cụm Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối
tượng (obJects) đã cho vào K cụm (K là số các cụm được xác đỉnh trước, K nguyên
Trang 39Seed 1 v Xi
Hinh 2 9 Cac thiét lap để xác định ranh giới các cụm ban đầu
Trong phương pháp K - Means, chọn một giá trị k và sau đó chọn ngẫu nhiên k trung tâm của các đối tượng dữ liệu Tính toán khoảng cách giữa đối tượng dữ
liệu trung bình mỗi cụm để tìm kiếm phan tử nào là tương tự và thêm vào cụm đó
Từ khoảng cách này có thể tính toán trung bình mới của cụm và lặp lại quá trình
cho đến khi hàm mục tiêu hội tụ
Thuật toán K - Means là sinh k cụm dữ liệu {C;, C, C, } từ một tập dữ liệu chứa n đối tượng trong không gian d chiều X, = {X„, 71? X,, ,X„„},¡= lzn, sao
cho hàm mục tiêu E:
B= YF ye eae? tt 2xeG | 7 đạt giá trị tối thiểu ek
Trong đó: ø, là trọng tâm của cum C,
Trọng tâm của cụm là một vectơ, trong đó giá trị của mỗi thành phần của nó là
trung bình cộng của các thành phần tương ứng của các đối tượng vectơ dữ liệu
trong cụm đang xét Tham số đầu vào của thuật toán là số cụm k, và tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu Độ đo khoảng cách D giữa các
đối tượng dữ liệu thường được sử dụng là khoảng cách Euclidean
Trang 40Khoảng cách Euclidean: N Dặ,jJ)= 2 Wie — Xjul? k=l Trong đó: 1 = (xị, x„) và J = (x„, x„) là 2 điểm trong khơng gian N chiều Thuật tốn K - Means thực hiện qua các bước cơ bản như sau: š 1 OK os x k Dau vao: s6 cum k va các trong tam cum {mj} j=1
Đầu ra: các cụm C/i] (1<i <k) và hàm tiêu chuẩn E đạt giá trị tối thiểu Phương pháp:
Bước 1: Khởi tạo
Chọn k trọng tâm {m,}7= ban đầu trong không gian |đ| (2 là số chiều của đữ
liệu) Việc lựa chọn này có thể là ngau nhiên hoặc theo kinh nghiệm Bước 2: Lặp lại
Tính toán khoảng cách D
Đối với mỗi điểm X; (¡<¿ <#), tính toán khoảng cách của nó tới mỗi trọng tâm my (I<7 <k) Sau đó tìm trọng tâm gần nhất đối với mỗi điểm và nhóm chúng vào các nhóm gần nhất
Bước 3: Cập nhật lại trọng tâm
Đối với mỗi l< 7 < k, cập nhật trọng tâm cụm mị bằng cách xác định trung bình cộng các vectơ đối tượng dữ liệu
Bước 4: Gán lại các điểm gần trung tâm nhóm mới