Ứng dụng phân cụm dữ liệu vào việc đánh giá giảng viên tại trường đại học an giang

Các kỹ thuật này gồm có: phân lớp classification, hồi quy regression...; Với hai mục đích khai phá dữ liệu là mô tả và dự đoán, người ta thường sử dụng các kỹ thuật sau cho khai phá dữ l

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

DAI HOC HUE

TRUONG DAI HOC KHOA HOC

NGUYEN THI THU THAO

UNG DUNG PHAN CUM DU LIEU

VAO VIEC DANH GIA GIANG VIEN

TAI TRUONG DAI HOC AN GIANG

CHUYEN NGANH: KHOA HOC MAY TINH

MA SO: 60.48.01.01

LUAN VAN THAC SI KHOA HOC

DINH HUONG UNG DUNG

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS HOANG THI LAN GIAO

Thừa Thiên Huế, 2018

Trang 2

Chuong 1 TONG QUAN VE KHAI PHA DU LIEU 1.1 QUA TRINH KHAI PHA DU LIEU

1.1.1 Dinh nghia

Khai phá dữ liệu là quá trình khai thác (rút trích) những thông tin tiểm ân có tính đự đốn, những thơng tin có nhiều ý nghĩa, hữu ích từ những CSDL lớn, nó được coi như là một bước trong quá trình khám phá tri thức (Knowledge DIiscovery in Databases - KDD) Khai phá đữ liệu là giai đoạn quan trọng nhất trong tiến trình khám phá tri thức từ CSDL [4] Quá trình khám phá tri thức tiến hành qua các giai đoạn như hình I.I: : ile | Khai pha ị Dữ liệu ra Mo hinh i a ị ¥ Lira chon va Chuyến đổi Lam sạch va Tich hop Cơ sở dữ liệu Hình 1 1 Quá trình khám phá tri thức [4]

Bắt đầu của quá trình là kho dữ liệu thô và kết thúc là tri thức được chiết xuất

ra Về lý thuyết thì có vẻ rất giản đơn nhưng thực sự đây là một quá trình rất khó khăn, gặp phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại

Trang 3

LỜI CẢM ƠN

Hoàn thành luận văn này, tôi xin bày tỏ lòng biết ơn sâu sắc đến TS Hoàng

Thị Lan Giao, Trường Đại học Khoa học - Đại học Huế, đã tận tình hướng dẫn tôi

trong suốt quá trình thực hiện dé tai

Xin chân thành cảm ơn sự giúp đỡ về mọi mặt của Ban Giám hiệu, Phòng Đào tạo Sau đại học, Khoa Công nghệ Thông tin - Trường Đại học Khoa học - Đại

học Huế cùng tất cả quý thầy cô đã tận tình truyền dạy kiến thức và kinh nghiệm chuyên môn trong quá trình giảng dạy và hoàn thành luận van nay

Xin gửi lời cảm ơn đến Ban Giám hiệu, Phòng Khảo thí và Đảm bảo chất

lượng, Trường Đại học An Giang đã hỗ trợ và tạo điều kiện thuận lợi đồng thời cung cấp các tài liệu, số liệu để tơi hồn thành luận văn

Cuối cùng, xin gửi lời cảm ơn tất cả bạn bè, đồng nghiệp và người thân đã động viên và giúp đỡ tơi hồn thành tốt luận văn này

Thừa Thiên Huế, tháng 08 năm 2018 Tác giả

Nguyễn Thị Thu Thảo

Trang 4

MỤC LỤC 0909.0609790 i LG CAM ON esesssevsescesecccrsserversesemversseurvoressersesceneerncess suavisenvecesnucasnenesmnensters ii h/0/90090155 ii ID 0\)28)/10/019 (00:70 ca Vv DANH MUC CAC HINHQ ccessesssssssssscsssssesssccssssscssscssssscsucsssssucsucsssssecesesssenecesees vi DANH MUC CAC KY HIEU, CHU VIET TAT

Chương 1 TÔNG QUAN VỀ KHAI PHÁ DỮ LIỆU . -. 3 1.1 QUÁ TRÌNH KHAI PHÁ DỮ LIỆU 25s S2 EEE2E2ExEEE.zExcrxe 3

In? in e aajaăă _ăa 3 1.1.2 Quy trình khai phá đữ lIẾU scseezeesorrsdirtrdrritioitsentytirtpdithgpaisngpai 4

1.2 MỘT SÓ KỸ THUẬT TRONG KHAI PHÁ DỮ LIỆU - 5 1.3 MỘT SÓ LĨNH VỰC ỨNG DỰNG THỰC TIẾN CỦA KHAI PHÁ DU

LIỆU - 52-2252 2211221122211222112221221222111221112211121122222222 re 7

1.4 NHUNG THACH THUC - KHO KHAN TRONG KHAM PHA TRI THUC VA KHAI PHA DU LIỆU -©2222222E222112211221122112212221221222 e6 8

1.5 TIỂU KÉT CHƯƠNG l ©-2-222222222122212112211221122122122 E2 te 10

Chương 2 MỘT SÓ PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU 11

2.1 TONG QUAN VE PHAN CUM DỮ LIỆU 22 22222E222222222222-e2 11 2.2 MOT SO KY THUAT TIEP CAN TRONG PHAN CUM DU LIEU 14

2.2.1 Phương pháp phân cụm phân hoạch - ¿5c cc +2 cv 14 2.2.2 Phương pháp phân cụm phân cấp 22-222 222222222522122222-e 14 2.2.3 Phương pháp phân cụm dựa trên mật độ . -csccscc: 18 2.2.4 Phương pháp phân cụm dựa trên lưới - -¿ cccsscssccssrxsrres 19 2.2.5 Phương pháp phân cụm dựa trên mô hình - :c-cs:csccc+ 20 2.2.6 Phương pháp phân cụm có dữ liệu ràng buộc ::-:-: 22

2.3 MOT SO YEU TO CAN THIET CHO CAC THUẬT TOÁN TRONG PHAN CUM DU LIBU ooo coo csocsosseeseeeeveesteeter ete tevterteseestsesteseneseeseeeees 23

2.3.1 Phân loại các kiểu đữ liệu 2- 22 22222222111211211212 2e 23

Trang 5

2.3.2 Độ đo tương tự và phi tương tự cà snehhhenrereere 24

2.4 MOT SO THUAT TOAN CO BAN TRONG PHAN CUM DU LIEU .27

2.4.1 Thuật toán dựa trén mat dd DBSCAN 0 occcecceceeceeeeteeeenseeeennees 27

2.4.2 Thuật toán PAM 22-222 22222112111221121121112212222222 re 29

2.4.3 Thuật toán K-Means 0 0122111221119 x1 nn xnxx xnxx 30

2.5 TIỂU KÉT CHƯƠNG 2 ©2222222222251211122112111211121122121221 xe 36 Chương 3 ỨNG DỤNG PHAN CUM DU LIEU VAO VIEC DANH GIÁ

GIẢNG VIÊN TẠI TRƯỜNG ĐẠI HỌC AN GIANG - 37

3.1 TONG QUAN VE HOAT DONG DANH GIA GIANG VIEN TAI

TRƯỜNG ĐẠI HỌC AN GIANG 2 22 22122212211221122122.222 re 37

3.2 UNG DUNG THUAT TOAN PHAN CUM DANH GIA GIANG VIEN

TẠI TRƯỜNG ĐẠI HỌC AN GIANG 222 22222212222222222 re 40

3.2.1 Tiền xử lý dữ liệu -©222222221222122112211221122122122 2e 40 3.2.2 Giới thiệu phần mềm Weka 222222 22122212211221122122 xe 4

3.2.3 Chạy thực nghiệm trên Weka tn nhe 43

Trang 6

DANH MỤC CÁC BẢNG

Bang:3: 1D 1 Gu thy tha p assessor eronsemereseornmreneesmncennnm meses cerned 39 Bang 3 2 Kết quả xếp loại 52-222 2222212211121112112112212121221222 re 40 Bảng 3 3 Dữ liệu đã được Xử lý ích HH HH HH g he ere 41 Bảng 3 4 Kết quả của thuật toán K-means được đánh giá qua 5 lần chạy 34

Trang 7

Hình 1 Hình 1 Hình 1 Hình 1 Hình 1 Hình 2 Hình 2 Hình 2 Hình 2 Hình 2 Hình 2 Hình 2 Hình 2 Hình 2 Hình 3 Hình 3 DANH MỤC CÁC HÌNH

1 Quá trình khám phá tri thức [4] c5: 2S S2 2EEEerEtxetrerrerrrrerres 3 2 Quá trình khai phá dữ liệu .- 5 2 2 212112112 211 ty tkerey 5

3 Vi du vé phan cum dit Ou 2 eee eeceececeeeeeeeeeeeeeneeneeseneeneeseereeens 11 4 Phân cụm các đối tượng dựa trên khoảng cách -sc sec 12 5 Phân cụm các đối tượng dựa trên kích cỡ -cccseiernreree 13

1 Các chiến lược phân cụm phân cấp [4] . -22-22222222222222222-<e 15 2 Ví dụ về phương pháp kết nối đơn -2-©222222222221221522112212222e 16 3 Ví dụ về phương pháp kết nối đầy đủ - 2222222221121 xe 16 4 Ví dụ về phương pháp trọng tâm -.©22- 22 22112212221222122112221 222 2e 17

5 Ví dụ về phân cụm theo mật độ [4] 2¿©2s+22E222122212221221222 22x 19 6 Cấu trúc phân cụm dựa trên lưới [4] -©-22222222222E2221222222x2ze 20

7 Ví dụ về phân cụm dựa trên mô hình [4] - -:-:+s:++ccsssxsvxse2 21

8 Các cách mà các cụm có thể đưa ra [4] s- 5c 5s 2 t2 EEtczcxe 23

9 Các thiết lập để xác định ranh giới các cụm ban đầu cccccce 31

1 Giới thiệu về Weka 55: 22221 nh2t thue 42

2 Chức năng classes to clusters evaluafIon . ccccssccceirerreee 44

Trang 8

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

CSDL Database (Cơ sở dữ liệu)

DBSCAN Density — Based Spatial Clustering of Applications with Noise (Phan

cụm dựa trên mật độ)

DM Data Mining (Khai phá dữ liệu)

KDD Knowledge Discovery in Database (Kham pha tri thức trong CSDL)

Trang 9

MỞ ĐẦU

> Lý do chọn đề tài

Chúng ta đang sống trong thế giới thừa thông tin, thiếu tri thức - đó là nhận định của nhiều người trong thời đại bùng nỗ thông tin hiện nay

Đối với các dữ liệu lớn, kỹ thuật thống kê truyền thống và các công cụ quản lý CSDL không còn phù hợp Khai phá dữ liệu đã trở thành lĩnh vực quan trọng vì nó rất hữu ich trong việc phân tích đữ liệu từ những quan điểm khác nhau và tông kết nó thành thông tin có lợi Khai phá dữ liệu trong giáo dục là lĩnh vực đang được

quan tâm, dữ liệu có thể được thu thập tử các cơ sở giáo dục khác nhau, các dữ liệu

có thể là thông tin cá nhân và kết quả đánh giá

Việc lựa chọn các thuật toán tốt nhất cho một tập dữ liệu cho trước là một vấn

dé rat phô biến Do đó, đòi hỏi chúng ta phải thực hiện một số phương pháp dé lựa

chọn phù hợp Khai phá dữ liệu giáo dục có thể sử dụng nhiều kỹ thuật như k- Nearest Neighbor, Naive Bayes, phân cụm, mạng nơron, cây quyết định v.v Trong đó, phân cụm là phương pháp được sử dụng rộng rãi

Phân cụm đữ liệu là quá trình nhóm các đối tượng tương tự nhau trong tập dữ

liệu vào các cụm sao cho các đối tượng cùng cụm là tương đồng Phân cụm chính là

nhiệm vụ chính trong khai phá dữ liệu và là một kỹ thuật phố biến để phân tích số

liệu thông tin, các hệ hỗ trợ quyết định, các thuật toán nhận dạng mẫu và phân lớp

mâu, Vv.V

Phân cụm dữ liệu đã được ứng dụng trong nhiều lĩnh vực khác nhau: kinh tế, giáo dục, bảo hiểm, quy hoạch đô thị, y tế

Để đánh giá hoạt động giảng dạy của giảng viên, các trường đại học đã áp dụng rất nhiều hình thức như: tự đánh giá của giảng viên, đánh giá thông qua ý kiến

của đồng nghiệp, lãnh đạo, qua hồ sơ giảng dạy, kết quả học tập của học sinh, sinh

Trang 10

chính và là sản phâm của quá trình đào tạo Do đó, đánh giá chất lượng theo quan điểm của người học là một trong những thước đo chất lượng dao tao [1]

Nhằm tìm hiểu sâu hơn các kỹ thuật khai phá dữ liệu, cụ thể là các phương pháp phân cụm dữ liệu, trên cơ sở các tiêu chí đánh giá hoạt động giảng dạy của giảng viên hiện đang áp dụng tại trường Đại học An Giang, tác giả muốn có phương pháp khoa học để đánh giá các tiêu chí, hỗ trợ cho Ban Giám hiệu, giảng viên và phòng chức năng điều chỉnh một cách hợp lý Do đó, với mong muốn hồn thiện bộ cơng cụ đánh giá, giúp Nhà trường đánh giá giảng viên một cách khách quan hơn và góp phần nâng cao chất lượng đào tạo, tác giả đã chọn dé tài “Ứng dung phân cụm dữ liệu vào việc đánh giá giảng viên tại Trường Đại học An Giang” đê thực hiện

> Mục tiêu nghiên cứu

- Tìm hiểu kỹ thuật phân cụm trong khai phá dữ liệu

- Đánh giá giảng viên thông qua kết quả phân hồi từ người học về hoạt động giảng dạy của giảng viên tại Trường Đại học An Giang

> Ý nghĩa đề tài

- Về mặt lý luận: đi sâu tìm hiểu các kỹ thuật khai phá dữ liệu

- Về mặt thực tiến: hỗ trợ Nhà trường hồn thiện bộ cơng cụ đánh giá, đưa ra

những đề xuất, khuyến nghị nhằm nâng cao hơn nữa hiệu quả của công tác đánh giá hoạt động giảng đạy của giảng viên và đáp ứng yêu cầu về nâng cao chất lượng giáo dục trong giai đoạn hiện nay

Cấu trúc luận văn

Cấu trúc luận văn bao gồm phần mở đầu, ba chương nội dung, phần kết luận

và tài liệu tham khảo, trong đó:

Chương 1 - Tổng quan về khai phá đữ liệu

Chương 2 - Một số phương pháp phân cụm đữ liệu

Trang 11

Chuong 1 TONG QUAN VE KHAI PHA DU LIEU 1.1 QUA TRINH KHAI PHA DU LIEU

1.1.1 Dinh nghia

Khai phá dữ liệu là quá trình khai thác (rút trích) những thông tin tiểm ân có tính đự đốn, những thơng tin có nhiều ý nghĩa, hữu ích từ những CSDL lớn, nó được coi như là một bước trong quá trình khám phá tri thức (Knowledge DIiscovery in Databases - KDD) Khai phá đữ liệu là giai đoạn quan trọng nhất trong tiến trình khám phá tri thức từ CSDL [4] Quá trình khám phá tri thức tiến hành qua các giai đoạn như hình I.I: : ile | Khai pha ị Dữ liệu ra Mo hinh i a ị ¥ Lira chon va Chuyến đổi Lam sạch va Tich hop Cơ sở dữ liệu Hình 1 1 Quá trình khám phá tri thức [4]

Bắt đầu của quá trình là kho dữ liệu thô và kết thúc là tri thức được chiết xuất

ra Về lý thuyết thì có vẻ rất giản đơn nhưng thực sự đây là một quá trình rất khó khăn, gặp phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại

Trang 12

Quá trình khám phá trị thức được thực hiện trình tự lặp đi lặp lại các bước sau: e Làm sạch dữ liệu (Data cleaning): Loại bỏ nhiễu và các dữ liệu không cần

thiết

e Tich hop dit ligu (Data integration): khi nhiéu nguồn dữ liệu được kết hợp lại

e Trich chon dit liéu (Data selection): lua chọn những dữ liệu thích hợp cho việc phân tích được thực hiện lay tr CSDL

° Chuyển đổi dữ liệu (Data transformation): Các dữ liệu được chuyển đổi

sang các dạng phù hợp cho quá trình xử lý

e Khai phá dữ liệu (Data mining): Là một trong các bước quan trọng nhất, trong đó sử đụng những phương pháp thông minh đề chắt lọc ra những mẫu đữ liệu

e Đánh gid mau (Patterns evaluation): Qua trình đánh giá các kết quả tìm được thông qua các độ đo nào đó

e Biểu diễn tri thức (Knowledge presentation): Quá trình này sử dụng các kỹ thuật đề biêu diễn và thể hiện trực quan cho người dùng

Trong các giai đoạn của quá trình khám phá tri thức, khai phá dữ liệu (hay con gọi đó là Data Mining) là giai đoạn được quan tâm nhiều nhất

1.1.2 Quy trình khai phá dữ liệu

Khai phá dữ liệu là một giai đoạn quan trọng trong quá trình khám phá tri thức Về bản chất là giai đoạn đuy nhất tìm ra được thông tin mới, thông tin tiềm ẩn có trong CSDL (chủ yếu phục vụ cho mô tả và dự đốn)

Mơ tả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của những thuộc

tính dữ liệu trong kho dữ liệu mà con người có thể hiểu được

Trang 13

ra các mẫu, dự đoán được những giá trị chưa biết hoặc những giá trị tương lai của

các biên quan tâm

Quá trình khai phá đữ liệu bao gồm các bước chính được thê hiện [2]: Thống kê tóm tắt Xác Xác Thu Thuật định định dữ thập và toán Mẫu nhiện liệu tiên xử khai va | liên |3} lýđữ phá dữ quan liệu liệu Dữ liệu trực tiếp

Hình 1 2 Quá trình khai phá dữ liệu

e Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết

e Xác định các dữ liệu liên quan: Dùng đề xây đựng giải pháp

e Thu thập và tiền xử lý dữ liệu: Thu thập các đữ liệu liên quan và tiền xử lý chúng sao cho thuật toán khai phá đữ liệu có thê hiểu được Đây là một quá trình rất khó khăn, có thể gặp phải rất nhiều các vướng mắc như: dữ liệu phải được sao ra nhiều bản, quản lý tập các dữ liệu, phải lặp đi lặp lại nhiều lần tồn bộ q trình (nếu mơ hình đữ liệu thay đổi), v.v

e Thuật toán khai phá dữ liệu: Lựa chọn thuật toán khai phá dữ liệu và thực hiện việc khai phá dữ liệu để tìm được các mẫu có ý nghĩa, các mẫu này được biểu

diễn dưới dạng luật kết hợp, cây quyết định tương ứng với ý nghĩa của nó

1.2 MỘT SÓ KỸ THUẬT TRONG KHAI PHÁ DỮ LIỆU

Các kỹ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính [2]:

Trang 14

(clustering), tóm tắt (summerization), trực quan hóa (visualization), phân tích sự

phát hiện biến đổi và độ lệch, phân tích luật kết hop (association rules) ;

- Kỹ thuật dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời Các kỹ thuật này gồm có: phân lớp (classification), hồi quy (regression) ;

Với hai mục đích khai phá dữ liệu là mô tả và dự đoán, người ta thường sử

dụng các kỹ thuật sau cho khai phá dữ liệu:

- Phân cụm: Phân cụm dữ liệu là một ví dụ của phương pháp học không giám sát Không giống như phân loại đữ liệu, phân cụm đữ liệu không đòi hỏi phải định

nghĩa trước các mẫu đữ liệu huấn luyện Vì thế, có thể coi phân cụm dữ liệu là một

cách học bằng quan sát, trong khi phân loại dữ liệu là học bằng ví dụ Trong phương pháp này bạn sẽ không thể biết kết quả các cụm thu được sẽ như thế nào khi bắt đầu quá trình Vì vậy, thông thường cần có một chuyên gia về lĩnh vực đó để đánh giá

các cụm thu được Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web Ngoài ra, phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử

lý cho các thuật toán khai phá dữ liệu khác

- Luật kết hợp: là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm

được

Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các

giá trị đữ liệu trong CSDL Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được Khai phá luật kết hợp được thực hiện qua 2 bước:

+ Bước I: Tìm tất cả các tập mục phổ biến, một tập mục phổ biến được xác định qua độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu

Trang 15

Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như marketing, phân tích quyết định, quản lý kinh doanh

- Phân lớp: là việc xác định một hàm ánh xạ từ một mẫu dữ liệu vào một

trong số các lớp đã được biết trước đó Mục tiêu của thuật toán phân lớp là tìm ra mối quan hệ nào đó giữa thuộc tính dự báo và thuộc tính phân lớp Như thế quá trình phân lớp có thê sử dụng mối quan hệ này đề dự báo cho các mục mới

- Hồi qui: là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự

đoán có giá trị thực Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác nhau

chính là ở chỗ thuộc tính để dự báo là liên tục chứ không phải là rời rạc Việc dự

báo các giá trị số thường được xác định bởi các phương pháp thống kê cổ điển, chẳng hạn như hồi quy tuyến tính

- Tổng hợp: là công việc liên quan đến các phương pháp tìm kiếm một mô tả tập con dữ liệu Kỹ thuật tổng hợp thường áp đụng trong việc phân tích đữ liệu có

tính thăm dò và báo cáo tự động Nhiệm vụ chính là sản sinh ra các mô tả đặc trưng cho một lớp Mô tả loại này là một kiểu tổng hợp, tóm tắt các đặc tính chung của tất

cả hay hầu hết các mục của một lớp

Có nhiều phương pháp khai phá dữ liệu được nghiên cứu ở trên, trong đó có ba phương pháp được các nhà nghiên cứu sử dụng nhiều nhất đó là: Phân cụm dữ

liệu, Luật kết hợp và Phân lớp dữ liệu

13 MOT SO LINH VUC UNG DUNG THUC TIEN CỦA KHAI PHÁ DU

LIEU

Khai phá dữ liệu là một lĩnh vực mới phát triển nhưng thu hút được khá

nhiều nhà nghiên cứu nhờ vào những ứng dụng thực tiễn của nó Sau đây là một

số lĩnh vực ứng dụng thực tế điển hình của khai phá dữ liệu:

- Khai phá đữ liệu trong tài chính: Số liệu tài chính được thu thập trong các ngân hàng và các ngành tài chính thường là tương đối đầy đủ, đáng tin cậy và có

chất lượng cao, tạo điều kiện phân tích đữ liệu hệ thống và dữ liệu khai phá dữ liệu

Trang 16

- Khai phá dữ liệu các ngành thương mại: Các ngành thương mại là một lĩnh

vực ứng dụng chủ yếu cho khai phá dữ liệu, vì nó thu thập một lượng lớn dữ liệu về doanh số bán hàng, lịch sử mua săm của khách hàng, vận chuyền hàng hóa, tiêu thụ, và dịch vụ Qua đó doanh nghiệp có thể xác định thị hiếu mua của khách hàng, xu

hướng mua sắm của khách hàng, từ đó nâng cao chất lượng dịch vụ khách hàng, khách hàng yêu thích mô hình của doanh nghiệp tốt hơn, nâng cao tỷ lệ tiêu thụ hàng hóa và giảm chi phí kinh doanh

- Khai phá đữ liệu trong y học: Nhiều năm qua đã chứng kiến sự tăng trưởng trong nghiên cứu về gen, protein và các nghiên cứu khác trong sinh học Các ví đụ bao gồm từ việc xác định và phân tích so sánh bộ gen của con người và các loài khác (bằng cách khám phá các mô hình trình tự, chức năng gen, và con đường tiến hóa) để điều tra về các mạng di truyền và các con đường protein và sự phát triển của dược phâm mới và những tiến bộ trong điều trị bệnh hiểm nghèo

- Khai phá dữ liệu trong nhiều lĩnh vực khác: bảo hiểm, dự đoán lỗi phần mêm, giáo dục, V.V

1.4 NHUNG THACH THUC - KHO KHAN TRONG KHAM PHA TRI THUC VA KHAI PHA DU LIEU

Kham phá tri thức và khai phá đữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực trong thực tế, vì vậy các thách thức và khó khăn ngày càng nhiều, càng lớn hơn Sau đây là một số các thách thức và khó khăn cần được quan tâm [2]:

- Các CSDL lớn hơn rất nhiều: CSDL với hàng trăm trường và bảng, hàng

triệu bản ghi và kích thước lớn là vấn đề hoàn toàn bình thường

- Số chiều cao: không chỉ thường có một số lượng rất lớn các bản ghi trong

CSDL mà còn có một số lượng rất lớn các trường (các thuộc tính, các biến) làm cho số chiều của bài toán trở nên cao Thêm vào đó, nó tăng thêm cơ hội cho một giải thuật khai phá dữ liệu tìm ra các mẫu không hợp lệ

Trang 17

một CSDL ứng dụng cho trước có thể bị sửa đổi, xóa bỏ hay tăng thêm các phép đo mới Các giải pháp hợp lý bao gồm các phương pháp tăng trưởng để cập nhật các mẫu và xử lý thay đổi

- Dữ liệu thiếu và bị nhiễu: bài toán này đặc biệt nhạy trong các CSDL thương mại Các thuộc tính quan trọng có thể bị mắt nếu CSDL không được thiết kế với sự

khám phá bằng trí tuệ Các giải pháp có thể gồm nhiều chiến lược thống kê phức tạp

để nhận biết các biến ẩn và các biến phu thuộc

- Mối quan hệ phức tạp giữa các trường: các thuộc tính hay giá các giá trị có cầu trúc phân cấp, các quan hệ giữa các thuộc tính và các phương tiện tinh vi hơn

cho việc biểu diễn tri thức về nội dung của một CSDL sẽ đòi hỏi các giải thuật phải

có khả năng sử dụng hiệu quả các thông tin này Về mặt lịch sử, các giải thuật khai

phá dữ liệu được phát triển cho các bản ghi có giá trị thuộc tính đơn giản, mặc dù

các kỹ thuật mới bắt nguồn từ mối quan hệ giữa các biến đang được phát trién - Tính dễ hiểu của các mẫu: trong nhiều ứng dụng, điều quan trọng là những gì khai thác được phải càng dễ hiểu đối với con người thì càng tốt Các giải pháp có

thể thực hiện được bao gồm cả việc biểu diễn được minh họa bằng dé thị, cấu trúc

luật với các đồ thị có hướng, biểu diễn bằng ngôn ngữ tự nhiên và các kỹ thuật hình dung ra dữ liệu và tri thức

- Người đùng tương tác và tri thức sẵn có: nhiều phương pháp khám phá tri thức và các công cụ không tương tác thực sự với người dùng và không thể đễ dàng

kết hợp chặt chẽ với tri thức có sẵn về một bài toán loại trừ theo các cách đơn giản

Việc sử dụng của miễn tri thức là quan trọng trong toàn bộ các bước của xử lý khám phá trị thức

- Tích hợp với các hệ thống khác: Một hệ thống phát hiện đứng một mình có

thê không hữu ích lắm Các vấn đề tích hợp điển hình gồm có việc tích hợp với một DBMS (tire la qua mot giao diện truy vấn), tích hợp với các bảng tính và các công

Trang 18

1.5 TIEU KET CHUONG 1

Trang 19

Chương 2 MỘT SỐ PHƯƠNG PHÁP PHAN CUM DU LIEU

2.1 TONG QUAN VE PHAN CUM DU LIEU

Phân cụm dữ liệu là một trong các kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu đữ liệu tự nhiên tiềm ẩn và quan trọng trong tập

dữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định [5]

Phân cụm dữ liệu là chia dữ liệu mẫu vào các nhóm không có nhãn hay có nhãn sao cho các đối tượng trong một cụm có sự “tương tự”/cùng nhau và các đối

tượng trong các cụm khác nhau sẽ có sự “không tương tự”/không cùng nhau Số các

cụm đữ liệu ở đây có thể được xác định trước như phân lớp theo kinh nghiệm hoặc có thể được tự động xác định A A ° 2° J o ° eo ee 0° % eo? e eo © 0, ọ e® o6 6 °°o °e e9 ® © Hình 1 3 Ví dụ về phân cụm dữ liệu Y Vv

Trong trường hợp này, chúng ta dễ dàng xác định được 4 cụm dựa vào các dữ liệu đã cho, các tiêu chí “tương tự” để phân cụm trong trường hợp này là khoảng

cách: hai hoặc nhiều đối tượng thuộc nhóm của chúng được “nhóm” theo một

khoảng cách nhất định Điều này được gọi là phân cụm dựa trên khoảng cách

Một kiểu khác của phân cụm dữ liệu là phân cụm dữ liệu dựa vào khái niệm:

hai hay nhiều đối tượng thuộc cùng nhóm nếu có một định nghĩa khái niệm chung cho tất cả các đối tượng trong đó Nói cách khác, đối tượng của nhóm phải phù hợp

Trang 20

với nhau theo miêu tả các khái niệm đã được định nghĩa, không phải theo những biện pháp đơn giản tương tự

Mục tiêu của phân cụm dữ liệu là để xác định các nhóm nội tại bên trong một

bộ dữ liệu không có nhãn hay có nhãn Nhưng làm thế nào để quyết định cái gì đã

tạo nên một phân cụm dữ liệu tốt Nó có thể được hiển thị rằng không có tiêu chuẩn tuyệt đối “tốt nhất” mà sẽ là độc lập với mục đích cuối cùng của phân cụm dữ liệu

Do đó, người sử dụng phải cung cấp tiêu chuẩn, theo cách như vậy mà kết quả của

phân cụm dữ liệu sẽ phù hợp với nhu cầu họ cần

Ví dụ 1: Chúng ta có thể quan tâm đến việc tìm kiếm đối tượng đại diện cho

các nhóm đồng nhất trong “các cụm tự nhiên” và mô tả thuộc tính không biết của chúng trong việc tìm kiếm các nhóm hữu ích và phù hợp hoặc trong việc tìm kiếm

các đối tượng bất thường trong dữ liệu (cá biệt, ngoại lệ, nhiễu)

‘ee ° oe °° ` ®

oof

eo t9

‘ °° è: $

Hình 1 4 Phân cụm các đối tượng dựa trên khoảng cách

Một vấn đề thường gặp trong phân cụm là hầu hết các dữ liệu cần phân cụm

đều có chứa dữ liệu nhiễu do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ,

vì vậy cần phải xây dựng chiến lược cho bước tiền xử lý đữ liệu nhằm khắc phục

Trang 21

Nhiễu ở đây được hiểu là các đối tượng dữ liệu không chính xác, không tường

minh hoặc là các đối tượng dữ liệu khuyết thiếu thông tin về một số thuộc tính

Một trong các kỹ thuật xử lý nhiễu phổ biến là việc thay thế giá trị các thuộc tính của đối tượng nhiễu bằng giá trị thuộc tính tương ứng Ngoài ra, đò tìm đối tượng ngoại lai cũng là một trong những hướng nghiên cứu quan trọng trong phân cụm,

chức năng của nó là xác định một nhóm nhỏ các đối tượng dữ liệu khác thường so với các dữ liệu trong CSDL, tức là các đối tượng dữ liệu không tuân theo các hành

vi hoặc mô hình dữ liệu nhằm tránh sự ảnh hưởng của chúng tới quá trình và kết quả của phân cụm

Hình 1 5 Phân cụm các đối tượng dựa trên kích cỡ

Theo các nghiên cứu đến thời điểm hiện nay thì chưa có một phương pháp phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc CSDL Hơn nữa, đối với các phương pháp phân cụm cần có cách thức biểu diễn cấu

trúc của CSDL, với mỗi cách thức biểu diễn khác nhau sẽ có tương ứng một thuật

toán phân cụm phù hợp Vì vậy phân cụm dữ liệu vẫn đang là một vấn đề khó và mở, vì phải giải quyết nhiều vấn để cơ bản một cách trọn vẹn và phủ hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là đối với dữ liệu hỗn hợp đang ngày cảng tăng trong các hệ quản trị dữ liệu và đây cũng là một trong những thách thức lớn trong

lĩnh vực khai phá dữ liệu

Trang 22

2.2 MỘT SÓ KỸ THUẬT TIẾP CẬN TRONG PHÂN CỤM DỮ LIỆU 2.2.1 Phương pháp phần cụm phân hoạch

Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành k nhóm cho

đến khi xác định số các cụm được thiết lập Số các cụm được thiết lập là các đặc

trưng được lựa chọn trước Phương pháp này là tốt cho việc tìm các cụm hình cầu trong khơng gian Euclidean Ngồi ra, phương pháp này cũng phụ thuộc vào

khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nảo có quan hệ là

gần nhau với mỗi điểm khác và các điểm dữ liệu nào không có quan hệ hoặc có quan hệ là xa nhau so với môi điệm khác

Tuy nhiên, phương pháp này không thể xử lý các cụm có hình đạng kỳ quặc

hoặc các cụm có mật độ các điểm dầy đặc Các thuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vẫn để phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phân hoạch có thể được Chính vì vậy, trên thực

tế thường đi tìm giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch đữ liệu Như vậy, ý tưởng chính của thuật toán phân cụm phân

hoạch tối ưu cục bộ là sử dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm

Điền hình trong phương pháp tiếp cận theo phân cụm phân hoạch là các thuật toan nhu: K-means, K-medoids, CLARA (Clustering Large Applications), CLARANS (Clustering Large Applications based on RAndomized Search) 2.2.2 Phương pháp phân cụm phân cấp

Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữ liệu đang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phổ biến của kỹ thuật này đó là: hòa nhập nhóm, thường được gọi là tiếp cận (Bottom-Up); phân chia nhóm, thường được gọi là tiếp cận (Top-Down)

Phương pháp “đưới lên”(Bottom up): Phương pháp này bắt đầu với mỗi đối

Trang 23

đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trung tâm của hai

nhóm), quá trình này được thực hiện cho đến khi tất cả các nhóm được hòa nhập

vào một nhóm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sử đụng chiến lược ăn tham trong quá trình phân cụm Bước Bude l Bước 2 Bước 3 Bước 4 | | | | | Bottom - Up Top - Down

Buée 4 Bước 3 Bước 2 Bước l Bước 0

Hình 2 1 Các chiến lược phân cụm phân cấp [4]

Các thuật toán phân cấp thường đưa về bài toán nhỏ hơn tính khoảng cách giữa 2 cụm/lớp, một số phương pháp tính khoảng cách này có thể kế đến:

- Phương pháp kết nối đơn: Khoảng cách giữa 2 lớp Œ; và €¡ được tính toán dựa trên khoảng cách ngắn nhất giữa các thành phần nằm trong 2 lớp đó

d(Œ;, Œ;) = min{dŒ, x;)} voi x; € C,, x, E GM)

Trang 24

Hình 2.2 Ví dụ về phương pháp kết nối đơn

Ví dụ 2: Như trên hình khoảng cách giữa hai cụm/lớp sẽ được tính bằng khoảng cách giữa 2 phần tử gần nhất của 2 cụm/lớp là 4; và Bị

- Phương pháp kết nối đầy đủ: Khoảng cách giữa 2 lớp Œ¿ và Cc; duoc tinh toán dựa trên khoảng cách lớn nhất giữa các thành phần nằm trong 2 lớp đó

d(c;, C;) = max{d(x, x;)} vol x; € Œ¿ x; € G

Hình 2 3 Ví dụ về phương pháp kết nối đầy đủ

Ví dụ 3: Như trên hình khoảng cách giữa hai cụm/lớp sẽ được tính bằng khoảng cách giữa 2 phần tử xa nhất của 2 cụm/lớp là A, va Bo

- Phương pháp trọng tâm: Khoảng cách giữa hai trọng tâm của hai cụm được chọn làm khoảng cách của hai cụm đó Khoảng cách phù hợp để phát hiện các cụm/lớp có dạng khối và tốc độ tính toán nhanh do chỉ quan tâm đến trọng tâm nên giảm khối lượng tính toán

d(C, i> Cj) = đ(%,, X)

Trang 25

Hình 2 4 Ví dụ về phương pháp trọng tâm

Ví dụ 4: Như trên hình khoảng cách giữa hai cụm/lớp sẽ được tính bằng khoảng cách giữa 2 trọng tâm của 2 cụm/lớp là Ävà B

Ví dụ 5: Cho 2 lớp Œị, Œ¿ gồm các điểm trong mặt phẳng tọa độ như sau:

@~ {1.3), (2.4), G.5)) Œ; = {(4,5) (8.9)}

Dựa vào phương pháp trọng tâm, ta có:

Trọng tâm của lớp £¡ có tọa độ: m, ( —— : —= ), vay m, (2:4)

4+8 5+9

Trọng tâm của lớp £; có tọa độ: m, on š a vậy m, (6:7)

Trang 26

Phương pháp “trên xuống” (Top Down): Bắt đầu với trạng thái là tất cả các

đối tượng được xếp trong cùng một cụm Mỗi vòng lặp thành công, một cụm được tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự nào đó cho

đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiện đừng thỏa mãn Cách

tiếp cận này sử dụng chiến lược chia dé tri trong quá trình phân cụm

Điền hình trong phương pháp tiếp cận theo phân cụm phân cấp là các thuật toán nhu: AGNES (Agglomerative Nesting), DIANA (Divisive Analysis), BIRCH

(1996), CURE (1998), CHAMELEON (1999)

Thực tế áp đụng, có nhiều trường hợp kết hợp cả hai phương pháp phân cum phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có thê cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phương pháp phân cụm dữ liệu cổ điển, hiện đã có rất nhiều thuật toán cải tiến dựa trên hai phương pháp này đã được áp dụng phô biến trong khai phá dữ liệu

2.2.3 Phương pháp phân cụm dựa trên mật độ

Kỹ thuật này nhóm các đối tượng dữ liệu dựa trên hàm mật độ xác định, mật độ là số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó Trong cách tiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được phát triển

thêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận này phải lớn hơn

một ngưỡng đã được xác định trước Phương pháp phân cụm dựa trên mật độ của các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra các cụm dữ liệu với

hình thù bất kỳ Kỹ thuật này có thê khắc phục được các phần tử ngoại lai hoặc giá

trị nhiễu rất tốt, tuy nhiên việc xác định các tham số mật độ của thuật toán là rất khó

Trang 27

(b)z=06 (djo=15

(a) ¢=2 (ệ=? (¿=1

Hình 2.5 Ví dụ về phân cụm theo mật độ [4]

Điền hình trong phương pháp tiếp cận theo phân cụm dựa trên mật độ là các thuật toán như: DBSCAN, DENCLUE, CLIQUE, OPTICS

2.2.4 Phương pháp phân cụm dựa trên lưới

Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên

cấu trúc đữ liệu lưới dé phân cụm, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian Mục tiêu của phương pháp này là lượng hóa dữ liệu thành

các ô tạo thành cấu trúc dữ liệu lưới Sau đó, các thao tác phân cụm chỉ cần làm việc

với các đối tượng trong từng ô trên lưới chứ không phải các đối tượng dữ liệu Cách tiếp cận đựa trên lưới này không di chuyển các đối tượng trong các ô mà xây dựng nhiều mức phân cấp của nhóm các đối tượng trong một ô Phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chúng không trộn các ô, đồng thời giải quyết khắc phục yêu cầu đối với đữ liệu nhiều chiều mà phương pháp phân phân cụm dựa trên mật độ không giải quyết được Ưu điểm của phương pháp phân

Trang 28

tập dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số ô trong mỗi chiều của không gian lưới | Tang 1 Mức 1 (mức cao nhất) có thẻ chỉ chứa một cell | | : : | i a a A ĩ Tang i-1 Vi , : ‘ a —— <1 | Ị ˆ “ell i-1 có thể # tu ở: PT [ Cell mức 1-1 có thẻ tương ứng với In rio 4 cell của mức ¡

Hình 2 6 Cấu trúc phân cụm đựa trên lưới [4]

Điền hình trong phương pháp tiếp cận theo phân cụm dựa trên lưới là các thuật toan nhu: STING (a STatistical [Nformation Grid approach) boi Wang, Yang va Muntz (1997), WAVECLUSTER boi Sheikholeslami,Chatterjee va Zhang (1998), CLIQUE (Clustering In QUEst) bởi Agrawal, Gehrke, Gunopulos, Raghavan (1998)

2.2.5 Phương pháp phân cụm dựa trên mô hình

Phương pháp này cố gắng khám phá các phép xấp xỉ tốt của các tham số mô

hình sao cho khớp với dữ liệu một cách tốt nhất Chúng có thể sử dụng chiến lược phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình mà

chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mô hình này để nhận đạng ra các phân hoạch

Trang 29

T.ayer 5 Tnhibitrory clusters Exicitatocy connections Layer 2 Tnhibitocy clusters Layer 1 Input units Input pattern

Hinh 2 7 Vi du vé phân cụm dựa trên mô hình [4|

Phương pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu với

mơ hình tốn học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân

phối xác suất cơ bản Các thuật toán phân cụm dựa trên mô hình có hai cách tiếp cận chính: mô hình thống kê và mạng noron Phuong pháp này gần giống với phương pháp phân cụm dựa trên mật độ, vì chúng phát triển các cụm riêng biệt

nhằm cải tiến các mô hình đã được xác định trước đó, nhưng đôi khi nó không bắt

đầu với một số cụm cố định và không sử dụng cùng một khái niệm mật độ cho các cụm

Điền hình trong phương pháp tiếp cận theo phân cụm dựa trên mô hình là các

thuật toán như: EM, COBWEB, CLASSIT, AutoClass (Cheeseman and Stutz,

1996)

Trang 30

2.2.6 Phương pháp phân cụm có dữ liệu ràng buộc

Sự phát triển của phân cụm dữ liệu không gian trên CSDL lớn đã cung cấp

nhiều công cụ tiện lợi cho việc phân tích thông tin địa lí, tuy nhiên hầu hết các thuật

toán này cung cấp rất ít cách thức cho người dùng đề xác định các ràng buộc trong thế giới thực cần phải được thỏa mãn trong quá trình phân cụm Để phân cụm dữ liệu không gian hiệu quả hơn, các nghiên cứu bổ sung cần được thực hiện đề cung cấp cho người đùng khả năng kết hợp các ràng buộc trong thuật toán phân cụm

Hiện nay, các phương pháp phân cụm trên đã và đang được phát triển và áp

dụng nhiều trong các lĩnh vực khác nhau và đã có một số nhánh nghiên cứu được

phát triển trên cơ sở của các phương pháp đó như:

Phân cụm thống kê: Dựa trên các khái niệm phân tích hệ thống, nhánh nghiên

cứu này sử dụng các độ đo tương tự để phân hoạch các đối tượng, nhưng chúng chỉ

áp dụng cho các dữ liệu có thuộc tính SỐ

Phân cụm khái niệm: Kỹ thuật này được phát triển áp dụng cho dữ liệu hạng

mục, chúng phân cụm các đối tượng theo các khái niệm mà chúng xử lý

Phân cụm mờ: Sử đụng kỹ thuật mờ để phân cụm dữ liệu Các thuật toán thuộc

loại này chỉ ra lược đồ phân cụm thích hợp với tất cả các hoạt động đời sống hàng ngày, chúng chỉ xử lý các đữ liệu thực không chắc chắn

Phân cụm mạng Kohonen: Loại phân cụm này dựa trên khái niệm của các

Trang 31

pad Phân lớp Phan chia thang 1 23 aba 019$ hÓI 050! c3 01504 dat 0198 củ4 0204 fal 0405 g9.7 0.20.1 BOS 40 Cây phân lớp gac¡ cdkbjfh Hình 2 8 Các cách mà các cụm có thê đưa ra [4] 2.3 MOT SO YEU TO CAN THIẾT CHO CÁC THUẬT TOÁN TRONG PHÂN CỤM DỮ LIỆU

2.3.1 Phân loại các kiểu dữ liệu

Cho một CSDL Ð chứa n đối tượng trong không gian k chiều trong đó x, y, z

là các đối tượng thuộc D: x =(XI,X›, ,Xk ); ÿ =(V1,V2, ,Vk); Z2 =(Z1,Z2, ,Zk), trong do xi, Vi, Z¡ VỚI 1= I k là các đặc trưng hoặc thuộc tính tương ứng của các đối tuong x, y, Z

Sau đây là các kiểu đữ liệu:

e Phân loại các kiểu dữ liệu dựa trên kích thước miền

- Thuộc tính liên tục: nếu miễn giá trị của nó là vô hạn không đếm được - Thuộc tính rời rạc: Nếu miễn giá trị của nó là tập hữu hạn, đếm được

- Lớp các thuộc tính nhị phân: là trường hợp đặc biệt của thuộc tính rời rạc ma mién gia tri cua nó chỉ có 2 phan tử được diễn tả như: Yes/⁄No hoặc Nam/Nữ, False/true,

Trang 32

e Phân loại các kiểu dữ liệu dựa trên hệ đo

Giả sử rằng chúng ta có hai đối tượng x, y và các thuộc tính xi, yi tương ứng với thuộc tính thứ ¡ của chúng Chúng ta có các lớp kiêu dữ liệu như sau:

- Thuộc tính định danh (Nominal Scale): đây là dạng thuộc tính khái quát hoá của thuộc tính nhị phân, trong đó miễn giá trị là rời rạc không phân biệt thứ tự và có

nhiều hơn hai phần tử - nghĩa là nếu x và y là hai đối tượng thuộc tính thì chỉ có thể

xác định là x # y hoặc x = y

- Thuộc tính có thứ tự (Ordinal Scale): là thuộc tính định danh có thêm tính thứ tự, nhưng chúng không được định lượng Nếu x và y là hai thuộc tính thứ tự thi ta có thể xác định là x # y hoặc x = y hoặc x > y hoặc x <y

- Thuộc tính khoảng (Interval Scale): Với thuộc tính khoảng, chúng ta có thể

xác định một thuộc tính là đứng trước hoặc đứng sau thuộc tính khác với một

khoảng là bao nhiêu Nếu xi > yi thì ta nói x cách y một khoảng xi - yi tương ứng

với thuộc tính thứ 1

- Thuộc tính tỉ lệ (Ratio Scale): là thuộc tính khoảng nhưng được xác định một cách tương đối so với điểm mốc, thí dụ như thuộc tính chiều cao hoặc cân nặng lấy điểm 0 làm mốc Trong các thuộc tính dữ liệu trình bày ở trên, thuộc tính định danh và thuộc tính có thứ tự gọi chung 1a thudc tinh hang muc (Categorical), thudc tính khoảng và thuộc tính tỉ lệ được gọi là thuộc tính số (Numeric)

2.3.2 D6 do tuong tu va phi tương tự

Để phân cụm, người ta phải đi tìm cách thích hợp đề xác định “khoảng cách” giữa các đối tượng, hay là phép đo tương tự dữ liệu Đây là các hàm để đo sự giống nhau giữa các cặp đối tượng đữ liệu, thông thường các hàm này hoặc là để tính độ tương tự (Similar) hoặc là tính độ phi tương tự (Dissimilar) giữa các đối tượng dữ

Trang 33

Tất cả các độ đo dưới đây được xác định trong không gian độ đo metric Một

không gian metric là một tập trong đó có xác định các “khoảng cách” giữa từng cặp phan tir, với những tính chất thông thường của khoảng cách hình học Nghĩa là, một tập X (các phần tử của nó có thể là những đối tượng bất kỳ) các đối tượng dữ liệu trong CSDL D như đã đề cập ở trên được gọi là một không gian metric nếu:

- Với mỗi cặp phan tu x, y thudc X đều có xác định, theo một quy tắc nào đó, một số thực Š(x,y), được gọi là khoảng cách giữa x và y

- Quy tắc nói trên thoả mãn hệ tính chất sau: (i) (x.y) > 0 nếu x # y ; đi) ð(x, y)Ƒ0 nếu x =y, (ii) ð(xy) = ð(y.x) voi moi xy: (iv) ð(&y) < 8(x,z)+8(z.y)

Hàm ð(x.y) được gọi là một metric của không gian Các phần tử của X được gọi là các điểm của không gian này

e Thuộc tính khoảng cách

Sau khi chuẩn hoá, độ đo phi tương tự của hai đối tượng dữ liệu x, y được xác

Trang 34

Độ đo khoảng cách Manhattan: đ y) = ` |x, — y, z1 e Thuộc tính định danh: Độ đo phi tương tự giữa hai đối tượng x và y được định nghĩa như sau: — ƒ?1 d(x.y)= pom P trong đó m là số thuộc tính đối sánh tương ứng trùng nhau, và p là tổng số các thuộc tính e Thuộc tính có thứ tự:

Giả sử ¡ là thuộc tính thứ tu co Mi giá trị (Mi kích thước miễn giá trị): Các

trạng thái Mi được sắp thứ tự như sau: [1 Mi], chúng ta có thể thay thế mỗi giá trị của thuộc tính bằng giá trị cùng loại ri, với ri €{1 MI}

Mỗi một thuộc tính có thứ tự có các miền giá trị khác nhau, vi vay chúng ta

chuyển đổi chúng về cùng miễn giá trị [0,1] bằng cách thực hiện phép biến đổi sau

cho mỗi thuộc tính

a”

Zz = i ol

M,-1

Sử dụng công thức tính độ phi tương tự của thuộc tính khoảng đối với các giá

trị Zi(j) , đây cũng chính là độ phi tương tự của thuộc tính có thứ tự

e Thuộc tính tỉ lệ

Có nhiều cách khác nhau để tính độ tương tự giữa các thuộc tính tỉ lệ Một

trong những số đó là sử đụng công thức tính logarit cho mỗi thuộc tính Hoặc loại

Trang 35

đã được gán trọng số tương ứng wi (1 <= ¡ <= k), độ tương đồng đữ liệu được xác

dG@.2=ÍƯ2Ww,G =0

2.4 MOT SO THUAT TOAN CO BAN TRONG PHAN CUM DU LIEU 2.4.1 Thuat toan dua trén mat d6 DBSCAN

định như sau:

Thuat toan DBSCAN (Density — Based Spatial Clustering of Applications

with Noise) là một giải thuật phân cụm dựa trên mật độ, được phat triển bởi Ester,

Kriegel, Sander va Xu nim 1996 Giải thuật này tăng trưởng các miền với mật độ cao vào trong các cụm và khám phá ra các cụm có hình dạng bất kỳ trong không

gian CSDL có nhiễu [4]

Y tưởng cơ bản của phân cụm dựa trên mật độ: Đối với mỗi đối tượng của một

cụm, láng giểng trong một bán kính cho trước (£) (gọi là z-láng giềng) phải chứa ít

nhất một số lượng tối thiểu các đối tuong (MinPts)

Một đối tượng nằm trong một bán kính cho trước (e) chứa nhiều hơn số lượng

tối thiểu các đối tượng lang giéng (MinPts), được gọi là đối tượng nồng cốt (core object) đối với bán kính () và số lượng tối thiểu các điểm (MinPts)

Một đối tượng p là mật độ trực tiếp tiến (directly đensity-reachable) từ đối tượng q với bán kính e và số lượng tối thiểu các điểm MinPts trong một tập các đối tượng D nếu p trong phạm vi e-láng giềng của q với q chứa ít nhất một số lượng tối

thiểu điểm MinPts

Một đối tượng p là mật độ tiến (đensity-reachable) từ đối tượng q với bán kính

e va MinPts trong một tập hợp các đối tượng D nếu như có một đối tượng p], p2,

,pn, pl=q và pn=p với 1 <i <n, pi D và pi+l là mật độ trực tiếp tiến từ pi đối với e và MinPts

DBSCAN có thể tìm ra các cụm với hình thù bắt kỳ trong khi đó tại cùng một

thời điểm ít bị ảnh hưởng bởi thứ tự của các đối tượng đữ liệu nhập vào Khi có một

Trang 36

đối tượng được chèn vào chỉ tác động đến một láng giéng xac dinh Mat khac, DBSCAN st dung tham số e và MinPts trong thuật toán để kiểm soát mật độ của

các cụm DBSCAN bắt đầu với một điểm tuỳ ý và xây dựng mật độ láng giềng có thê được đối với e và MinPts Vì vậy, DBSCAN yêu cầu người đùng xác định bán kính e của các láng giềng và số các láng giêng tối thiéu MinPts, các tham số này khó mà xác định được tối ưu, thông thường nó được xác định bằng phép chọn ngẫu

nhiên hoặc theo kinh nghiệm

Độ phức tạp của DBSCAN là O(#?) nhưng nếu áp đụng chỉ số không gian để giúp xác định các láng giềng của một đối tượng đữ liệu thì độ phức tạp của

DBSCAN đã được cải tiến là O(nlogn)

Thuật toán DBSCAN:

Thuật toán DBSCAN: Độ phức tạp O(n’)

BI: chọn ngẫu nhiên đối tượng p

B2: tìm tất cả các đối tượng có mật độ có thể đạt được từ p theo Eps, MinPts

B3: nếu p là đối tượng nòng cốt thì hình thành nhóm

Nếu pla déi tượng biên (không có đối tượng nào là đối tượng có mật độ đạt

được từ p) thì DBSCAN xem xét đôi tượng tiệp theo trong CSDL B4: tiếp tục cho đến khi tất cả các đối tượng đều được xử lý Nhận xét DBSCAN:

Ưu điểm:

Làm việc tốt với dữ liệu nhiễu

Có thể giải quyết các trường hợp các nhóm có hình dáng và kích thước khác nhau

Nhược điểm:

Gặp vấn để khi các nhóm có mật độ khác nhau Độ phức tạp cao đối với dữ liệu nhiều chiều

Trang 37

2.4.2 Thuật toán PAM

Ý tưởng của k-medodis lấy một đối tượng đại diện trong cụm, gọi là medoid,

nó là điểm đại diện được định vị trung tâm nhất trong cụm Do vậy, phương pháp

phân chia vẫn được thực hiện dựa trên nguyên tắc tối thiểu hố tổng các độ khơng tương đồng giữa mỗi đối tượng với điểm tham khảo tương ứng của nó, điểm này thiết lập nên cơ sở của phương pháp k-mediods

Giai thuat PAM (Partition Around Mediods), day la giai thuat phan cum kiéu

k-mediods Nó tìm k cụm trong n đối tượng bằng cách trước tiên tìm một số đối

tượng đại diện (medoid) cho mỗi cụm Tap các medoid ban đầu được lựa chọn tuỳ

ý Sau đó nó lặp lại thay đổi một trong số medoid bằng một trong số cái không phải medoid miễn là tổng khoảng cách của kết quả phân cụm được cải thiện [4]

Giải thuật thử xác định k phần phân chia cho n đối tượng Sau khi lựa chọn được k-medoids ban đầu, giải thuật lặp lại việc thử để có một sự lựa chọn các

medoid tốt hơn bằng cách phân tích tất cả các cặp đối tượng có thê để một đối tượng là medoid và đối tượng kia thì không phải Phép đo chất lượng phân cụm

được tính cho mỗi sự kết hợp như vậy Lựa chọn các điểm tốt nhất trong một lần lặp được chọn với tư cách là các medoid cho lần lặp tiếp theo Độ phức tạp cho một lần

lặp don 1a O(k(n - k)), với độ phức tạp như trén khong thich hop cho phân cụm dữ

liệu có số lượng n lớn và số cụm cân chia là nhiễu

Thuật toán PAM bao gồm các bước cơ bản sau: Đầu vào: Số cụm k và một CSDL chứa n đối tượng

Trang 38

4 Tính hàm mục tiêu (tổng các độ đo tương đồng của tất cả các đối trong tới medoid gần nhất của chúng)

5 Đồi međoid x bằng một đối tượng y nếu như việc thay đổi này làm giảm

hàm mục tiêu

6 Until: không có sự thay đổi nào

Kết thúc

Khi có sự hiện diện của nhiễu và các phần tử ngoại lai, phương pháp m- medoids xử lý tốt, medoid ít bị ảnh hưởng hơn bởi các phần tử ngoại lai hay các giá trị ở rất xa khác nữa Tuy nhiên, xứ lý tốn nhiều thời gian

2.4.3 Thuật toán K-Means

K - Means là thuật toán phân cụm mà định nghĩa các cụm bởi trung tâm của

các phần tử Phương pháp này dựa trên độ đo khoảng cách của các đối tượng dữ

liệu trong cụm Nó được xem như là trung tâm của cụm Như vậy, nó cần khởi tạo

một tập trung tâm các trung tâm cụm ban đầu và thông qua đó nó lặp lại các bước gồm gán mỗi đối tượng tới cụm mà trung tâm gần nhất, và tính toán tại trung tâm của môi cụm trên cơ sở gán mới cho các đôi tượng

K-Means là thuật toán rất quan trọng và được sử dụng phô biến trong kỹ thuật phân cụm Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối

tượng (obJects) đã cho vào K cụm (K là số các cụm được xác đỉnh trước, K nguyên

Trang 39

Seed 1 v Xi

Hinh 2 9 Cac thiét lap để xác định ranh giới các cụm ban đầu

Trong phương pháp K - Means, chọn một giá trị k và sau đó chọn ngẫu nhiên k trung tâm của các đối tượng dữ liệu Tính toán khoảng cách giữa đối tượng dữ

liệu trung bình mỗi cụm để tìm kiếm phan tử nào là tương tự và thêm vào cụm đó

Từ khoảng cách này có thể tính toán trung bình mới của cụm và lặp lại quá trình

cho đến khi hàm mục tiêu hội tụ

Thuật toán K - Means là sinh k cụm dữ liệu {C;, C, C, } từ một tập dữ liệu chứa n đối tượng trong không gian d chiều X, = {X„, 71? X,, ,X„„},¡= lzn, sao

cho hàm mục tiêu E:

B= YF ye eae? tt 2xeG | 7 đạt giá trị tối thiểu ek

Trong đó: ø, là trọng tâm của cum C,

Trọng tâm của cụm là một vectơ, trong đó giá trị của mỗi thành phần của nó là

trung bình cộng của các thành phần tương ứng của các đối tượng vectơ dữ liệu

trong cụm đang xét Tham số đầu vào của thuật toán là số cụm k, và tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu Độ đo khoảng cách D giữa các

đối tượng dữ liệu thường được sử dụng là khoảng cách Euclidean

Trang 40

Khoảng cách Euclidean: N Dặ,jJ)= 2 Wie — Xjul? k=l Trong đó: 1 = (xị, x„) và J = (x„, x„) là 2 điểm trong khơng gian N chiều Thuật tốn K - Means thực hiện qua các bước cơ bản như sau: š 1 OK os x k Dau vao: s6 cum k va các trong tam cum {mj} j=1

Đầu ra: các cụm C/i] (1<i <k) và hàm tiêu chuẩn E đạt giá trị tối thiểu Phương pháp:

Bước 1: Khởi tạo

Chọn k trọng tâm {m,}7= ban đầu trong không gian |đ| (2 là số chiều của đữ

liệu) Việc lựa chọn này có thể là ngau nhiên hoặc theo kinh nghiệm Bước 2: Lặp lại

Tính toán khoảng cách D

Đối với mỗi điểm X; (¡<¿ <#), tính toán khoảng cách của nó tới mỗi trọng tâm my (I<7 <k) Sau đó tìm trọng tâm gần nhất đối với mỗi điểm và nhóm chúng vào các nhóm gần nhất

Bước 3: Cập nhật lại trọng tâm

Đối với mỗi l< 7 < k, cập nhật trọng tâm cụm mị bằng cách xác định trung bình cộng các vectơ đối tượng dữ liệu

Bước 4: Gán lại các điểm gần trung tâm nhóm mới

Tiêu đề	Ứng Dụng Phân Cụm Dữ Liệu Vào Việc Đánh Giá Giảng Viên Tại Trường Đại Học An Giang
Tác giả	Nguyễn Thị Thu Thảo
Người hướng dẫn	TS. Hoàng Thị Lan Giao
Trường học	Trường Đại học Khoa học - Đại học Huế
Chuyên ngành	Khoa học máy tính
Thể loại	luận văn thạc sĩ
Năm xuất bản	2018
Thành phố	Thừa Thiên Huế

Định dạng
Số trang	71
Dung lượng	27,38 MB