Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu giáo dục gia tăng

Tiến hành thực nghiệm cho bài toán gom cụm dữ liệu gia tăng cho dữ liệu giáo dục trong học chế tín chỉ với các giải thuật K-Means và DBSCAN.. Tiến hành thực nghiệm cho bài toán gom cụm d

Giới thiệu đề tài

Lý do nghiên cứu

Với lượng dữ liệu tăng nhanh và khổng lồ như vậy, rõ ràng các phương pháp phân tích dữ liệu truyền thống sẽ không còn hiệu quả, gây tốn kém và dễ dẫn đến những kết quả sai lệch Để có thể khai phá hiệu quả các cơ sở dữ liệu (CSDL) lớn, một lĩnh vực khoa học mới ra đời: Khám phá tri thức trong CSDL (Knowledge Discovery in

Databases – KDD) Khai phá dữ liệu (Data Mining) là một công đoạn chính trong quá trình KDD

Trong những năm gần đây, khai phá dữ liệu được ứng dụng trong rất nhiều lĩnh vực như: thương mại điện tử, viễn thông, thể thao, y tế, thiên văn học, đầu tư… Đặc biệt là đối với giáo dục, khai phá dữ liệu trong lĩnh vực này được gọi là Khai phá Dữ liệu Giáo dục (Educational Data Mining –EDM) EDM là quá trình chuyển đổi dữ liệu thô của hệ thống giáo dục thành các thông tin hữu ích, được dùng cho việc ra quyết định cũng như trả lời các câu hỏi nghiên cứu trong lĩnh vực giáo dục [4] Một trong những bài toán được đề cập nhiều trong khai phá dữ liệu giáo dục là bài toán gom cụm dữ liệu [13]

Hiện nay, việc học theo hệ thống tín chỉ trở nên phổ biến trong các trường cao đẳng, đại học ở nước ta Vì thế, việc gom cụm dữ liệu giáo dục sẽ cung cấp cho giáo viên bản chất của nhóm sinh viên, từ đó có những yêu cầu, hướng dẫn, hỗ trợ thích hợp cho từng nhóm sinh viên

Bên cạnh đó, dữ liệu về quá trình học tập của các sinh viên ngày càng gia tăng theo thời gian Việc tiến hành gom cụm trên tập dữ liệu gia tăng này cũng là 1 vấn đề cấp thiết Nó thể hiện quá trình thay đổi trong học tập của sinh viên Từ đây, giáo viên có những điều chỉnh trong quá trình dạy học phù hợp hơn với sinh viên

Chính vì vậy, việc gom cụm dữ liệu giáo dục và gom cụm dữ liệu giáo dục gia tăng rồi đánh giá chất lượng cụm nhằm tìm ra các cụm có chất lượng tốt phục vụ cho quá trình dạy và học là cần thiết đối với hệ thống giáo dục theo tín chỉ.

Mục đích nghiên cứu

Hiện nay, có rất nhiều giải thuật gom cụm dữ liệu và việc lựa chọn giải thuật nào thích hợp cho việc gom cụm dữ liệu và gom cụm dữ liệu gia tăng trong giáo dục cũng là 1 vấn đề cần quan tâm

Chính vì vậy, đề tài chúng tôi hướng tới việc lựa chọn giải thuật thích hợp cho dữ liệu giáo dục bằng cách so sánh, đánh giá chất lượng gom cụm sau khi thực hiện

2 gom cụm dữ liệu và gom cụm dữ liệu gia tăng bằng 2 giải thuật khác nhau là K- Means và DBSCAN

Lí do chúng tôi chọn K-Means là bởi vì thuật toán này đơn giản, và có rất nhiều công trình gom cụm dữ liệu đã sử dụng giải thuật này hoặc cải tiến của nó Tuy nhiên, nhược điểm của giải thuật K-Means là không phát hiện ra các phần tử khác biệt so với số đông các phần tử còn lại Để khắc phục nhược điểm này, chúng tôi sẽ sử dụng giải thuật DBSCAN nhằm phát hiện các phần tử khác biệt đó Điều này rất quan trọng, đặc biệt là trong lĩnh vực giáo dục Việc phát hiện ra các sinh viên có trình độ khác biệt so với phần đông các sinh viên còn lại giúp giảng viên quan tâm hơn tới các sinh viên này, nhằm đưa ra phương pháp giảng dạy thích hợp, hỗ trợ các em tốt hơn trong quá trình học tập.

Phạm vi nghiên cứu

Bên cạnh đó, việc xác định tham số k cho thuật toán K-Means, tham số minpoint và eps cho thuật toán DBSCAN một scách tự động cũng không được xem xét tới.

Quy trình nghiên cứu

o Input: là tập dữ liệu gốc đã được tiến hành gom cụm và tập dữ liệu gia tăng chứa các thuộc tính về điểm của sinh viên o Output: là các cụm sinh viên có chất lượng cao

Bước 1: tiến hành gom cụm dữ liệu gia tăng với thuật toán DBSCAN gia tăng

Bước 2: bên cạnh đó cũng sử dụng thuật toán K-Means gia tăng để tiến hành gom cụm dữ liệu gia tăng

Bước 3: ứng với quá trình gom cụm theo từng thuật toán, sẽ tiến hành đánh giá kết quả gom cụm dựa trên 2 độ đo là Dunn và Silhouette Bước 4: dựa trên 2 độ đo ở trên và các tiêu chí khác để so sánh chất lượng gom cụm dữ liệu gia tăng

Cơ sở lý thuyết

Gom cụm trong khai phá dữ liệu

Sự tương tự / không tương tự giữa các đối tượng thường được biểu diễn qua độ đo khoảng cách d(x,y) và độ đo khoảng cách này được tính tùy thuộc vào kiểu dữ liệu của đối tượng [7].

Các kiểu dữ liệu và độ đo tương tự

Quy tắc này phải thỏa mãn các tính chất sau:

 𝑑(𝑥, 𝑦) ≤ 𝑑(𝑥, 𝑧) + 𝑑(𝑧, 𝑦) 2.2.1 Thuộc tính có kiểu trị-khoảng (interval-scaled)

Nếu thuộc tính có kiểu trị-khoảng thì sau khi chuẩn hóa độ đo phi tương tự được tính theo các khoảng cách sau:

 Khoảng cách Manhattan 𝐷 𝑖𝑗 =(∑ 𝑑 𝑙=1 |𝑥 𝑖𝑙 − 𝑥 𝑗𝑙 | ) (1.3) 2.2.2 Thuộc tính có kiểu nhị phân (Binary)

Nếu đối tượng có kiểu nhị phân thì độ tương tự được tính như sau:

4 Bảng 1: Công thức tính độ tương tự của thuộc tính có kiểu nhị phân Đối tượng j Đối tượng i

 Hệ số so trùng đơn giản (nếu đối xứng) 𝑑(𝑖, 𝑗) = 𝑏+𝑐

 Hệ số so trùng Jaccard (nếu bất đối xứng) 𝑑(𝑖, 𝑗) = 𝑏+𝑐

2.2.3 Thuộc tính có kiểu Categorical Bao gồm thuộc tính có kiểu định danh (Nominal scale) và thuộc tính có kiểu thứ tự (Ordinal scale) Đối với thuộc tính có kiểu định danh thì hàm khoảng cách được tính theo công thức 𝑑(𝑥, 𝑦) = 𝑝−𝑚

𝑝 (1.6) trong đó p là tổng số các thuộc tính và m là số thuộc tính đối sánh trùng nhau Đối với thuộc tính có kiểu thứ tự thì độ đo phi tương tự giữa các đối tượng được thực hiện như sau Giả sử I là thuộc tính thứ tự có Mi giá trị:

Các trạng thái Mi được sắp thứ tự [1 Mi], thay thế mỗi giá trị của thuộc tính bằng giá trị cùng loại ri với ri ∈ {1, ,Mi}

Mỗi thuộc tính thứ tự có các miền giá trị khác nhau, vì vậy chuyển chúng về miền giá trị [0,1] bằng cách thực hiện phép biến đổi theo công thức sau:

2.2.4 Thuộc tính có kiểu khoảng-tỉ lệ (ratio-scaled)

Nếu đối tượng có kiểu khoảng –tỉ lệ thì sử dụng biến đổi thuộc tính xi thành qi theo công thức sau: 𝑞 𝑖 = log 𝑥 𝑖 (1.8)

2.2.5 Thuộc tính có kiểu hỗn hợp (mixed typed) Nếu đối tượng có kiểu nhị phân thì độ tương tự được tính như sau:

 Nếu xif hoặc xjf bị thiếu (missing) thì 𝛿 𝑖𝑗 (𝑓) = 0

 Nếu f có kiểu binary (nominal): 𝑑 𝑖𝑗 (𝑓) = 0 𝑛ế𝑢 𝑥 𝑖𝑓 = 𝑥 𝑗𝑓 , ngược lại 𝑑 𝑖𝑗 (𝑓) = 1

 Nếu f có kiểu interval-scaled sử dụng độ đo Minkowski (1.1), Manhattan (1.3), Euclidean (1.2)

 Nếu f có kiểu ordinal hoặc ratio-scaled

Quy trình gom cụm dữ liệu

Hình 1: Quy trình gom cụm dữ liệu [14]

Thủ tục gom cụm có 4 bước cơ bản sau: o Khai thác hoặc lựa chọn thuộc tính (Feature Selection or Extraction): Mỗi đối tượng có nhiều thuộc tính, tuy nhiên không nhất thiết phải sử dụng tất cả các thuộc tính này Ta có thể chọn ra các thuộc tính đặc trưng của đối tượng hoặc có thể sử dụng 1 số biến đổi để tạo ra các thuộc tính hữu ích cho quá trình gom cụm dữ liệu o Lựa chọn hoặc thiết kế thuật toán gom cụm (Clustering Algorithm Design or Selection): kết hợp với việc lựa chọn độ đo tương tự giữa các đối tượng Việc lựa chọn độ đo này sẽ ảnh hưởng trực tiếp tới sự hình thành các cụm kết quả cũng như ảnh hưởng tới việc lựa chọn thuật toán o Xác nhận cụm (Clusters Validation): Với 1 tập dữ liệu, mỗi thuật toán phân cụm luôn có thể tạo ra sự phân chia cụm, tuy nhiên với mỗi cách tiếp cận khác nhau sẽ dẫn đến kết quả là các cụm khác nhau Ngay cả với cùng 1 thuật toán, việc xác định tham số hoặc các mẫu đầu vào cũng có thể ảnh hưởng tới kết quả cuối cùng Vì vậy, các tiêu chí cũng như các tiêu chuẩn đánh giá hiệu quả là rất quan trọng để cung cấp cho người dùng các kết quả đáng tin cậy

Những đánh giá này cần phải khách quan và không thiên vị thuật toán nào o Giải thích kết quả (Results Interpretation): Mục tiêu cuối cùng của phân cụm là cung cấp cho người dùng những hiểu biết ý nghĩa từ dữ liệu gốc, để họ có thể giải quyết hiệu quả các vấn đề gặp phải Để đảm bảo độ tin cậy của tri thức thì các chuyên gia trong nhiều lĩnh vực liên quan cần giải thích các phân vùng dữ liệu, phân tích sâu hơn, thậm chí là thí nghiệm

Clustering Algorithm Design or Selection

Các giải thuật gom cụm

2.4.1 Giải thuật K-Means Giới thiệu thuật toán:

Thuật toán K-Means được MacQueen giới thiệu vào năm 1967 [8] Sử dụng độ đo khoảng cách Euclidean theo công thức (1.2)

Tập dữ liệu D và số lượng cụm k

Tập các đối tượng trong k cụm

B1: Với k cụm ta chọn ngẫu nhiên k trọng tâm của k đối tượng trong D

B2: Tính khoảng cách từ các đối tượng còn lại tới k trọng tâm

B3: Tìm đối tượng tương tự nhất với k trọng tâm, gom chúng thành các cụm

Tính lại trọng tâm cụm mới

B4: Lặp lại B2 và B3 cho đến khi các trọng tâm của cụm không còn thay đổi Ưu điểm:

 Giải thuật có độ phức tạp là O(𝑛𝑘𝑡) với n là số đối tượng, k là số cụm và t là số vòng lặp nên thời gian chạy thuật toán là nhanh chóng và tương đối hiệu quả

 Cho kết quả tốt khi tập dữ liệu khác biệt hoặc tách rời nhau

 Số cụm k được xác định từ đầu bởi người dùng

 Bị ảnh hưởng bởi các phần tử nhiễu

 Không phù hợp cho việc khai phá ra các cụm có hình dạng không lồi hay các cụm có kích thước rất khác nhau

2.4.2 Giải thuật DBSCAN Giới thiệu thuật toán:

Thuật toán DBSCAN được đề xuất bởi Ester, P Kriegel, J Sande và X Xu vào năm 1996 [9]

Một vài khái niệm liên quan: o 𝜀 : bán kính của vùng láng giềng của một đối tượng, gọi là 𝜀 − neighborhood o MinPts : số lượng đối tượng tối thiểu được yêu cầu trong 𝜀 − neighborhood của một đối tượng o Core object : nếu đối tượng có 𝜀 − neighborhood với MinPts thì đối tượng này được gọi là đối tượng lõi

7 o Directly density-reachable (khả năng đạt được trực tiếp) : q có thể đạt được trực tiếp từ p nếu q nằm trong vùng láng giềng 𝜀 − neighborhood của p và p phải là đối tượng lõi o Density-reachable (khả năng đạt được) : q có khả năng đạt được từ p nếu tồn tại chuỗi các đối tượng 𝑝 1 , … , 𝑝 𝑛 với 𝑝 1 = 𝑝 và 𝑝 𝑛 = 𝑞 sao cho 𝑝 𝑖+1 có khả năng đạt được trực tiếp từ pi theo các thông số 𝜀 và MinPts với 1 ≤ i ≤ n o Cụm dựa trên mật độ (density based cluster): tập tất cả các đối tượng được nối kết với nhau dựa trên mật độ o Đối tượng thuộc về cụm có thể là core object Nếu đối tượng đó không là core object thì gọi là đối tượng ranh giới (border object) o Đối tượng không thuộc về cụm nào được xem là nhiễu (noise/outlier) Input:

Tập đối tượng D, ε và MinPts Output:

Cụm dựa trên mật độ (và noise/outliers) Giải thuật:

B1: Xác định ε –neighborhood của mỗi đối tượng p  D

B2: Nếu p là core object, tạo được một cluster

B3: Từ bất kì core object p, tìm tất cả các đối tượng density-reachable và đưa các đối tượng này (hoặc các cluster) vào cùng cluster ứng với p

B3.1: Các cluster đạt được (density-reachable cluster) có thể được trộn lại với nhau

B3.2: Dừng khi không có đối tượng mới nào được thêm vào Ưu điểm:

 Khai phá các cụm có hình dạng và kích thước khác nhau

 Không cần xác định số cụm k từ đầu

 Có khả năng phát hiện các phần tử nhiễu và các phần tử biên

Đánh giá kết quả gom cụm dữ liệu

2.5.1 Tiêu chí đánh giá kết quả gom cụm Có 2 tiêu chí đánh giá kết quả gom cụm [7]: o Độ nén (compactness): các đối tượng trong cụm nên gần nhau o Độ phân tách (separation): các cụm nên xa nhau

8 2.5.2 Độ đo đánh giá kết quả gom cụm

Có 3 độ đo đánh giá kết quả gom cụm là: độ đo đánh giá nội, độ đo đánh giá ngoại và độ đo đánh giá tương đối [14] Tuy nhiên, trong phạm vi đề tài chỉ sử dụng độ đo đánh giá nội

Bảng 2 : Các độ đo đánh giá nội [17] Độ đo Kí hiệu Công thức Giá trị tối ưu Root- mean- square std dev

Xie-Beni XB [∑ ∑ 𝑖 𝑥∈𝐶 𝑖 𝑑 2 (𝑥, 𝑐 𝑖 )]/[n𝑚𝑖𝑛 𝑖,𝑗≠𝑖 𝑑 2 (𝑐 𝑖 , 𝑐 𝑗 )] Min SD validity SD 𝐷𝑖𝑠(𝑁𝐶 𝑚𝑎𝑥 )𝑆𝑐𝑎𝑡(𝑁𝐶) + 𝐷𝑖𝑠(𝑁𝐶)) Min S_Dbw validity

Cụ thể, trong phạm vi đề tài sử dụng 2 độ đo đánh giá nội là Dunn và Silhouette nhằm đánh giá kết quả sau khi gom cụm dữ liệu gia tăng

Tổng quan về các công trình liên quan

Các công trình liên quan đến gom cụm dữ liệu giáo dục

tài Đặc điểm tập dữ liệu Giải pháp thực hiện

Kết quả đạt được Nhận xét

[1] Dữ liệu của khoảng 860 sinh viên của trường Đại học Sysney từ năm 2001, được thu thập thông qua công cụ Logic-ITA trên web của trường

Tập dữ liệu có 7 thuộc tính: login, qid, mistake, rule, line, startdate, finishdate, được lưu trong 2 bảng

Means Độ đo khoảng cách:

Các sinh viên với số lần mắc sai lầm khi giải bài tập tương tự nhau sẽ được chia làm 3 cụm

Sinh viên càng sử dụng nhiều quy tắc logic thì càng mắc nhiều sai lầm

Bên cạnh đó, sinh viên làm nhiều bài tập thì càng mắc ít sai lầm hơn các sinh viên khác

Cung cấp cho Giáo viên thông tin hữu ích trong việc cải thiện khả năng học tập của sinh viên

[2] Dữ liệu được thu thập từ sinh viên khoa ứng dụng máy tính (B.C.A) của trường cao đẳng B.J, Ale từ tháng 11 năm 2012

Sau khi thu thập dữ liệu, tác giả tiến hành gom cụm và kết quả là thu được mô hình gom cụm có chất lượng tốt với số cụm lần lượt là 2, 3 và 6

Các thông tin thu thập được sau quá trình khai phá dữ liệu đã giúp ích cho nhà quản lí giáo dục cũng như giáo viên trong việc hỗ

11 trợ quá trình học tập của sinh viên

[5] Dữ liệu được thu thập từ

200 sinh viên vừa tốt nghiệp khoa Kỹ thuật

(FE), gồm 4 chuyên ngành Kỹ thuật điện (EE), Máy tính và kỹ thuật truyền thông (CCE), Khoa học Tự nhiên và khoa học ứng dụng

(FNAS), Khoa học máy tính thuộc trường đại học Notre Dame Louaize (Lebanon) Tuy nhiên, sau khi xử lí dữ liệu thì chỉ còn 73 bản ghi

Mô tả dữ liệu: Điểm trung bình của các khóa học:

Số lượng cụm xác định ban đầu là 2, 3 và 4 Tuy nhiên với k = 3 thì xác định rõ ràng: các sinh viên có điểm trung bình cao trong các khóa học tiếng Anh thì có khả năng đạt được điểm trung bình các môn học chính khóa cao

Cung cấp công cụ hỗ trợ việc dự đoán cũng như định hướng nhằm nâng cao kết quả học tập của sinh viên Tuy nhiên tập dữ liệu còn tương đối nhỏ nên ảnh hưởng tới chất lượng mô hình

[6] Dữ liệu của học viên tham gia dự án phát triển phần mềm khi làm việc nhóm dựa trên công cụ TRAC Dữ liệu được thu thập trong 3 học kì từ năm 2005 đến 2006, với khoảng 15000 sự kiện

Means Độ đo khoảng cách:

Từ tập dữ liệu thu thập được, tác giả chia ra 3 hướng để gom cụm:

Hướng 1: cá nhân Kết quả có 4 nhóm

Hướng 2: hoạt động theo nhóm dựa trên công cụ

TRAC Kết quả có 3 nhóm Đã cung cấp cho nhà quản lí nhiều thông tin hữu ích trong việc tổ chức hoạt động nhóm, cũng như hình thành các mô hình nhóm

Hướng 3: hoạt động theo nhóm dựa trên việc gán nhãn

Kết quả có 3 nhóm với 8 thuộc tính [11] Dữ liệu của sinh viên tốt nghiệp thuộc 24 khoa của trường Đại học Khoa học và Công nghệ

Khanyounis trong 15 năm từ 1993 đến 2007

Tập dữ liệu chứa 3360 bản ghi và có 18 thuộc tính (chỉ chọn 6 thuộc tính để gom cụm dữ liệu:

Gender, Speciality, City, Matriculation_GPA, Secondary_School_Type, Grade)

Có 4 cụm được tìm ra và giá trị cụ thể của các cụm theo thứ tự các thuộc tính: giới tính, điểm đầu vào đại học, loại trường trung học, nơi sinh, chuyên ngành và điểm số học tập như sau:

Cụm 1: nam, thấp, Adabi, Khanyounis, quản trị kinh doanh, trung bình

Khai phá tri thức để hỗ trợ cải thiện hiệu suất học tập của các sinh viên

Tuy nhiên cần mở rộng số thuộc tính đặc biệt để có độ chính xác cao hơn

Khanyounis, kế toán, trung bình

Cụm 4: Nữ, thấp, Adabi, Khanyounis, quản trị tài chính ngân hàng, trung bình

[12] Dữ liệu thu thập được từ

200 sinh viên tham gia 20 khóa học khác nhau về khoa học máy tính được đào tạo từ xa thuộc khoa Khoa học máy tính, Đại học Joensuu

Chương trình Virtual Approbatur cung cấp cho sinh viên các bài tập khác nhau, đòi hỏi ở sinh viên nhiều kĩ năng Từ đó thu thập dữ liệu với 15 thuộc tính như: ID, Bas, Var, Oper, If, Rep, Arr, Met, App, OO, Ani, Even, Data, Java, Points

Giải thuật ứng dụng: EM

Kết quả thu được 5 cụm

Tương ứng với mỗi cụm là tổng hợp kỹ năng của sinh viên ở các mức khác nhau

Cung cấp cho chương trình đào tạo từ xa nhưng thông tin hữu ích về kỹ năng của sinh viên, từ đó cung cấp cho người học các bài tập phù hợp với năng lực, bên cạnh đó cũng củng cố các kỹ năng còn thiếu nhằm nâng cao trình độ của người học

[15] Dữ liệu thu thập được từ

722 sinh viên của Đại học Maltepe trong năm 2003

Mô tả dữ liệu: có nhiều thuộc tính, tuy nhiên sau

Means với độ đo khoảng

Lần lượt gom cụm dữ liệu với các giá trị k khác nhau và kết quả là với

Việc sử dụng các kỹ thuật gom cụm dữ liệu trong giáo dục đã

14 khi rút trích thuộc tính đặc trưng thì 5 thuộc tính được chọn là:

AreaPointPercent, SuccessGrade, SexCode, HighSchoolTypeID và FacultyID cách Euclidian k = 5 thì chất lượng cụm là tốt nhất cung cấp cho GV những phát hiện đa dạng và có ý nghĩa Từ đó có những giải pháp thích hợp cho việc phát triển chất lượng giáo dục

[16] Dữ liệu được thu thập từ phiếu khảo sát trực tuyến của các sinh viên thuộc khoa kinh tế và quản trị kinh doanh Cluj-Napoca

Bên cạnh đó còn thu thập dữ liệu từ khoa, chẳng hạn như CSDL về tình hình học tập của sv

Mô tả dữ liệu: giới tính, trường trung học, tình hình học tập, học bổng, nghỉ học, bỏ thi, học phí, ý kiến của sv về các khóa học, tài liệu, giáo trình, giảng viên, phòng thực hành,…

FarthestFirst dựa trên nền tảng thuật toán k-means

Xác định được 2 cụm: cụm 1 với tất cả các sinh viên vượt qua tất cả các môn học Cụm 2 gồm những sinh viên rớt ít nhất 1 môn Đã cung cấp cho các nhà quản lí giáo dục sự hiểu biết tốt hơn về quá trình học tập của sinh viên, ý kiến của các sinh viên về phương pháp cũng như phương tiện dạy học, từ đó đưa ra các biện pháp hỗ trợ sv, nâng cao khả năng và kết quả học tập của sv

 Các công trình nghiên cứu chưa đề cập tới vấn đề dữ liệu gia tăng theo thời gian

 Đa số các công trình nghiên cứu chỉ tiến hành xem xét sinh viên trong 1 vài môn cụ thể, hoặc 1 nhóm sinh viên tương tác trên hệ thống e – learning

 Đa phần các bài toán đều sử dụng thuật toán K-Means hoặc cải tiến của

 Sau khi tiến hành gom cụm, các công trình này cũng chưa đề cập tới vấn đề đánh giá chất lượng gom cụm.

Các công trình liên quan đến gom cụm dữ liệu gia tăng

3.2.1 Incremental Clustering for Mining in a Data Warehousing Environment Công trình này [10] đưa ra giải pháp cho việc gom cụm dữ liệu gia tăng, đồng thời đánh giá hiệu suất của giải thuật gom cụm dữ liệu gia tăng so với thuật toán

 Tập dữ liệu Trong công trình này, nhóm tác giả sử dụng 2 tập dữ liệu o Tập dữ liệu 1: chứa 1.000.000 đối tượng điểm trong không gian 2 chiều với 40 cụm có kích thước tương đương Bên cạnh đó, tập dữ liệu này chứa 21.7 % đối tượng nhiễu o Tập dữ liệu 2: chứa 1.400.000 tệp nhật ký truy cập cá nhân của Viện Khoa học máy tính của Đại học Munich

Khi một đối tượng mới được thêm vào thì đối tượng này được xem xét đưa vào 1 trong 4 trường hợp sau: o TH1: Đối tượng mới thêm vào là đối tượng nhiễu o TH2: Đối tượng mới thêm vào tạo cụm chỉ chứa các đối tượng nhiễu o TH3: Đối tượng mới thêm vào bị hấp thụ vào 1 cụm có sẵn o TH4: Đối tượng mới thêm vào tạo cụm mới, và cụm mới này sẽ được gộp với các cụm khác

 Kết quả o Nhóm tác giả chỉ thực hiện so sánh hiệu suất của giải pháp đưa ra so với giải thuật DBSCAN truyền thống o Không đề cập tới kết quả gom cụm cũng như chất lượng gom cụm

3.2.2 Dynamic Incremental K-means Clustering Công trình này [3] đưa ra giải pháp gom cụm dữ liệu gia tăng dựa trên ý tưởng của giải thuật K-Means truyền thống

 Tập dữ liệu Tập dữ liệu bao gồm 20.000.000 đối tượng điểm trong không gian 6 chiều với số cụm k = 20

 Giải pháp thực hiện o Chia tập dữ liệu ra làm 500 block, mỗi block chứa 40.000 đối tượng

Tiến hành gom cụm dữ liệu trên các block này o Đầu tiên, nhóm tác giả sử dụng giải thuật gom cụm dữ liệu K-Means truyền thống để tiến hành gom cụm dữ liệu block thứ 1 Sau đó, 20 trung tâm cụm được lưu lại và được xét như trung tâm cụm mới khi tiến hành gom cụm với block thứ 2 Quá trình này được lặp lại cho đến khi tiến hành gom cụm hết 500 block

Kết quả cho thấy, sự biến dạng của các block là khá ổn định và chỉ xoay quanh giá trị 180 Tuy nhiên, nhóm tác giả không đề cập tới chất lượng gom cụm

Giải pháp gom cụm dữ liệu gia tăng

Gom cụm dữ liệu gia tăng với thuật toán K-Means gia tăng

Input: Tập dữ liệu gia tăng, k cụm và k trọng tâm Output: Tập dữ liệu kết quả sau khi tiến hành gom cụm gia tăng Thuật toán:

Xem tập dữ liệu ban đầu là 1 block

B1: Tiến hành gom cụm trên block dữ liệu với thuật toán k-means

B2: Lưu lại trung tâm cụm

B3: Tiến hành gom cụm trên block dữ liệu gia tăng với trung tâm cụm đã được lưu lại trước đó

B4: Quay lại B2 cho đến khi gom cụm xong trên các block dữ liệu gia tăng còn lại

4.1.2 Quy trình Quy trình gom cụm dữ liệu và gom cụm dữ liệu gia tăng theo thuật toán K-Means và K-Means gia tăng được mô tả như hình sau:

19 Hình 3: Quy trình so sánh, đánh giá chất lượng gom cụm dữ liệu gia tăng theo thuật toán K-Means và K-Means gia tăng

Gom cụm dữ liệu với giải thuật K-Means

Gom cụm dữ liệu gia tăng với giải thuật K-

Sử dụng độ đo đánh giá nội đánh giá chất lượng cụm

So sánh, đánh giá chất lượng gom cụm dữ liệu gia tăng theo 2 thuật toán K-Means và K-Means gia tăng

Sử dụng độ đo đánh giá nội đánh giá chất lượng cụm

Input: f_in: là tập dữ liệu gia tăng f_cent: là tập dữ liệu chứa k trung tâm cụm ban đầu k : số cụm

Output: f_out: là tập dữ liệu sau khi tiến hành gom cụm dữ liệu gia tăng Procedure Apply_Kmean_Inc(String f_in, String f_out, String f_cent, int k) { boolean f = false; int c; double min; list_kq = ReadFile(f_in); fcent = ReadFile(f_cent); cent = Init(k, fcent); while(f=se) { for(int i=0;i

Tiêu đề	Gom cụm dữ liệu giáo dục gia tăng
Tác giả	Tạ Minh Tuấn
Người hướng dẫn	TS. Võ Thị Ngọc Châu
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Khoa học Máy Tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2015
Thành phố	Tp.HCM

Định dạng
Số trang	71
Dung lượng	0,96 MB