Tiêu chuẩn đánh giá chất lƣợng phân cụm

Luận văn so sánh kết quả phân cụm của hai thuật toán MWKM và COOLCAT dựa trên 3 phƣơng pháp đánh giá tin cậy đƣợc áp dụng rộng rãi dƣới đây:

a) CU: Hàm hiệu dụng phạm trù (category utility (CU) function) [15, 17] là một tiêu chuẩn nội bộ để tối ƣu hóa đồng thời xác suất hai phần tử trong cùng một cụm có giá trị các thuộc tính giống nhau và xác suất hai phần tử khác cụm có giá trị các thuộc tính khác nhau. Biểu thức để tính toán giá trị kỳ vọng của hàm CU nhƣ sau:

( ) 2 ( ) 2 1 1 1 [ p ( a |c ) - p ( a ) ] j n k m l q q j l j l j q c C U n        Trong đó: ( ) ( ) ( jq | l) | { x \f(x , a ) = ai i j jq , xi c } | / |l l | P a c   c là xác xuất để 1 phần tử xi ở trong cụm l có thuộc tính thứ j = (q) j a ( ) ( ) ( jq ) | { x \ f(x ,a ) = ai i j jq , xi U } | / P a   n l c là tập hợp các phần tử trong cụm thứ l.

Khi hàm hiệu dụng phạm trù có kết quả càng cao, sự phân cụm càng chính xác. b) ARI: Chỉ số thang điều chỉnh (adjusted rand index (ARI))[15, 17] là một tiêu chuẩn

một bộ dữ liệu. Cho tập U có n phần tử và hai nhóm (cụm) dữ liệu đƣợc ký hiệu là C = {c1,c2,…,ck} và P = {p1,p2,…, p’k}, sự nạp chồng giữa C và P có thể đƣợc tổng kết ở trong một bảng tiếp liên nhƣ sau:

Bảng 3.3: Bảng tiếp liên để so sánh hai phân cụm

C P Sums p1 p2 … p’k c1 n11 n12 … n1k’ b1 c2 n21 n22 … n2k’ b2 … … … … … … ck nk1 nk2 … nkk’ bk Sums d1 d2 … d’k

Ở đây nij ký hiệu số lƣợng phần tử chung của nhóm ci và nhóm pj: nij = cj  pj . Chỉ số thang điều chỉnh đƣợc định nghĩa nhƣ sau:

Cụ thể hơn: i j i j / 2 2 2 2 A R I 1 / 2 2 2 2 2 2 i j i j i j i j i j i j n b d n b d b d n                                                                              

Với nij, bi, dj là các giá trị đƣợc lấy từ bảng tiếp liên 3.2 ở trên. Nếu mỗi phần tử trong tập dữ liệu có chứa thuộc tính đƣợc gán nhãn, chúng ta sẽ ƣớc lƣợng kết quả phân cụm bằng cách sử dụng phƣơng pháp ARI này để so sánh với các nhãn phân cụm gốc ban đầu. Nếu kết quả phân cụm gần với phân cụm chuẩn, giá trị của ARI sẽ cao.

c) Hàm đo sự sai khác giữa hai bộ phân cụm ER (Set matching Error) [15, 17]: Phƣơng pháp này dựa trên việc đo lực lƣợng tập hợp chia sẻ chung giữa hai phân cụm. Tƣơng tự nhƣ phƣơng pháp thang điều chỉnh ở bên trên, kỹ thuật đối sánh tập hợp này là một tiêu chuẩn bên ngoài trong đó sử dụng thuộc tính gán nhãn cụm để đối sánh. Nó tính toán sự trùng khớp tốt nhất giữa các cụm từ từng cặp cụm và trả về giá trị tƣơng đƣơng với tổng số phần tử trùng khớp giữa các cặp cụm của hai phân cụm. Dạng thức đơn giản nhất của kỹ thuật đối sánh tập hợp này đƣợc gọi là lỗi đối sánh tập hợp, đƣợc định nghĩa nhƣ sau: ER = ' 1 ij 1 m a x 1 k k j i n n   

Các giá trị nij, k, k’ trong công thức này đƣợc lấy từ bảng 3.2. Nếu kết quả phân cụm sát với kết quả phân cụm chuẩn, giá trị ER sẽ nhỏ.

CHƢƠNG 4: KẾT QUẢ THỬ NGHIỆM 4.1. Giới thiệu

Những thí nghiệm này đƣợc thực hiện để làm rõ ƣu, nhƣợc điểm của hai thuật toán MWKM và Coolcat ứng với các bộ dữ liệu định danh khác nhau. Các hàm mục tiêu đánh giá chất lƣợng phân cụm là ba hàm đánh giá CU, ARI và ER. Giá trị hàm mục tiêu thay đổi đƣợc xem xét khi điều chỉnh tham số cụm.

4.2. Chƣơng trình và dữ liệu thử nghiệm 4.2.1. Chƣơng trình 4.2.1. Chƣơng trình

Chƣơng trình cài đặt hai thuật toán MWKM và Coolcat phân cụm dữ liệu đƣợc viết bằng ngôn ngữ C++ trong môi trƣờng C-Free 5.0 đƣợc chạy trên máy tính Intel core i5, 2.5 GHz, 4GB RAM.

Hình 4.2: Giao diện khi chạy chương trình

4.2.2. Dữ liệu thử nghiệm.

Trong 5 cơ sở dữ liệu luận văn dùng để thử nghiệm: CSDL đậu tƣơng, CSDL nấm, CSDL ung thƣ phổi và CSDL điều tra dân số của Mỹ 1990 đƣợc lấy từ UCI Machine Learning Repository. Cơ sở dữ liệu còn lại lấy từ thống kê về thuê bao di động phát sinh của thủ đô Hà Nội năm trƣớc.

Link thông tin về cơ sở dữ liệu đỗ tƣơng:

http://archive.ics.uci.edu/ml/datasets/Soybean+Small

http://archive.ics.uci.edu/ml/machine-learning-databases/soybean/soybean-small.names

Link thông tin về cơ sở dữ liệu nấm:

http://archive.ics.uci.edu/ml/datasets/Mushroom

Link thông tin về cơ sở dữ liệu điều tra dân số của Mỹ 1990

http://archive.ics.uci.edu/ml/datasets/US+Census+Data+%281990%29/ http://archive.ics.uci.edu/ml/machine-learning-databases/census1990-mld/

Link thông tin về cơ sở dữ liệu ung thƣ phổi:

http://archive.ics.uci.edu/ml/datasets/Lung+Cancer

http://archive.ics.uci.edu/ml/machine-learning-databases/lung-cancer/lung-cancer.names

Down dữ liệu chuẩn về CSDL này theo địa chỉ:

http://archive.ics.uci.edu/ml/machine-learning-databases/soybean/soybean-small.data http://archive.ics.uci.edu/ml/machine-learning-databases/lung-cancer/lung-cancer.data

a) Cơ dữ liệu đậu tƣơng: Cơ sở dữ liệu này chứa 47 bản ghi, mỗi bản ghi có 35

thuộc tính. Mỗi bản ghi đƣợc dán nhãn tƣơng ứng với một trong 4 bệnh dịch: Bệnh Diaporthe Stem, bệnh Charcoal, bệnh Rhizoctonia Root và bệnh Phytophthora. Ngoại trừ bệnh Phytophthora có 17 bản ghi, các bệnh dịch còn lại đều tƣơng ứng với 10 bản ghi.

b) Cơ sở dữ liệu nấm: Cơ sở dữ liệu này chứa 8124 bản ghi, mỗi bản ghi có 22 thuộc tính. CSDL này đƣợc phân thành 2 cụm: Nấm an toàn và nấm độc. Cụm 1 có 4208 bản ghi, cụm 2 có 3916 bản ghi. Chúng tôi tiến hành thực nghiệm nhiều lần để xác định khả năng phân cụm của 2 thuật toán với số lƣợng bản ghi nhiều.

c) Cơ sở dữ liệu ung thƣ phổi: Cơ sở dữ liệu này chứa 32 bản ghi, mỗi bản ghi có

57 thuộc tính với thuộc tính đầu là thuộc tính gán nhãn ứng với một trong 3 nhóm ung thƣ phổi: Ung thƣ tuyến (một biến biểu mô ác tính), ung thƣ biểu mô tế bào có vảy, ung thƣ biểu mô tế bào nhỏ. 32 bản ghi này đƣợc phân thành 3 cụm: Cụm 1 có 9 bản ghi, cụm 2 có 13 bản ghi và cụm 3 có 10 bản ghi tƣơng ứng với các nhóm đã nêu ở trên.

d) Cơ sở dữ liệu thuê bao di động: Dữ liệu thử nghiệm là một cơ sở dữ liệu quan

hệ về Thuê bao di động phát sinh của thủ đô Hà Nội. Cơ sở dữ liệu gồm 3 bảng đƣợc mô tả nhƣ hình 4.3.

Hình 4.3: Mô hình quan hệ của dữ liệu thử nghiệm

Trong đó, bảng Huyen có quan hệ 1:n với bảng Thue_bao_phat_sinh và bảng

Khu_vuc có quan hệ 1:n với bảng Huyen.

Trong thử nghiệm này, bảng Huyen (có 28 bản ghi) là bảng đích và bảng

Thue_bao_phat_sinh (có 203 bản ghi) là bảng tham chiếu cần đƣợc tóm tắt dữ liệu. Mỗi bản ghi trong bảng Huyen liên kết với nhiều bản ghi trong bảng Thue_bao_phat_sinh

thông qua trƣờng Ma_huyen. Mỗi bản ghi trong bảng Thue_bao_phat sinh, ngoài khoá chính là STT và khoá ngoại là Ma_huyen, có 6 thuộc tính tƣơng ứng là số thuê bao phát sinh của loại gói cƣớc Economy, Sumo, Tomato, gói cƣớc cho học sinh sinh viên và nhóm các gói cƣớc khác.

e) Cơ sở dữ liệu điều tra dân số của Mỹ năm 1990: Cơ sở dữ liệu điều tra dân số

của Mỹ có 2.458.285 bản ghi với 68 thuộc tính, dung lƣợng tổng cộng 345MB. Bộ dữ liệu này kế thừa từ bộ dữ liệu thô USCensus1990. Chúng tôi tiến hành thực nghiệm 100 lần với mỗi lần là 10000 bản ghi trong tập dữ liệu này để xác định khả năng phân cụm với tập dữ liệu lớn nhiều bản ghi của 2 thuật toán.

4.3. Kết quả thử nghiệm

Các thí nghiệm đƣợc thực hiện nhiều lần với mỗi bộ test. Chƣơng trình chạy trên máy tính Intel core i5, 2.5 GHz, 4GB RAM cho kết quả nhƣ bảng 4.1, 4.2, 4.3, 4.4 và 4.5 và các hình 4.4, 4.5, 4.6 và 4.7. Trong đó, kết quả tốt nhất tƣơng ứng với hàm mục tiêu đạt giá trị cao nhất (CU và ARI) và nhỏ nhất (ER), thời gian chạy là thời gian của các lần chạy chƣơng trình. Ở đây tỷ lệ phân cụm lại của thuật toán Coolcat là m=20%. Các tham số của thuật toán MWKM lần lƣợt là β = 2, Tv=1, Ts=1. Luận văn so sánh kết quả phân cụm của 2 thuật toán này dựa trên 3 phƣơng pháp đánh giá tin cậy đƣợc áp dụng rộng rãi là CU, ARI và ER.

Với bộ dữ liệu đậu tƣơng, dữ liệu nấm và ung thƣ phổi, vì có dữ liệu chuẩn để đối sánh nên luận văn đã đƣa ra kết quả cả 3 hàm mục tiêu CU, ARI và ER. Do bộ dữ liệu thuê bao di động phát sinh và bộ dữ liệu điều tra dân số của Mỹ năm 1990 không chứa thuộc tính gán nhãn cụm để đối sánh nên luận văn chỉ đƣa ra kết quả hàm CU. Dƣới đây là toàn bộ các kết quả thu đƣợc khi chạy thực nghiệm hai thuật toán với các bộ dữ liệu nêu trên.

Bảng 4.1: Kết quả thử nghiệm với tập dữ liệu đậu tương

Thuật toán Tham số mỗi TT Giá trị hàm mục tiêu TB/ Tối ƣu Thời gian chạy CU ARI ER Coolcat m = 20% 5,252/5,455 0,838/0,936 0,06/0,021 337,3s MWKM β = 2 5,145/5,558 0,798/1 0,06/0 179,9s

Bảng 4.2: Kết quả thử nghiệm với tập dữ liệu nấm

Thuật toán Tham số mỗi TT Giá trị hàm mục tiêu TB/ Tối ƣu Thời gian chạy CU ARI ER Coolcat m = 20% 0,479/0,778 0,059/0,135 0,312/0,28 40497s MWKM β = 2 1,418/1,735 0,155/0,62 0,318/0,106 6706s

Bảng 4.3: Kết quả thử nghiệm với tập dữ liệu ung thư phổi Thuật toán Tham số mỗi TT Giá trị hàm mục tiêu Trung bình/ Cao nhất Thời gian chạy CU ARI ER Coolcat m = 20% 3,051/3,796 0,118/0,359 0,478/0,281 206,3s MWKM β = 2 3,460/4,112 0,097/0,242 0,419/0,156 168,3s

Bảng 4.4: Kết quả thử nghiệm với tập dữ liệu thuê bao di động phát sinh của thủ đô Hà Nội với số cụm K biến thiên

Thuật toán Tham số mỗi TT

Số cụm

Giá trị hàm mục tiêu CU

Trung bình/ Cao nhất Thời gian chạy

Coolcat m = 20% K=3 0,502/0,612 729,6s K=5 0,768/0,879 1049,9s K=7 0,902/1,015 1375,4s K=9 1,006/1,107 1670,4s K=11 1,104/1,224 1942,2s MWKM β = 2 K=3 0,515/0,63 247,7s K=5 0,784/0,920 348,9s K=7 0,962/1,078 430,8s K=9 1,099/1,206 515s K=11 1,230/1,339 583,4s

Hình 4.4: Biểu đồ biến thiên giá trị CU trung bình của 2 thuật toán theo số cụm ứng với cơ sở dữ liệu di động

Hình 4.5: Biểu đồ biến thiên thời gian chạy chương trình của 2 thuật toán theo số cụm ứng với cơ sở dữ liệu di động

Bảng 4.5: Kết quả thử nghiệm với tập dữ liệu USCensus với số cụm k biến thiên

Thuật toán Tham số mỗi TT cụm Số Giá trị hàm mục tiêu CU

Trung bình/ Cao nhất Thời gian chạy

Coolcat m= 20% K=3 8,923/8,9356 2702,5s K=5 10,103/10,368 4306,6s K=7 10,687/10,95 5912,8s K=9 11,083/11,407 7434,2s K=11 11,545/11,899 9042s MWKM β = 2 K=3 9,642/9,644 690s K=5 10,764/11,052 698,1s K=7 11,368/11,601 698,5s K=9 11,686/12,025 733,6s K=11 12,117/12,469 814,7s

Hình 4.6: Biểu đồ biến thiên giá trị CU trung bình của 2 thuật toán theo số cụm ứng với cơ sở dữ liệu điều tra dân số của Mỹ năm 1990

Hình 4.7: Biểu đồ biến thiên thời gian chạy chương trình của 2 thuật toán theo số cụm ứng với cơ sở dữ liệu điều tra dân số năm 1990

Kết luận: Trong thực nghiệm luận văn đã sử dụng hai thuật toán phân cụm dữ liệu định

danh với nhiều thuộc tính là MWKM và COOLCAT. Với tất cả các kết quả thực nghiệm với các bộ dữ liệu ở trên, thuật toán Coolcat có kết quả trung bình tốt hơn một chút ở cơ

sở dữ liệu đỗ tƣơng, một cơ sở dữ liệu có nhiều thuộc tính trọng số xấp xỉ nhau. Còn ở các cơ sở dữ liệu còn lại, khi trọng số giữa các thuộc tính có sự chênh lệch rõ rệt thì thuật toán MWKM cho kết quả phân cụm tốt hơn. Đặc biệt, khi số bản ghi và thuộc tính tăng thì thuật toán MWKM tối ƣu hơn hẳn thể hiện qua bộ dữ liệu điều tra dân số của Mỹ năm 1990 và CSDL nấm. Cơ sở dữ liệu nấm đƣợc phân thành 2 cụm: nấm an toàn và nấm độc. Có 2480 giá trị bị khuyết ở thuộc tính thứ 11. Điều này dẫn đến kết quả phân cụm không chính xác nhƣ những cơ sở dữ liệu trƣớc đó. Kết quả thực nghiệm cho thấy ở tập dữ liệu này thuật toán MWKM luôn cho kết quả phân cụm chính xác hơn thuật toán Coolcat. Thời gian chạy của thuật toán MWKM trong trƣờng hợp này cũng chỉ bằng 1/6 thuật toán Coolcat. Điều này phản ánh 2 điểm yếu của Coolcat: chạy chậm và không chính xác bằng MWKM với tập dữ liệu lớn và có giá trị bị khuyết.

Trong tất cả các trƣờng hợp, thuật toán MWKM luôn cho kết quả tối ƣu chính xác hơn thuật toán Coolcat. Thời gian chạy thuật toán MWKM cũng nhanh hơn hẳn thời gian chạy thuật toán Coolcat. Khi số cụm cần phân hoạch càng nhiều, sự chênh lệch về thời gian chạy giữa hai thuật toán càng lớn. Có thể nói, thuật toán MWKM là thuật toán phân cụm tin cậy và hiệu quả cả đối với tập dữ liệu nhỏ lẫn tập dữ liệu nhiều bản ghi và nhiều thuộc tính còn thuật toán Coolcat có hiệu quả ứng với các tập dữ liệu ít thuộc tính và số cụm cần phân hoạch là nhỏ.

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

Sau thời gian nghiên cứu, đƣợc sự hƣớng dẫn tận tình của Thầy giáo PGS.TS.Hoàng Xuân Huấn, tôi đã trình bày luận văn “Phân cụm dữ liệu định danh với số chiều cao”.

Luận văn đã đạt được hai kết quả chính như sau:

1./ Nghiên cứu tài liệu để hệ thống lại các vấn đề sau: - Khám phá tri thức và phân cụm dữ liệu.

- Một số phƣơng pháp phân cụm chính. - Phân cụm dữ liệu với thuộc tính định danh.

2./ Luận văn đã so sánh hai thuật toán MWKM và thuật toán COOLCAT

Luận văn đã chạy thử nghiệm với 5 bộ dữ liệu với CSDL với nhiều thuộc tính và nhiều bản ghi, trong đó có thử nghiệm với một bộ dữ liệu thực tế.

 Hƣớng nghiên cứu tiếp theo.

Hƣớng phát triển tiếp theo của đề tài là sử dụng các thuật toán phân cụm trên cho hỗ trợ chẩn trị y học ở bệnh viện đa khoa tỉnh Bắc Ninh. Bài toán tổng quát của nó nhƣ sau: Có một tập hồ sơ bệnh án của một loại bệnh với các triệu chứng (bao gồm cả kết quả xét nghiệm sinh hóa) đã biết. Theo kinh nghiệm chuyên gia có thể chia làm k nhóm có đặc điểm gần nhau để theo dõi và điều trị theo các chế độ cụ thể và cần tìm bệnh án điển hình cho mỗi nhóm. Các triệu chứng có thể là giá trị số (nhiệt độ, chỉ số sinh hóa...) hoặc sắp thứ tự (không đau, hơi đau, đau, rất đau...) hay là thuộc tính định danh nhƣ chảy máu tiêu hóa, rối loạn tiêu hóa, vàng da...Khi số triệu chứng nhiều thì phân nhóm của thầy thuốc gặp khó khăn và nhiều trƣờng hợp không thống nhất.

Do thời gian nghiên cứu có hạn cộng với năng lực bản thân còn hạn chế, luận văn chắc chắn sẽ không tránh khỏi một số sai sót nhất định. Tôi rất mong nhận đƣợc ý kiến đóng góp của các Thầy Cô, các bạn đồng nghiệp cùng các cá nhân quan tâm để nội dung luận văn đƣợc hoàn thành với chất lƣợng tốt hơn.

Cuối cùng, Em xin cảm ơn Thầy giáo PGS.TS. Hoàng Xuân Huấn đã tận tình giúp đỡ em hoàn thành nội dung nghiên cứu đề ra. Em xin cảm ơn các Thầy Cô tong Khoa Công Nghệ thông tin – Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội đã tận tình giảng dạy cung cấp kiến thức cho em trong suốt khóa học.

Tiêu chuẩn đánh giá chất lƣợng phân cụm

Phƣơng pháp phân cấp

Chƣơng trình và dữ liệu thử nghiệm