Tuy nhiên cách xác đßnh các vùng x¿p xỉ này không dựa vào khoÁng cách từ các đái t¤ÿng tßi tâm mà dựa vào đá thuác cÿa phÁn tÿ đái vßi cām giáng nh¤ FCM.. 12 CH£¡NG 1: TàNG QUAN VÄ PHÂN
Trang 11
Đ¾I HàC QUàC GIA HÀ NàI
TR¯âNG Đ¾I HâC CÔNG NGHÞ
Trang 22
Đ¾I HàC QUàC GIA HÀ NàI
TR¯âNG Đ¾I HâC CÔNG NGHÞ
Vi THà BÍCH THÀO
Ngành: Công nghá thông tin
Chuyên ngành: Há tháng thông tin
Mã sá: 60480104
LU ¾N VĂN TH¾C SĨ CÔNG NGHÞ THÔNG TIN
H¯àNG DẪN KHOA HâC: PGS.TS HOÀNG XUÂN HUÂN
Hà Nßi - 2014
Trang 33
LàI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cāu cÿa riêng tôi KÃt quÁ trong luÁn văn là trung thực và ch¤a từng đ¤ÿc ai công bá trong b¿t kì công trình nào khác
Tác gi Á
Vj Thá Bích ThÁo
Trang 4Tôi cũng xin gÿi lái cÁm ¢n tßi BGH tr¤áng CĐCN Thực Phẩm, lãnh đ¿o Khoa CNTT cùng toàn thể cán bá, giáo viên trong khoa đã hß trÿ, t¿o điÅu kián
tát nh¿t để tôi có thể hoàn thành ch¤¢ng trình hác
Cuái cùng tôi xin cÁm ¢n gia đình hai bên nái, ngo¿i đã ÿng há giúp đỡ tôi r¿t nhiÅu vÅ mặt tinh thÁn trong t¿t cÁ nhāng công viác mà tôi đã thực hián
Trang 55
MĀC LĀC
L àI CAM ĐOAN 3
LàI CÀM ¡N 4
MĀC LĀC 5
DANH M ĀC KÝ HIàU VIÂT TÂT 7
DANH M ĀC CÁC HÌNH VÀ 8
M â ĐÀU 9
CH£¡NG 1: TàNG QUAN VÄ PHÂN CĀM DĀ LIàU 12
1.1 Đá t¤¢ng đßng 13
1.2 Các ph¤¢ng pháp và các thuÁt toán phân cām dā liáu 15
1.2.1 Ph¤¢ng pháp dựa vào hàm māc tiêu 16
1.2.2 Các ph¤¢ng pháp phân cām phân c¿p 20
1.2.3 Các ph¤¢ng pháp dựa vào mÁt đá 25
1.2.4 Các ph¤¢ng pháp phân cām dựa trên l¤ßi 29
CH£¡NG 2: LÝ THUYÂT TÀP THÔ 34
2.1 H á thông tin và há quyÃt đßnh 34
2.2 Tính không phân bi át đ¤ÿc (Indiscernibility) 36
2.3 X¿p xỉ tÁp hÿp 38
C H£¡NG 3: TÀP THÔ VÀ BÀI TOÁN PHÂN CĀM 43
3.1 Phân c ām thô (Rough C-means) 44
3.2 Phân c ām má 47
3.3 Phân c ām thô-má (Rough-Fuzzy C-means) 50
Trang 66
3.4 Phân c ām bóng 52
CH£¡NG 4 ĀNG DĀNG RCM TRONG PHÂN CĀM ÀNH 58
4.1 Phân vùng Ánh: 58
4.2 Ành và nhāng khái niám liên quan 59
4.2.1 Điểm Ánh (Picture Element) 59
4.2.2 Đá phân giÁi cÿa Ánh 60
4.2.3 M āc xám cÿa Ánh 60
4.2 Phân c ām Ánh sÿ dāng phân cām thô và phân cām má 61
4.3 Th ÿ nghiám phân cām Ánh sÿ dāng phân cām thô và phân cām má 61
4.4 So sánh và đánh giá: 65
K ÂT LUÀN 68
Tài li áu tham khÁo 69
Trang 77
DANH MĀC KÝ HIàU VIÂT TÂT
6 BIRCH Balanced Iterative Reducing and Clustering using Hierarchies
Trang 88
DANH M ĀC CÁC HÌNH VẼ
Hình 1.1 Ví d ā vÅ phân cām 12
Hình 1.2 Bi ểu đß hình sao thể hián 3 cām trong ma trÁn bá phÁn U 17
Hình 1.3 Bi ểu đß biểu dißn các m¿u trong phân cām phân c¿p 21
Hình 1.4 Ba cách tính khoÁng cách giāa hai cām 22
Hình 1.5 Tr án 2 cām theo thuÁt toán CURE 25
Hình 1.6 Hai c ām đ¤ÿc tìm bãi thuÁt toán DBSCAN 27
Hình 1.7 Th ā tự cām theo OPTICS 29
Hình 1.8 Ba tÁng liên tiÃp nhau cÿa c¿u trúc STING 30
H ình 1.9 CLIQUE xác đßnh các vùng tiÅm năng dựa trên các đ¢n vß dày đặc 33
Hình 2.1: Hình minh h áa khái niám tÁp thô 34
Hình 3.1 Ba vùng c ÿa mát cām 45
Hình 3.2: Hình minh h áa cām má 47
Hình 3.3 Các tÁp bóng đ¤ÿc t¿o bãi tÁp má thông qua mát ng¤ỡng 54
Hình 3.4 Các t Áp bóng đ¤ÿc t¿o ra bãi hàm thành viên má f(x) 56
Hình 4.1 Minh h áa Ánh đã phân vùng 58
Hình 4.2: Chuy ển hình Ánh từ há màu RGB sang Ánh xám 62
Hình 4.3 Hình Ánh chāp cÃt lßp sá ng¤ái 63
Hình 4.4 KÃt quÁ sau khi sÿ dāng phân cām má 64
Hình 4.5 KÃt quÁ sau khi sÿ dāng phân cām thô Error! Bookmark not defined Hình 4.7 K Ãt quÁ sau khi sÿ dāng phân cām má 65 Hình 4.8 KÃt quÁ sau khi sÿ dāng phân cām thô Error! Bookmark not defined
Trang 9Thông th¤áng, thông tin vÅ thà gißi xung quanh là không chính xác, không đÁy đÿ, không chÃc chÃn hoặc chßng chéo Đó cũng là v¿n đÅ gặp phÁi khi phân cām dā liáu Phân cām đ¤ÿc chia làm hai lo¿i phân cām là phân cām cāng và phân cām mÅm Trong phân cām cāng đái t¤ÿng đ¤ÿc phân thành các cām khác nhau, mßi đái t¤ÿng thuác vÅ chính xác mát cām, ng¤ÿc l¿i ã phân cām mÅm các đái t¤ÿng có thể thuác vÅ nhiÅu h¢n mát cām và mßi đái t¤ÿng có
đá thuác vßi cām Cā thể trong luÁn văn, tôi sÁ nghiên cāu các thuÁt toán phân cām trong cÁ hai lo¿i phân cām này: Phân cām thô (phân cām cāng) và phân cām má (phân cām mÅm) Ngoài ra tôi cũng nghiên cāu thêm vÅ 2 thuÁt toán kÃt hÿp từ hai lo¿i phân cām trên là phân cām thô má và phân cām bóng
Năm 1965, giáo s¤ Lotfi A Zadeh (Đ¿i hác California ã Berkeley) đÅ xu¿t lý thuyÃt tÁp má (fuzzy set), là phÁn mã ráng cÿa lý thuyÃt tÁp hÿp truyÅn tháng Ý t¤ãng chính cÿa lý thuyÃt tÁp má là các phÁn tÿ cÿa tÁp có đá thuác trong khoÁng [0,1] thay vì giá trß nhß phân Nó là công cā mô hình hóa sự không chÃc chÃn, không rõ ràng trong há tháng phāc t¿p Trong phân cām má, thuÁt toán th¤áng đ¤ÿc sÿ dāng nh¿t là Fuzzy C-Means (FCM) đ¤ÿc đÅ xu¿t vào năm
1973 bãi J.C Dunn và đ¤ÿc cÁi tiÃn l¿i bãi Bezděk vào năm 1981 FCM th¤áng đ¤ÿc sÿ dāng để xÿ lý tr¤áng hÿp các cām chßng chéo nhau, tāc là mát sá đái t¤ÿng có thể thuác vÅ nhiÅu h¢n mát cām Trong đó, mßi mát đái t¤ÿng có đá thuác khác nhau đái vßi các cām, chā không hoàn toàn chỉ thuác vÅ mát cām đ¤ÿc biểu dißn qua ma trÁn phân ho¿ch FCM sÿ dāng giá trß trung bình (mean)
đá thuác cÿa các đái t¤ÿng trong ma trÁn phân ho¿ch làm tâm cām Các b¤ßc
Trang 1010
trong thuÁt toán là quá trình thực hián cÁp nhÁt các đái t¤ÿng cÿa cām và ma trÁn phân ho¿ch ThuÁt toán chi tiÃt sÁ đ¤ÿc trình bày cā thể trong luÁn văn
ĐÃn năm 1982, Zdzislaw Pawlak đÅ xu¿t ra lý thuyÃt tÁp thô vßi māc đích
là để phân lo¿i thông tin và tri thāc không chính xác hoặc không đÁy đÿ Khái niám c¢ bÁn cÿa lý thuyÃt tÁp thô là x¿p xỉ trên và x¿p xỉ d¤ßi cÿa mát tÁp dā liáu X¿p xỉ d¤ßi bao gßm nhāng đái t¤ÿng chÃc chÃn thuác vÅ cām, trong khi x¿p xỉ trên bao gßm nhāng đái t¤ÿng có thể đ¤ÿc phân lßp là thành viên không chÃc chÃn cÿa cām Mßi tÁp đ¤ÿc xác đßnh thông qua x¿p xỉ trên và x¿p xỉ d¤ßi đ¤ÿc gái là tÁp thô Trong khuôn khá luÁn văn, tôi tìm hiểu và trình bày cā thể thuÁt toán Rough C-Means (RCM) ThuÁt toán RCM đ¤ÿc Lingras và West đÅ xu¿t năm 2004 [4] Trong đó, mßi cām có vùng x¿p xỉ trên và vùng x¿p xỉ d¤ßi cÿa riêng mình Viác xác đßnh cām phā thuác vào hai vùng x¿p xỉ, không phÁi t¿t cÁ các đái t¤ÿng nh¤ trong FCM Cā thể, nÃu nh¤ FCM xác đßnh cām dựa vào đá thuác cÿa đái t¤ÿng vào cām thì RCM lựa chán cām bằng cách so sánh khoÁng cách từ đái t¤ÿng tßi tâm cām so vßi mát ng¤ỡng mà ng¤ái dùng tự chán T¿t cÁ các đái t¤ÿng đ¤ÿc chia vào ba vùng, cā thể là, vùng lõi (Core level), vùng biên (Boundary level) và vùng lo¿i trừ (Exclusion level) Các đái t¤ÿng nằm ã vùng lõi chÃc chÃn thuác vÅ cām Các đái t¤ÿng ã vùng biên có thể thuác vÅ cām Các đái t¤ÿng khác thuác ph¿m vi vùng lo¿i trừ không thuác cām
Ngoài ra, trong luÁn văn tôi trình bày chi tiÃt hai thuÁt toán nāa là phân cām thô-má, phân cām bóng t¤¢ng āng là Rough Fuzzy C-Means (RFCM) và Shadowed C –Means (SCM) RFCM là thuÁt toán kÃt hÿp từ FCM và RCM, trong đó cách xác đßnh cām cÿa RFCM giáng nh¤ RCM là dựa vào hai vùng x¿p
xỉ trên và x¿p xỉ d¤ßi Tuy nhiên cách xác đßnh các vùng x¿p xỉ này không dựa vào khoÁng cách từ các đái t¤ÿng tßi tâm mà dựa vào đá thuác cÿa phÁn tÿ đái vßi cām giáng nh¤ FCM ThuÁt toán này giúp cho viác phân cām m¿nh h¢n so vßi hai thuÁt toán phân cām tr¤ßc
Đái vßi SCM, các đái t¤ÿng cũng đ¤ÿc chia vào ba vùng t¤¢ng tự nh¤ trong RCM nh¤ng tên gái và cách xác đßnh mßi vùng là khác nhau Ba vùng lõi, vùng biên và vùng lo¿i trừ trong lý thuyÃt tÁp thô t¤¢ng āng vßi ba giá trß logic 0,1, và [0,1] trong tÁp bóng, cā thể, lõi (Core), lo¿i trừ (Exclusion), bóng
Trang 11Hián nay phân cām Ánh là mát v¿n đÅ đang nhÁn đ¤ÿc nhiÅu sự quan tâm
từ các nhà nghiên cāu Māc đích là để đ¢n giÁn hóa hoặc làm nái bÁt mát sá đái t¤ÿng nhằm dß dàng h¢n trong viác phân tích hình Ánh Để phân cām Ánh, phÁi chuyển các điểm màu cÿa Ánh sang há màu xám vßi giá trß từ 0 đÃn 255 sau đó
áp dāng thuÁt toán phân cām Tr¤ßc đây, FCM đ¤ÿc sÿ dāng nhiÅu trong phân
cām Ánh và nó đ¤ÿc āng dāng trong nhiÅu lĩnh vực khác nhau nh¤ phân tích hình Ánh y tÃ, phát hián các đái t¤ÿng,& Trong cuán luÁn văn này, tôi đã nghiên
cāu và áp dāng RCM cho phân cām Ánh, từ đó so sánh sự khác biát so vßi phân cām Ánh sÿ dāng FCM
LuÁn văn cÿa tôi đ¤ÿc chia làm 4 ch¤¢ng vßi nái dung nh¤ sau:
Ch¤¢ng 1: Táng quan vÅ phân cām dā liáu Gißi thiáu vÅ phân cām dā liáu và các ph¤¢ng pháp phân cām vßi mßi ph¤¢ng pháp trình bày mát thuÁt toán t¤¢ng āng
Ch¤¢ng 2: Lý thuyÃt tÁp thô Trình bày táng quan vÅ lý thuyÃt tÁp thô bao gßm há thông tin, há quyÃt đßnh, tính không phân biát đ¤ÿc và x¿p xỉ tÁp hÿp
Ch¤¢ng 3: TÁp thô và bài toán phân cām Gißi thiáu các thuÁt toán phân cām: Phân cām thô, phân cām má, phân cām thô-má, phân cām bóng, các b¤ßc phân cām và công thāc chi tiÃt cÿa từng thuÁt toán
Ch¤¢ng 4: Āng dāng RCM trong phân cām Ánh Xây dựng phân cām Ánh bằng RCM, đ¤a ra kÃt quÁ phân cām, đánh giá và so sánh vßi phân cām Ánh bằng FCM
Trang 1212
CH£¡NG 1: TàNG QUAN VÄ PHÂN CĀM DĀ LIàU
Bài toán phân cām dā liáu là mát kỹ thuÁt trong khai phá dā liáu thuác lĩnh vực hác không giám sát, nhằm tìm kiÃm, phát hián các cām, các m¿u dā liáu tự nhiên tiÅm ẩn đ¤ÿc quan tâm trong tÁp dā liáu lßn, từ đó cung c¿p các thông tin hāu ích hß trÿ cho viác ra quyÃt đßnh Các thuÁt toán phân cām h¤ßng tßi viác tìm kiÃm c¿u trúc trong dā liáu Ph¤¢ng pháp này còn đ¤ÿc gái là <hác không thÁy= hay <hác không có giám sát= (Unsupervised Learning) trong lĩnh vực nhÁn d¿ng m¿u (Pattern Recognition) nói riêng và trong trí tuá nhân t¿o nói chung
Mát cām bao gßm mát tÁp các đái t¤ÿng có đá t¤¢ng đßng cao Đßnh nghĩa vÅ cām đ¤ÿc phát biểu mát cách không hình thāc nh¤ sau: Mát cām là mát tÁp các thực thể (các đái t¤ÿng) t¤¢ng tự nhau, và các thực thể ã các cām khác nhau thì không giáng nhau
Hình 1.1 Ví dā vÅ phân cām Tùy vào từng āng dāng, đặc tính cÿa dā liáu và từng ph¤¢ng pháp phân cām cā thể, chúng ta có thể xem xét các dā liáu nh¤ là các điểm trong không gian thßa mãn điÅu kián đá t¤¢ng đßng giāa hai điểm b¿t kỳ trong mát cām lßn h¢n đá t¤¢ng đßng giāa mát điểm b¿t kỳ trong cām đó vßi mát điểm b¿t kỳ không thuác cām hoặc các cām có thể đ¤ÿc mô tÁ nh¤ là các vùng chāa các đái
Trang 13Các v¿n đÅ liên quan tßi bài toán phân cām dā liáu là v¿n đÅ biểu dißn dā liáu trong máy tính, xác đßnh ph¤¢ng pháp, từ đó đ¤a ra thuÁt toán cā thể để áp dāng, đßng thái xác đßnh đá t¤¢ng đßng giāa các đái t¤ÿng Đái vßi các thuÁt toán trong ph¤¢ng pháp dựa vào phân ho¿ch thì chúng ta còn phÁi xây dựng hàm đánh giá phù hÿp để thuÁt toán cho ra kÃt quÁ phân cām tát
1 d(i,i)=0 vßi mái i
2 d(i,k)=d(k,i) vßi mái cặp (i,k)
3 d(i,k)>=0 vßi mái cặp (i,k)
Hàm đánh giá đá t¤¢ng đßng có thể đ¤ÿc xác đßnh theo mát sá cách GiÁ
sÿ rằng chúng ta có mát ma trÁn m¿u [xij] vßi xijlà giá trß cÿa đặc tr¤ng thā j cÿa m¿u i T¿t cÁ các đặc tr¤ng là liên tāc và đ¤ÿc ¤ßc l¤ÿng theo tỷ lá xích Hàm khoÁng cách phá biÃn là khoÁng cách Minkowski (1) dùng để ¤ßc l¤ÿng đá t¤¢ng đßng M¿u thā i t¤¢ng āng vßi dòng thā i cÿa ma trÁn m¿u đ¤ÿc ký hiáu
là mát vector cát xi
n i
x x
x
xi ý ( i1, i2, , in)T, ý 1 , 2 , ,
Trang 1414
Vßi d là sá đặc tr¤ng, n là sá l¤ÿng m¿u, T ký hiáu là vector chuyển vß KhoÁng cách Minkowski đ¤ÿc đßnh nghĩa nh¤ sau:
r d
j
r kj
ij x x k
ý
Các hàm khoÁng cách Minkowski thßa mãn tính ch¿t các tính ch¿t sau:
4 d(i,k)=0 nÃu và chỉ nÃu xi=xk
5 d(i,k)d(i,m)d(m,k) vßi mái (i,m,k)
Có ba khoÁng cách phá biÃn sÿ dāng khoÁng cách Minkowsky đ¤ÿc đßnh nghĩa nh¤ sau:
KhoÁng cách Euclide (r=2):
2 / 1 2
/ 1 1
|
| ( ) ,
k i d
j
kj
x k
(
1
õý
max(
),
d j k
Ngoài các hàm khoÁng cách đ¤ÿc sÿ dāng để đánh giá đá t¤¢ng đßng cÿa các đái t¤ÿng nêu trên còn có r¿t nhiÅu cách đánh giá đá t¤¢ng đßng khác, tùy thuác vào tính ch¿t cÿa tÁp dā liáu
Trang 1515
Để biểu dißn đá t¤¢ng đßng cÿa t¿t cÁ các đái t¤ÿng trong tÁp dā liáu, ng¤ái ta th¤áng sÿ dāng ma trÁn để l¤u l¿i giá trß t¤¢ng đßng giāa các cặp đái t¤ÿng Ma trÁn này đ¤ÿc gái là ma trÁn t¤¢ng đßng Có thể đ¤a ra khái niám vÅ
ma trÁn t¤¢ng đßng nh¤ sau:
Ma trÁn t¤¢ng đßng [d(i,j)] l¤u giá trß t¤¢ng đßng trong mát ma trÁn, mßi dòng và mßi cát cÿa ma trÁn biểu dißn mát m¿u Trong đó d(i,j) là đá t¤¢ng tự giāa m¿u thā i và m¿u thā j Chúng ta bß qua các giá trß nằm trên đ¤áng chéo chính cÿa ma trÁn t¤¢ng đßng khi giÁ sÿ rằng t¿t cÁ các m¿u có cùng māc đá t¤¢ng đßng vßi chính nó GiÁ sÿ rằng ma trÁn t¤¢ng đßng là ma trÁn có tính đái xāng, t¿t cÁ các cặp đái t¤ÿng có cùng mát giá trß t¤¢ng đßng, không phā thuác vào thā tự sÃp xÃp
Mát ma trÁn t¤¢ng đßng có thể là đ¤ÿc gái là ma trÁn đá t¤¢ng tự hoặc cũng có thể gái là ma trÁn b¿t t¤¢ng đßng
Các giá trß t¤¢ng đßng cũng có thể là nhÁn giá trß nhß phân, rái r¿c hoặc nhÁn giá trß liên tāc Ví dā, giÁ sÿ rằng mát tÁp đái t¤ÿng đ¤ÿc phân ho¿ch vào các tÁp con Giá trß nhß phân đo đá t¤¢ng đßng nhÁn giá trß 0 vßi các cặp đái t¤ÿng ã hai tÁp con khác nhau và nhÁn giá trß bằng 1 vßi các cặp ã cùng mát tÁp con NÃu giá trß t¤¢ng đßng là mát sá nguyên từ 1 tßi n(n-1)/2 vßi n là sá l¤ÿng các đái t¤ÿng đ¤ÿc xem là ma trÁn t¤¢ng đßng nhÁn giá trß rái r¿c NÃu ma trÁn t¤¢ng đßng mà các phÁn tÿ nhÁn giá trß là khoÁng cách Euclide giāa các m¿u trong không gian m¿u thì đ¤ÿc xem là ma trÁn t¤¢ng đßng nhÁn giá trß liên tāc
Các thuÁt toán phân cām nhóm các đái t¤ÿng, hay các dā liáu thành phÁn
dựa trên đá t¤¢ng đßng giāa các cặp đái t¤ÿng Các đái t¤ÿng đ¤ÿc gái là các điểm, các tr¤áng hÿp, các thành phÁn trong các āng dāng khác nhau
1.2 Các ph°¡ng pháp và các thu¿t toán phân cām dā lißu
Phân cām dā liáu biểu dißn mái quan há giāa các đái t¤ÿng trong ma trÁn t¤¢ng đßng NÃu các đái t¤ÿng đ¤ÿc đặc tÁ nh¤ là các m¿u hoặc các điểm trong không gian metric, thì đá t¤¢ng đßng có thể là khoÁng cách giāa các cặp đái t¤ÿng, nh¤ là khoÁng cách Euclide Ma trÁn m¿u và ma trÁn t¤¢ng đßng là nhāng dā liáu vào cho các thuÁt toán phân cām Đã có r¿t nhiÅu thuÁt toán phân
Trang 1616
cām đ¤ÿc xây dựng nhằm áp dāng vào các māc đích cā thể Các thuÁt toán này
có thể đ¤ÿc phân vào mát trong 4 ph¤¢ng pháp sau đây:
1 Ph¤¢ng pháp phân cām dựa vào hàm māc tiêu (Object Function- Based Clustering)
2 Ph¤¢ng pháp phân cām phân c¿p (Hierarchical Clustering)
3 Ph¤¢ng pháp phân cām dựa trên mÁt đá (Density-Based Clustering)
4 Ph¤¢ng pháp phân cām dựa trên l¤ßi (Grid-Based Clustering)
1.2 1 Ph°¡ng pháp dựa vào hàm māc tiêu
Lo¿i phân cām này liên quan tßi phân chia các tÁp dā liáu dựa trên mát vài chỉ sá đ¤ÿc biÃt đÃn là hàm māc tiêu VÅ mặt bÁn ch¿t, phân chia N m¿u vào
c cām ĐÁu tiên, sá l¤ÿng phân chia đ¤ÿc tính theo công thāc
1
1 ( 1)
ý
uik=1 Ng¤ÿc l¿i k không thuác vÅ cām i khi uik=0 Ma trÁn bá phÁn thßa mãn các điÅu kián sau:
Trang 17chāa các m¿u còn l¿i {5,7}
Biểu dißn ma trÁn bá phÁn bằng đß thß hình sao (hay gái là đß thß radar)
Hình 1.2 Biểu đß hình sao thể hián 3 cām trong ma trÁn bá phÁn U
Mát vài thuÁt toán đã đ¤ÿc sÿ dāng để đ¿t đ¤ÿc tái ¤u hóa ThuÁt toán phá biÃn nh¿t là C-Means (Duda và cáng sự, 2001; Webb, 2002), là cách thiÃt
lÁp dā liáu phân cām tát
Trang 1818
PhÁn này sÁ gißi thiáu các thuÁt toán phân cām dựa vào phân ho¿ch sau: ThuÁt toán K-Means (MacQueen, 1967), ThuÁt toán EM (Expectation Maximazation) (Dempster et al.,1977; Yu et al.,1998; Braley et al 1998), thuÁt toán K-Medoids Ba thuÁt toán này có các cách biểu dißn các cām khác nhau ThuÁt toán K-Means sÿ dāng tâm (điểm trung bình) cÿa các đái t¤ÿng trong mát cām làm tâm cÿa cām đó trong khi thuÁt toán K-Medoids sÿ dāng đái t¤ÿng gÁn điểm trung bình nh¿t làm tâm Không giáng nh¤ thuÁt toán K-Means và K-Medoid, thuÁt toán EM sÿ dāng điểm trung bình và ma trÁn há sá kích th¤ßc d*d biểu dißn mßi cām Thay thà cho viác kÃt gán mßi đái t¤ÿng tßi mát tâm duy nh¿t, thuÁt toán EM kÃt gán mßi đái t¤ÿng tßi mát cām theo mát xác xu¿t đ¤ÿc tính toán từ phân bá cÿa mßi cām
Mặc dù các thuÁt toán phân cām khác nhau t¿o ra kÃt quÁ phân cām là khác nhau, tuy nhiên ba thuÁt toán phân ho¿ch đÅu có mát tiÃp cÁn chung khi tính toán các lái giÁi cÿa chúng ThÁt vÁy, quan sát ba thuÁt toán tìm kiÃm K tâm
và các phân bá để làm tái ¤u hàm māc tiêu Mát khi đã xác đßnh đ¤ÿc K tâm hay các phân bá tái ¤u, các đái t¤ÿng trong K cām đ¤ÿc xác đßnh Tuy nhiên, để tìm kiÃm K tâm hay các phân bá tái ¤u là mát bài toán NP-Hard (Garey và Johnson,1979) Do đó, mát cách để tìm ra các tâm tái ¤u cāc bá phÁi dùng ph¤¢ng pháp cÁp nhÁt tâm nhiÅu lÁn cho đÃn khi hàm māc tiêu đ¿t giá trß cực tiểu Ba thuÁt toán này có các hàm māc tiêu khác nhau và các cách thực hián khác nhau đ¤ÿc thể hián ã b¤ßc 3 và 4 cÿa thuÁt toán A Mát trã ng¿i cÿa các thuÁt toán dựa vào hàm māc tiêu là yêu cÁu phÁi biÃt tr¤ßc tham sá K và chúng không có khÁ năng để tìm kiÃm các cām theo hình d¿ng b¿t kỳ Chúng ta sÁ xem xét các thuÁt toán mát cách chi tiÃt h¢n
Thu¿t toán A :
Input: Sá l¤ÿng cām K, và mát c¢ sã dā liáu chāa N đái t¤ÿng
Output: Mát tÁp gßm K cām thßa mãn điÅu kián cực tiểu hóa hàm māc tiêu
E
Ph¤¢ng pháp:
1) Khãi t¿o chán ng¿u nhiên K tâm cho lái giÁi ban đÁu
2) Repeat
Trang 1919
3) Phân ho¿ch các đái t¤ÿng trong c¢ sã dā liáu theo lái giÁi hián t¿i 4) CÁp nhÁt các tâm theo các đái t¤ÿng đã đ¤ÿc phân ho¿ch ã b¤ßc 3 5) Until (E không thay đái);
Thu¿t toán K-Means
ThuÁt toán K-Means (MacQueue, 1967) sÿ dāng giá trß trung bình cÿa các đái t¤ÿng trong mát cām là tâm cām Hàm māc tiêu đ¤ÿc sÿ dāng trong thuÁt toán là hàm sai sá bình ph¤¢ng đ¤ÿc đßnh nghĩa nh¤ sau:
đi lặp l¿i cho tßi khi hàm māc tiêu E không thay đái
ThuÁt toán K-Means là t¤¢ng đái mÅm d¿o và hiáu quÁ trong viác xÿ lý các tÁp dā liáu lßn bãi vì đá phāc t¿p tính toán cÿa thuÁt toán là O(NKt), vßi N
là táng sá các đái t¤ÿng, K là sá l¤ÿng cām, và t là sá vòng lặp Thông th¤áng thì K<<N và t<<N ThuÁt toán dừng khi đ¿t đ¤ÿc lái giÁi cāc bá
Nh¤ÿc điểm cÿa thuÁt toán K-Means là sÁ phân cām tßi khi dā liáu chāa nhißu và các phÁn tÿ ngo¿i l¿i, chỉ cÁn mát sá l¤ÿng nhß dā liáu nhißu nh¤ thà cũng đã Ánh h¤ãng tßi giá trß trung bình
Thu¿t toán phân cām K-Medoids
Không giáng nh¤ thuÁt toán Means và thuÁt toán EM, thuÁt toán Medoids sÿ dāng đái t¤ÿng trong mát cām là tâm cām đó để thay thà cho viác l¿y giá trß trung bình cÿa các đái t¤ÿng trong mát cām ĐiÅu này làm cho thuÁt toán K-Medoids tránh đ¤ÿc nhißu và phÁn tÿ ngo¿i lai Tuy nhiên, đá phāc t¿p cÿa thuÁt toán này cao h¢n đá phāc t¿p cÿa thuÁt toán K-Means
Trang 20và vòng lặp tiÃp theo cÿa thuÁt toán A đ¤ÿc thực hián Tuy nhiên, nÃu không có
sự thay thà nào đ¤ÿc tìm th¿y sau khi đã thực hián xong K tâm, tāc là không làm giÁm hàm E thì thuÁt toán sÁ kÃt thúc vßi nghiám tái ¤u cāc bá
Do đá phāc t¿p lßn nên thuÁt toán phân ho¿ch nh¤ PAM chỉ thực hián hiáu quÁ đái vßi các tÁp dā liáu nhß, không phù hÿp vßi các tÁp dā liáu lßn Để thực hián vßi các tÁp dā liáu lßn, ph¤¢ng pháp phân cām dựa trên m¿u (Sampling – based method) là CLARA (Clustering LARge Applications) đã đ¤ÿc phát triển bãi Kaufman & Rousseeuw ThuÁt toán chán mát phÁn cÿa dā liáu thực làm m¿u thay cho viác xem toàn bá tÁp dā liáu Các tâm đ¤ÿc chán từ các m¿u sÿ dāng thuÁt toán PAM và đá b¿t t¤¢ng đßng trung bình đ¤ÿc tính cho toàn bá tÁp dā liáu NÃu có mát tÁp các tâm mßi có đá b¿t t¤¢ng đßng th¿p h¢n lái giÁi tát nh¿t tr¤ßc đó, thì lái giÁi tát nh¿t đ¤ÿc thay thà bãi tÁp tâm mßi này, chi tiÃt thuÁt toán xem ã
kÃt hÿp hai cām gÁn nh¿t Quá trình đ¤ÿc lặp l¿i cho đÃn khi chúng ta l¿y đ¤ÿc
tÁp dā liáu riêng biát hoặc xác đßnh chÃc chÃn giá trß ng¤ỡng
Ph¤¢ng pháp top-down, làm viác theo cách ng¤ÿc l¿i mô hình bottom-up: chúng ta bÃt đÁu bằng viác xét toàn bá các tÁp nh¤ là cām đ¢n và phân chia chúng vào các cām nhß h¢n Xét vÅ bÁn ch¿t, nhāng ph¤¢ng thāc này th¤áng không có khÁ năng tính toán, và có thể có ngo¿i lá vßi các m¿u có giá trß nhß phân
Trang 2121
KÃt quÁ cÿa phân cām phân c¿p th¤áng đ¤ÿc biểu dißn theo d¿ng biểu đß hình cây Tỉ lá khoÁng cách đ¤ÿc biểu dißn ã phía bên phÁi cÿa đß thß giúp chúng ta xác đßnh khoÁng cách giāa các cām Chúng đ¤a đÃn mát tiêu chuẩn đ¢n giÁn: đ¤a ra giá trß ng¤ỡng khoÁng cách chÃc chÃn, chúng ta dừng viác kÃt
hÿp các cām khi khoÁng cách giāa chúng v¤ÿt quá ng¤ỡng này, có nghĩa là kÃt hÿp 2 c¿u trúc riêng biát d¤áng nh¤ không khÁ thi
Hình 1.3 Biểu đß biểu dißn các m¿u trong phân cām phân c¿p
Mát v¿n đÅ quan tráng là làm thà nào để đo khoÁng cách giāa hai cām â đây, mßi cām có thể chāa nhiÅu m¿u, tính toán khoÁng cách không phÁi là hiển nhiên hay duy nh¿t Coi 2 cām, A và B minh háa trong hình 1.4, khoÁng cách giāa 2 cām đ¤ÿc kí hiáu d(A,B) và sá l¤ÿng m¿u cÿa A và B t¤¢ng āng kí hiáu
là n1 và n2 Nhìn bằng mÃt, chúng ta có thể dß dàng hình dung ra ba cách tính toán khoÁng cách giāa hai cām
Trang 22Để nâng cao hiáu quÁ cÿa thuÁt toán theo phân c¿p, các ph¤¢ng pháp gÁn đây cá gÃng theo mát trong hai tiÃp cÁn sau đây TiÃp cÁn đÁu tiên đ¤ÿc trình bày bãi các thuÁt toán nh¤ CURE (Guha et al., 1998) và CHAMELEON
Trang 2323
(Karypis et al., 1999) sÿ dāng các quy tÃc phāc t¿p h¢n khi tách hoặc trán các cām Mặc dù viác tách hoặc trán các cām v¿n không thuÁn nghßch trong tiÃp cÁn này, nh¤ng các lßi t¿o ra là r¿t ít bãi vì đây là mát ph¤¢ng pháp tát h¢n đ¤ÿc sÿ dāng để trán và tách TiÃp cÁn thā hai đ¤ÿc biểu dißn bãi các thuÁt toán nh¤ BIRCH (Zhang et all., 1996) là để xác đßnh kÃt quÁ ban đÁu bằng cách sÿ dāng thuÁt toán <vun đáng= và sau đó sÿ dāng lặp tìm vß trí tâm để làm mßn kÃt quÁ
Thu¿t toán BIRCH: Balanced Iterative Reducing and Clustering using Hierarchies
BIRCH là mát ph¤¢ng pháp phân cām phân c¿p theo <Bottom - Up= T¤ t¤ãng chính cÿa BIRCH là nén các đái t¤ÿng dā liáu vào trong các cām con và sau đó thực hián phân cām vßi các cām con này Để trán các cām con, sá l¤ÿng các cām phÁi bé h¢n hoặc bằng sá l¤ÿng đái t¤ÿng dā liáu và do đó cho phép quá trình phân cām thực hián trong bá nhß trong Các kÃt quÁ trong thuÁt toán chỉ cÁn quét qua c¢ sã dā liáu mát lÁn
Trong thuÁt toán BIRCH, mßi mát cām con đ¤ÿc biểu dißn bãi đặc tr¤ng cÿa cām đó là bá ba mô tÁ tóm tÃt thông tin vÅ nhóm các đái t¤ÿng trong cām
đó Cho N đái t¤ÿng {Xi} trong không gian d chiÅu Mát cām cÿa mát cām con đ¤ÿc đßnh nghĩa là:
N i i
ý
ýõuur là táng bình ph¤¢ng cÿa N điểm dā liáu
Các CF này đ¤ÿc l¤u trong cây đặc tr¤ng cām (Clustering feature tree:
CF tree), đ¤ÿc sÿ dāng để mô tÁ tóm tÃt cām Cây CF đ¤ÿc gái là cây cân bằng theo đá cao nÃu cây đó chāa các CF cho thuÁt toán phân cām theo phân c¿p Các đỉnh không phÁi là lá l¤u các táng các CF cÿa các đỉnh còn l¿i và do đó, mô tÁ tóm tÃt thông tin phân cām vÅ các đỉnh con cÿa chúng Mát cây CF có hai tham sá: Nhân tá nhánh B, và ng¤ỡng T Nhân tá nhánh là sá l¤ÿng cực đ¿i các đỉnh con mà mát đỉnh trong có thể có Tham sá ng¤ỡng là đ¤áng kính tái đa cÿa các
Trang 2424
cām con đ¤ÿc l¤u trā t¿i mßi đỉnh lá cÿa cây Hai tham sá này Ánh h¤ãng đển
cỡ cÿa cây kÃt quÁ
Cây CF đ¤ÿc xây dựng mát cách tự đáng theo cách các đái t¤ÿng đ¤ÿc chèn vào Mát đái t¤ÿng đ¤ÿc chèn vào mát lá gÁn nh¿t (Cām con) NÃu đ¤áng kính cÿa mát cām con đ¤ÿc l¤u trā trong đỉnh lá sau khi chèn lßn h¢n giá trß ng¤ỡng thì sau đó đỉnh lá này và có thể có các đỉnh khác sÁ đ¤ÿc tách Sau khi chèn mát đái t¤ÿng mßi, thông tin đ¤ÿc truyÅn vÅ gác cÿa cây Cỡ cÿa cây có thể bß thay đái bằng cách thay đái giá trß ng¤ỡng NÃu giá trß ng¤ỡng t¿o ra cây
CF không l¤u đ¤ÿc trong bá nhß trong thì giá trß ng¤ỡng đ¤ÿc tăng lên và cây
CF đ¤ÿc xây dựng l¿i mà không cÁn thiÃt đác l¿i t¿t cÁ các đái t¤ÿng trong c¢ sã
dā liáu Sau khi cây CF đ¤ÿc xây dựng, mát thuÁt toán phân cām b¿t kỳ, nh¤ các thuÁt toán phân cām theo phân ho¿ch đ¤ÿc sÿ dāng để thực hián quá trình phân cām trong bá nhß trong Để cÁi tiÃn ch¿t l¤ÿng phân cām h¢n nāa, mát hoặc nhiÅu lÁn quét c¢ sã dā liáu có thể đ¤ÿc thực hián Đá phāc t¿p thuÁt toán
là O(N), vßi N là sá l¤ÿng đái t¤ÿng đ¤ÿc phân cām
Các kÃt quÁ thực hián cho th¿y thuÁt toán có tính mÅm d¿o đái vßi sá l¤ÿng các đái t¤ÿng, và ch¿t l¤ÿng phân cām là tát Tuy nhiên, khi mát đỉnh trong cây CF chỉ thßa mãn vÅ gißi h¿n sá l¤ÿng các đái t¤ÿng theo kích th¤ßc cÿa nó, mát đỉnh không phÁi luôn luôn t¤¢ng āng vßi mát cām thực mang tính
tự nhiên nh¤ ng¤ái sÿ dāng mong muán H¢n nāa, nÃu các cām không phÁi có hình d¿ng là hình cÁu, BIRCH không thực hián tát bãi vì nó sÿ dāng khái niám bán kính hoặc đ¤áng kính để điÅu khiển gißi h¿n cÿa mát cām
Thu¿t toán CURE: Clustering Using Representatives
Không giáng các ph¤¢ng pháp vun đáng truyÅn tháng nh¤ AGNES, CURE là mát ph¤¢ng pháp vun đáng sÿ dāng quy tÃc phāc t¿p để trán các cām
Có hai ý t¤ãng chính mà CURE sÿ dāng để đ¿t đ¤ÿc các cām có ch¿t l¤ÿng cao ĐÁu tiên, thay cho viác sÿ dāng các tâm hoặc các đái t¤ÿng để biểu dißn tâm mát cām, sá l¤ÿng các đái t¤ÿng xác đßnh đ¤ÿc lựa chán để biểu dißn mßi cām Thā hai, các đái t¤ÿng đ¤ÿc lựa chán để biểu dißn cām đ¤ÿc co tßi các tâm cÿa cām bằng nhân tá co ñ nằm trong đo¿n [0,1]
Trang 2525
T¿i mßi b¤ßc cÿa thuÁt toán, hai cām có các cặp biểu dißn các cām gÁn nhau nh¿t đ¤ÿc trán vào vßi nhau TiÃp cÁn này cho phép CURE điÅu chỉnh tát hình d¿ng cÿa các cām không phÁi là hình cÁu Các cām co trÿ giúp lo¿i bß Ánh h¤ãng cÿa các phÁn tÿ ngo¿i lai Do đó, CURE là mát thuÁt toán m¿nh tránh đ¤ÿc các phÁn tÿ ngo¿i lai và nhÁn ra các cām không phÁi là hình cÁu và có cỡ tùy ý Nó mÅm d¿o đái vßi các c¢ sã dā liáu lßn mà không Ánh h¤ãng vßi ch¿t l¤ÿng cām Hình 1.5 biểu dißn quá trình trán hai cum con vßi nhau theo CURE
và viác co các điểm dā liáu tßi tâm cām đ¤ÿc t¿o ra Các điểm đen ã trong hình
là các điểm đ¤ÿc chán để biểu dißn mßi cām con
Hình 1.5 Trán 2 cām theo thuÁt toán CURE
1.2.3 Các ph°¡ng pháp dựa vào m¿t đß
HÁu hÃt các ph¤¢ng pháp phân cām dựa trên hàm māc tiêu truyÅn tháng phân cām đÅu dựa trên khoÁng cách giāa các đái t¤ÿng Các ph¤¢ng pháp này chÿ yÃu tìm ra các cām có d¿ng hình cÁu và r¿t khó để tìm ra các cām có hình d¿ng ng¿u nhiên Ph¤¢ng pháp phân cām dựa vào mÁt đá xem các cām nh¤ là các vùng có mÁt đá các đái t¤ÿng lßn trong không gian dā liáu Các ph¤¢ng pháp dựa vào mÁt đá có thể sÿ dāng để lo¿i bß nhißu, và phát hián ra các cām có hình d¿ng ng¿u nhiên
ThuÁt toán dựa vào mÁt đá đÁu tiên là thuÁt toán DBSCAN (Ester và cáng
sự, 1996), thuÁt toán này xem xét mÁt đá theo lân cÁn cÿa mßi đái t¤ÿng, nÃu sá l¤ÿng các đái t¤ÿng trong khoÁng cách õ cÿa mát đái t¤ÿng lßn h¢n MinPts thì đái t¤ÿng đó đ¤ÿc xem là nằm trong mát cām Bãi vì các cām tìm đ¤ÿc phā
Các điểm đ¿i dián
g Án nhau nh¿t
Trán
Trang 26DBSCAN: ph°¡ng pháp phân cām dựa trên m¿t đß của các vùng đ°ÿc liên kết vái m¿t đß đủ lán
DBSCAN là mát thuÁt toán phân cām dựa vào mÁt đá ThuÁt toán nhóm các vùng có mÁt đá đÿ cao vào trong các cām, và tìm kiÃm các cām vßi hình d¿ng tự nhiên trong các tÁp dā liáu không gian ThuÁt toán yêu cÁu 2 tham sá đÁu vào là õ và Minpts Các đái t¤ÿng nằm trong hình cÁu bán kính õ cÿa mát đái t¤ÿng đ¤ÿc gái là õ -lÁn cÁn cÿa đái t¤ÿng đó và và đái t¤ÿng có ít nh¿t là
Minpts đái t¤ÿng khác là õ -lân cÁn thì đ¤ÿc gái là đái t¤ÿng lõi (Core Object)
Phân cām dā liáu theo thuÁt toán DBSCAN áp dāng các luÁt sau đây:
- Mát đái t¤ÿng có thể nằm trong mát cām nÃu và chỉ nÃu nó nằm trong
õ -lân cÁn cÿa mát đái t¤ÿng lõi thuác cām đó
- Mát đái t¤ÿng lõi o nằm thuác õ -lân cÁn cÿa mát đái t¤ÿng lõi p khác thì o bÃt buác phÁi nằm cùng mát cām vßi p
- Mát đái t¤ÿng không lõi q nằm trong õ -lân cÁn cÿa các đái t¤ÿng
p1,&, pi, i>0, thì q phÁi nằm cùng mát cām chāa ít nh¿t mát đói t¤ÿng lõi thuác p1,&, pi.
- Mát đái t¤ÿng không lõi r không nằm thuác õ -lân cÁn cÿa mát đái t¤ÿng lõi b¿t kỳ thì đ¤ÿc xem là nhißu
Ví dā: Xem xét hình 1.6 d¤ßi đây vßi õ là bán kính cÿa hình tròn và Minpts =3 Chúng ta biểu dißn các đái t¤ÿng lõi là các điểm hình tròn, còn các đái t¤ÿng không lõi là các điểm có d¿ng hình tròn Trong hình 1.6 biểu dißn hai
cām, C1 và C2 đ¤ÿc tìm kiÃm bãi thuÁt toán DBSCAN Các đái t¤ÿng dā liáu nằm trong C1 hoặc C2 đÅu thuác õ - lân cÁn cÿa ít nh¿t mát đái t¤ÿng lõi nằm trong C1 hoặc C2 và không có hai đái t¤ÿng lõi nào thßa mãn thuác õ-lân cÁn cÿa nhau và do đó chúng có thể năm ã các cām khác nhau Đái t¤ÿng không lõi
Trang 2727
M nằm trong õ-lân cÁn cÿa T và R, vßi T là đái t¤ÿng lõi thuác C1 và R là đái t¤ÿng lõi thuác C2 ĐiÅu này d¿n tßi có thể phân M vào C1 hoặc C2 khi nó là biên cÿa hai cām Cuái cùng, đái t¤ÿng S có thể đ¤ÿc xem là nhißu bãi vì nó là mát đái t¤ÿng không lõi và không thuác õ-lân cÁn cÿa các đái t¤ÿng lõi
Hình 1.6 Hai cām đ¤ÿc tìm bãi thuÁt toán DBSCAN
Để tìm kiÃm các cām , DBSCAN kiểm tra õ- lân cÁn cÿa mßi đái t¤ÿng trong c¢ sã dā liáu NÃu õ-lân cÁn cÿa mát điểm p chāa nhiÅu h¢n MinPts, mát
cām mßi vßi p là đái t¤ÿng lõi đ¤ÿc t¿o ra Các đái t¤ÿng trong õ-lân cÁn cÿa p đ¤ÿc phân vào cām mßi này Các đái t¤ÿng lõi trong lân cÁn này sÁ đ¤ÿc xÿ lý t¤ÿng tự nh¤ p và điÅu này làm cho kích th¤ßc cÿa cām tăng lên Khi không còn đái t¤ÿng lõi để xÿ lý, các đái t¤ÿng lõi khác trong c¢ sã dā liáu sÁ đ¤ÿc tìm
kiÃm và t¿o nên mát cām mßi khác Chú ý rằng trong quá trình làm tăng kích th¤ßc cÿa cām theo thuÁt toán DBSCAN, mát đái t¤ÿng lõi đã nằm trong mát
cām khác có thể tiÃp tāc bß phân cām và kÃt quÁ là làm trán hai cām vßi nhau Quá trình kÃt thúc khi không có điểm nào đ¤ÿc phân vào các cām
OPTICS: Ordering Point To Identify the Clustering Structure
Mặc dù thuÁt toán DBSCAN có thể tìm kiÃm các cām vßi hình d¿ng tự nhiên trong tÁp dā liáu chāa nhißu, nó cũng bß Ánh h¤ãng r¿t lßn bãi hai tham sá
là õ và MinPts Để tìm kiÃm các cām đ¤ÿc xem là ch¿p nhÁn đ¤ÿc, ng¤ái sÿ dāng có thể ch¿y thuÁt toán này nhiÅu lÁn trong các tÁp giá trß khác nhau cÿa hai
Trang 28Bằng cách kiểm tra thuÁt toán DBSCAN, có thể dß dàng th¿y rằng mßi mát hằng sá MinPts, giÁm õ tßi giá trß mßi õ’ sÁ t¿o ra hai tác đáng:
Mát đái t¤ÿng lõi có thể trã thành không lõi bãi vì nó không có ít nh¿t MinPts đái t¤ÿng trong õ’- lân cÁn cÿa nó
Mát đái t¤ÿng không lõi ban đÁu trong õ-lân cÁn cÿa mát sá đái t¤ÿng lõi
có thể trã thành nhißu bãi vì chúng không nằm trong õ’- lân cÁn cÿa các đái t¤ÿng lõi hoặc bãi vì các đái t¤ÿng lõi này đã trã thành các đái t¤ÿng không phÁi là lõi
Do đó có thể th¿y rằng, hai tác đáng này sÁ t¿o ra kÃt quÁ tÁp các cām mà các tÁp này nằm hoàn toàn trong các tÁp các cām đ¤ÿc tìm th¿y vßi giá trß õ cao h¢n Do đó, để t¿o ra mát tÁp các cām đ¤ÿc sÃp xÃp, chỉ cÁn l¤u các giá trß ng¤ỡng cho mßi đái t¤ÿng dā liáu thßa mãn tự đáng cÿa mát giá trß õ nào đó Các giá trß cÁn đ¤ÿc l¤u là khoÁng cách lõi và khoÁng đ¿t đ¤ÿc:
KhoÁng cách lõi cÿa mát đái t¤ÿng p ký hiáu là core(p) là khoÁng cách nhß nh¿t thßa mãn core(p)-lân cÁn chāa đúng MinPts đái t¤ÿng NÃu p không là đái t¤ÿng lõi vßi õ ban đÁu thì khoÁng cách lõi cÿa p không xác đßnh
Trang 29XÃp phân cām cho mát tÁp dā liáu có thể đ¤ÿc biểu dißn bãi đß háa, điÅu này trã giúp cho chúng ta có thể hiểu h¢n vÅ cām Ví dā, trong hình 1.6 là biểu
đß cho tÁp dā liáu 2 chiÅu, biểu đß biểu dißn táng quan vÅ dā liáu và các cām cÿa chúng Đã có mát sá ph¤¢ng pháp đ¤ÿc phát triển để hiển thß các c¿u trúc cām trong không gian nhiÅu chiÅu
Hình 1.7 Thā tự cām theo OPTICS
1.2.4 Các ph°¡ng pháp phân cām dựa trên l°ái
Các ph¤¢ng pháp phân cām dựa vào mÁt đá nh¤ DBSCAN, OPTICS có thể sÁ th¿t b¿i trong không gian dā liáu vßi sá chiÅu cao và phÁi thiÃt lÁp các
Trang 3030
tham sá õ và MinPts Để nâng cao hiáu quÁ cÿa phân cām, tiÃp cÁn phân cām dựa trên l¤ßi sÿ dāng c¿u trúc dā liáu d¿ng l¤ßi TiÃp cÁn này phân chia không gian dā liáu vào mát sá l¤ÿng hāu h¿n các ô t¿o nên d¿ng hình l¤ßi Tián lÿi chính cÿa tiÃp cÁn này là thái gian xÿ lý nhanh và nó không phā thuác vào sá l¤ÿng các đái t¤ÿng dā liáu, chỉ phā thuác vào sá l¤ÿng các ô ã mßi chiÅu trong không gian l¤ÿng hóa
Mát sá thuÁt toán c¢ bÁn cÿa tiÃp cÁn dựa trên l¤ßi là thuÁt toán STING, thuÁt toán này tìm kiÃm theo tháng kê các thông tin nằm trong các ô ThuÁt toán WaveCluster phân cām dā liáu sÿ dāng ph¤¢ng pháp biÃn đái sóng và thuÁt toán CLIQUE trình bày cách tiÃp cÁn dựa vào mÁt đá và dựa vào l¤ßi để phân cām dā liáu nằm trong không gian vßi sá chiÅu lßn
STING: A STatistical INformation Grid approach
STING là mát c¿u trúc dā liáu đa māc dựa trên l¤ßi, trong không gian dā liáu đ¤ÿc chia thành các ô hình chā nhÁt Có các ô t¤¢ng āng vßi các māc khác nhau để giÁi quyÃt bài toán, cách phân chia ô nh¤ vÁy t¿o ra mát c¿u trúc phân c¿p: mßi ô ã māc cao đ¤ÿc phân chia thành mát sá ô ã māc th¿p h¢n tiÃp theo Thông tin tháng kê liên quan tßi thuác tính cÿa mßi ô nh¤ mean, maximum, minimum đ¤ÿc tính toán tr¤ßc và l¤u trā Nhāng thông tin thông kê này sÁ trÿ giúp cho quá trình truy v¿n nh¤ sau:
Hình 1.8 Ba tÁng liên tiÃp nhau cÿa c¿u trúc STING Trong hình 1.8 trình bày 3 tÁng liên tiÃp nhau cÿa c¿u trúc STING, mßi ô
ã tÁng trên đ¤ÿc phân chia thành bán ô ã tÁng tiÃp theo Các tham sá tháng kê ã
Trang 3131
māc cao có thể đ¤ÿc dß dàng tính toán bãi các tham sá từ các ô ã māc th¿p h¢n Các tham sá này bao gßm: sá l¤ÿng đái t¤ÿng trong ô: count; giá trß trung bình: mean; đá lách chuẩn: s; giá trß nhß nh¿t cÿa thuác tính cÿa các đái t¤ÿng trong ô: min; giá trß lßn nh¿t cÿa thuác tính cÿa các đái t¤ÿng trong ô: max và kiểu phân bá trong các ô Dā liáu đ¤ÿc đ¤a vào trong c¿u trúc l¤ßi bÃt đÁu từ māc th¿p nh¿t Các tham sá count, m, s, min, max ã māc này đ¤ÿc tính toán trực tiÃp
từ dā liáu Giá trß cÿa phân bá có thể đ¤ÿc đặt bãi ng¤ái sÿ dāng Kiểu phân bá
ã ô māc cao đ¤ÿc tính toán dựa trên các kiểu phân bá ã các ô t¤¢ng āng ã māc th¿p kÅ nó theo mát ng¤ỡng cho tr¤ßc NÃu các phân bá ã māc th¿p giáng nhau
và bß lßi khi kiểm tra bãi ng¤ỡng, kiểu phân bá ã ô māc cao sÁ là không xác đßnh (đ¤ÿc đặt là none)
Để thực hián phân cām trên c¿u trúc l¤ßi, ng¤ái sÿ dāng cung c¿p mÁt đá
ã các ô nh¤ là tham sá đÁu vào Sÿ dāng tham sá này, áp dāng tiÃp cÁn down, ph¤¢ng pháp dựa trên l¤ßi tìm các vùng có mÁt đá ch¿p nhÁn đ¤ÿc bằng viác thực hián các thao tác sau:
Top-Mát tÁng vßi c¿u trúc phân c¿p đ¤ÿc xác đßnh để thực hián tiÃn trình trÁ lái truy v¿n TÁng này bao gßm mát sá l¤ÿng nhß các ô Vßi mßi ô trong tÁng, tính khoÁng chÃc chÃn mà các ô trong đó sÁ trã thành mát cām Các ô không chÃc chÃn sÁ bß lo¿i bß
Các ô thßa mãn truy v¿n đ¤ÿc tinh chỉnh l¿i bằng cách lặp l¿i thÿ tāc t¿i māc tiÃp theo cÿa c¿u trúc
TiÃn trình này đ¤ÿc lặp l¿i cho đÃn khi māc cuái cùng đ¤ÿc tìm th¿y T¿i
đó, nÃu truy v¿n xác đßnh đ¤ÿc kÃt quÁ, các vùng chāa các ô thích hÿp thßa mãn truy v¿n đ¤ÿc trÁ vÅ Tr¤áng hÿp khác, dā liáu r¢i vào các ô thích hÿp đ¤ÿc khôi phāc l¿i, và tiÃn trình tiÃp theo đ¤ÿc thực hián cho đÃn khi chúng gặp các yêu cÁu cÿa truy v¿n
Trang 3232
CLIQUE : Phân cām vái dā lißu đa chiều
ThuÁt toán CLIQUE tích hÿp cÁ hai ph¤¢ng pháp phân cām dựa trên mÁt
đá và trên l¤ßi CLIQUE tìm kiÃm các cām trong không gian con cÿa dā liáu
Nó đ¤ÿc sÿ dāng ráng rãi để phân cām dā liáu đa chiÅu phân bá th¤a thßt và khó nhÁn ra các cām trong không gian nhiÅu chiÅu này
Trong thuÁt toán CLIQUE, không gian dā liáu đ¤ÿc chia thành các khái chā nhÁt không chßng nhau lên bằng phân đo¿n dác theo mßi chiÅu Mát khái là dày đặc nÃu nó có sá l¤ÿng các điểm dā liáu bao gßm nó v¤ÿt quá thông sá vào cÿa mô hình Mát cām đ¤ÿc đßnh nghĩa là mát tÁp lßn nh¿t cÿa các khái dày đặc liên kÃt vßi nhau
CLIQUE thực hián phân cām dā liáu nhiÅu chiÅu bằng di chuyển từ không gian ít chiÅu tßi không gian nhiÅu chiÅu h¢n Khi tìm các khái có mÁt đá dày đặc t¿i vùng k-chiÅu, CLIQUE sÿ dāng thông tin phân cām đ¿t đ¤ÿc từ vùng (k-1)-chiÅu để làm giÁm quá trình tìm kiÃm không cÁn thiÃt ĐiÅu này đ¤ÿc thực hián bằng cách quan sát thông tin tiên nghiám đ¤ÿc sÿ dāng trong khám phá luÁt kÃt hÿp (Argawal & Srikant, 1994) Viác sÿ dāng thông tin biÃt tr¤ßc này nhằm làm giÁm quá trình tìm kiÃm trong không gian tìm kiÃm Áp dāng tính ch¿t này vào thuÁt toán QLIQUE có thể phát biểu nh¤ sau:
NÃu mát khái k-chiÅu là dày đặc thì đó là các ánh x¿ cÿa chúng trong không gian (k-1)-chiÅu ĐiÅu đó có nghĩa: mát khái đ¤ÿc xem là mÁt đá dày đặc trong k-chiÅu, nÃu chúng ta kiểm tra các khái ánh x¿ cÿa nó trong không gian (k-1) chiÅu hình thành các khái và tìm xem nÃu có b¿t kỳ mát khái nào th¤a thì chúng ta biÃt rằng khái trong không gian k-chiÅu sÁ không dày đặc
Trang 3333
Hình 1.9 CLIQUE xác đßnh các vùng tiÅm năng dựa trên các đ¢n vß dày đặc ThuÁt toán CLIQUE đ¤ÿc minh háa trong hình 1.9 Thông th¤áng, kÃt quÁ vùng tìm kiÃm là nhß h¢n so vßi vùng ban đÁu Các khái dày đặc đ¿i dián
Trang 3434
CH£¡NG 2: LÝ THUYÂT TÀP THÔ
TÁp thô đ¤ÿc Zdzislaw Pawlak (mát nhà toán hác và khoa hác máy tính ng¤ái Ba Lan) đÅ xu¿t năm 1982, vßi ý t¤ãng coi nó là công cā toán hác để đái phó vßi các khái niám m¢ hß, nó đ¤ÿc phát triển từ giÁ đßnh là để đßnh nghĩa
mát tÁp hÿp ta cÁn phÁi biÃt mát sá thông tin (hay tri thāc) vÅ các phÁn tÿ cÿa tÁp, không giáng nh¤ đßnh nghĩa tÁp hÿp tr¤ßc đây (Georg Cantor, ng¤ái đ¤ÿc coi là ông tá cÿa lý thuyÃt tÁp hÿp đã đ¤a ra là để đßnh nghĩa tÁp hÿp, cách duy
nh¿t là dựa trên các phÁn tÿ cÿa tÁp đó và không cÁn thông tin vÅ các phÁn tÿ cÿa tÁp hÿp) Đái vßi mát sá phÁn tÿ, thông tin cÿa chúng có thể t¤¢ng tự nhau,
do đó các phÁn tÿ này không thể phân biát đ¤ÿc mát cách rõ ràng Quan há không phân biát đ¤ÿc là điểm khãi đÁu cÿa lý thuyÃt tÁp thô Quan há này chỉ ra
sự mÁp má và không chÃc chÃn, có quan há chặt chÁ vßi tính không phân biát đ¤ÿc
Hình 2.1: Hình minh háa khái niám tÁp thô
2 1 Hß thông tin và hß quyết đánh
Mát tÁp dā liáu vÅ các lo¿i đái t¤ÿng đ¤ÿc biểu dißn d¤ßi d¿ng mát bÁng, trong đó mßi dòng biểu dißn mát đái t¤ÿng (có thể là mát sự vÁt, mát ng¤ái, mát tình huáng,&) Mßi cát biểu dißn mát thuác tính (mát biÃn, mát quan sát,