DANH MĀC CÁC KÝ HIàU, CÁC CHĀ VI¾T TÀT Há sá gißi h¿n ch¿t l°ÿng cÿa giÁi pháp thông qua hàm thích āng trong thuÁt toán PSO Không gian ho¿t đáng cÿa bÁy đàn trong thuÁt toán PSO M M
Trang 1Bà GIÁO DĀC VÀ ĐÀO T¾O Bà QUàC PHÒNG
VIàN KHOA HâC VÀ CÔNG NGHà QUÂN SĂ
-
LÊ TH à CÂM BÌNH
LU ¾N ÁN TI¾N S) TOÁN HâC
Hà Nßi – 2023
Trang 2Bà GIÁO DĀC VÀ ĐÀO T¾O Bà QUàC PHÒNG
VIàN KHOA HâC VÀ CÔNG NGHà QUÂN SĂ
-
LÊ TH à CÂM BÌNH
Ngành: C¢ sã toán hác cho tin hác
Mã s á: 9 46 01 10
LU ¾N ÁN TI¾N S) TOÁN HâC
NG¯âI H¯àNG DÄN KHOA HâC:
1 PGS.TS NGÔ THÀNH LONG
2 TS LÊ XUÂN ĐĀC
Hà Nßi - 2023
Trang 3L âI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cāu cÿa tôi Các sá liáu, các kÃt quÁ trình bày trong luÁn án hoàn toàn trung thực và ch°a từng đ°ÿc ai công
bá trong b¿t kỳ các công trình nào khác, các dā liáu tham khÁo đ°ÿc trích d¿n đÁy đÿ
Nghiên cāu sinh
Lê Thá CÃm Bình
Trang 4L âI CÀM ¡N
LuÁn án này đ°ÿc thực hián và hoàn thành t¿i Vián Công nghá thông tin, Vián Khoa hác và Công nghá quân sự Tr°ßc hÃt, nghiên cāu sinh xin bày tß lòng biÃt ¢n sâu sÃc tßi PGS.TS Ngô Thành Long và TS Lê Xuân Đāc đã đßnh h°ßng, chỉ bÁo và giúp đỡ trong quá trình nghiên cāu và hoàn thành luÁn án
Tôi xin bày tß lái cÁm ¢n sâu sÃc tßi lãnh đ¿o, tÁp thể cán bá giÁng viên cÿa Vián Khoa hác và Công nghá quân sự, Phòng Đào t¿o, Vián Công nghá thông tin đã t¿o điÅu kián thuÁn lÿi, hß trÿ, chia s¿ và giúp đỡ tôi trong thái gian hác tÁp và nghiên cāu t¿i Vián Tôi cũng xin gÿi lái cÁm ¢n tßi các thành viên nhóm nghiên cāu seminar phân cām dā liáu đã t¿o ra môi tr°áng trao đái hác thuÁt th°áng xuyên và chia s¿ các ý t°ãng có giá trß cho các nghiên cāu cÿa luÁn án
Tôi xin phép đ°ÿc gÿi lái cÁm ¢n chân thành tßi lãnh đ¿o Tr°áng Đ¿i hác Văn hóa, các đßng nghiáp t¿i Khoa Khoa hác C¢ bÁn, Khoa Thông tin, Th° vián đã t¿o điÅu kián thuÁn lÿi trong quá trình nghiên cāu và làm viác t¿i Tr°áng
Cuái cùng, xin cÁm ¢n tßi gia đình đã hß trÿ, đáng viên và giúp đỡ tôi r¿t nhiÅu vÅ tinh thÁn, vÁt ch¿t và thái gian để có thể hoàn thành luÁn án
Nghiên cāu sinh
Lê Thá CÃm Bình
Trang 5M ĀC LĀC
Trang
LàI CAM ĐOAN i
LàI CÀM ¡N ii
MĀC LĀC iii
DANH MĀC CÁC KÝ HIàU, CÁC CHĀ VIÂT TÂT vi
DANH MĀC CÁC BÀNG xiii
DANH MĀC CÁC HÌNH VÀ xv
Mâ ĐÀU 1
Ch°¢ng 1 TàNG QUAN VÄ PHÂN CĀM DĀ LIàU 7
1.1 Gißi thiáu chung vÅ phân cām dā liáu 7
1.1.1 Đßnh nghĩa 7
1.1.2 Phân cām má 8
1.1.3 Ph°¢ng pháp đánh giá trong phân cām 10
1.2 C¢ sã toán hác cÿa luÁn án 13
1.2.1 ThuÁt toán tái °u bÁy đàn 14
1.2.2 ThuÁt toán đßng phân cām má 17
1.2.3 Mô hình phân cām má theo nhóm 19
1.2.4 Tri thāc ẩn trong phân cām dā liáu 23
1.2.5 Dā liáu đa ngußn 24
1.2.6 Dā liáu nhiÅu đặc tr°ng 28
1.3 KÃt luÁn ch°¢ng 1 29
Ch°¢ng 2 MàT Sà CÀI TIÂN KĀ THUÀT PHÂN CĀM DĀ LIàU 30
2.1 ĐÅ xu¿t thuÁt toán đßng phân cām má sÿ dāng PSO tái °u tâm cām vßi lßp bài toán dā liáu nhiÅu đặc tr°ng 30
2.1.1 Mô hình toán hác tái °u bÁy đàn MPSO 31
Trang 62.1.2 Mô hình tâm cām tái °u OCM 35
2.1.3 KÃt quÁ thực nghiám 45
2.2 ThuÁt toán đßng phân cām má dā liáu đa ngußn MSFCoC 54
2.2.1 Mô hình toán hác cÿa MSFCoC 55
2.2.3 Chia s¿ tri thāc trong phân cām dā liáu đa ngußn 58
2.2.4 Ph°¢ng pháp tính toán điÅu kián dừng 60
2.2.5 ThuÁt toán MSFCoC 61
2.2.6 KÃt quÁ thực nghiám 62
2.3 KÃt luÁn ch°¢ng 2 75
Ch°¢ng 3 MÔ HÌNH CÀI TIÂN PHÂN CĀM Mà THEO NHÓM ĐA HÀM MĀC TIÊU 77
3.1 Mô hình toán hác cÿa FOMOCE 77
3.1.1 Dā liáu đÁu vào 79
3.1.2 Bá phân lo¿i dā liáu đÁu vào 80
3.1.3 TÁp phân cām c¢ sã 81
3.1.4 Bá liên kÃt phân cām c¢ sã 82
3.1.5 Mô đun đßng thuÁn 83
3.1.6 Mô đun đánh giá kÃt quÁ phân cām 84
3.1.7 S¢ đß mô hình phân cām theo nhóm FOMOCE 84
3.2 Tri thāc ẩn trong mô hình FOMOCE 86
3.2.1 Tri thāc ẩn trong mô hình FOMOCE 86
3.2.2 Các quy tÃc d¿n xu¿t trong mô hình FOMOCE 91
3.3 ThuÁt toán FOMOCE 97
3.4 So sánh các mô hình phân cām theo nhóm 99
3.5 Mát sá kÃt quÁ thực nghiám 100
3.5.1 KÃt quÁ thực nghiám trên các mô hình phân cām đ¢n hàm māc tiêu 100
Trang 73.5.2 KÃt quÁ thực nghiám trên các mô hình phân cām đa hàm māc tiêu 111
3.6 KÃt luÁn ch°¢ng 3 120
KÂT LUÀN 122
DANH MĀC CÁC CÔNG TRÌNH KHOA HàC ĐÃ CÔNG Bà 124
TÀI LIàU THAM KHÀO 125
Trang 8DANH M ĀC CÁC KÝ HIàU, CÁC CHĀ VI¾T TÀT
Há sá gißi h¿n ch¿t l°ÿng cÿa giÁi pháp thông qua hàm
thích āng trong thuÁt toán PSO
Không gian ho¿t đáng cÿa bÁy đàn trong thuÁt toán PSO
M Mô hình toán hác cÿa FOMOCE
Há sá quán tính đ°ÿc sÿ dāng để điÅu khiển hành vi cÿa bÁy
đàn trong thuÁt toán PSO
Há sá đ¿i dián cho lo¿i dā liáu đa ngußn
Phân cām c¢ sã cÿa thuÁt toán phân cām theo nhóm
u,m entropy cÿa hàm thuác đái t°ÿng
v,m entropy cÿa hàm thuác đặc tr°ng
Im Chỉ sá ch¿t l°ÿng phân cām trung bình ã phân cām c¢ sã
thā m
m Chỉ sá cÿa phân cām c¢ sã tát nh¿t
A TÁp các hàm māc tiêu đ°ÿc sÿ dāng cho M phân cām c¢ sã
trong mô hình FOMOCE
A* Hàm đßng thuÁn trong mô hình FOMOCE
Am VÁn tác cÿa các phÁn tÿ bÁy đàn trong thuÁt toán PSO
B Sá các chỉ sá đánh giá ch¿t l°ÿng phân cām cuái cùng trong
mô hình FOMOCE
C* TÁp tâm cām kÃt quÁ cuái cùng trong mô hình FOMOCE
Trang 9Cm Vß trí cÿa các phÁn tÿ bÁy đàn trong thuÁt toán PSO
CGB GiÁi pháp tâm cām tái °u
D TÁp đặc tr°ng cÿa dā liáu
d Ph°¢ng pháp đo khoÁng cách trong phân cām
E Bá điÅu kián dừng cÿa phân cām c¢ sã trong mô hình
I Dā liáu đÁu vào cÿa bÁy đàn trong thuÁt toán PSO
I* TÁp chỉ sá đánh giá ch¿t l°ÿng phân cām cuái cùng trong mô
L Bá liên kÃt phân cām c¢ sã trong mô hình FOMOCE
M Sá ngußn cÿa dā liáu đa ngußn
N Sá đái t°ÿng dā liáu
O GiÁi pháp tiÅm năng toàn cāc trong thuÁt toán PSO
OG KÃt quÁ phân cām tái °u toàn cāc t¿i các b°ßc lặp cÿa các
phân cām c¢ sã trong mô hình FOMOCE
Trang 10Oi KÃt quÁ cÿa các phân cām c¢ sã trong mô hình FOMOCE
P TÁp các phÁn tÿ cÿa bÁy đàn trong thuÁt toán PSO
Pcj Đặc tr°ng thā j cÿa tâm cām c
PGB PhÁn tÿ đ¿i dián cho phÁn tÿ tiÅm năng tát nh¿t cÿa toàn bá
tiÃn trình ho¿t đáng cÿa bÁy đàn
PPB PhÁn tÿ đ¿i dián cho phÁn tÿ tiÅm năng tát nh¿t cāc bá t¿i mßi
b°ßc di chuyển cÿa bÁy đàn
Q Bá phân lo¿i dā liáu đÁu vào trong mô hình FOMOCE
q1, q2 Há sá kiểm soát tác đá hái tā cÿa các phÁn từ theo h°ßng tát
nh¿t cāc bá hoặc toàn cāc trong thuÁt toán PSO
r1, r2 Sá ng¿u nhiên phân bá đßng đÅu trong khoÁng từ 0 đÃn 1
RGB Quy tÃc xác đßnh giÁi pháp tiÅm năng toàn cāc sau quá trình
bÁy đàn di chuyển
RL Quy tÃc xác đßnh và trao đái tri thāc ẩn trong mô hình
FOMOCE
RPB Quy tÃc xác đßnh giÁi pháp tiÅm năng cāc bá t¿i các b°ßc di
chuyển cÿa bÁy đàn
Rs điÅu kián dừng trong mô hình OCM
S BÁy đàn trong thuÁt toán PSO
Tu, Tv Các tráng sá xác đßnh māc đá má
uci Đá thuác đái t°ÿng cÿa đái t°ÿng dā liáu thā i vßi cām c
Trang 11AR Chỉ sá điÅu chỉnh Rand (Adjusted Rand Index)
CCAU thuÁt toán phân cām đßng thuÁn dựa trên các đ¢n vß cām (the
consensus clustering algorithm based on cluster units) CLARA Phân cām trong các āng dāng lßn (Clustering LARge
Applications) Co-FCM Phân cām má cáng tác dā liáu đa khung nhìn (Collaborative
Fuzzy C-Means for multiview data) Co-FKM Phân cām FKM cáng tác dā liáu đa khung nhìn
(Collaborative FKM for multi-view data) Co-FW-
MVFCM
Phân cām má cáng tác đa khung nhìn đặc tr°ng có tráng sá (Collaborative feature-weighted multi-view fuzzy c-means clustering)
CSMSC Phân cām dā liáu đa không gian con riêng và nh¿t quán
(Consistent and specific multi-view subspace clustering) DBI Chỉ sá Davies–Bouldins (Davies–Bouldins index)
EFC Phân cām má theo nhóm (Emsemble Fuzzy Clustering) eFCoC Đßng phân cām má theo nhóm (fuzzy co-clustering ensemble
algorithm)
Trang 12F1- score Chỉ sá F1- score
FCCI ThuÁt toán đßng phân cām má để phân lo¿i Ánh màu (Fuzzy
co-clustering algorithm for color image segmentation) FCM Phân cām má (Fuzzy C-Means)
FCME Phân cām má theo nhóm sÿ dāng thuÁt toán FCM (ensemble
of Fuzzy C-Means) FCM-PSO Phân cām má dựa trên thuÁt toán tái °u bÁy đàn (Fuzzy C-
Means based on Particle Swarm Optimization) FCoC ThuÁt toán Đßng phân cām má (Fuzzy Co-Clustering)
FCOCM ThuÁt toán Đßng phân cām má sÿ dāng mô hình tái °u tâm
cām (Fuzzy Co- clustering algorithm by using the Optimal centroids Model)
FOMOCE Mô hình phân cām má theo nhóm đa hàm māc tiêu tái °u dā
liáu đa ngußn (Fuzzy optimized multi-objective clustering ensemble method)
IQI Chỉ sá ch¿t l°ÿng Ánh (Image Quality Index)
IT2FCM ThuÁt toán phân cām má lo¿i 2 khoÁng (Interval type-2 fuzzy
clustering algorithm) IVFCoC Đßng phân cām má giá trß khoÁng (Interval-valued fuzzy co-
clustering algorithm) JFLMSC KÃt hÿp tính năng theo tráng sá chung và hác c¿u trúc cāc bá
cho phân cām dā liáu đa không gian con (Joint Featurewise Weighting and Local Structure Learning for Multi-view Subspace Clustering)
Trang 13K-means Phân cām rõ (K- Means)
KM-PSO Phân cām rõ dựa trên thuÁt toán tái °u bÁy đàn (K- Means
based on Particle Swarm Optimization) LMSC Phân cām dā liáu đa không gian con tiÅm ẩn (Latent multi-
view subspace clustering) minimaxFCM Tái °u hóa minimax để phân cām hiáu quÁ dā liáu từ nhiÅu
ngußn (minimax optimization for effective clustering of data from multiple sources)
MKCE ThuÁt toán đa phân cām rõ theo nhóm (multiple K-Means
clustering ensemble algorithm) MPSO Mô hình toán hác cÿa thuÁt toán tái °u bÁy đàn
(Mathematical models of Particle Swarm Optimization) MSFCoC ThuÁt toán đßng phân cām má dā liáu đa ngußn (Multi-
source Fuzzy Co-clustering Algorithm) MVFCoC ThuÁt toán đßng phân cām dā liáu đa khung nhìn (Multi-view
fuzzy co-clustering algorithm) NMFCM Há sá hóa ma trÁn không âm trong phân cām theo nhóm dựa
trên tri thāc ẩn (Nonnegative matrix factorization for clustering ensemble based on dark knowledge)
nr-IT2FCM phân cām má lo¿i 2 kÃt hÿp thông tin lân cÁn (interval
type-2 fuzzy set generation is based on the method incorporating neighborhood information)
OCM Mô hình tìm tâm cām tái °u (Optimal Centroids Model)
PC Há sá phân vùng (Partition Coefficient)
Trang 14PSO ThuÁt toán tái °u bÁy đàn (Particle Swarm Optimization) Rec & Prec Chỉ sá phāc hßi và chính xác (Recall and Precision)
SACT ThuÁt toán đánh giá xu h°ßng cām theo chỉ sá Silhouette
(Silhouette-Based Assessment of Cluster Tendency algorithm)
WCoFCM Phân cām má cáng tác da khung nhìn có tráng sá (Weighted
multi-view collaborative fuzzy -means algorithm)
Trang 15DANH M ĀC CÁC BÀNG
Trang
BÁng 2.1 Thông tin tóm tÃt cÿa các tÁp dā liáu 45 BÁng 2.2 Bá giá trß tham sá đ°ÿc cài đặt cho các thuÁt toán phân cām 47 BÁng 2.3 Các tham sá đ°ÿc sÿ dāng trong các thuÁt toán PSO 47 BÁng 2.4 Các kÃt quÁ phân cām trên sáu tÁp dā liáu táng hÿp 49 BÁng 2.5 KÃt quÁ phân cām trên các tÁp dā liáu nhiÅu đặc tr°ng 51 BÁng 2.6 KÃt quÁ phân cām trên các tÁp dā liáu kích th°ßc lßn 53 BÁng 2.7 Thông tin tóm tÃt cÿa các tÁp dā liáu đa ngußn 62 BÁng 2.8 KÃt quÁ phân cām cÿa các thuÁt toán phân cām đa khung nhìn
và thuÁt toán đ¢n trên tÁp dā liáu Dim-sets
65
BÁng 2.9 KÃt quÁ phân cām các thuÁt toán phân cām đa khung nhìn và
thuÁt toán đ¢n trên tÁp dā liáu MF-sets
66
BÁng 2.10 KÃt quÁ phân cām các thuÁt toán phân cām đa khung nhìn và
thuÁt toán đ¢n trên tÁp dā liáu PF
67
BÁng 2.11 KÃt quÁ phân cām cÿa các thuÁt toán phân cām đa không gian
con và thuÁt toán phân cām đ¢n trên tÁp dā liáu IS-sets
69
BÁng 2.12 KÃt quÁ phân cām cÿa các thuÁt toán phân cām đa không gian
con và thuÁt toán phân cām đ¢n trên tÁp dā liáu HD-sets
70
BÁng 2.13 KÃt quÁ phân cām cÿa các thuÁt toán phân cām đa không gian
con và thuÁt toán phân cām đ¢n trên tÁp dā liáu LS-sets
71
BÁng 2.14 KÃt quÁ phân cām và táng thái gian thực hián cÿa thuÁt toán
MSFCoC trong hai tr°áng hÿp
73
BÁng 2.15 So sánh thái gian thực hián (giây) cÿa các thuÁt toán đa khung
nhìn và thuÁt toán đ¢n trên tÁp dā liáu đa khung nhìn
73
BÁng 2.16 So sánh thái gian thực hián (giây) cÿa các thuÁt toán trên ba
tÁp dā liáu đa không gian con
74
Trang 16BÁng 3.1 So sánh các đặc điểm cÿa mô hình FOMOCE so vßi các mô
hình phân cām theo nhóm truyÅn tháng
BÁng 3.4 Các kÃt quÁ phân cām sÿ dāng mô hình phân cām theo nhóm
trên tÁp dā liáu Chess
107
BÁng 3.5 Các kÃt quÁ phân cām sÿ dāng các mô hình phân cām theo
nhóm trên tÁp dā liáu Avila
108
BÁng 3.6 Các kÃt quÁ phân cām sÿ dāng các mô hình phân cām theo
nhóm trên tÁp dā liáu Covertype
109
BÁng 3.7 Thông tin tóm tÃt vÅ các tÁp dā liáu đa ngußn 111 BÁng 3.8 KÃt quÁ phân cām trên tÁp dā liáu đa ngußn Dim-set 114 BÁng 3.9 KÃt quÁ phân cām trên tÁp dā liáu đa ngußn MF-set 116 BÁng 3.10 KÃt quÁ phân cām trên tÁp dā liáu đa ngußn MF-set 117 BÁng 3.11 KÃt quÁ phân cām trên tÁp dā liáu đa ngußn OR-set 119
Trang 17DANH M ĀC CÁC HÌNH VÀ
Trang
Hình 1.2 Mô hình phân cām theo nhóm truyÅn tháng 22
Hình 3.2 S¢ đß mô hình phân cām theo nhóm FOMOCE 85
Trang 18DANH M ĀC CÁC THU¾T TOÁN
Trang
ThuÁt toán 1.3 ThuÁt toán đßng phân cām má FCoC 18 ThuÁt toán 2.1 ThuÁt toán tính hàm māc tiêu �㖇�㖎(�㕉) 39
ThuÁt toán 3.1 ThuÁt toán phân cām má theo nhóm FOMOCE 97
Trang 19M ä ĐÀU
1 Tính c ¿p thi¿t cÿa đÁ tài lu¿n án
Tác đá phát triển đát phá cÿa công nghá sá trong nhāng năm gÁn đây nh° đián tho¿i thông minh, đián toán đám mây, Internet v¿n vÁt, m¿ng xã hái, các dßch
vā online,& đã phát sinh mát l°ÿng dā liáu ngày càng lßn và phāc t¿p Trong sá
đó, dā liáu đ°ÿc thu thÁp từ nhiÅu ngußn khác nhau hoặc có nhiÅu đặc tr°ng có nhāng đặc điểm r¿t khác biát so vßi dā liáu truyÅn tháng Các ngußn dā liáu này cung c¿p các thông tin hāu ích nÃu đ°ÿc khai thác mát cách hiáu quÁ Vì vÁy, v¿n
đÅ nghiên cāu và hoàn thián ph°¢ng pháp khai phá dā liáu trên các ngußn dā liáu phāc t¿p này luôn là bài toán cÁn thiÃt và có ph¿m vi Ánh h°ãng m¿nh mÁ, có ý nghĩa to lßn và thực tißn
Hián nay phân cām dā liáu là mát trong nhāng kā thuÁt quan tráng trong lĩnh vực khai phá dā liáu nhằm tìm kiÃm, phát hián các cām, các m¿u dā liáu tự nhiên tiÅm ẩn trong tÁp dā liáu không gán nhãn, từ đó cung c¿p thông tin, tri thāc hāu ích cho viác ra quyÃt đßnh Do đó, phân cām dā liáu là mát b°ßc tiÅn xÿ lý quan tráng, đ°ÿc sÿ dāng ráng rãi trong các āng dāng nh° truy xu¿t thông tin, xÿ
lý hình Ánh, hác máy, nhÁn d¿ng m¿u, phân tích hình Ánh, tin sinh hác, nén dā liáu, chẩn đoán, đß háa máy tính, Tuy nhiên, khi áp dāng các kā thuÁt phân cām
dā liáu truyÅn tháng đái vßi dā liáu đa ngußn và nhiÅu đặc tr°ng- ván có tính ch¿t phāc t¿p h¢n so vßi dā liáu truyÅn tháng thì các kā thuÁt này trã nên kém hiáu quÁ, khó khăn, hoặc thÁm chí là không thể thực hián đ°ÿc do lo¿i dā liáu này tiÅm
ẩn mát sá thách thāc, đòi hßi năng lực xÿ lý tát đái vßi các tính ch¿t cÿa nó nh° kích th°ßc lßn hay tính đa d¿ng cÿa dā liáu,& Do đó, chúng không thể đáp āng nhu cÁu hián t¿i cÿa các āng dāng sÿ dāng dā liáu đa ngußn và nhiÅu đặc tr°ng
Trong xu h°ßng này, nhiÅu nhà khoa hác đã và đang tÁp trung nghiên cāu, phát triển các kā thuÁt phân cām cho dā liáu đa ngußn, thể hián trong mát sá công trình nghiên cāu đã công bá nh°: ThuÁt toán phân cām đa khung nhìn không gian
Trang 20con [61], thuÁt toán phân cām đa khung nhìn sÿ dāng há sá ma trÁn không âm [14], [84], kā thuÁt phân cām đa khung nhìn dựa trên phá [60], và nhiÅu công trình khác Tuy nhiên, hÁu nh° t¿t cÁ các công trình hián t¿i đÅu xem xét các ngußn sÿ dāng chung mát hàm māc tiêu phân cām, gái là các thuÁt toán phân cām dā liáu
đa ngußn đ¢n hàm māc tiêu Các m¿u giāa các ngußn khác nhau có mái quan há mát-mát cho dù đái vßi dā liáu hoàn chỉnh hay đái vßi mát vài phÁn cÿa dā liáu Ngoài ra, mái quan há ánh x¿ phāc t¿p giāa các ngußn dā liáu cũng ch°a đ°ÿc xem xét đÁy đÿ
Đái vßi lĩnh vực nghiên cāu phân cām dā liáu có kích th°ßc lßn, nhiÅu đặc tr°ng, mßi ngußn dā liáu th°áng liên quan đÃn sá l°ÿng lßn các đặc điểm khác nhau Các thành phÁn có đặc điểm dā liáu khác nhau từ các ngußn khác nhau có
sá đặc tr°ng khác nhau Vì vÁy, trong quá trình phân cām, cÁn xem xét tÁm quan tráng khác nhau cÿa các đặc điểm ã mßi ngußn dā liáu Nghiên cāu trong [30] đã
đÅ xu¿t mát l°ÿc đß tráng sá đặc tr°ng vßi vßi kā thuÁt giÁm đặc tr°ng cho FCM đ¢n ngußn nh°ng không sÿ dāng quy trình tráng sá đặc tr°ng cho dā liáu đa ngußn GÁn đây, [47] đÅ xu¿t mát c¢ chà tráng sá đặc tr°ng mßi cho MVFCM dựa trên ph°¢ng pháp hác cáng tác có thể giúp xác đßnh tÁm quan tráng khác nhau cÿa các đặc tr°ng trong mßi ngußn dā liáu Sau đó tự đáng lo¿i bß các thành phÁn đặc tr°ng tráng sá nhß để nâng cao hiáu su¿t phân cām
Bên c¿nh đó, để đ¿t đ°ÿc kÃt quÁ phân cām có đá chính xác cao h¢n và m¿nh h¢n đái vßi các lo¿i dā liáu này, các nghiên cāu gÁn đây đã thực hián mát
sá mô hình phân cām theo nhóm cho dā liáu đa ngußn, thể hián trong mát sá công trình nghiên cāu đã công bá liên quan đÃn chÿ đÅ này nh° [64] và [79] Mát sá cÁi
tiÃn phân cām theo nhóm gÁn đây nh° nghiên cāu trong [1] đÅ xu¿t phân cām má theo nhóm dựa trên đá tin cÁy sÿ dāng thuÁt toán FCM để phân cām c¢ sã, [18]
dựa trên K- Means và FCM để phân cām rõ và phân cām má trên tÁp dā liáu có kích th°ßc lßn, [72] đÅ xu¿t NMFCE dựa trên tri thāc ẩn nhằm trích xu¿t đ°ÿc nhiÅu thông tin h¢n từ dā liáu, đ¢n giÁn h¢n và phù hÿp vßi dā liáu có qui mô lßn
Trang 21Tuy nhiên, các nghiên cāu này mßi chỉ trình bày phân lo¿i cÿa các mô hình hián
có vßi phân tích t°¢ng āng mà ch°a trình bày d°ßi d¿ng mô hình toán hác táng quát hoặc chỉ trình bày mô hình cÿa bài toán theo trình tự thực hián cÿa há Mặt khác, hÁu hÃt các mô hình phân cām theo nhóm hián nay tiÃp cÁn theo h°ßng dā liáu đ¢n đ°ÿc thu thÁp từ mát ngußn duy nh¿t
Qua mát sá công trình nghiên cāu tiêu biểu nêu trên, có thể th¿y rằng nhiÅu kÃt quÁ nghiên cāu vÅ các chÿ đÅ này đã và đang trã thành c¢ sã lý thuyÃt cho nhāng nghiên cāu đ°ÿc āng dāng trong thực tÃ, giúp giÁi quyÃt đ°ÿc mát sá bài toán phân cām dā liáu phāc t¿p Tuy nhiên, bài toán phân cām cho dā liáu đa ngußn và nhiÅu đặc tr°ng v¿n còn nhāng v¿n đÅ tßn t¿i cÁn phÁi tiÃp tāc nghiên cāu để đ¿t đ°ÿc māc tiêu nâng cao ch¿t l°ÿng và có thể cÁi tiÃn theo nhiÅu h°ßng, để có thể áp dāng cho nhiÅu bá dā liáu khác nhau Đặc biát trong hoàn cÁnh công nghá mßi t¿o ra các
dā liáu ngày càng phāc t¿p, đòi hßi cÁn bá sung các thuÁt toán phân cām m¿nh và hiáu quÁ h¢n Chính vì nhāng lý do trên, nghiên cāu sinh lựa chán nghiên cāu và phát triển vÅ v¿n đÅ <Mßt sá ph°¢ng pháp phân cām mã theo nhóm cho bài
toán dā liáu đa nguãn, nhiÁu đ¿c tr°ng= cho luÁn án cÿa mình
2 M āc tiêu nghiên cāu
Trên c¢ sã nghiên cāu phát triển các thuÁt toán phân cām má, luÁn án đặt
ra māc tiêu tÁp trung cÁi tiÃn để đ°a ra mát sá giÁi pháp nhằm khÃc phāc nh°ÿc điểm cÿa các thuÁt toán tr°ßc đây, bao gßm: CÁi tiÃn nâng cao hiáu su¿t cÿa đßng phân cām má đái vßi dā liáu nhiÅu đặc tr°ng, đÅ xu¿t các mô hình, thuÁt toán phân cām má theo nhóm tiÃp cÁn theo h°ßng āng dāng phân tích dā liáu đa ngußn nhằm khÃc phāc mát sá h¿n chà cÿa các nghiên cāu tr°ßc đây và nâng cao đá chính xác và ch¿t l°ÿng cÿa các thuÁt toán phân cām
3 Đái t°ÿng và ph¿m vi nghiên cāu
3.1 Đối tượng nghiên cứu
LuÁn án tÁp trung vào đái t°ÿng nghiên cāu là mã ráng các thuÁt toán phân cām má thích nghi vßi dā liáu đa ngußn và dā liáu có nhiÅu đặc tr°ng
Trang 22Trong đó tÁp trung vào nghiên cāu kā thuÁt đßng phân cām má cùng các kā thuÁt phân cām má theo nhóm để cÁi tiÃn nâng cao hiáu su¿t phân cām Các đái t°ÿng nghiên cāu bao gßm:
- Các mô hình dā liáu đa ngußn
- Các thuÁt toán phân cām má, đßng phân cām má và kā thuÁt tái °u bÁy đàn đái vßi dā liáu đa ngußn, nhiÅu đặc tr°ng
- Mát sá thuÁt toán phân cām theo nhóm trên dā liáu đ¢n ngußn và dā liáu đa ngußn làm c¢ sã phát triển thuÁt toán đßng phân cām má, mô hình phân cām má đa hàm māc tiêu trên dā liáu đa ngußn
3.2 Ph ạm vi nghiên cứu
Ph¿m vi nghiên cāu cÿa luÁn án tÁp trung nghiên cāu bao gßm:
- Mát sá thuÁt toán phân cām dā liáu và các v¿n đÅ liên quan trong bài toán phân cām dā liáu
- Nghiên cāu thuÁt toán đßng phân cām má và kā thuÁt tái °u bÁy đàn nhằm nâng cao hiáu su¿t đßng phân cām má
- Nghiên cāu mát sá mô hình phân cām má theo nhóm
4 N ßi dung nghiên cāu
- Nghiên cāu táng quan và c¢ sã toán hác cÿa các mô hình, thuÁt toán phân cām má đ°ÿc sÿ dāng trong luÁn án
- Nghiên cāu phát triển và đÅ xu¿t mát vài thuÁt toán phân cām dā liáu tiÃp cÁn theo h°ßng āng dāng phân tích dā liáu đa ngußn, nhiÅu đặc tr°ng
- Nghiên cāu phát triển và đÅ xu¿t mát vài mô hình phân cām má theo nhóm tiÃp cÁn theo h°ßng āng dāng phân tích dā liáu đa ngußn
5 Ph°¢ng pháp nghiên cāu
Căn cā vào māc tiêu cÿa luÁn án là tÁp trung nghiên cāu táng quan và đÅ xu¿t mát vài mô hình, thuÁt toán đßng phân cām má và phân cām má theo nhóm Do đó, ph°¢ng pháp nghiên cāu cÿa luÁn án là thực hián nghiên cāu lý thuyÃt, triển khai thực nghiám và đánh giá kÃt quÁ Cā thể là:
Trang 23- Trên c¢ sã lý thuyÃt vÅ các thuÁt toán phân cām má và mô hình phân cām má theo nhóm hián có để xác đßnh cách tiÃp cÁn tái °u
- Mô phßng thực nghiám trên máy tính sÿ dāng các bá dā liáu m¿u chuẩn,
dā liáu thực và các chỉ sá đánh giá ch¿t l°ÿng cām dā liáu để so sánh kÃt quÁ nghiên cāu cÿa luÁn án vßi các kÃt quÁ nghiên cāu khác nhằm khẳng đßnh tính hiáu quÁ cÿa các giÁi pháp đÅ xu¿t trong luÁn án
- KÃt hÿp giāa tài liáu và h°ßng d¿n cÿa giáo viên, tự nghiên cāu tìm kiÃm tài liáu và trao đái kÃt quÁ vßi nhóm nghiên cāu Từng b°ßc công bá các kÃt quÁ nghiên cāu, thực nghiám trên các t¿p chí quy đßnh thông qua các Hái thÁo, các t¿p chí trong n°ßc và n°ßc ngoài TiÃp thu đÁy đÿ nhāng thành tựu mßi trong n°ßc và trên thà gißi để mã ráng và āng dāng trong luÁn án
6 Ý ngh*a khoa hãc và thăc tißn
Trong luÁn án này, nghiên cāu sinh đÅ xu¿t các ph°¢ng pháp góp phÁn nâng cao ch¿t l°ÿng dựa trên các kā thuÁt phân cām má và kā thuÁt phân cām má theo nhóm cho bài toán dā liáu đa ngußn, nhiÅu đặc tr°ng đ°ÿc chāng minh là phân cām dā liáu tát h¢n, đáp āng đ°ÿc yêu cÁu trong các āng dāng thực tà và góp phÁn hoàn thián các giÁi pháp nâng cao hiáu quÁ các bài toán phân cām dā liáu đa ngußn, dā liáu đa biÃn có kích th°ßc và sá đặc tr°ng lßn Các nái dung nghiên cāu có tính c¿p thiÃt, ý nghĩa khoa hác và thực tißn trong xu h°ßng phát triển chung cÿa lĩnh vực phân cām dā liáu hián nay
7 B á cāc cÿa lu¿n án
Ngoài các phÁn mã đÁu, kÃt luÁn, danh māc các công trình khoa hác đã công bá, danh māc tài liáu tham khÁo, luÁn án có bá cāc chính gßm ba ch°¢ng nh° sau:
Ch°¢ng 1: Trình bày táng quan vÅ các v¿n đÅ nghiên cāu liên quan đÃn
luÁn án Nái dung chính cÿa ch°¢ng 1 gißi thiáu táng quan vÅ phân cām dā liáu, khái niám c¢ bÁn cÿa dā liáu đa ngußn, dā liáu nhiÅu đặc tr°ng Bên c¿nh
đó, nái dung ch°¢ng 1 cũng trình bày nhāng v¿n đÅ nghiên cāu cÿa luÁn án,
Trang 24bao gßm: thuÁt toán đßng phân cām má, thuÁt toán tái °u bÁy đàn PSO, thuÁt toán đßng phân cām má, thuÁt toán phân cām má theo nhóm và tri thāc ẩn trong phân cām dā liáu, các công trình nghiên cāu liên quan đÃn luÁn án
Ch°¢ng 2: Trình bày hai đÅ xu¿t bao gßm: Mô hình giÁi pháp tâm cām
tái °u cho thuÁt toán đßng phân cām má cÁi tiÃn và thuÁt toán phân cām má theo nhóm tiÃp cÁn theo h°ßng phân tích dā liáu đa ngußn Đây là các mô hình, thuÁt toán mßi dựa thuÁt toán tái °u bÁy đàn và kā thuÁt thích nghi vßi dā liáu
đa ngußn, nhiÅu đặc tr°ng Các mô hình, thuÁt toán cÁi tiÃn này đ°ÿc đÅ xu¿t nhằm nâng cao tính năng và hiáu su¿t phân cām, khÃc phāc nhāng h¿n chà vÅ khÁ năng triển khai, khãi t¿o tâm cām và c¢ chà chia s¿ tri thāc trong các thuÁt toán phân cām theo nhóm truyÅn tháng
Ch°¢ng 3: ĐÅ xu¿t mô hình phân cām má theo nhóm tiÃp cÁn theo
h°ßng phân tích dā liáu đa ngußn, gái là mô hình cÁi tiÃn phân cām má theo nhóm đa hàm māc tiêu Mô hình này tÁp trung vào v¿n đÅ nâng cao hiáu su¿t phân cām và thích nghi vßi dā liáu đa ngußn, đa d¿ng, không đßng nh¿t, không chÃc chÃn bằng cách tích hÿp các hàm māc tiêu phân cām cho các phân cām c¢ sã Ngoài ra, để khai thác tái đa tri thāc tiÅm ẩn trong dā liáu đa ngußn, ch°¢ng này nghiên cāu c¢ chà chán lác và chia s¿ tri thāc giāa các phân cām c¢ sã trong quá trình lặp phân cām xÁy ra Các kÃt quÁ thực nghiám đ°ÿc trình bày nhằm chāng minh hiáu su¿t tát h¢n cÿa mô hình đ°ÿc luÁn án đÅ xu¿t so vßi các mô hình phân cām theo nhóm đã đ°ÿc đÅ xu¿t tr°ßc đó
Trang 25Ch°¢ng 1 TäNG QUAN VÀ PHÂN CĀM DĀ LIàU
Phân cām dā liáu là mát kā thuÁt hác không giám sát phá biÃn, đ°ÿc āng dāng trong viác tìm kiÃm c¿u trúc ẩn bên trong các tÁp dā liáu không gán nhãn,
từ đó cung c¿p thông tin, tri thāc hāu ích cho ra quyÃt đßnh và là mát b°ßc tiÅn
xÿ lý quan tráng tr°ßc khi thực hián quá trình khai phá dā liáu Phân cām dā liáu đ°ÿc sÿ dāng trong nhiÅu lĩnh vực nh° tháng kê, y tÃ, sinh hác, robot, nhÁn d¿ng m¿u và phân tích hình Ánh, v.v [59], [60], [75], [82], [95], [100] Hián nay, cùng vßi sự phát triển ngày càng lßn m¿nh cÿa khoa hác và công nghá đã làm gia tăng nhanh chóng các lo¿i dā liáu phāc t¿p, đòi hßi các kā thuÁt phân cām dā liáu cÁn đ°ÿc cÁi tiÃn để có năng lực xÿ lý tát nhằm đáp āng nhu cÁu hián t¿i cÿa các āng dāng sÿ dāng dā liáu
1.1 Gi ái thiáu chung vÁ phân cām dā liáu
1.1.1 Định nghĩa
Phân cām bao gßm các kā thuÁt nhóm tÁp đái t°ÿng dā liáu thành các cām khác nhau, các đái t°ÿng dā liáu có māc đá đặc điểm giáng nhau thì đ°ÿc nhóm vào cùng mát cām, các đái t°ÿng dā liáu có māc đá đặc điểm khác nhau thì đ°ÿc nhóm vào các cām khác nhau [11], [53], [55] Đßnh nghĩa toán hác vÅ phân cām dā liáu đ°ÿc trình bày nh° sau:
Đánh ngh*a 1.1 Cho þ = þ(�㕋, ÿ, þ, ĉ, Ċ, ă) là hàm mục tiêu của một kỹ
thuật phân cụm, trong đó:
�㕋 = {ý1, ý2, & , ýą} là tập các đối tượng dữ liệu đầu vào với N là số đối
tượng dữ liệu
C là số cụm dữ liệu của X,
d là phương pháp đo khoảng cách trong phân cụm, þāÿ = 6ýÿ 2 āā6 là
khoảng cách giữa đối tượng dữ liệu thứ i với tâm cụm c,
Trang 26ĉ = [ċāÿ]ą þ là ma trận hàm mục tiêu, uci với ċāÿ ∈ [0,1] và
3þ ċāÿ = 1
ā=1 , ∀ÿ là độ thuộc của đối tượng dữ liệu thứ i với tâm cụm c,
Ċ = [ČāĀ]þĂlà ma trận hàm thuộc đặc trưng v cj với ČāĀ ∈ [0,1] và
(1) Chán ng¿u nhiên các cām ban đÁu
(2) Tái °u hóa lặp đi lặp l¿i các cām cho đÃn khi đ¿t đ°ÿc giÁi pháp tái °u
1.1.2 Phân c ụm mờ
Dựa vào mái quan há cÿa từng đái t°ÿng dā liáu vßi các cām, các thuÁt toán phân cām đ°ÿc chia thành các thuÁt toán phân cām rõ và phân cām má
a Dā liáu ban đÁu b Phân cām rõ c Phân cām má
Hình 1.1 Phân lo¿i phân cām dā liáu Trong phân cām rõ, mát đái t°ÿng dā liáu chỉ đ°ÿc gán cho mát cām K-Means
là mát trong nhāng thuÁt toán phân cām rõ đ¢n giÁn nh¿t đ°ÿc sÿ dāng để giÁi quyÃt các bài toán phân cām phá biÃn [22] Trong phân cām má, các đái t°ÿng dā liáu đ°ÿc gán cho mái cām vßi các đá thuác khác nhau [23], [26] Phân cām má đ°ÿc āng dāng trong nhiÅu lĩnh vực nh° sinh hác, y hác, đßa lý, khai phá dā liáu, nhÁn d¿ng, nghiên cāu thß tr°áng, xÿ lý Ánh, tìm kiÃm thông tin& nhằm cung c¿p thông tin có giá trß hß trÿ cho viác ra quyÃt đßnh, đặc biát trong lĩnh vực dự báo Phân cām má là cách giúp
mô tÁ dā liáu trong thà gißi thực mát cách tự nhiên h¢n so vßi thuÁt toán phân cām rõ
và là lựa chán phù hÿp đái vßi các dā liáu mang tính ch¿t không chÃc chÃn hoặc trừu
Trang 27t°ÿng nh° dā liáu đa ngußn, nhiÅu đặc tr°ng Các thuÁt toán phân cām má đã đ°ÿc chāng minh là đ¿t đ°ÿc ch¿t l°ÿng cām tát h¢n so vßi mát sá thuÁt toán phân cām rõ [7], [23] J.C Bezdek và cáng sự đã thiÃt kà fuzzy- Cmeans (FCM) [23] bằng cách đÅ xu¿t khái niám cām chßng l¿p để xÿ lý tr°áng hÿp các cām chßng chéo nhau (mát sá đái t°ÿng có thể thuác vÅ nhiÅu h¢n mát cām) và đá thuác má KÃt quÁ thực nghiám
đã chāng minh FCM đ¿t đ°ÿc hiáu su¿t tát h¢n thuÁt toán phân cām rõ K-mean Hián nay, FCM là mát trong nhāng thuÁt toán đ°ÿc āng dāng ráng rãi nh¿t trong các thuÁt toán phân cām Xét tÁp �㕋 = {ýÿ, ýÿ ∈ ℝĂ, ÿ = 1, Ă} Bài toán phân cām dā liáu yêu cÁu tìm mát điểm đ¿i dián cho cho mßi cām dā liáu (đ°ÿc gái là tâm cÿa cām dā liáu đó), từ đó xác đßnh đ°ÿc mát đái t°ÿng dā liáu xicó thuác mát cām c nào đó bằng cách tính giá trß cÿa đá thuác u ci ThuÁt toán FCM sÿ dāng quá trình lặp để x¿p xỉ cực tiểu hàm māc tiêu JFCM, vßi JFCMđ°ÿc xác đßnh nh° sau:
ý Ā=1
(1.3)
Ma trÁn trung tâm cām G={g c} đ°ÿc xác đßnh bãi công thāc:
āā =3þÿ=1ċýÿăýÿ
Trang 28ThuÁt toán FCM đ°ÿc thực hián nh° sau:
Thu ¿t toán 1.1 Thu¿t toán phân cām mã FCM
ĐÁu vào: TÁp dā liáu X; Sá cām C; tham sá má m; ng°ỡng sai sá ; sá vòng lặp tái đa max
Các b°ác thăc hián:
1 Khãi t¿o ma trÁn hàm thuác U=[u ci] thßa mãn:
3 þ ċāÿ = 1ā=1 v ßi ÿ = 1, Ă
2 Khãi t¿o biÃn đÃm sá vòng lặp =0
3 REPEAT
4 Tính vector tâm cām g c theo công thāc (1.3)
5 CÁp nhÁt l¿i U theo công thāc (1.2)
6 =+1
7 UNTIL ||U (+1) - U () || < hoặc >=max
ĐÁu ra: TÁp cām kÃt quÁ
- Đá phāc t¿p tính toán: O(C.N.)
ThuÁt toán FCM có hiáu năng tính toán t°¢ng đ°¢ng thuÁt toán K- Means Tuy nhiên, FCM có thể không chính xác trong v¿n đÅ xÿ lý các giá trß ngo¿i biên và nhißu do trung tâm cām có thể khác xa so vßi trung tâm cām thực
sự, khó khăn trong viác khãi t¿o các tham sá đÁu vào nh°: tâm cām, sá l°ÿng cām, ma trÁn hàm thuác Ngoài ra, FCM có thể mÃc phÁi v¿n đÅ tái °u hóa cāc
bá và kém hiáu quÁ khi xÿ lý dā liáu có sá đặc tr°ng lßn [7]
1.1.3 Phương pháp đánh giá trong phân cụm
Trong phân cām, đánh giá hiáu su¿t cÿa các thuÁt toán phân cām là mát b°ßc quan tráng để lựa chán mát thuÁt toán phù hÿp cho mát bài toán cā thể
Để đánh giá hiáu su¿t phân cām, có thể sÿ dāng các chỉ sá đánh giá ch¿t l°ÿng cām và thái gian thực hián mát tiÃn trình phân cām
Hián nay, có r¿t nhiÅu chỉ sá °ßc l°ÿng cām, mßi chỉ sá phù hÿp vßi mát lo¿i bài toán phân cām nh¿t đßnh, và r¿t ít chỉ sá phù hÿp cho t¿t cÁ các bài toán
Trang 29phân cām Các đá đo ch¿t l°ÿng phân cām đ°ÿc phân thành 3 lo¿i là: Đánh giá trong (internal evaluation), đánh giá ngoài (external evaluation) và đánh giá quan há (relative evalution) [94] Trong phÁn này sÁ trình bày mát sá chỉ sá đánh giá đ°ÿc sÿ dāng cho các thuÁt toán phân cām đ°ÿc gißi thiáu trong luÁn án
1.1.3.1 Ch ỉ số đánh giá độ chính xác phân cụm
Cho X={x i}N là mát tÁp dā liáu hu¿n luyán vßi N đái t°ÿng dā liáu đ°ÿc
gán nhãn trong các cām Y={y i}N là tÁp các nhãn Accuracy index (Acc) đ°ÿc
sÿ dāng để đo đá chính xác cÿa phân cām [23] Giá trß cÿa Acc càng cao thì
ch¿t l°ÿng phân cām càng tát Chỉ sá Acc đ°ÿc tính theo công thāc:
map(.) ký hiáu hàm hoán vß
·(.,.) là hàm Dirac đ°ÿc xác đßnh bãi công thāc:
ÿ(ýÿ, þÿ) = {1, ýÿ = þÿ
0, các tr°áng hÿp khác (1.6)
1.1.3.2 Chỉ số Precision (Pre) và Recall (Rec)
KÃt quÁ phân cām đ°ÿc đánh giá dựa trên tÁp dā liáu chuẩn (m¿u) đã đ°ÿc phân cām từ tr°ßc đó, còn đ°ÿc gái là tÁp benchmark H°ßng tiÃp cÁn cÿa lo¿i này đánh giá māc đá t°¢ng đßng giāa viác phân cām bãi thuÁt toán
cÁn đánh giá vßi tÁp dā liáu benchmark Mát sá tham sá nh° Pre và Rec [10]
đánh giá ch¿t l°ÿng phân cām má theo tiêu chí đánh giá ngoài sÿ dāng các qui
tÃc sau: Gái P 1 là phân cām chuẩn, P 2là phân cām kÃt quÁ cÿa thuÁt toán Xét các tr°áng hÿp:
- Cặp đái t°ÿng cùng thuác P1 và P 2 đ°ÿc biểu thß bãi yy,
- Cặp đái t°ÿng thuác P 1 và không thuác P 2đ°ÿc biểu thß bãi yn,
Trang 30- Cặp đái t°ÿng không thuác P1 và thuác P2 đ°ÿc biểu thß bãi ny,
- Cặp đái t°ÿng không thuác P 1 và không thuác P 2 đ°ÿc biểu thß bãi nn Nh° vÁy, yy đ°ÿc xem nh° là tÁp các đái t°ÿng dā liáu đ°ÿc phân cām đúng, ny và yn là tÁp các đái t°ÿng dā liáu đ°ÿc phân cām sai Khi đó chỉ sá Precision đ°ÿc tính theo công thāc:
Bezdek [4] sÿ dāng chỉ sá PC (Partion Coefficient) để °ßc l°ÿng māc
đá hái tā cÿa hàm thuác đái t°ÿng Khi PC nhÁn giá trß lßn h¢n, hàm thuác đái t°ÿng tiám cÁn đÃn giá trß tái °u PC đ°ÿc tính theo công thāc:
Cho N c là sá đái t°ÿng dā liáu đ°ÿc nhóm vào cām vßi tâm cām g c Đá
phân tán S c đ°ÿc tính theo công thāc:
ćā = √ą1ý3 |ýąý ÿ 2 āā|2
trong đó, xi là đái t°ÿng thā i trong cām thā c, vßi ÿ = 1, Ă ā
Mij là phép đo đá tách biát giāa cām i và cām j M ijđ°ÿc tính theo công thāc:
āÿĀ = √3 (āþ ÿā 2 āĀā)2
Trang 31Cho R ij là th°ßc đo māc đá hiáu quÁ cÿa s¢ đß phân cām Rij đ°ÿc tính theo công thāc:
ý̅ = ą13ąÿ=1ýÿ , þ =ą13ąÿ=1þÿ, �㔎ý2 = ą211 3 (ýąÿ=1 ÿ 2 ý̅),
�㔎þ2 =ą211 3 (þąÿ=1 ÿ 2 þ), �㔎ýþ =ą211 3 (ýąÿ=1 ÿ 2 ý̅)(þÿ 2 þ)
trong đó,
xi là đái t°ÿng thā i cÿa tÁp dā liáu Ánh gác,
yi là đái t°ÿng thā i cÿa tÁp dā liáu Ánh thÿ nghiám
1.2 C¢ så toán hãc cÿa lu¿n án
C¢ sã toán hác đ°ÿc sÿ dāng làm c¢ sã khoa hác phāc vā nghiên cāu và phát triển các nái dung tiÃp theo cÿa luÁn án, bao gßm: ThuÁt toán tái °u bÁy
Trang 32đàn PSO, thuÁt toán đßng phân cām má FCoC, mô hình phân cām má theo nhóm EFC, tri thāc ẩn trong các mô hình và thuÁt toán phân cām dā liáu
1.2.1 Thu ật toán tối ưu bầy đàn
ThuÁt toán tái °u bÁy đàn (PSO) là mát thuÁt toán tái °u đa năng nái tiÃng, đ°ÿc l¿y cÁm hāng từ hành vi tự nhiên cÿa bÁy chim và bÁy cá khi di c° và kiÃm thāc ăn [21], [83], [99] Trong khoa hác máy tính, thuÁt toán PSO là mát kā thuÁt tính toán tái °u mát v¿n đÅ bằng cách lặp đi lặp l¿i nhằm cÁi thián mát giÁi pháp āng viên liên quan đÃn mát th°ßc đo ch¿t l°ÿng nh¿t đßnh Nó giÁi quyÃt v¿n đÅ tìm kiÃm các giÁi pháp āng viên tiÅm năng từ mát tÁp hÿp các giÁi pháp āng viên đ°ÿc mã hóa bãi các phÁn tÿ [35], [36], [74], [78] Trong đó, các phÁn tÿ di chuyển xung quanh không gian tìm kiÃm theo các công thāc toán hác đ¢n giÁn Māc đá tiÅm năng cÿa āng viên đ°ÿc xác đßnh bằng mát hàm māc tiêu t°¢ng āng vßi bài toán tái °u cā thể Āng viên tiÅm năng nh¿t đ°ÿc chán d°ßi d¿ng kÃt quÁ tìm kiÃm cÿa thuÁt toán PSO ThuÁt toán PSO ban đÁu đ°ÿc mô phßng trong sinh hác, nh°ng nó có thể đ°ÿc áp dāng cho các bài toán khác nhau tùy thuác vào cách ng°ái sÿ dāng
mã hóa các phÁn tÿ trong máy tính nh° thà nào, vì vÁy PSO đ°ÿc gái là thuÁt toán đa năng
Mát sá công trình gÁn đây trong n°ßc và trên thà gißi đã áp dāng PSO nh°: trong giám sát [58], phân tích dā liáu tài chính [70], [87], trong phân tích dā liáu trang web [77], phân tích dā liáu y tà [17], phân đo¿n hình Ánh [65], phân tích dā liáu văn bÁn [52], phân tích dā liáu sinh hác và môi tr°áng [101], phân tích dā liáu nhiÅu đặc tr°ng [34], phân tích cām [33], [93].v.v
Trong phân cām dā liáu, thuÁt toán PSO đ°ÿc sÿ dāng để tìm các trung tâm cām ban đÁu cho các thuÁt toán phân cām bằng cách mã hóa các phÁn
tÿ d°ßi d¿ng tÁp hÿp các trung tâm cām Các phÁn tÿ di chuyển trong không gian dā liáu bằng cách thay đái giá trß cÿa các trung tâm cām t°¢ng āng, đo l°áng tiÅm năng cÿa các āng viên bằng cách đßnh l°ÿng mát hàm māc tiêu
Trang 33phân cām chuyên dāng Thông th°áng, āng cÿ viên có giá trß nhß nh¿t đ°ÿc coi là giÁi pháp cÿa các trung tâm cām ban đÁu tiÅm năng nh¿t Mát sá công trình gÁn đây đã áp dāng PSO vào các bài toán phân cām nh°: Mô hình phân tích dā liáu hßn hÿp dựa trên thuÁt toán K-means cÁi tiÃn và thuÁt toán tái
°u hóa bÁy h¿t thích āng [86], xác đßnh quy tÃc vÁn hành thích hÿp cÿa các
hß chāa thÿy đián bằng cách sÿ dāng các thuÁt toán PSO và thuÁt toán means [96], sÿ dāng thuÁt toán PSO để cÁi thián ch¿t l°ÿng cho các āng dāng sÿ dāng kā thuÁt phân cām Fuzzy C-Means (FCM), tìm giÁi pháp trung tâm cām ban đÁu cho phân cām FCM trong các āng dāng phân tích dā liáu chính phÿ đián tÿ [7], [66], [99]
K-Nói chung, thuÁt toán PSO đã đ°ÿc áp dāng hiáu quÁ trong mát sá āng dāng phân cām dā liáu Ngoài ra, thuÁt toán PSO có thể mã ráng cho các bài toán āng dāng khác nhau dựa trên khÁ năng mã hóa các phÁn tÿ theo mô hình cÿa bài toán đích ThuÁt toán PSO bao gßm 2 thành phÁn chính là tÁp các
phÁn tÿ X và hàm đßnh l°ÿng giÁi pháp f cÿa bÁy đàn [16], [21] Nguyên lý
làm viác cÿa PSO nh° sau:
Các phÁn tÿ di chuyển bằng cách thay đái C vector vß trí X i vßi vÁn tác
Aitheo h°ßng �㕋ýăĉĊ_ÿ(�㔏)
Vß trí �㕋ýăĉĊ(�㔏) đ°ÿc lựa chán từ vß trí tiÅm năng nh¿t trong sá các vß trí
�㕋ýăĉĊ_ÿ(Ċ) Các thành phÁn tác đá đ°ÿc tính toán bãi công thāc:
ý(�㔏+1)ÿ = ýÿ(�㔏) + ý1Ĉ1(�㔏)(�㕋ýăĉĊ_ÿ(�㔏) 2 �㕋ÿ(�㔏)) + ý2Ĉ2(�㔏)(�㕋ýăĉĊ(�㔏) 2 �㕋ÿ(�㔏)) (1.16) trong đó,
c1,c2 là các há sá gia tác,
r1, r2 là các sá ng¿u nhiên, vßi r 1, r2=0,1
Các thành phÁn vß trí đ°ÿc tính toán theo công thāc:
Trang 34Theo [39] hàm thích nghi đ°ÿc tính toán nh° sau:
Ā(�㕋) = ā
trong đó, là mát hằng sá và J FCoC là giá trß cÿa hàm māc tiêu đßng
phân cām má Các b°ßc cÿa thuÁt toán PSO đái vßi bài toán đßng phân cām má đ°ÿc mô tÁ trong ThuÁt toán 1.2
Thu ¿t toán 1.2 Thu¿t toán Tái °u bÁy đàn PSO
ĐÁu vào: BÁy đàn S, N p , c1, c2, w, Pso, Pso_max
ĐÁu ra: Vß trí tát nh¿t �㕋BesĊ(�㔏) t°¢ng āng ĀăÿĄ = ăÿĄ(Ā(�㕋))
1 Khãi t¿o: BÁy đàn ng¿u nhiên (X, A, �㕋ýăĉĊ(�㔏) và �㕋ýăĉĊ_ÿ(�㔏) )
Trang 35ThuÁt toán PSO kÃt thúc khi thßa mãn điÅu kián dừng:
| Ā(�㔏)(Ą) 2 Ā(�㔏21)(Ą)| f Āÿĉą (1.19) hoặc khi đ¿t đ°ÿc sá lÁn tìm kiÃm tái đa (=Pso_max)
1.2.2 Thu ật toán đồng phân cụm mờ
Đßng phân cām má (FCoC) là mát cÁi tiÃn cÿa FCM [29], [48], [88] Tuy nhiên, FCM chỉ xem xét dā liáu theo đ¢n vß đái t°ÿng, trong khi FCoC xem xét dā liáu theo cÁ đ¢n vß đái t°ÿng và đặc tr°ng cÿa chúng Hàm māc
tiêu cÿa FCM chỉ có ma trÁn hàm thuác đái t°ÿng U=[u ci]CN và khoÁng cách
giāa các đái t°ÿng d ci, trong khi hàm māc tiêu cÿa FCoC có thêm ma trÁn hàm
thuác đặc tr°ng V=[v cj]CK và khoÁng cách giāa các đái t°ÿng trong FCoC đ°ÿc phân rã thành khoÁng cách giāa các đặc tr°ng t°¢ng āng dcij Vßi c¿u trúc nh° vÁy, FCoC đ°ÿc coi là phù hÿp h¢n và có thể thay thà FCM trong phân cām các lo¿i dā liáu đa chiÅu, nhiÅu đặc tr°ng và kích th°ßc lßn
Hàm māc tiêu cÿa thuÁt toán đßng phân cām má J FCoC đ°ÿc biểu dißn bãi công thāc sau:
þýþąþ(ĉ, Ċ, ă) = 3 3 3 ċāÿČāĀþāÿĀ + Ĉċ3þ 3ąÿ=1ċāÿlog ċāÿ
Ă Ā=1
ą ÿ=1
þ ā=1
ĈČ3þ 3ĂĀ=1ČāĀlog ČāĀ
Thành phÁn thā nh¿t trong công thāc (1.20) là māc đá táng hÿp xét nhóm các đái t°ÿng và đặc tr°ng có māc đá liên quan lßn vßi nhau Thành phÁn thā hai
và thā ba là các thành phÁn kiểm soát māc đá má cÿa các đái t°ÿng và đặc tr°ng
Hàm māc tiêu J FCoCbß ràng buác bãi điÅu kián:
3þ ċāÿ
ā=1 = 1, ċāÿ ∈ [0,1], ∀ÿ = 1, Ă
3Ă ČāĀ = 1
Ā=1 , ČāĀ ∈ [0,1], ∀ý = 1, ÿ (1.21) trong đó, C là sá cām, N là sá đái t°ÿng dā liáu, K là sá đặc tr°ng cÿa
dā liáu, ă = {āāĀ} là tÁp các tâm cām, ĉ = {ċāÿ}và Ċ = {ČāĀ} là ma trÁn hàm
Trang 36thuác và ma trÁn hàm thuác đặc tr°ng, d cij là bình ph°¢ng khoÁng cách ¡clit giāa
xij và g cj đ°ÿc cho bãi công thāc:
Các b°ßc cÿa thuÁt toán FCoC đ°ÿc mô tÁ trong thuÁt toán 1.3
Thu ¿t toán 1.3 Thu¿t toán đãng phân cām mã FCoC
ĐÁu vào: TÁp dā liáu �㕋 = {ýÿ, ýÿ ∈ ℝĂ, ÿ = 1, Ă}, sá cām C, các tham
sá má Ĉċ, ĈČ, ¸FCoC , sá vòng lặp tái đa τ max
ĐÁu ra: Các cām kÃt quÁ
1 Khãi t¿o ma trÁn hàm thuác U=[u ci ]
Trang 37ThuÁt toán FCoC bao gßm mát vòng lặp chính cÁp nhÁt các thành
phÁn cÿa hàm māc tiêu J FCoC ThuÁt toán đ°ÿc kÃt thúc khi thßa mãn điÅu kián dừng:
ā�㕎ý(|ċāÿ[�㔏] 2 ċāÿ[�㔏 2 1]|) f Āýþąþ (1.26) Hoặc khi sá vòng lặp đ¿t đÃn sá vòng lặp tái đa cho phép (≥max) Đá
phāc t¿p tính toán cÿa thuÁt toán FCoC là O(CNK)
ThuÁt toán đßng phân cām má (FCoC) là mát công cā quan tráng có thể thay thà các kā thuÁt phân cām truyÅn tháng trong viác phân tích dā liáu phāc t¿p nh° nhiÅu đặc tr°ng, kích th°ßc lßn và không chÃc chÃn [87] Trong nhāng thÁp kÿ gÁn đây, FCoC đã đ°ÿc quan tâm trong các lĩnh vực khác nhau nh° khai phá dā liáu, nhÁn d¿ng m¿u, hác máy và phân tích hình Ánh [44], [48], [69], [91], [68] Trong hÁu hÃt các tr°áng hÿp phân cām nhiÅu đặc tr°ng, thuÁt toán FCoC luôn đ¿t đ°ÿc kÃt quÁ phân cām tát h¢n so vßi kā thuÁt phân cām truyÅn tháng Tuy nhiên, thuÁt toán FCoC và các cÁi tiÃn th°áng có đá phāc t¿p tính toán cao và nh¿y cÁm vßi các trung tâm cām ban đÁu Ngoài ra, hàm māc tiêu cÿa thuÁt toán FCoC có c¿u trúc phāc t¿p vßi nhiÅu tham sá Do đó, viác āng dāng thuÁt toán PSO vào thuÁt toán FCoC sÁ đem l¿i ý nghĩa trong phân tích dā liáu nhiÅu đặc tr°ng
1.2.3 Mô hình phân c ụm mờ theo nhóm
Các tiÃp cÁn kā thuÁt phân cām truyÅn tháng và đ¢n l¿ còn tßn t¿i h¿n chà vÅ đá phāc t¿p tính toán và khÁ năng xÿ lý dā liáu phāc t¿p và có quy mô lßn [89] Để khÃc phāc nhāng v¿n đÅ này,bên c¿nh mát sá cÁi tiÃn cÿa các kā thuÁt phân cām đã đ°ÿc gißi thiáu, các mô hình phân cām theo nhóm đã đ°ÿc
đÅ xu¿t So vßi các mô hình phân cām riêng l¿, phân cām má theo nhóm dựa trên kā thuÁt hác không giám sát kÃt hÿp nhiÅu kÃt quÁ phân cām riêng l¿ thành mát phân vùng duy nh¿t và đ¿t đ°ÿc đá chính xác cao h¢n và m¿nh h¢n so vßi các mô hình phân cām riêng l¿ Phân cām theo nhóm đã đ°ÿc chāng minh là
Trang 38tát h¢n b¿t kỳ thuÁt toán phân cām tiêu chuẩn nào vÅ tính chính xác và m¿nh
mÁ trong mát sá tr°áng hÿp āng dāng cā thể, đặc biát đái vßi v¿n đÅ phân cām
dā liáu phāc t¿p hoặc có qui mô lßn [64]
Phân cām theo nhóm là mát mô hình hác máy đa năng dựa vào quan điểm chia để trß Phân cām theo nhóm đ°ÿc hình thành bãi mát tÁp hÿp các kā thuÁt đ¢n l¿ ho¿t đáng song song, các đÁu ra đ°ÿc kÃt hÿp bãi chiÃn l°ÿc hÿp nh¿t quyÃt đßnh để t¿o ra kÃt quÁ duy nh¿t cho từng bài toán cā thể [76], [92]
và đ°ÿc sÿ dāng để giÁi quyÃt các d¿ng bài toán nh° phân lo¿i, dự đoán, hßi quy hoặc phân cām [39]
Do phân cām theo nhóm nhằm māc đích kÃt hÿp nhiÅu kā thuÁt phân cām khác nhau nên t¿o ra kÃt quÁ tát h¢n các thuÁt toán phân cām riêng l¿ vÅ tính nh¿t quán và ch¿t l°ÿng phân cām [64], [79] Nói chung, các mô hình phân cām theo nhóm tÁp trung vào hai b°ßc Thā nh¿t, chúng t¿o ra các kÃt quÁ phân cām đa d¿ng bằng cách sÿ dāng các thuÁt toán phân cām khác nhau hoặc mát thuÁt toán phân cām đ¢n vßi các tham sá khác nhau hoặc phân cām các tÁp con bằng cách chia tÁp dā liáu ban đÁu thành các tÁp con Thā hai, chúng xây dựng mát hàm để t¿o ra sự đßng thuÁn cÿa các kÃt quÁ phân cām c¢ sã Có mát sá
°u điểm cÿa phân cām theo nhóm nh°: Phân cām theo nhóm sÿ dāng mát sá kÃt quÁ phân cām c¢ bÁn và dā liáu có thể dß dàng đ°ÿc xÿ lý song song Ngoài
ra, chúng đ¿t đ°ÿc hiáu su¿t tát h¢n vÅ khÁ năng nhÁn biÃt các điểm bß cô lÁp
và nhißu Bên c¿nh đó, phân cām theo nhóm cung c¿p mát khuôn khá tự nhiên cho tính toán phân tán, vì vÁy mßi tiÃn trình có thể đ°ÿc điÅu phái Cuái cùng,
vì chúng chỉ yêu cÁu kÃt quÁ cÿa các cām c¢ sã và không cÁn truy cÁp vào các điểm dā liáu gác nên các phân cām theo nhóm đáp āng các yêu cÁu bÁo toàn quyÅn riêng t° và tái sÿ dāng tri thāc Sau khi phân cām theo nhóm đ°ÿc đÅ xu¿t đã nhanh chóng thu hút sự quan tâm cÿa các nhà nghiên cāu Mát sá nghiên cāu gÁn đây vÅ phân cām theo nhóm nh° công nghiáp khai thác mß [92], y tÃ
Trang 39và sinh hác [85], nhÁn d¿ng m¿u [1], [28], [42], phân lo¿i dā liáu [80], [81], xÿ
lý Ánh [3], [87], quÁn lý môi tr°áng [56] và xÿ lý dā liáu lßn [18]
Các mô hình phân cām theo nhóm th°áng đ°ÿc chia làm hai lo¿i: Các
mô hình phân cām theo nhóm đ¢n hàm māc tiêu [18] và các mô hình phân cām theo nhóm đa hàm māc tiêu [1], [72] Các mô hình phân cām theo nhóm đ¢n hàm māc tiêu phā thuác chÿ yÃu vào kā thuÁt phân cām và sự thay đái các tham
sá trên từng phân cām c¢ sã Do đó, các mô hình phân cām theo nhóm đ¢n hàm māc tiêu phù hÿp để phân cām các bá dā liáu đ¢n hoặc đßng nh¿t Các
mô hình phân cām theo nhóm đa hàm māc tiêu cho phép lựa chán các hàm māc tiêu phân cām khác nhau dựa vào tính ch¿t dā liáu cÿa từng phân cām c¢ sã
Do đó, các mô hình phân cām theo nhóm đa hàm māc tiêu phù hÿp để phân cām các bá dā liáu đa ngußn, không đßng nh¿t Các đÅ xu¿t trong [72] đã xác đßnh các tri thāc ẩn trong dā liáu nh° tham sá, hiáp ph°¢ng sai hoặc xác su¿t
để lựa chán các hàm māc tiêu khác nhau nh° EMGM, FCM, K-Means làm các phân cām c¢ sã
Sự khác biát giāa mô hình phân cām theo nhóm vßi các mô hình phân cām đ¢n là mô hình phân cām theo nhóm bao gßm nhiÅu mô đun phân cām ho¿t đáng song song và có liên kÃt Các kÃt quÁ phân cām cÿa các mô đun phân cām đ°ÿc táng hÿp thành mát kÃt quÁ phân cām toàn cāc Mô hình phân cām theo nhóm lÁn đÁu tiên đ°ÿc đßnh nghĩa bãi A Strehl và cáng sự [2] và gÁn đây
đã có nhiÅu nghiên cāu cÁi tiÃn [1], [28], [46], [63], [72] Mô hình phân cām theo nhóm đ°ÿc mô tÁ bãi các đßnh nghĩa d°ßi đây [CT6]
Đánh ngh*a 1.2 Phân cụm theo nhóm là một mô hình học máy được sử
dụng cho mục đích phân tích dữ liệu, trong đó các bộ dữ liệu cục bộ được phân cụm bởi các mô đun phân cụm khác nhau Các mô đun phân cụm này được gọi
là các mô đun phân cụm cơ sở (xem Định nghĩa 1.3) Kết quả phân cụm của các mô đun phân cụm cơ sở được tổng hợp thành một bộ kết quả phân cụm cuối cùng, được gọi là kết quả phân cụm toàn cục
Trang 40Đánh ngh*a 1.3 Phân cụm cơ sở là một mô đun phân cụm trong các mô
hình phân cụm theo nhóm Tại đó xảy ra quá trình phân cụm một tập dữ liệu cục bộ sử dụng một kỹ thuật phân cụm và các tham số tương ứng
Đánh ngh*a 1.4 Mô hình phân cụm theo nhóm: Cho một tập dữ liệu X
bao gồm N đối tượng dữ liệu và M thuật toán phân cụm khác nhau hoặc một thuật toán với M bộ tham số khác nhau M mô đun phân cụm cơ sở được hình thành bằng cách cài đặt M thuật toán phân cụm với M tập dữ liệu cục bộ tương ứng để nhóm mỗi tập dữ liệu cục bộ thành C cụm khác nhau Kết quả phân cụm của M mô đun phân cụm cơ sở �㗱1, �㗱2, & , �㗱Ą được kết hợp bởi hàm đồng thuận (Định nghĩa 1.5) để nhận được kết quả toàn cục *
Mô hình phân cām theo nhóm truyÅn tháng đ°ÿc mô tÁ trong Hình 1.2
Hình 1.2 Mô hình phân cām theo nhóm truyÅn tháng [42]
Đánh ngh*a 1.5 Hàm đồng thuận phân cụm theo nhóm là một trong
những thành phần chính của mô hình phân cụm theo nhóm, trong đó xảy ra quá trình hợp nhất các kết quả đến từ các phân cụm cơ sở thành kết quả phân cụm toàn cục của mô hình phân cụm theo nhóm
Mßi mô hình phân cām theo nhóm sÿ dāng mát thuÁt toán đ¢n để thiÃt
kà các phân cām c¢ sã Mát sá đÅ xu¿t gÁn đây nh°: Sÿ dāng thuÁt toán phân cām K-means [28], sÿ dāng thuÁt toán phân cām Fuzzy C-Means [49], sÿ dāng các thuÁt toán phân cām EMGM, FCM, K-Means [72] để xây dựng mô hình phân cām theo nhóm đa hàm māc tiêu Trong phÁn này, luÁn án sÿ dāng các
Phân cām XM