1. Trang chủ
  2. » Luận Văn - Báo Cáo

luận án tiến sĩ một số phương pháp phân cụm mờ theo nhóm cho bài toán dữ liệu đa nguồn nhiều đặc trưng

155 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

DANH MĀC CÁC KÝ HIàU, CÁC CHĀ VI¾T TÀT  Há sá gißi h¿n ch¿t l°ÿng cÿa giÁi pháp thông qua hàm thích āng trong thuÁt toán PSO  Không gian ho¿t đáng cÿa bÁy đàn trong thuÁt toán PSO M M

Trang 1

Bà GIÁO DĀC VÀ ĐÀO T¾O Bà QUàC PHÒNG

VIàN KHOA HâC VÀ CÔNG NGHà QUÂN SĂ -

LÊ THà CÂM BÌNH

LU¾N ÁN TI¾N S) TOÁN HâC

Hà Nßi – 2023

Trang 2

Bà GIÁO DĀC VÀ ĐÀO T¾O Bà QUàC PHÒNG

VIàN KHOA HâC VÀ CÔNG NGHà QUÂN SĂ -

LÊ THà CÂM BÌNH

Ngành: C¢ sã toán hác cho tin hác

Mã sá: 9 46 01 10

LU¾N ÁN TI¾N S) TOÁN HâC NG¯âI H¯àNG DÄN KHOA HâC:

1.PGS.TS NGÔ THÀNH LONG 2.TS LÊ XUÂN ĐĀC

Hà Nßi - 2023

Trang 3

LâI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cāu cÿa tôi Các sá liáu, các kÃt quÁ trình bày trong luÁn án hoàn toàn trung thực và ch°a từng đ°ÿc ai công bá trong b¿t kỳ các công trình nào khác, các dā liáu tham khÁo đ°ÿc trích d¿n đÁy đÿ

Nghiên cāu sinh

Lê Thá CÃm Bình

Trang 4

LâI CÀM ¡N

LuÁn án này đ°ÿc thực hián và hoàn thành t¿i Vián Công nghá thông tin, Vián Khoa hác và Công nghá quân sự Tr°ßc hÃt, nghiên cāu sinh xin bày tß lòng biÃt ¢n sâu sÃc tßi PGS.TS Ngô Thành Long và TS Lê Xuân Đāc đã đßnh h°ßng, chỉ bÁo và giúp đỡ trong quá trình nghiên cāu và hoàn thành luÁn án

Tôi xin bày tß lái cÁm ¢n sâu sÃc tßi lãnh đ¿o, tÁp thể cán bá giÁng viên cÿa Vián Khoa hác và Công nghá quân sự, Phòng Đào t¿o, Vián Công nghá thông tin đã t¿o điÅu kián thuÁn lÿi, hß trÿ, chia s¿ và giúp đỡ tôi trong thái gian hác tÁp và nghiên cāu t¿i Vián Tôi cũng xin gÿi lái cÁm ¢n tßi các thành viên nhóm nghiên cāu seminar phân cām dā liáu đã t¿o ra môi tr°áng trao đái hác thuÁt th°áng xuyên và chia s¿ các ý t°ãng có giá trß cho các nghiên cāu cÿa luÁn án

Tôi xin phép đ°ÿc gÿi lái cÁm ¢n chân thành tßi lãnh đ¿o Tr°áng Đ¿i hác Văn hóa, các đßng nghiáp t¿i Khoa Khoa hác C¢ bÁn, Khoa Thông tin, Th° vián đã t¿o điÅu kián thuÁn lÿi trong quá trình nghiên cāu và làm viác t¿i Tr°áng

Cuái cùng, xin cÁm ¢n tßi gia đình đã hß trÿ, đáng viên và giúp đỡ tôi r¿t nhiÅu vÅ tinh thÁn, vÁt ch¿t và thái gian để có thể hoàn thành luÁn án

Nghiên cāu sinh

Lê Thá CÃm Bình

Trang 5

Ch°¢ng 1 TàNG QUAN VÄ PHÂN CĀM DĀ LIàU 7

1.1 Gißi thiáu chung vÅ phân cām dā liáu 7

1.1.1 Đßnh nghĩa 7

1.1.2 Phân cām má 8

1.1.3 Ph°¢ng pháp đánh giá trong phân cām 10

1.2 C¢ sã toán hác cÿa luÁn án 13

1.2.1 ThuÁt toán tái °u bÁy đàn 14

1.2.2 ThuÁt toán đßng phân cām má 17

1.2.3 Mô hình phân cām má theo nhóm 19

1.2.4 Tri thāc ẩn trong phân cām dā liáu 23

1.2.5 Dā liáu đa ngußn 24

1.2.6 Dā liáu nhiÅu đặc tr°ng 28

1.3 KÃt luÁn ch°¢ng 1 29

Ch°¢ng 2 MàT Sà CÀI TIÂN KĀ THUÀT PHÂN CĀM DĀ LIàU 30

2.1 ĐÅ xu¿t thuÁt toán đßng phân cām má sÿ dāng PSO tái °u tâm cām vßi lßp bài toán dā liáu nhiÅu đặc tr°ng 30

2.1.1 Mô hình toán hác tái °u bÁy đàn MPSO 31

Trang 6

2.1.2 Mô hình tâm cām tái °u OCM 35

2.1.3 KÃt quÁ thực nghiám 45

2.2 ThuÁt toán đßng phân cām má dā liáu đa ngußn MSFCoC 54

2.2.1 Mô hình toán hác cÿa MSFCoC 55

2.2.3 Chia s¿ tri thāc trong phân cām dā liáu đa ngußn 58

2.2.4 Ph°¢ng pháp tính toán điÅu kián dừng 60

2.2.5 ThuÁt toán MSFCoC 61

2.2.6 KÃt quÁ thực nghiám 62

2.3 KÃt luÁn ch°¢ng 2 75

Ch°¢ng 3 MÔ HÌNH CÀI TIÂN PHÂN CĀM Mà THEO NHÓM ĐA HÀM MĀC TIÊU 77

3.1 Mô hình toán hác cÿa FOMOCE 77

3.1.1 Dā liáu đÁu vào 79

3.1.2 Bá phân lo¿i dā liáu đÁu vào 80

3.1.3 TÁp phân cām c¢ sã 81

3.1.4 Bá liên kÃt phân cām c¢ sã 82

3.1.5 Mô đun đßng thuÁn 83

3.1.6 Mô đun đánh giá kÃt quÁ phân cām 84

3.1.7 S¢ đß mô hình phân cām theo nhóm FOMOCE 84

3.2 Tri thāc ẩn trong mô hình FOMOCE 86

3.2.1 Tri thāc ẩn trong mô hình FOMOCE 86

3.2.2 Các quy tÃc d¿n xu¿t trong mô hình FOMOCE 91

3.3 ThuÁt toán FOMOCE 97

3.4 So sánh các mô hình phân cām theo nhóm 99

3.5 Mát sá kÃt quÁ thực nghiám 100

3.5.1 KÃt quÁ thực nghiám trên các mô hình phân cām đ¢n hàm māc tiêu 100

Trang 7

3.5.2 KÃt quÁ thực nghiám trên các mô hình phân cām đa hàm māc tiêu 111

3.6 KÃt luÁn ch°¢ng 3 120

KÂT LUÀN 122

DANH MĀC CÁC CÔNG TRÌNH KHOA HàC ĐÃ CÔNG Bà 124

TÀI LIàU THAM KHÀO 125

Trang 8

DANH MĀC CÁC KÝ HIàU, CÁC CHĀ VI¾T TÀT

 Há sá gißi h¿n ch¿t l°ÿng cÿa giÁi pháp thông qua hàm thích āng trong thuÁt toán PSO

 Không gian ho¿t đáng cÿa bÁy đàn trong thuÁt toán PSO M Mô hình toán hác cÿa FOMOCE

 Há sá quán tính đ°ÿc sÿ dāng để điÅu khiển hành vi cÿa bÁy đàn trong thuÁt toán PSO

 Há sá đ¿i dián cho lo¿i dā liáu đa ngußn

 Phân cām c¢ sã cÿa thuÁt toán phân cām theo nhóm u,m entropy cÿa hàm thuác đái t°ÿng

v,m entropy cÿa hàm thuác đặc tr°ng

Im Chỉ sá ch¿t l°ÿng phân cām trung bình ã phân cām c¢ sã thā m

m Chỉ sá cÿa phân cām c¢ sã tát nh¿t

A TÁp các hàm māc tiêu đ°ÿc sÿ dāng cho M phân cām c¢ sã trong mô hình FOMOCE

A* Hàm đßng thuÁn trong mô hình FOMOCE

Am VÁn tác cÿa các phÁn tÿ bÁy đàn trong thuÁt toán PSO

B Sá các chỉ sá đánh giá ch¿t l°ÿng phân cām cuái cùng trong mô hình FOMOCE

C* TÁp tâm cām kÃt quÁ cuái cùng trong mô hình FOMOCE

Trang 9

Cm Vß trí cÿa các phÁn tÿ bÁy đàn trong thuÁt toán PSO CGB GiÁi pháp tâm cām tái °u

D TÁp đặc tr°ng cÿa dā liáu

d Ph°¢ng pháp đo khoÁng cách trong phân cām

E Bá điÅu kián dừng cÿa phân cām c¢ sã trong mô hình FOMOCE

F Mô đun đßng thuÁn cÿa mô hình FOMOCE

I Dā liáu đÁu vào cÿa bÁy đàn trong thuÁt toán PSO

I* TÁp chỉ sá đánh giá ch¿t l°ÿng phân cām cuái cùng trong mô hình FOMOCE

Im TÁp chỉ sá đánh giá ch¿t l°ÿng phân cām ã phân cām c¢ sã thā m

J Hàm māc tiêu cÿa kā thuÁt xÿ lý dā liáu K Sá đặc tr°ng cÿa dā liáu

L Bá liên kÃt phân cām c¢ sã trong mô hình FOMOCE M Sá ngußn cÿa dā liáu đa ngußn

N Sá đái t°ÿng dā liáu

O GiÁi pháp tiÅm năng toàn cāc trong thuÁt toán PSO

OG KÃt quÁ phân cām tái °u toàn cāc t¿i các b°ßc lặp cÿa các phân cām c¢ sã trong mô hình FOMOCE

Trang 10

Oi KÃt quÁ cÿa các phân cām c¢ sã trong mô hình FOMOCE P TÁp các phÁn tÿ cÿa bÁy đàn trong thuÁt toán PSO

Q Bá phân lo¿i dā liáu đÁu vào trong mô hình FOMOCE

q1, q2 Há sá kiểm soát tác đá hái tā cÿa các phÁn từ theo h°ßng tát nh¿t cāc bá hoặc toàn cāc trong thuÁt toán PSO

Trang 11

AR Chỉ sá điÅu chỉnh Rand (Adjusted Rand Index)

CCAU thuÁt toán phân cām đßng thuÁn dựa trên các đ¢n vß cām (the consensus clustering algorithm based on cluster units)

CLARA Phân cām trong các āng dāng lßn (Clustering LARge Applications)

Co-FCM Phân cām má cáng tác dā liáu đa khung nhìn (Collaborative Fuzzy C-Means for multiview data)

Co-FKM Phân cām FKM cáng tác dā liáu đa khung nhìn (Collaborative FKM for multi-view data)

MVFCM

Co-FW-Phân cām má cáng tác đa khung nhìn đặc tr°ng có tráng sá (Collaborative feature-weighted multi-view fuzzy c-means clustering)

CSMSC Phân cām dā liáu đa không gian con riêng và nh¿t quán (Consistent and specific multi-view subspace clustering) DBI Chỉ sá Davies–Bouldins (Davies–Bouldins index)

EFC Phân cām má theo nhóm (Emsemble Fuzzy Clustering) eFCoC Đßng phân cām má theo nhóm (fuzzy co-clustering ensemble

algorithm)

Trang 12

F1- score Chỉ sá F1- score

FCCI ThuÁt toán đßng phân cām má để phân lo¿i Ánh màu (Fuzzy co-clustering algorithm for color image segmentation)

FCM Phân cām má (Fuzzy C-Means)

FCME Phân cām má theo nhóm sÿ dāng thuÁt toán FCM (ensemble of Fuzzy C-Means)

FCM-PSO Phân cām má dựa trên thuÁt toán tái °u bÁy đàn (Fuzzy Means based on Particle Swarm Optimization)

C-FCoC ThuÁt toán Đßng phân cām má (Fuzzy Co-Clustering)

FCOCM ThuÁt toán Đßng phân cām má sÿ dāng mô hình tái °u tâm cām (Fuzzy Co- clustering algorithm by using the Optimal centroids Model)

FOMOCE Mô hình phân cām má theo nhóm đa hàm māc tiêu tái °u dā liáu đa ngußn (Fuzzy optimized multi-objective clustering ensemble method)

IQI Chỉ sá ch¿t l°ÿng Ánh (Image Quality Index)

IT2FCM ThuÁt toán phân cām má lo¿i 2 khoÁng (Interval type-2 fuzzy clustering algorithm)

IVFCoC Đßng phân cām má giá trß khoÁng (Interval-valued fuzzy clustering algorithm)

co-JFLMSC KÃt hÿp tính năng theo tráng sá chung và hác c¿u trúc cāc bá cho phân cām dā liáu đa không gian con (Joint Featurewise Weighting and Local Structure Learning for Multi-view Subspace Clustering)

Trang 13

K-means Phân cām rõ (K- Means)

KM-PSO Phân cām rõ dựa trên thuÁt toán tái °u bÁy đàn (K- Means based on Particle Swarm Optimization)

LMSC Phân cām dā liáu đa không gian con tiÅm ẩn (Latent view subspace clustering)

multi-minimaxFCM Tái °u hóa minimax để phân cām hiáu quÁ dā liáu từ nhiÅu ngußn (minimax optimization for effective clustering of data from multiple sources)

MKCE ThuÁt toán đa phân cām rõ theo nhóm (multiple K-Means clustering ensemble algorithm)

MPSO Mô hình toán hác cÿa thuÁt toán tái °u bÁy đàn (Mathematical models of Particle Swarm Optimization) MSFCoC ThuÁt toán đßng phân cām má dā liáu đa ngußn (Multi-

source Fuzzy Co-clustering Algorithm)

MVFCoC ThuÁt toán đßng phân cām dā liáu đa khung nhìn (Multi-view fuzzy co-clustering algorithm)

NMFCM Há sá hóa ma trÁn không âm trong phân cām theo nhóm dựa trên tri thāc ẩn (Nonnegative matrix factorization for clustering ensemble based on dark knowledge)

nr-IT2FCM phân cām má lo¿i 2 kÃt hÿp thông tin lân cÁn (interval 2 fuzzy set generation is based on the method incorporating neighborhood information)

type-OCM Mô hình tìm tâm cām tái °u (Optimal Centroids Model) PC Há sá phân vùng (Partition Coefficient)

Trang 14

PSO ThuÁt toán tái °u bÁy đàn (Particle Swarm Optimization) Rec & Prec Chỉ sá phāc hßi và chính xác (Recall and Precision)

SACT ThuÁt toán đánh giá xu h°ßng cām theo chỉ sá Silhouette (Silhouette-Based Assessment of Cluster Tendency algorithm)

WCoFCM Phân cām má cáng tác da khung nhìn có tráng sá (Weighted multi-view collaborative fuzzy -means algorithm)

Trang 15

DANH MĀC CÁC BÀNG

Trang

BÁng 2.1 Thông tin tóm tÃt cÿa các tÁp dā liáu 45 BÁng 2.2 Bá giá trß tham sá đ°ÿc cài đặt cho các thuÁt toán phân cām 47 BÁng 2.3 Các tham sá đ°ÿc sÿ dāng trong các thuÁt toán PSO 47 BÁng 2.4 Các kÃt quÁ phân cām trên sáu tÁp dā liáu táng hÿp 49 BÁng 2.5 KÃt quÁ phân cām trên các tÁp dā liáu nhiÅu đặc tr°ng 51 BÁng 2.6 KÃt quÁ phân cām trên các tÁp dā liáu kích th°ßc lßn 53 BÁng 2.7 Thông tin tóm tÃt cÿa các tÁp dā liáu đa ngußn 62 BÁng 2.8 KÃt quÁ phân cām cÿa các thuÁt toán phân cām đa khung nhìn

và thuÁt toán đ¢n trên tÁp dā liáu Dim-sets

Trang 16

BÁng 3.1 So sánh các đặc điểm cÿa mô hình FOMOCE so vßi các mô hình phân cām theo nhóm truyÅn tháng

Trang 17

DANH MĀC CÁC HÌNH VÀ

Trang

Hình 1.2 Mô hình phân cām theo nhóm truyÅn tháng 22

Hình 3.2 S¢ đß mô hình phân cām theo nhóm FOMOCE 85

Trang 18

DANH MĀC CÁC THU¾T TOÁN

Trang

ThuÁt toán 1.3 ThuÁt toán đßng phân cām má FCoC 18 ThuÁt toán 2.1 ThuÁt toán tính hàm māc tiêu �㖇�㖎(�㕉) 39

ThuÁt toán 3.1 ThuÁt toán phân cām má theo nhóm FOMOCE 97

Trang 19

Mä ĐÀU 1 Tính c¿p thi¿t cÿa đÁ tài lu¿n án

Tác đá phát triển đát phá cÿa công nghá sá trong nhāng năm gÁn đây nh° đián tho¿i thông minh, đián toán đám mây, Internet v¿n vÁt, m¿ng xã hái, các dßch vā online,& đã phát sinh mát l°ÿng dā liáu ngày càng lßn và phāc t¿p Trong sá đó, dā liáu đ°ÿc thu thÁp từ nhiÅu ngußn khác nhau hoặc có nhiÅu đặc tr°ng có nhāng đặc điểm r¿t khác biát so vßi dā liáu truyÅn tháng Các ngußn dā liáu này cung c¿p các thông tin hāu ích nÃu đ°ÿc khai thác mát cách hiáu quÁ Vì vÁy, v¿n đÅ nghiên cāu và hoàn thián ph°¢ng pháp khai phá dā liáu trên các ngußn dā liáu phāc t¿p này luôn là bài toán cÁn thiÃt và có ph¿m vi Ánh h°ãng m¿nh mÁ, có ý nghĩa to lßn và thực tißn

Hián nay phân cām dā liáu là mát trong nhāng kā thuÁt quan tráng trong lĩnh vực khai phá dā liáu nhằm tìm kiÃm, phát hián các cām, các m¿u dā liáu tự nhiên tiÅm ẩn trong tÁp dā liáu không gán nhãn, từ đó cung c¿p thông tin, tri thāc hāu ích cho viác ra quyÃt đßnh Do đó, phân cām dā liáu là mát b°ßc tiÅn xÿ lý quan tráng, đ°ÿc sÿ dāng ráng rãi trong các āng dāng nh° truy xu¿t thông tin, xÿ lý hình Ánh, hác máy, nhÁn d¿ng m¿u, phân tích hình Ánh, tin sinh hác, nén dā liáu, chẩn đoán, đß háa máy tính, Tuy nhiên, khi áp dāng các kā thuÁt phân cām dā liáu truyÅn tháng đái vßi dā liáu đa ngußn và nhiÅu đặc tr°ng- ván có tính ch¿t phāc t¿p h¢n so vßi dā liáu truyÅn tháng thì các kā thuÁt này trã nên kém hiáu quÁ, khó khăn, hoặc thÁm chí là không thể thực hián đ°ÿc do lo¿i dā liáu này tiÅm ẩn mát sá thách thāc, đòi hßi năng lực xÿ lý tát đái vßi các tính ch¿t cÿa nó nh° kích th°ßc lßn hay tính đa d¿ng cÿa dā liáu,& Do đó, chúng không thể đáp āng nhu cÁu hián t¿i cÿa các āng dāng sÿ dāng dā liáu đa ngußn và nhiÅu đặc tr°ng

Trong xu h°ßng này, nhiÅu nhà khoa hác đã và đang tÁp trung nghiên cāu, phát triển các kā thuÁt phân cām cho dā liáu đa ngußn, thể hián trong mát sá công trình nghiên cāu đã công bá nh°: ThuÁt toán phân cām đa khung nhìn không gian

Trang 20

con [61], thuÁt toán phân cām đa khung nhìn sÿ dāng há sá ma trÁn không âm [14], [84], kā thuÁt phân cām đa khung nhìn dựa trên phá [60], và nhiÅu công trình khác Tuy nhiên, hÁu nh° t¿t cÁ các công trình hián t¿i đÅu xem xét các ngußn sÿ dāng chung mát hàm māc tiêu phân cām, gái là các thuÁt toán phân cām dā liáu đa ngußn đ¢n hàm māc tiêu Các m¿u giāa các ngußn khác nhau có mái quan há mát-mát cho dù đái vßi dā liáu hoàn chỉnh hay đái vßi mát vài phÁn cÿa dā liáu Ngoài ra, mái quan há ánh x¿ phāc t¿p giāa các ngußn dā liáu cũng ch°a đ°ÿc xem xét đÁy đÿ

Đái vßi lĩnh vực nghiên cāu phân cām dā liáu có kích th°ßc lßn, nhiÅu đặc tr°ng, mßi ngußn dā liáu th°áng liên quan đÃn sá l°ÿng lßn các đặc điểm khác nhau Các thành phÁn có đặc điểm dā liáu khác nhau từ các ngußn khác nhau có sá đặc tr°ng khác nhau Vì vÁy, trong quá trình phân cām, cÁn xem xét tÁm quan tráng khác nhau cÿa các đặc điểm ã mßi ngußn dā liáu Nghiên cāu trong [30] đã đÅ xu¿t mát l°ÿc đß tráng sá đặc tr°ng vßi vßi kā thuÁt giÁm đặc tr°ng cho FCM đ¢n ngußn nh°ng không sÿ dāng quy trình tráng sá đặc tr°ng cho dā liáu đa ngußn GÁn đây, [47] đÅ xu¿t mát c¢ chà tráng sá đặc tr°ng mßi cho MVFCM dựa trên ph°¢ng pháp hác cáng tác có thể giúp xác đßnh tÁm quan tráng khác nhau cÿa các đặc tr°ng trong mßi ngußn dā liáu Sau đó tự đáng lo¿i bß các thành phÁn đặc tr°ng tráng sá nhß để nâng cao hiáu su¿t phân cām

Bên c¿nh đó, để đ¿t đ°ÿc kÃt quÁ phân cām có đá chính xác cao h¢n và m¿nh h¢n đái vßi các lo¿i dā liáu này, các nghiên cāu gÁn đây đã thực hián mát sá mô hình phân cām theo nhóm cho dā liáu đa ngußn, thể hián trong mát sá công trình nghiên cāu đã công bá liên quan đÃn chÿ đÅ này nh° [64] và [79] Mát sá cÁi tiÃn phân cām theo nhóm gÁn đây nh° nghiên cāu trong [1] đÅ xu¿t phân cām má theo nhóm dựa trên đá tin cÁy sÿ dāng thuÁt toán FCM để phân cām c¢ sã, [18] dựa trên K- Means và FCM để phân cām rõ và phân cām má trên tÁp dā liáu có kích th°ßc lßn, [72] đÅ xu¿t NMFCE dựa trên tri thāc ẩn nhằm trích xu¿t đ°ÿc nhiÅu thông tin h¢n từ dā liáu, đ¢n giÁn h¢n và phù hÿp vßi dā liáu có qui mô lßn

Trang 21

Tuy nhiên, các nghiên cāu này mßi chỉ trình bày phân lo¿i cÿa các mô hình hián có vßi phân tích t°¢ng āng mà ch°a trình bày d°ßi d¿ng mô hình toán hác táng quát hoặc chỉ trình bày mô hình cÿa bài toán theo trình tự thực hián cÿa há Mặt khác, hÁu hÃt các mô hình phân cām theo nhóm hián nay tiÃp cÁn theo h°ßng dā liáu đ¢n đ°ÿc thu thÁp từ mát ngußn duy nh¿t

Qua mát sá công trình nghiên cāu tiêu biểu nêu trên, có thể th¿y rằng nhiÅu kÃt quÁ nghiên cāu vÅ các chÿ đÅ này đã và đang trã thành c¢ sã lý thuyÃt cho nhāng nghiên cāu đ°ÿc āng dāng trong thực tÃ, giúp giÁi quyÃt đ°ÿc mát sá bài toán phân cām dā liáu phāc t¿p Tuy nhiên, bài toán phân cām cho dā liáu đa ngußn và nhiÅu đặc tr°ng v¿n còn nhāng v¿n đÅ tßn t¿i cÁn phÁi tiÃp tāc nghiên cāu để đ¿t đ°ÿc māc tiêu nâng cao ch¿t l°ÿng và có thể cÁi tiÃn theo nhiÅu h°ßng, để có thể áp dāng cho nhiÅu bá dā liáu khác nhau Đặc biát trong hoàn cÁnh công nghá mßi t¿o ra các dā liáu ngày càng phāc t¿p, đòi hßi cÁn bá sung các thuÁt toán phân cām m¿nh và hiáu quÁ h¢n Chính vì nhāng lý do trên, nghiên cāu sinh lựa chán nghiên cāu và phát triển vÅ v¿n đÅ <Mßt sá ph°¢ng pháp phân cām mã theo nhóm cho bài

toán dā liáu đa nguãn, nhiÁu đ¿c tr°ng= cho luÁn án cÿa mình 2 Māc tiêu nghiên cāu

Trên c¢ sã nghiên cāu phát triển các thuÁt toán phân cām má, luÁn án đặt ra māc tiêu tÁp trung cÁi tiÃn để đ°a ra mát sá giÁi pháp nhằm khÃc phāc nh°ÿc điểm cÿa các thuÁt toán tr°ßc đây, bao gßm: CÁi tiÃn nâng cao hiáu su¿t cÿa đßng phân cām má đái vßi dā liáu nhiÅu đặc tr°ng, đÅ xu¿t các mô hình, thuÁt toán phân cām má theo nhóm tiÃp cÁn theo h°ßng āng dāng phân tích dā liáu đa ngußn nhằm khÃc phāc mát sá h¿n chà cÿa các nghiên cāu tr°ßc đây và nâng cao đá chính xác và ch¿t l°ÿng cÿa các thuÁt toán phân cām

3 Đái t°ÿng và ph¿m vi nghiên cāu

3.1 Đối tượng nghiên cứu

LuÁn án tÁp trung vào đái t°ÿng nghiên cāu là mã ráng các thuÁt toán phân cām má thích nghi vßi dā liáu đa ngußn và dā liáu có nhiÅu đặc tr°ng

Trang 22

Trong đó tÁp trung vào nghiên cāu kā thuÁt đßng phân cām má cùng các kā thuÁt phân cām má theo nhóm để cÁi tiÃn nâng cao hiáu su¿t phân cām Các đái t°ÿng nghiên cāu bao gßm:

- Các mô hình dā liáu đa ngußn

- Các thuÁt toán phân cām má, đßng phân cām má và kā thuÁt tái °u bÁy đàn đái vßi dā liáu đa ngußn, nhiÅu đặc tr°ng

- Mát sá thuÁt toán phân cām theo nhóm trên dā liáu đ¢n ngußn và dā liáu đa ngußn làm c¢ sã phát triển thuÁt toán đßng phân cām má, mô hình phân cām má đa hàm māc tiêu trên dā liáu đa ngußn

3.2 Phạm vi nghiên cứu

Ph¿m vi nghiên cāu cÿa luÁn án tÁp trung nghiên cāu bao gßm:

- Mát sá thuÁt toán phân cām dā liáu và các v¿n đÅ liên quan trong bài toán phân cām dā liáu

- Nghiên cāu thuÁt toán đßng phân cām má và kā thuÁt tái °u bÁy đàn nhằm nâng cao hiáu su¿t đßng phân cām má

- Nghiên cāu mát sá mô hình phân cām má theo nhóm

4 Nßi dung nghiên cāu

- Nghiên cāu táng quan và c¢ sã toán hác cÿa các mô hình, thuÁt toán phân cām má đ°ÿc sÿ dāng trong luÁn án

- Nghiên cāu phát triển và đÅ xu¿t mát vài thuÁt toán phân cām dā liáu tiÃp cÁn theo h°ßng āng dāng phân tích dā liáu đa ngußn, nhiÅu đặc tr°ng

- Nghiên cāu phát triển và đÅ xu¿t mát vài mô hình phân cām má theo nhóm tiÃp cÁn theo h°ßng āng dāng phân tích dā liáu đa ngußn

5 Ph°¢ng pháp nghiên cāu

Căn cā vào māc tiêu cÿa luÁn án là tÁp trung nghiên cāu táng quan và đÅ xu¿t mát vài mô hình, thuÁt toán đßng phân cām má và phân cām má theo nhóm Do đó, ph°¢ng pháp nghiên cāu cÿa luÁn án là thực hián nghiên cāu lý thuyÃt, triển khai thực nghiám và đánh giá kÃt quÁ Cā thể là:

Trang 23

- Trên c¢ sã lý thuyÃt vÅ các thuÁt toán phân cām má và mô hình phân cām má theo nhóm hián có để xác đßnh cách tiÃp cÁn tái °u

- Mô phßng thực nghiám trên máy tính sÿ dāng các bá dā liáu m¿u chuẩn, dā liáu thực và các chỉ sá đánh giá ch¿t l°ÿng cām dā liáu để so sánh kÃt quÁ nghiên cāu cÿa luÁn án vßi các kÃt quÁ nghiên cāu khác nhằm khẳng đßnh tính hiáu quÁ cÿa các giÁi pháp đÅ xu¿t trong luÁn án

- KÃt hÿp giāa tài liáu và h°ßng d¿n cÿa giáo viên, tự nghiên cāu tìm kiÃm tài liáu và trao đái kÃt quÁ vßi nhóm nghiên cāu Từng b°ßc công bá các kÃt quÁ nghiên cāu, thực nghiám trên các t¿p chí quy đßnh thông qua các Hái thÁo, các t¿p chí trong n°ßc và n°ßc ngoài TiÃp thu đÁy đÿ nhāng thành tựu mßi trong n°ßc và trên thà gißi để mã ráng và āng dāng trong luÁn án

6 Ý ngh*a khoa hãc và thăc tißn

Trong luÁn án này, nghiên cāu sinh đÅ xu¿t các ph°¢ng pháp góp phÁn nâng cao ch¿t l°ÿng dựa trên các kā thuÁt phân cām má và kā thuÁt phân cām má theo nhóm cho bài toán dā liáu đa ngußn, nhiÅu đặc tr°ng đ°ÿc chāng minh là phân cām dā liáu tát h¢n, đáp āng đ°ÿc yêu cÁu trong các āng dāng thực tà và góp phÁn hoàn thián các giÁi pháp nâng cao hiáu quÁ các bài toán phân cām dā liáu đa ngußn, dā liáu đa biÃn có kích th°ßc và sá đặc tr°ng lßn Các nái dung nghiên cāu có tính c¿p thiÃt, ý nghĩa khoa hác và thực tißn trong xu h°ßng phát triển chung cÿa lĩnh vực phân cām dā liáu hián nay

7 Bá cāc cÿa lu¿n án

Ngoài các phÁn mã đÁu, kÃt luÁn, danh māc các công trình khoa hác đã công bá, danh māc tài liáu tham khÁo, luÁn án có bá cāc chính gßm ba ch°¢ng nh° sau:

Ch°¢ng 1: Trình bày táng quan vÅ các v¿n đÅ nghiên cāu liên quan đÃn

luÁn án Nái dung chính cÿa ch°¢ng 1 gißi thiáu táng quan vÅ phân cām dā liáu, khái niám c¢ bÁn cÿa dā liáu đa ngußn, dā liáu nhiÅu đặc tr°ng Bên c¿nh đó, nái dung ch°¢ng 1 cũng trình bày nhāng v¿n đÅ nghiên cāu cÿa luÁn án,

Trang 24

bao gßm: thuÁt toán đßng phân cām má, thuÁt toán tái °u bÁy đàn PSO, thuÁt toán đßng phân cām má, thuÁt toán phân cām má theo nhóm và tri thāc ẩn trong phân cām dā liáu, các công trình nghiên cāu liên quan đÃn luÁn án

Ch°¢ng 2: Trình bày hai đÅ xu¿t bao gßm: Mô hình giÁi pháp tâm cām

tái °u cho thuÁt toán đßng phân cām má cÁi tiÃn và thuÁt toán phân cām má theo nhóm tiÃp cÁn theo h°ßng phân tích dā liáu đa ngußn Đây là các mô hình, thuÁt toán mßi dựa thuÁt toán tái °u bÁy đàn và kā thuÁt thích nghi vßi dā liáu đa ngußn, nhiÅu đặc tr°ng Các mô hình, thuÁt toán cÁi tiÃn này đ°ÿc đÅ xu¿t nhằm nâng cao tính năng và hiáu su¿t phân cām, khÃc phāc nhāng h¿n chà vÅ khÁ năng triển khai, khãi t¿o tâm cām và c¢ chà chia s¿ tri thāc trong các thuÁt toán phân cām theo nhóm truyÅn tháng

Ch°¢ng 3: ĐÅ xu¿t mô hình phân cām má theo nhóm tiÃp cÁn theo

h°ßng phân tích dā liáu đa ngußn, gái là mô hình cÁi tiÃn phân cām má theo nhóm đa hàm māc tiêu Mô hình này tÁp trung vào v¿n đÅ nâng cao hiáu su¿t phân cām và thích nghi vßi dā liáu đa ngußn, đa d¿ng, không đßng nh¿t, không chÃc chÃn bằng cách tích hÿp các hàm māc tiêu phân cām cho các phân cām c¢ sã Ngoài ra, để khai thác tái đa tri thāc tiÅm ẩn trong dā liáu đa ngußn, ch°¢ng này nghiên cāu c¢ chà chán lác và chia s¿ tri thāc giāa các phân cām c¢ sã trong quá trình lặp phân cām xÁy ra Các kÃt quÁ thực nghiám đ°ÿc trình bày nhằm chāng minh hiáu su¿t tát h¢n cÿa mô hình đ°ÿc luÁn án đÅ xu¿t so vßi các mô hình phân cām theo nhóm đã đ°ÿc đÅ xu¿t tr°ßc đó

Trang 25

Ch°¢ng 1

TäNG QUAN VÀ PHÂN CĀM DĀ LIàU

Phân cām dā liáu là mát kā thuÁt hác không giám sát phá biÃn, đ°ÿc āng dāng trong viác tìm kiÃm c¿u trúc ẩn bên trong các tÁp dā liáu không gán nhãn, từ đó cung c¿p thông tin, tri thāc hāu ích cho ra quyÃt đßnh và là mát b°ßc tiÅn xÿ lý quan tráng tr°ßc khi thực hián quá trình khai phá dā liáu Phân cām dā liáu đ°ÿc sÿ dāng trong nhiÅu lĩnh vực nh° tháng kê, y tÃ, sinh hác, robot, nhÁn d¿ng m¿u và phân tích hình Ánh, v.v [59], [60], [75], [82], [95], [100] Hián nay, cùng vßi sự phát triển ngày càng lßn m¿nh cÿa khoa hác và công nghá đã làm gia tăng nhanh chóng các lo¿i dā liáu phāc t¿p, đòi hßi các kā thuÁt phân cām dā liáu cÁn đ°ÿc cÁi tiÃn để có năng lực xÿ lý tát nhằm đáp āng nhu cÁu hián t¿i cÿa các āng dāng sÿ dāng dā liáu

1.1 Giái thiáu chung vÁ phân cām dā liáu

1.1.1 Định nghĩa

Phân cām bao gßm các kā thuÁt nhóm tÁp đái t°ÿng dā liáu thành các cām khác nhau, các đái t°ÿng dā liáu có māc đá đặc điểm giáng nhau thì đ°ÿc nhóm vào cùng mát cām, các đái t°ÿng dā liáu có māc đá đặc điểm khác nhau thì đ°ÿc nhóm vào các cām khác nhau [11], [53], [55] Đßnh nghĩa toán hác vÅ phân cām dā liáu đ°ÿc trình bày nh° sau:

Đánh ngh*a 1.1 Cho þ = þ(�㕋, ÿ, þ, ĉ, Ċ, ă) là hàm mục tiêu của một kỹ

thuật phân cụm, trong đó:

�㕋 = {ý1, ý2, & , ýą} là tập các đối tượng dữ liệu đầu vào với N là số đối

tượng dữ liệu

C là số cụm dữ liệu của X,

d là phương pháp đo khoảng cách trong phân cụm, þāÿ = 6ýÿ 2 āā6 là

khoảng cách giữa đối tượng dữ liệu thứ i với tâm cụm c,

Trang 26

ĉ = [ċāÿ]ąþ là ma trận hàm mục tiêu, uci với ċāÿ ∈ [0,1] và

3þ ċāÿ = 1

ā=1 , ∀ÿ là độ thuộc của đối tượng dữ liệu thứ i với tâm cụm c,

Ċ = [ČāĀ]þĂlà ma trận hàm thuộc đặc trưng vcj với ČāĀ ∈ [0,1] và

(1) Chán ng¿u nhiên các cām ban đÁu

(2) Tái °u hóa lặp đi lặp l¿i các cām cho đÃn khi đ¿t đ°ÿc giÁi pháp tái °u

Trang 27

t°ÿng nh° dā liáu đa ngußn, nhiÅu đặc tr°ng Các thuÁt toán phân cām má đã đ°ÿc chāng minh là đ¿t đ°ÿc ch¿t l°ÿng cām tát h¢n so vßi mát sá thuÁt toán phân cām rõ [7], [23] J.C Bezdek và cáng sự đã thiÃt kà fuzzy- Cmeans (FCM) [23] bằng cách đÅ xu¿t khái niám cām chßng l¿p để xÿ lý tr°áng hÿp các cām chßng chéo nhau (mát sá đái t°ÿng có thể thuác vÅ nhiÅu h¢n mát cām) và đá thuác má KÃt quÁ thực nghiám đã chāng minh FCM đ¿t đ°ÿc hiáu su¿t tát h¢n thuÁt toán phân cām rõ K-mean Hián nay, FCM là mát trong nhāng thuÁt toán đ°ÿc āng dāng ráng rãi nh¿t trong các thuÁt toán phân cām Xét tÁp �㕋 = {ýÿ, ýÿ ∈ ℝĂ, ÿ = 1, Ă} Bài toán phân cām dā liáu yêu cÁu tìm mát điểm đ¿i dián cho cho mßi cām dā liáu (đ°ÿc gái là tâm cÿa cām dā liáu đó), từ đó xác đßnh đ°ÿc mát đái t°ÿng dā liáu xicó thuác mát cām c nào đó bằng cách tính giá trß cÿa đá thuác uci ThuÁt toán FCM sÿ dāng quá trình lặp để x¿p xỉ cực tiểu hàm māc tiêu JFCM, vßi JFCMđ°ÿc xác đßnh nh° sau:

þýþĄ = 3þā=1 3ąÿ=1ċāÿăþāÿ2 (1.1) trong đó,

uci: đá thuác cÿa đái t°ÿng dā liáu thā i đái vßi cām thā c,

(1.3)Ma trÁn trung tâm cām G={gc} đ°ÿc xác đßnh bãi công thāc:

āā =3þÿ=1ċýÿăýÿ

Trang 28

ThuÁt toán FCM đ°ÿc thực hián nh° sau:

Thu¿t toán 1.1 Thu¿t toán phân cām mã FCM

ĐÁu vào: TÁp dā liáu X; Sá cām C; tham sá má m; ng°ỡng sai sá ; sá vòng lặp tái đa max

4 Tính vector tâm cām gc theo công thāc (1.3)

5 CÁp nhÁt l¿i U theo công thāc (1.2)

6 =+1

7 UNTIL ||U(+1)- U()|| < hoặc >=max

ĐÁu ra: TÁp cām kÃt quÁ

- Đá phāc t¿p tính toán: O(C.N.)

ThuÁt toán FCM có hiáu năng tính toán t°¢ng đ°¢ng thuÁt toán K- Means Tuy nhiên, FCM có thể không chính xác trong v¿n đÅ xÿ lý các giá trß ngo¿i biên và nhißu do trung tâm cām có thể khác xa so vßi trung tâm cām thực sự, khó khăn trong viác khãi t¿o các tham sá đÁu vào nh°: tâm cām, sá l°ÿng cām, ma trÁn hàm thuác Ngoài ra, FCM có thể mÃc phÁi v¿n đÅ tái °u hóa cāc bá và kém hiáu quÁ khi xÿ lý dā liáu có sá đặc tr°ng lßn [7]

1.1.3 Phương pháp đánh giá trong phân cụm

Trong phân cām, đánh giá hiáu su¿t cÿa các thuÁt toán phân cām là mát b°ßc quan tráng để lựa chán mát thuÁt toán phù hÿp cho mát bài toán cā thể Để đánh giá hiáu su¿t phân cām, có thể sÿ dāng các chỉ sá đánh giá ch¿t l°ÿng cām và thái gian thực hián mát tiÃn trình phân cām

Hián nay, có r¿t nhiÅu chỉ sá °ßc l°ÿng cām, mßi chỉ sá phù hÿp vßi mát lo¿i bài toán phân cām nh¿t đßnh, và r¿t ít chỉ sá phù hÿp cho t¿t cÁ các bài toán

Trang 29

phân cām Các đá đo ch¿t l°ÿng phân cām đ°ÿc phân thành 3 lo¿i là: Đánh giá trong (internal evaluation), đánh giá ngoài (external evaluation) và đánh giá quan há (relative evalution) [94] Trong phÁn này sÁ trình bày mát sá chỉ sá đánh giá đ°ÿc sÿ dāng cho các thuÁt toán phân cām đ°ÿc gißi thiáu trong luÁn án

1.1.3.1 Chỉ số đánh giá độ chính xác phân cụm

Cho X={xi}N là mát tÁp dā liáu hu¿n luyán vßi N đái t°ÿng dā liáu đ°ÿc gán nhãn trong các cām Y={yi}N là tÁp các nhãn Accuracy index (Acc) đ°ÿc sÿ dāng để đo đá chính xác cÿa phân cām [23] Giá trß cÿa Acc càng cao thì

ch¿t l°ÿng phân cām càng tát Chỉ sá Acc đ°ÿc tính theo công thāc:

·(.,.) là hàm Dirac đ°ÿc xác đßnh bãi công thāc:

ÿ(ýÿ, þÿ) = {1, ýÿ = þÿ

0, các tr°áng hÿp khác (1.6)

1.1.3.2 Chỉ số Precision (Pre) và Recall (Rec)

KÃt quÁ phân cām đ°ÿc đánh giá dựa trên tÁp dā liáu chuẩn (m¿u) đã đ°ÿc phân cām từ tr°ßc đó, còn đ°ÿc gái là tÁp benchmark H°ßng tiÃp cÁn cÿa lo¿i này đánh giá māc đá t°¢ng đßng giāa viác phân cām bãi thuÁt toán

cÁn đánh giá vßi tÁp dā liáu benchmark Mát sá tham sá nh° Pre và Rec [10]

đánh giá ch¿t l°ÿng phân cām má theo tiêu chí đánh giá ngoài sÿ dāng các qui

tÃc sau: Gái P1là phân cām chuẩn, P2là phân cām kÃt quÁ cÿa thuÁt toán Xét các tr°áng hÿp:

- Cặp đái t°ÿng cùng thuác P1 và P2 đ°ÿc biểu thß bãi yy,

- Cặp đái t°ÿng thuác P1và không thuác P2đ°ÿc biểu thß bãi yn,

Trang 30

- Cặp đái t°ÿng không thuác P1 và thuác P2 đ°ÿc biểu thß bãi ny,

- Cặp đái t°ÿng không thuác P1và không thuác P2 đ°ÿc biểu thß bãi nn Nh° vÁy, yy đ°ÿc xem nh° là tÁp các đái t°ÿng dā liáu đ°ÿc phân cām đúng, ny và yn là tÁp các đái t°ÿng dā liáu đ°ÿc phân cām sai Khi đó chỉ sá Precision đ°ÿc tính theo công thāc:

Bezdek [4] sÿ dāng chỉ sá PC (Partion Coefficient) để °ßc l°ÿng māc

đá hái tā cÿa hàm thuác đái t°ÿng Khi PC nhÁn giá trß lßn h¢n, hàm thuác đái t°ÿng tiám cÁn đÃn giá trß tái °u PC đ°ÿc tính theo công thāc:

Ąÿ = ą13 3ą ċāÿ

1.1.3.5 Chỉ số DBI

Cho Nc là sá đái t°ÿng dā liáu đ°ÿc nhóm vào cām vßi tâm cām gc Đá

phân tán Sc đ°ÿc tính theo công thāc: ćā = √ą1ý3 |ýąý ÿ 2 āā|2

trong đó, xi là đái t°ÿng thā i trong cām thā c, vßi ÿ = 1, Ă ā

Mijlà phép đo đá tách biát giāa cām i và cām j Mijđ°ÿc tính theo công thāc:

āÿĀ = √3 (āþÿā 2 āĀā)2

Trang 31

Cho Rij là th°ßc đo māc đá hiáu quÁ cÿa s¢ đß phân cām Rij đ°ÿc tính theo công thāc:

ý̅ = ą13ąÿ=1ýÿ , þ =ą13ąÿ=1þÿ, �㔎ý2 = ą211 3 (ýąÿ=1 ÿ 2 ý̅), �㔎þ2 =ą211 3 (þąÿ=1 ÿ 2 þ), �㔎ýþ =ą211 3 (ýąÿ=1 ÿ 2 ý̅)(þÿ 2 þ) trong đó,

xi là đái t°ÿng thā i cÿa tÁp dā liáu Ánh gác,

yi là đái t°ÿng thā i cÿa tÁp dā liáu Ánh thÿ nghiám

1.2 C¢ så toán hãc cÿa lu¿n án

C¢ sã toán hác đ°ÿc sÿ dāng làm c¢ sã khoa hác phāc vā nghiên cāu và phát triển các nái dung tiÃp theo cÿa luÁn án, bao gßm: ThuÁt toán tái °u bÁy

Trang 32

đàn PSO, thuÁt toán đßng phân cām má FCoC, mô hình phân cām má theo nhóm EFC, tri thāc ẩn trong các mô hình và thuÁt toán phân cām dā liáu

1.2.1 Thuật toán tối ưu bầy đàn

ThuÁt toán tái °u bÁy đàn (PSO) là mát thuÁt toán tái °u đa năng nái tiÃng, đ°ÿc l¿y cÁm hāng từ hành vi tự nhiên cÿa bÁy chim và bÁy cá khi di c° và kiÃm thāc ăn [21], [83], [99] Trong khoa hác máy tính, thuÁt toán PSO là mát kā thuÁt tính toán tái °u mát v¿n đÅ bằng cách lặp đi lặp l¿i nhằm cÁi thián mát giÁi pháp āng viên liên quan đÃn mát th°ßc đo ch¿t l°ÿng nh¿t đßnh Nó giÁi quyÃt v¿n đÅ tìm kiÃm các giÁi pháp āng viên tiÅm năng từ mát tÁp hÿp các giÁi pháp āng viên đ°ÿc mã hóa bãi các phÁn tÿ [35], [36], [74], [78] Trong đó, các phÁn tÿ di chuyển xung quanh không gian tìm kiÃm theo các công thāc toán hác đ¢n giÁn Māc đá tiÅm năng cÿa āng viên đ°ÿc xác đßnh bằng mát hàm māc tiêu t°¢ng āng vßi bài toán tái °u cā thể Āng viên tiÅm năng nh¿t đ°ÿc chán d°ßi d¿ng kÃt quÁ tìm kiÃm cÿa thuÁt toán PSO ThuÁt toán PSO ban đÁu đ°ÿc mô phßng trong sinh hác, nh°ng nó có thể đ°ÿc áp dāng cho các bài toán khác nhau tùy thuác vào cách ng°ái sÿ dāng mã hóa các phÁn tÿ trong máy tính nh° thà nào, vì vÁy PSO đ°ÿc gái là thuÁt toán đa năng

Mát sá công trình gÁn đây trong n°ßc và trên thà gißi đã áp dāng PSO nh°: trong giám sát [58], phân tích dā liáu tài chính [70], [87], trong phân tích dā liáu trang web [77], phân tích dā liáu y tà [17], phân đo¿n hình Ánh [65], phân tích dā liáu văn bÁn [52], phân tích dā liáu sinh hác và môi tr°áng [101], phân tích dā liáu nhiÅu đặc tr°ng [34], phân tích cām [33], [93].v.v

Trong phân cām dā liáu, thuÁt toán PSO đ°ÿc sÿ dāng để tìm các trung tâm cām ban đÁu cho các thuÁt toán phân cām bằng cách mã hóa các phÁn tÿ d°ßi d¿ng tÁp hÿp các trung tâm cām Các phÁn tÿ di chuyển trong không gian dā liáu bằng cách thay đái giá trß cÿa các trung tâm cām t°¢ng āng, đo l°áng tiÅm năng cÿa các āng viên bằng cách đßnh l°ÿng mát hàm māc tiêu

Trang 33

phân cām chuyên dāng Thông th°áng, āng cÿ viên có giá trß nhß nh¿t đ°ÿc coi là giÁi pháp cÿa các trung tâm cām ban đÁu tiÅm năng nh¿t Mát sá công trình gÁn đây đã áp dāng PSO vào các bài toán phân cām nh°: Mô hình phân tích dā liáu hßn hÿp dựa trên thuÁt toán K-means cÁi tiÃn và thuÁt toán tái °u hóa bÁy h¿t thích āng [86], xác đßnh quy tÃc vÁn hành thích hÿp cÿa các hß chāa thÿy đián bằng cách sÿ dāng các thuÁt toán PSO và thuÁt toán K-means [96], sÿ dāng thuÁt toán PSO để cÁi thián ch¿t l°ÿng cho các āng dāng sÿ dāng kā thuÁt phân cām Fuzzy C-Means (FCM), tìm giÁi pháp trung tâm cām ban đÁu cho phân cām FCM trong các āng dāng phân tích dā liáu chính phÿ đián tÿ [7], [66], [99]

Nói chung, thuÁt toán PSO đã đ°ÿc áp dāng hiáu quÁ trong mát sá āng dāng phân cām dā liáu Ngoài ra, thuÁt toán PSO có thể mã ráng cho các bài toán āng dāng khác nhau dựa trên khÁ năng mã hóa các phÁn tÿ theo mô hình cÿa bài toán đích ThuÁt toán PSO bao gßm 2 thành phÁn chính là tÁp các

phÁn tÿ X và hàm đßnh l°ÿng giÁi pháp f cÿa bÁy đàn [16], [21] Nguyên lý

làm viác cÿa PSO nh° sau:

Các phÁn tÿ di chuyển bằng cách thay đái C vector vß trí Xi vßi vÁn tác

Aitheo h°ßng �㕋ýăĉĊ_ÿ(�㔏)

Vß trí �㕋ýăĉĊ(�㔏) đ°ÿc lựa chán từ vß trí tiÅm năng nh¿t trong sá các vß trí �㕋ýăĉĊ_ÿ(Ċ) Các thành phÁn tác đá đ°ÿc tính toán bãi công thāc:

ý(�㔏+1)ÿ = ýÿ(�㔏) + ý1Ĉ1(�㔏)(�㕋ýăĉĊ_ÿ(�㔏) 2 �㕋ÿ(�㔏)) + ý2Ĉ2(�㔏)(�㕋ýăĉĊ(�㔏) 2 �㕋ÿ(�㔏)) (1.16) trong đó,

c1,c2 là các há sá gia tác,

r1, r2là các sá ng¿u nhiên, vßi r1, r2=0,1

Các thành phÁn vß trí đ°ÿc tính toán theo công thāc:

Trang 34

Theo [39] hàm thích nghi đ°ÿc tính toán nh° sau: Ā(�㕋) = ā 

trong đó,  là mát hằng sá và JFCoC là giá trß cÿa hàm māc tiêu đßng

phân cām má Các b°ßc cÿa thuÁt toán PSO đái vßi bài toán đßng phân cām má đ°ÿc mô tÁ trong ThuÁt toán 1.2

Thu¿t toán 1.2 Thu¿t toán Tái °u bÁy đàn PSO

ĐÁu vào: BÁy đàn S, Np, c1, c2, w, Pso, Pso_max

ĐÁu ra: Vß trí tát nh¿t �㕋BesĊ(�㔏) t°¢ng āng ĀăÿĄ = ăÿĄ(Ā(�㕋))

1 Khãi t¿o: BÁy đàn ng¿u nhiên (X, A, �㕋ýăĉĊ(�㔏) và �㕋ýăĉĊ_ÿ(�㔏) )

2 =0 3 LOOP

16 UNTIL ((| Ā(�㔏)(Ą) 2 Ā(�㔏21)(Ą)| f Āÿĉą) hoặc (=Pso_max))

Trang 35

ThuÁt toán PSO kÃt thúc khi thßa mãn điÅu kián dừng:

| Ā(�㔏)(Ą) 2 Ā(�㔏21)(Ą)| f Āÿĉą (1.19) hoặc khi đ¿t đ°ÿc sá lÁn tìm kiÃm tái đa (=Pso_max)

1.2.2 Thuật toán đồng phân cụm mờ

Đßng phân cām má (FCoC) là mát cÁi tiÃn cÿa FCM [29], [48], [88] Tuy nhiên, FCM chỉ xem xét dā liáu theo đ¢n vß đái t°ÿng, trong khi FCoC xem xét dā liáu theo cÁ đ¢n vß đái t°ÿng và đặc tr°ng cÿa chúng Hàm māc

tiêu cÿa FCM chỉ có ma trÁn hàm thuác đái t°ÿng U=[uci]CN và khoÁng cách

giāa các đái t°ÿng dci, trong khi hàm māc tiêu cÿa FCoC có thêm ma trÁn hàm

thuác đặc tr°ng V=[vcj]CK và khoÁng cách giāa các đái t°ÿng trong FCoC đ°ÿc phân rã thành khoÁng cách giāa các đặc tr°ng t°¢ng āng dcij Vßi c¿u trúc nh° vÁy, FCoC đ°ÿc coi là phù hÿp h¢n và có thể thay thà FCM trong phân cām các lo¿i dā liáu đa chiÅu, nhiÅu đặc tr°ng và kích th°ßc lßn

Hàm māc tiêu cÿa thuÁt toán đßng phân cām má JFCoC đ°ÿc biểu dißn bãi công thāc sau:

þýþąþ(ĉ, Ċ, ă) = 3 3 3 ċāÿČāĀþāÿĀ + Ĉċ3þ 3ąÿ=1ċāÿlog ċāÿ

ĈČ3þ 3ĂĀ=1ČāĀlog ČāĀ

Thành phÁn thā nh¿t trong công thāc (1.20) là māc đá táng hÿp xét nhóm các đái t°ÿng và đặc tr°ng có māc đá liên quan lßn vßi nhau Thành phÁn thā hai và thā ba là các thành phÁn kiểm soát māc đá má cÿa các đái t°ÿng và đặc tr°ng

Hàm māc tiêu JFCoCbß ràng buác bãi điÅu kián: 3þ ċāÿ

ā=1 = 1, ċāÿ ∈ [0,1], ∀ÿ = 1, Ă 3Ă ČāĀ = 1

Ā=1 , ČāĀ ∈ [0,1], ∀ý = 1, ÿ (1.21) trong đó, C là sá cām, N là sá đái t°ÿng dā liáu, K là sá đặc tr°ng cÿa dā liáu, ă = {āāĀ} là tÁp các tâm cām, ĉ = {ċāÿ}và Ċ = {ČāĀ} là ma trÁn hàm

Trang 36

thuác và ma trÁn hàm thuác đặc tr°ng, dcij là bình ph°¢ng khoÁng cách ¡clit giāa

xij và gcj đ°ÿc cho bãi công thāc:

þāÿĀ = (ýÿĀ 2 āāĀ)2

(1.22)

Tu và Tv là các tráng sá xác đßnh māc đá má NÃu Tu và Tv tăng thì đá má cÿa các cām tăng lên và ng°ÿc l¿i Các hàm thuác đái t°ÿng và hàm thuác đặc tr°ng đ°ÿc xác đßnh theo công thāc:

ċāÿ = ăýĆ(2 3

3ÿý=1ăýĆ(2 3�㔾Ā=1ĀýĀþýÿĀ�㕇ÿ ) (1.23) ČāĀ = ăýĆ(2 3

3ĀĀ=1ăýĆ(2 3þÿ=1ÿýÿþýÿĀ�㕇Ā ) (1.24) Ma trÁn trung tâm cām G={gcj} đ°ÿc xác đßnh bãi công thāc:

āāĀ = 3þÿ=1ċýÿăýÿĀ

Các b°ßc cÿa thuÁt toán FCoC đ°ÿc mô tÁ trong thuÁt toán 1.3

Thu¿t toán 1.3 Thu¿t toán đãng phân cām mã FCoC

ĐÁu vào: TÁp dā liáu �㕋 = {ýÿ, ýÿ ∈ ℝĂ, ÿ = 1, Ă}, sá cām C, các tham

sá má Ĉċ, ĈČ, ¸FCoC, sá vòng lặp tái đa τmax

ĐÁu ra: Các cām kÃt quÁ

1 Khãi t¿o ma trÁn hàm thuác U=[uci]

Trang 37

ThuÁt toán FCoC bao gßm mát vòng lặp chính cÁp nhÁt các thành

phÁn cÿa hàm māc tiêu JFCoC ThuÁt toán đ°ÿc kÃt thúc khi thßa mãn điÅu kián dừng:

ā�㕎ý(|ċāÿ[�㔏] 2 ċāÿ[�㔏 2 1]|) f Āýþąþ (1.26) Hoặc khi sá vòng lặp đ¿t đÃn sá vòng lặp tái đa cho phép (max) Đá

phāc t¿p tính toán cÿa thuÁt toán FCoC là O(CNK)

ThuÁt toán đßng phân cām má (FCoC) là mát công cā quan tráng có thể thay thà các kā thuÁt phân cām truyÅn tháng trong viác phân tích dā liáu phāc t¿p nh° nhiÅu đặc tr°ng, kích th°ßc lßn và không chÃc chÃn [87] Trong nhāng thÁp kÿ gÁn đây, FCoC đã đ°ÿc quan tâm trong các lĩnh vực khác nhau nh° khai phá dā liáu, nhÁn d¿ng m¿u, hác máy và phân tích hình Ánh [44], [48], [69], [91], [68] Trong hÁu hÃt các tr°áng hÿp phân cām nhiÅu đặc tr°ng, thuÁt toán FCoC luôn đ¿t đ°ÿc kÃt quÁ phân cām tát h¢n so vßi kā thuÁt phân cām truyÅn tháng Tuy nhiên, thuÁt toán FCoC và các cÁi tiÃn th°áng có đá phāc t¿p tính toán cao và nh¿y cÁm vßi các trung tâm cām ban đÁu Ngoài ra, hàm māc tiêu cÿa thuÁt toán FCoC có c¿u trúc phāc t¿p vßi nhiÅu tham sá Do đó, viác āng dāng thuÁt toán PSO vào thuÁt toán FCoC sÁ đem l¿i ý nghĩa trong phân tích dā liáu nhiÅu đặc tr°ng

1.2.3 Mô hình phân cụm mờ theo nhóm

Các tiÃp cÁn kā thuÁt phân cām truyÅn tháng và đ¢n l¿ còn tßn t¿i h¿n chà vÅ đá phāc t¿p tính toán và khÁ năng xÿ lý dā liáu phāc t¿p và có quy mô lßn [89] Để khÃc phāc nhāng v¿n đÅ này,bên c¿nh mát sá cÁi tiÃn cÿa các kā thuÁt phân cām đã đ°ÿc gißi thiáu, các mô hình phân cām theo nhóm đã đ°ÿc đÅ xu¿t So vßi các mô hình phân cām riêng l¿, phân cām má theo nhóm dựa trên kā thuÁt hác không giám sát kÃt hÿp nhiÅu kÃt quÁ phân cām riêng l¿ thành mát phân vùng duy nh¿t và đ¿t đ°ÿc đá chính xác cao h¢n và m¿nh h¢n so vßi các mô hình phân cām riêng l¿ Phân cām theo nhóm đã đ°ÿc chāng minh là

Trang 38

tát h¢n b¿t kỳ thuÁt toán phân cām tiêu chuẩn nào vÅ tính chính xác và m¿nh mÁ trong mát sá tr°áng hÿp āng dāng cā thể, đặc biát đái vßi v¿n đÅ phân cām dā liáu phāc t¿p hoặc có qui mô lßn [64]

Phân cām theo nhóm là mát mô hình hác máy đa năng dựa vào quan điểm chia để trß Phân cām theo nhóm đ°ÿc hình thành bãi mát tÁp hÿp các kā thuÁt đ¢n l¿ ho¿t đáng song song, các đÁu ra đ°ÿc kÃt hÿp bãi chiÃn l°ÿc hÿp nh¿t quyÃt đßnh để t¿o ra kÃt quÁ duy nh¿t cho từng bài toán cā thể [76], [92] và đ°ÿc sÿ dāng để giÁi quyÃt các d¿ng bài toán nh° phân lo¿i, dự đoán, hßi quy hoặc phân cām [39]

Do phân cām theo nhóm nhằm māc đích kÃt hÿp nhiÅu kā thuÁt phân cām khác nhau nên t¿o ra kÃt quÁ tát h¢n các thuÁt toán phân cām riêng l¿ vÅ tính nh¿t quán và ch¿t l°ÿng phân cām [64], [79] Nói chung, các mô hình phân cām theo nhóm tÁp trung vào hai b°ßc Thā nh¿t, chúng t¿o ra các kÃt quÁ phân cām đa d¿ng bằng cách sÿ dāng các thuÁt toán phân cām khác nhau hoặc mát thuÁt toán phân cām đ¢n vßi các tham sá khác nhau hoặc phân cām các tÁp con bằng cách chia tÁp dā liáu ban đÁu thành các tÁp con Thā hai, chúng xây dựng mát hàm để t¿o ra sự đßng thuÁn cÿa các kÃt quÁ phân cām c¢ sã Có mát sá °u điểm cÿa phân cām theo nhóm nh°: Phân cām theo nhóm sÿ dāng mát sá kÃt quÁ phân cām c¢ bÁn và dā liáu có thể dß dàng đ°ÿc xÿ lý song song Ngoài ra, chúng đ¿t đ°ÿc hiáu su¿t tát h¢n vÅ khÁ năng nhÁn biÃt các điểm bß cô lÁp và nhißu Bên c¿nh đó, phân cām theo nhóm cung c¿p mát khuôn khá tự nhiên cho tính toán phân tán, vì vÁy mßi tiÃn trình có thể đ°ÿc điÅu phái Cuái cùng, vì chúng chỉ yêu cÁu kÃt quÁ cÿa các cām c¢ sã và không cÁn truy cÁp vào các điểm dā liáu gác nên các phân cām theo nhóm đáp āng các yêu cÁu bÁo toàn quyÅn riêng t° và tái sÿ dāng tri thāc Sau khi phân cām theo nhóm đ°ÿc đÅ xu¿t đã nhanh chóng thu hút sự quan tâm cÿa các nhà nghiên cāu Mát sá nghiên cāu gÁn đây vÅ phân cām theo nhóm nh° công nghiáp khai thác mß [92], y tÃ

Trang 39

và sinh hác [85], nhÁn d¿ng m¿u [1], [28], [42], phân lo¿i dā liáu [80], [81], xÿ lý Ánh [3], [87], quÁn lý môi tr°áng [56] và xÿ lý dā liáu lßn [18]

Các mô hình phân cām theo nhóm th°áng đ°ÿc chia làm hai lo¿i: Các mô hình phân cām theo nhóm đ¢n hàm māc tiêu [18] và các mô hình phân cām theo nhóm đa hàm māc tiêu [1], [72] Các mô hình phân cām theo nhóm đ¢n hàm māc tiêu phā thuác chÿ yÃu vào kā thuÁt phân cām và sự thay đái các tham sá trên từng phân cām c¢ sã Do đó, các mô hình phân cām theo nhóm đ¢n hàm māc tiêu phù hÿp để phân cām các bá dā liáu đ¢n hoặc đßng nh¿t Các mô hình phân cām theo nhóm đa hàm māc tiêu cho phép lựa chán các hàm māc tiêu phân cām khác nhau dựa vào tính ch¿t dā liáu cÿa từng phân cām c¢ sã Do đó, các mô hình phân cām theo nhóm đa hàm māc tiêu phù hÿp để phân cām các bá dā liáu đa ngußn, không đßng nh¿t Các đÅ xu¿t trong [72] đã xác đßnh các tri thāc ẩn trong dā liáu nh° tham sá, hiáp ph°¢ng sai hoặc xác su¿t để lựa chán các hàm māc tiêu khác nhau nh° EMGM, FCM, K-Means làm các phân cām c¢ sã

Sự khác biát giāa mô hình phân cām theo nhóm vßi các mô hình phân cām đ¢n là mô hình phân cām theo nhóm bao gßm nhiÅu mô đun phân cām ho¿t đáng song song và có liên kÃt Các kÃt quÁ phân cām cÿa các mô đun phân cām đ°ÿc táng hÿp thành mát kÃt quÁ phân cām toàn cāc Mô hình phân cām theo nhóm lÁn đÁu tiên đ°ÿc đßnh nghĩa bãi A Strehl và cáng sự [2] và gÁn đây đã có nhiÅu nghiên cāu cÁi tiÃn [1], [28], [46], [63], [72] Mô hình phân cām theo nhóm đ°ÿc mô tÁ bãi các đßnh nghĩa d°ßi đây [CT6]

Đánh ngh*a 1.2 Phân cụm theo nhóm là một mô hình học máy được sử

dụng cho mục đích phân tích dữ liệu, trong đó các bộ dữ liệu cục bộ được phân cụm bởi các mô đun phân cụm khác nhau Các mô đun phân cụm này được gọi là các mô đun phân cụm cơ sở (xem Định nghĩa 1.3) Kết quả phân cụm của các mô đun phân cụm cơ sở được tổng hợp thành một bộ kết quả phân cụm cuối cùng, được gọi là kết quả phân cụm toàn cục

Trang 40

Đánh ngh*a 1.3 Phân cụm cơ sở là một mô đun phân cụm trong các mô

hình phân cụm theo nhóm Tại đó xảy ra quá trình phân cụm một tập dữ liệu cục bộ sử dụng một kỹ thuật phân cụm và các tham số tương ứng

Đánh ngh*a 1.4 Mô hình phân cụm theo nhóm: Cho một tập dữ liệu X

bao gồm N đối tượng dữ liệu và M thuật toán phân cụm khác nhau hoặc một thuật toán với M bộ tham số khác nhau M mô đun phân cụm cơ sở được hình thành bằng cách cài đặt M thuật toán phân cụm với M tập dữ liệu cục bộ tương ứng để nhóm mỗi tập dữ liệu cục bộ thành C cụm khác nhau Kết quả phân cụm của M mô đun phân cụm cơ sở �㗱1, �㗱2, & , �㗱Ą được kết hợp bởi hàm đồng thuận (Định nghĩa 1.5) để nhận được kết quả toàn cục *

Mô hình phân cām theo nhóm truyÅn tháng đ°ÿc mô tÁ trong Hình 1.2

Hình 1.2 Mô hình phân cām theo nhóm truyÅn tháng [42]

Đánh ngh*a 1.5 Hàm đồng thuận phân cụm theo nhóm là một trong

những thành phần chính của mô hình phân cụm theo nhóm, trong đó xảy ra quá trình hợp nhất các kết quả đến từ các phân cụm cơ sở thành kết quả phân cụm toàn cục của mô hình phân cụm theo nhóm

Mßi mô hình phân cām theo nhóm sÿ dāng mát thuÁt toán đ¢n để thiÃt kà các phân cām c¢ sã Mát sá đÅ xu¿t gÁn đây nh°: Sÿ dāng thuÁt toán phân cām K-means [28], sÿ dāng thuÁt toán phân cām Fuzzy C-Means [49], sÿ dāng các thuÁt toán phân cām EMGM, FCM, K-Means [72] để xây dựng mô hình phân cām theo nhóm đa hàm māc tiêu Trong phÁn này, luÁn án sÿ dāng các

Phân cām XM

Ngày đăng: 24/07/2024, 20:37

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w