Phân tích chùm cho di liệu khoảngMạng nơ ron tích chập Phân tích chùm cho dữ liệu có chứa nhiễu dựa trên mật độ Don vị đào tạo Phân tích chùm không thứ bậc cho các hàm mật độ xác suấtPhâ
Trang 1DAI HỌC QUOC GIA TP HO CHÍ MINH TRUGNG DAI HOC KHOA HOC TU NHIEN
NGUYEN TRANG THAO
MOT SO DONG GOP TRONG
BAI TOÁN PHAN TICH CHUM
LUAN AN TIEN Si TOAN HOC
TP H6 Chi Minh — Nam 2023
Trang 2DAI HỌC QUOC GIA TP HO CHÍ MINH TRUGNG DAI HOC KHOA HOC TU NHIEN
NGUYEN TRANG THAO
MOT SO DONG GOP TRONG
BAI TOAN PHAN TICH CHUM
Ngành: Lý thuyết xác suất và thong kê toán hoc
Mã số ngành: 62460106
Phản biện 1: PGS.TS Lê Si Đồng Phản biện 2: TS Nguyễn Văn Huấn
Phản biện 3: TS Tạ Quốc Bảo
Phản biện độc lập 1: TS Trần Phước Lộc
Phản biện độc lập 2: TS Lê Thị Thanh An
Người hướng dẫn 1: PGS TS Võ Văn Tài Người hướng dẫn 2: TS Lê Thị Xuân Mai
Tp Hồ Chí Minh — Năm 2023
Trang 3Lời cam đoan
Tôi cam đoan luận án tiến sĩ ngành Lý thuyết xác suất và thống kê toán học, với đề
tài Một số đóng góp trong bài toán phân tích chùm là công trình khoa học do tôi
thực hiện dưới sự hướng dẫn của PGS TS Võ Văn Tài và TS Lê Thị Xuân Mai.
Những kết quả nghiên cứu của luận án hoàn toàn trung thực, chính xác và không
trùng lắp với các công trình đã công bố trong và ngoài nước
Nghiên cứu sinh
Nguyễn Trang Thảo
Trang 4Lời cam ơn
Tôi vin kính gửi lời cảm ơn dau tiên va sâu sắc đến Giảng tiên hướng dan, Thay
Võ Văn Tài Toi đã được gặp gỡ, quen biết va làm uiệc cùng Thay không chỉ trong thờigian thực hiện luận án, mà còn trong suốt mét khoảng thời gian hoc tập va nghiêncứu hơn 10 năm qua Trong khoảng thời gian trên, Thay đã hướng dẫn va hỗ trợ họctrò rat nhiều từ công uiệc chuyên môn đến những van đề nan giải của cuộc sống Lamviée cùng Thay đã khiến cho hoc trò có nhiều động luc va đam mê đối uới công viécnghiên cứu xác suất thống kê va khoa hoc dit liệu; đó là một điều may mắn đối vớihọc trò Học trò xin gửi đến Thay lời cam ơn chân thành nhất
Tôi xin kính gửi lời cảm ơn chân thành đến Giảng uiên đồng hướng dan, Cô LêThị Xuân Mai, người đã truyền dat cho tôi những kiến thúc quy báu vé thống kê,cũng như đã hỗ trợ tôi hết mành trong quá trành học nghiên cứu sinh.
Tôi xin gửi lời cam ơn đến Thay Nguyễn Bác Văn, Thay Đặng Đúc Trọng, Co
Nguyễn Thị Mộng Ngọc, cùng tập thể cán bộ-giảng uiên bộ môn Xác suất Thông kê.
Khoa Toán- Tin học, Trường Dai học Khoa học Tự Nhiên, Dai học Quốc gia TPHCM,
ve những kiến thúc chuyên mon quý báu Quy Thay Cô đã truyền đạt
Tôi xin gửi lời cam ơn đến tập thể cán bộ Phòng Sau Dai học, Trường Pai học
Khoa học Tự Nhiên, đặc biệt là Cô Trần Thị Phượng Giang, vé những hỗ trợ uề mặthành chính của Quy Thay Cô trong suốt quá trinh học tập nghiên cứu sinh của minh.
Tôi zin gửi lời cam ơn đến Thay Nguyễn Thời Trung, Co Nguyễn Thi Kim Ngân,
va tập thể đồng nghiệp Viện Khoa học Tính toán, Trường Đại học Tôn Đức Thắng đã tạo nhiều điều kiện thuận lợi vé mặt công tiệc, giúp đố tôi có thể hoàn thành quyén
luận án nay.
Tôi zin gửi lời cam ơn chân thành đến Thay Nguyén Thời Trung, Thay NguyễnDinh Phu, Thay Vasanth, Thay Thich Nhất Hạnh, Thay Thích Minh Niệm, ThayThich Pháp Hòa, Thay Sayadaw U Jotika, Thay Ajahn Chah, Thay Ajahn Brahm,
Ba Dolores Cannon, Thay Osho, Thay Jiddu Krishnamurti, Thay John Va Nhitng
tác phẩm, những bài giảng, cũng như những buổi trao đổi của các Thay đã lan tỏa rat nhiều năng lượng tích cực, giúp moi người có thể cân bằng cuộc sống, có khả năng
sống va làm tiệc một cách an nhiên va đạo đúc
Con xin cam ơn công sinh thành, day bao của Cha Me Con xin cam on Me,
1
Trang 5người đã vat va hy sinh suốt một đời vi con Không có Mẹ thà sẽ chẳng thể có con.
Xin cảm ơn gia đành nhỏ, Vo va các con tôi, những người luôn kề vai sát cánh,cùng tôi uượt qua moi vui buôn của cuộc sống Đặc biệt, xin gửi lời cam ơn cùng tinhthương chân thành đến Vợ, người luôn là hậu phương uững chắc, đã hy sinh nhiều
thời gian-công uiệc của ban thân để giúp tôi được tập trưng cho công tiệc nghiên cứu.
Xin cắm ơn bạn bè, đồng nghiệp, cùng muôn van điều không tên khác
Trang 71.4.2 Thuật toán phân tích chùm tu động thứ bậc dựa trên hệ số tương tự chùm
Trang 83.4.3 Viduminh hoa) Ặ.ẶẶ QẶ QC
vì
104
Trang 9Phân tích chùm cho di liệu khoảng
Mạng nơ ron tích chập
Phân tích chùm cho dữ liệu có chứa nhiễu dựa trên mật độ
Don vị đào tạo
Phân tích chùm không thứ bậc cho các hàm mật độ xác suấtPhân tích chùm không thứ bậc cho các phần tử rời rạc
Khoảng cách chồng lấp cho dữ liệu khoảng
Hệ số tương tự chùm cho các hàm mật độ xác suất
Hệ số tương tự chùm cho các phần tử rời rạcChi số Silhouette
Nhiéu muối tiêuTổng của sai số bình phương
Tự động cập nhật
Tự động cập nhật hàm mật độ xác xuất
Tự động cập nhật dữ liệu khoảng
Trung học Phổ thông
Trang 10Danh sách hình vẽ
Trang 11Đồ thị phân tán của 16 khoảng :
So sánh quá trình hội tụ của hai thuật toán ERACI và ACIG-GD1
Trang 12Danh sách bang
Trang 13PHAN MỞ ĐẦU
0.1 Tổng quan bài toán phân tích chùm và lý do chọn đề tài
Ngày nay, trong xu thế toàn cầu hóa, chúng ta thường xuyên phải tiếp nhận và xử
lí một lượng lớn những thông tin khác nhau Theo thống kê của [14 [65], mỗingày có 2.5 x 10! bit dữ liệu được tạo ra, lượng dữ liệu được lưu trữ mỗi ngày của
Facebook lên đến 50 terabytes, trong khi đó, Google xử lí 40 petabytes dữ liệu mỗi
ngày và lưu giữ trực tuyến 2.6 petabytes dữ liệu mỗi giờ Cùng với sự gia tăng đột
biến của dữ liệu, nhu cầu lưu trữ, phân loại, gom nhóm dữ liệu một cách tự động
nhận được nhiều sự quan tâm hơn từ các nhà nghiên cứu thống kê trên thế giới Cónhiều phương pháp để thực hiện phân loại và gom nhóm dữ liệu, trong đó, phân tích
chùm là một trong những phương pháp chủ dao 5i.
Theo [T7 81) 83), phân tích chùm là một phương pháp thống kê đa biến nhằm
nhóm một tập các đối tượng lại thành các chùm theo những đặc điểm định trước.
Chùm được coi như là một nhóm dữ liệu, trong đó những phần tử trong cùng mộtchùm thì có sự tương tự nhau theo một số đặc điểm nhất định Khi chùm được xâydựng, những phần tử trong cùng một chùm sẽ có sự tương tự nhiều hơn so với những
phần tử của chùm khác Dối tượng của bài toán phân tích chùm rất đa dạng, nhưng
nhìn chung, có ba loại đối tượng chính gồm các phần tử rời rạc, các hàm mật độ xác
suất, và các khoảng (interval data) Đối với mỗi loại đối tượng, ta lại có các phương
pháp tiếp cận khác nhau, chẳng hạn như phương pháp phân tích không mờ nơi mỗi
phần tử sẽ được gán vào một chùm duy nhất hoặc phương pháp phân tích chùm mờ,nơi mỗi phần tử có thể được gán vào nhiều chùm với các xác suất được xác định cụ
thể.
Phân tích chùm cho các phan tử rời rac (clustering for discrete element, CDE)
đã được quan tâm nghiên cứu từ rất sớm Cho đến nay, số lượng nghiên cứu về phân
tích chùm các phần tử rời rạc hoàn toàn chiếm ưu thế so với các phương pháp phân
tích chùm đối với các loại đối tượng khác Một số công trình tiêu biểu được nghiên
Trang 14cứu gần đây có thể được tham khảo trong [T7Ị (54) 64] Mặc dù đã có
những bước tiến đáng kể và có nhiều kết quả nghiên cứu có giá trị, bài toán phân
tích chùm các phần tử rời rạc vẫn còn nhiều vấn đề có thể tiếp tục khai thác về mặt
lý thuyết lan ứng dụng Về mặt lý thuyết, hầu hết các thuật toán phân tích chùmđều cần người dùng phải xác định trước số chùm Điều này là không thuận lợi trong
thực tế vì phụ thuộc nhiều vào kiến thức chuyên gia Một phương pháp khác để xác
định số chùm là đánh giá kết quả của bài toán phân tích chùm và xác định số chùm
tối ưu thông qua các chỉ số đánh giá như chỉ số Xie-Beni [Ø6], chỉ số Dunn Hỗ], chỉ số
Davies-Bouldin |§J, Tuy nhiên, việc này đòi hỏi chi phí tính toán lớn và không kha
thi khi áp dụng đối với các bài toán lớn mà cần thời gian tính toán nhanh Tương tự,
phần lớn các thuật toán phân tích chùm đều tạo ra các chùm có dạng hình cầu, điềunày làm cho kết quả trở nên không phù hợp khi các chùm có hình dạng bất kỳ Do
đó, phương pháp xác định số chùm và phương pháp phân tích chùm với dạng chùm
bất kỳ là hai trong số nhiều vấn đề lớn mà các nhà nghiên cứu quan tâm Về mặt ứng
dụng, phần lớn các thuật toán phân tích chùm được ứng dụng trong các lĩnh vực kỹthuật, kinh tế, xã hội đều là các thuật toán cơ bản Các thuật toán này có ưu điểm
là đơn giản và thường được tích hợp sẵn trong các phần mềm thống kê Tuy nhiên,
các kết quả có thể sẽ tốt hơn và đáng tin cậy hơn nếu như các nghiên cứu mới được
ứng dụng.
Bài toán CDE được đặc biệt quan tâm do hướng tiếp cận này phù hợp với nhiều
loại bài toán khác nhau, đơn giản và chi phí tính toán thấp Tuy nhiên, trong xu thế
của cách mạng công nghiệp 4.0 hiện nay, việc thu thập, lưu trữ, xử lý, phân tích dữ
liệu lớn trở thành một bài toán vô cùng quan trọng Dữ liệu lớn (big data) là dữ liệu
có độ biến động cao, không chắc chắn và được thu thập từ nhiều nguồn khác nhau
Do đó, bài toán CDE sẽ không phù hợp đối với dữ liệu lớn vì chúng ta không thể kếtluận các tính chất về độ biến động, tính không chắc chắn của dữ liệu khi chúng chỉ
được đại diện bởi một điểm duy nhất Từ đó, có thể thấy rằng, cần phải xem xét
bài toán phân tích chùm đối với một số loại đối tượng mới, chẳng hạn như là mộtphân phối hoặc là một khoảng dit liệu Do đó, bài toán phân tích chùm cho các hàmmật độ xác suất (Clustering for probability density function, CDF) và bài toán phântích chùm dành cho dữ liệu khoảng (Clustering for interval data, CID) hiện đã đượcquan tâm nghiên cứu trong thời gian gần đây
Đối với bài toán CDF, các nghiên cứu trong [Z0 [9] 57) đã đưa ra một số độ do
ban đầu như độ đo phân biệt và affinity Năm 2010, tiêu chuẩn “độ rộng chùm” được
Trang 15đề xuất bởi [Ø0], các ví dụ số trên cỡ mẫu nhỏ cũng được trình bay và cho kết quả
hợp lý Tuy nhiên, khi thực hiện bài toán CDF với số lượng ham mật độ xác suất
lớn, tiêu chuẩn “độ rộng chùm” thể hiện một số điểm chưa hợp lý khi cận trên của
nó phụ thuộc vào số hàm mật độ xác suất đang xét Điều này cho thấy chúng ta vẫn
cần phải nghiên cứu các tiêu chuẩn khác, so sánh các tiêu chuẩn trên các bộ dữ liệu lớn hơn, từ đó mới có thể ứng dụng được trong phân tích dữ liệu thực tế Một số
nghiên cứu nổi bật khác trong thời gian gần đây về bài toán CDF có thể được tham
khảo thêm trong PI, HTI 58) 67) Trong các nghiên cứu kể trên, chưa có nghiên cứu
nào khai thác bài toán CDF theo hướng tiếp cận mờ, trong khi phân tích chùm mờ
đã được nghiên cứu rất nhiều đối với CDE Ngoài ra, vấn đề xác định số chùm hợp
lý, xác định phân vùng tối ưu toàn cục, và đánh giá kết quả của một phương án phânvùng vẫn còn là một câu hỏi mở trong bài toán CDE.
Tương tự như bài toán CDF, bài toán CID chỉ mới được quan tâm nghiên cứu
nhiều trong vài thập niên gần đây Về tiêu chuẩn đánh giá sự tương tự, một số loạikhoảng cách giữa hai khoảng đã được đề xuất và áp dụng cho bài toán phân tích
chùm như khoảng cách Euclide bình phương thích nghi (adaptive squared Euclidean
distances), khoảng cách city-block, khoảng cách Hausdorff, khoảng cách chồng lấp
(10) 48] Trong đó, khoảng cách chồng lấp được xem là có nhiều ưu điểm vì chúng
xem xét đến sự chồng lấp giữa hai khoảng dữ liệu mà không chỉ đơn thuần tính toándựa trên khoảng cách ngoài, hoặc khoảng cách tương ứng giữa các đầu mút Về thuật
toán, một số giải thuật được đề xuất bởi PI đều dựa trên một số chùm
cho trước Nghiên cứu của được xem là công trình đầu tiên về thuật toán xác
định số chùm cho bài toán phân tích chùm khoảng, tuy nhiên, việc tính toán của
thuật toán này lại dựa trên khoảng cách Hausdorff, trong khi khoảng cách chồng lấpđược xem là có nhiều uu điểm hơn Ngoài ra, việc xây dựng một thuật toán ổn định,không bị ảnh hưởng bởi nhiễu, đồng thời có khả năng phát hiện dữ liệu nhiễu cũng
chưa được quan tâm nghiên cứu trong cả hai bài toán CDF va CID.
Tóm lại, trong một bài toán phân tích chùm nói chung luôn tồn tại ba vấn đềchính cần làm rõ: (i)- thang đo đánh giá sự tương tự giữa các đối tượng đang xem xét;(ii)- thuật toán phan tích chùm; (iii)- đánh giá mức độ tốt của một phan vùng (mộtphương án phan tích chùm) Đối với vấn đề (i), chưa có nhiều tiêu chuẩn thực sự hợp
lý được đề xuất trong các bài toán CDF va CID Việc tính toán các tiêu chuẩn trêncác loại đối tượng là hàm mật độ xác suất và khoảng dữ liệu cũng không được thuậnlợi như các phần tử rời rạc Đối với vấn đề (ii), do chưa có nhiều tiêu chuẩn hợp lý
Trang 16được đề xuất trong vấn dé (i), có rất nhiều khe hở nghiên cứu cần phải được tiếp tụcphát triển trong bài toán CDF va CID Chang hạn: phân tích chùm theo hướng tiếpcận mờ, phân tích chùm với số chùm chưa biết, phân tích chùm với dữ liệu có chứa
nhiễu, và tìm kiếm một kết quả phân vùng gần với phân vùng tối ưu toàn cục Vấn
đề (iii) cũng tương tự như van dé (i), khi chưa có nhiều tiêu chuẩn được đưa ra để
đánh giá mức độ tốt của một kết quả phân vùng trong bài toán CDF va CID Do
đó, có thể thay rang CDF va CID là các lĩnh vực nghiên cứu còn rất mới, việc khaithác các bài toán này sẽ dẫn đến nhiều kết quả thú vị Riêng đối với bài toán CDB,
mặc dù các vấn đề cơ bản đã được nghiên cứu và giải quyết một cách gần như trọn
vẹn, một số hạn chế về mặt lý thuyết và ứng dụng vẫn cần được nghiên cứu thêm
Từ các nhận định trên, có thể thấy rằng phân tích chùm là một khía cạnh thú vị
để nghiên cứu về cả lý thuyết lẫn ứng dụng Đó cũng chính là lý do đề tài “Một số
đóng góp trong bài toán phân tích chùm” được chọn làm hướng nghiên cứu của luận
án tiến sĩ này
0.2 Mục đích nghiên cứu
i Đề xuất một số tiêu chuẩn mới nhằm đánh giá sự tương tự giữa các phần tử rời
rạc, các hàm mật độ xác suất và dữ liệu khoảng
ii Đề xuất các thuật toán mới liên quan đến phân tích chùm cho dữ liệu điểm, ham
mật độ xác suất và dữ liệu khoảng dựa trên những kết quả của (i)
11 Ứng dụng các thuật toán phân tích chùm đề nghị trong một số lĩnh vực bao
gồm: phân tích dit liệu và nhận dạng hình ảnh
0.3 Đối tượng nghiên cứu
e Các tiêu chuẩn đánh giá sự tương tự giữa các phần tử rời rac, các hàm mật độ
xác suất và dit liệu khoảng
e Các phương pháp phân tích chùm các phần tử rời rac, các hàm mật độ xác suất,
và dữ liệu khoảng.
e Các ứng dụng của phân tích chùm các phần tử rời rac, các hàm mật độ xác suất
va dit liệu khoảng.
Trang 170.4 Phương pháp nghiên cứu
e Cải tiến tiêu chuẩn đánh giá sự tương tự của các loại phần tử dựa trên những
tiêu chuẩn đã tồn tại trước đó và đặc tính của từng loại phần tử.
e Cải tiến một số bước trong các thuật toán phân tích chùm trước đó để cải tiến
chất lượng xây dựng chùm dựa trên các tiêu chuẩn đánh giá.
e Sử dụng phần mềm Matlab để viết các chương trình phân tích chùm, thử nghiệm
từ các trường hợp đơn giản với dữ liệu mô phỏng đến các trường hợp thực tế
với dữ liệu xã hội và dữ liệu hình ảnh.
0.5 Bo cục của luận án
Phần còn lại của luận án gồm có nội dung, kết luận, định hướng nghiên cứu và tài
liệu tham khảo, trong đó phần nội dung được cấu trúc bởi 4 chương như sau:
e Chương 1 Phân tích chùm các phan tử rời rac
e Chương 2 Phân tích chùm các hàm mật độ xác suất
e Chương 3 Phân tích chùm dữ liệu khoảng.
e Chương 4 Phần kết luận và định hướng nghiên cứu
Trang 18chùm thì tương tự nhau, và các phần tử thuộc các chùm khác nhau thì không tương
tự nhau, theo một số tiêu chí được định trước Nói một cách khác, bài toán CDE là
bài toán phân tích chùm, với đối tượng là các phần tử rời rạc Trong bài toán phân
tích chùm, các phần tử rời rạc là đối tượng được quan tâm nghiên cứu nhiều hơn
so với các đối tượng khác (hàm mật độ xác suất, khoảng, chuỗi thời gian ), nên
thông thường khi đề cập đến phân tích chùm, ta thường hiểu đó là bài toán CDE.
Trong chương này, luận án trình bày một số tiêu chuẩn nhằm đánh giá sự tương tự của các phần tử rời rạc, một số thuật toán phân tích chùm được sử dụng phổ biến,
một số tiêu chuẩn nhằm đánh giá chất lượng chùm được xây dựng Bên cạnh đó,
trong chương này, luận án cũng trình bày một số đề xuất mới của nhóm nghiên cứu
bao gồm: hệ số tương tự chùm các phan tử rời rac (Similar Coefficient of Cluster for
Discrete Elements, SCD) và thuật toán phân tích chim tự động, không thứ bậc dựa
trên SCD [Phd].
1.1 Sự tương tự của các phan tử rời rac
1.1.1 Sự tương tự của hai phần tử rời rac
Khoảng cách là đại lượng thường dùng để đánh giá sự tương tự của hai phần tử rời
rac Khoảng cách giữa hai phan tử là một metric, nghĩa là nếu d(x, y) là khoảng cách
của hai phần tử x và y (x,y € R”) thi đ(x,y) phải thỏa các điều kiện sau đây:
1 đ(x,y) >0,Vx,y Dau “=” xảy ra khi x = y
10
Trang 192 d(x,y) = d(y, x).
3 d(x,y) + d(y,z) > d(x,z).
Theo 3 điều kiện trên, ta có thé định nghĩa khoảng cách giữa 2 phan tử theo
nhiều cách khác nhau Cho hai điểm x = (#1,#2, ,#n),W = (1,2, ,n) € JR", khi đó ta có một số khoảng cách phổ biến như sau.
e® Khoảng cách Euclide:
e® Khoảng cách city-block:
da(%,y) = À ` lai — yil- (1.2)
e Khoảng cách Euclide thường được sử dụng phổ biến nhất trong các áp dụng của
nhiều vấn đề hiện tại Nó mô tả độ lớn của đoạn thang nối trực tiếp hai điểm x
va y.
e Khoảng cách city-block mô tả tổng độ lớn của n đoạn gấp khúc nối hai điểm
x,y€R" Mỗi đoạn trong n đoạn nay song song với | trục tương ứng trong n
trục của hệ quy chiếu
e Khoảng cách Chebyshev mô tả đoạn thang có độ dài lớn nhất trong ø đoạn gấp
khúc đã được đề cập trong khoảng cách city-block
e Khoảng cách Minkowski bậc m là một khoảng cách mang tính tổng quát Với
những m khác nhau, khoảng cách Minkowski bậc m sẽ tương ứng với một loại khoảng cách khác nhau Khi n = 1, dm(x,y) = d(x, y) Khi m = 2, d„(x, y) = d-(x,y) Độ lớn của khoảng cách Minkowski bậc m sẽ càng giảm khi m càng
Trang 201.1.2 Sự tương tự của một nhóm các phần tử rời rac
Thông thường, khi chùm được xây dựng, ta cần đánh giá chất lượng của các chùmđược tạo Để làm được điều này, ta cần có các khoảng cách nhằm đánh giá sự tương
tự của một nhóm các phần tử rời rạc Trong lĩnh vực phân tích chùm, các khoảng
cách này được gọi là “khoảng cách nội bộ” (intracluster distance) Gọi x và y là hai
điểm dữ liệu n chiều bất kỳ thuộc nhóm C, x,y € R”, một số khoảng cách phổ biến
6 dùng để đánh giá sự tương tự của một nhóm hữu hạn các phần tử rời rac như sau.
e Khoảng cách max (Complete Diameter Distance):
dmax(C) = max d(x,y) (1.5)
Trong các công thức trên, d là khoảng cách giữa hai phần tử rời rac đã được định
nghĩa ở phần trước, tùy vào loại khoảng cách d được sử dụng mà ta lại có nhiều kết
quả khác nhau; |C| là số phần tử có trong nhóm (chùm) C; v là trọng tâm (điểm
trung bình) của nhóm (chùm) Œ được tính bởi v = a » x.
xeŒ
1.1.3 Sự tương tự giữa hai nhóm các phần tử rời rac
Các thang đo đánh giá sự tương tự giữa hai nhóm các phần tử rời rạc thường được
quan tâm trong việc đánh giá chất lượng của một kết quả phân tích chùm khi ta
muốn biết các chùm được xây dựng có sự tách biệt như thế nào Bên cạnh đó, chúng
thường được sử dụng trong phân tích chùm theo hướng tiếp cận thứ bậc, khi ta xây
dựng các chùm mới dựa trên thông tin các chùm được tạo trước đó Gọi x, và y là
hai điểm dữ liệu n chiều bất kỳ lần lượt thuộc hai nhóm hữu hạn C, và C2, một số thang đo dùng để đánh giá sự tương tự giữa hai nhóm các phan tử rời rac Cy và C2
được tóm tắt bởi các công thức bên dưới
12
Trang 211.2 Một số thuật toán phân tích chùm cho các phần tử rời rac
Tùy vào khía cạnh đang xem xét mà các thuật toán phân tích chùm các phần tử rờirạc có thể được phân chia thành nhiều hướng tiếp cận khác nhau Hình trình bày tổng quan các hướng tiếp cận của bài toán CDE Theo đó, bài toán CDE có thể chia thành hai hướng tiếp cận chính là phân tích chùm không mờ và phân tíchchùm mờ Trong hướng tiếp cận không mờ, mỗi phần tử được gán vào một chùm
cụ thể và không thuộc vào các chùm khác; ngược lại, trong hướng tiếp cận mờ, mỗi
phần tử đồng thời thuộc vào tất cả các chùm với các mức độ phụ thuộc nhất định.Trong mỗi hướng tiếp cận mờ hoặc không mờ, ta lại có nhiều hướng tiếp cận khácnhau như phân tích chùm dựa vào khoảng cách/trọng tâm (distance/centroids based
clustering), phân tích chim dựa vào mô hình (model-based clustering), phân tích
chùm dựa vào mật độ (density-based clustering) Ngoài ra, một số hướng tiếp cận
khác như phân tích chùm thứ bậc và phân tích chùm tự động cũng có thể được kết hợp với cả phân tích chim mờ hoặc không mờ để cho ra một số hướng tiếp cận khác
nhau Phần này của luận án sẽ tập trung trình bày một số thuật toán phân tích chùm
phổ biến theo hướng tiếp cận không thứ bậc-không mờ Trong hướng tiếp cận không
thứ bậc-không mờ này, luận án lựa chọn trình bày ba thuật toán cổ điển đại diện cho
ba hướng phân tích chùm: dựa vào trọng tâm, dựa vào mật độ và dựa vào mô hình.Các thuật toán cụ thể bao gồm: thuật toán k- trung bình (k-means), thuật toán phan
tích chùm DBSCAN và thuật toán cực đại hóa kỳ vọng (EM) Do đây là các thuật
toán đã phổ biến và được sử dụng như các phương pháp đối chiếu trong luận án, luận
án chỉ giới thiệu sơ lược các nguyên lý và các bước thực hiện chính Các phân tích
Trang 22based clustering
Distance- based clustering
Density-NON-FUZZY CLUS-
Hình 1.1: Tổng quan các thuật toán CDE
1.2.1 Thuật toán k-means
Cho trước tập dữ liệu cần phân tích chùm X gồm phần tử rời rac n chiều: X =
{XI,Xa, ,Xw}, (x; € IR"), và cho trước số chùm k, thuật toán k-means chia tập
dữ liệu X thành k chùm sao cho tổng khoảng cách giữa các phần tử đến trọng tâm
chùm chứa nó là nhỏ nhất Thuật toán k-means được trình bay chi tiết bởi Thuật
toán 1.1 và được minh họa bởi Hình |L.2|
Step 1 Step 2 Step 3
Step 3 (repeat)
Hình 1.2: Minh hoa các bước của thuật toán k-means
14
Trang 23Thuật toán 1.1
Bước 1 Khởi tạo k trọng tâm của k chùm {v.v " vi") một cách ngẫu nhiên.
Bước 2 Tìm phân vùng tương ứng với k trọng tâm bằng cách gán từng phần tử vào chùm
chứa trọng tam gần nó nhất, nghĩa là tìm phan vùng C9) = {ci CỤ), " c9}
Bước 4: Lặp lại Bước 2 va Bước 3 cho đến khi thuật toán hội tụ, nghĩa là các trọng tam
không đổi qua hai vòng lặp liên tiếp, vl) = vi) vị,
1.2.2 Thuật toán phan tích chùm DBSCAN
Thuật toán k-means ở phần trên xây dựng chùm dựa vào khoảng cách từ các phần
tử đến trọng tâm, do đó, các chùm được xây dựng thường mang dạng hình cầu Điều
này dẫn đến một số điểm không phù hợp khi ứng dụng cho dữ liệu mà các chùm có
dạng bất kỳ Thuật toán DBSCAN được đề xuất bởi là một thuật toán có thểgiải quyết được bài toán phân tích chùm với hình dạng bất kỳ Thuật toán này cũng
thực hiện việc tính toán khoảng cách giữa các phần tử, tuy nhiên, các khoảng cách
này không được áp dụng một cách trực tiếp để xây dựng chùm mà được sử dụng để xét tính liên thông của các điểm dữ liệu Chính việc các điểm dữ liệu có liên thông với
nhau hay không sẽ quyết định đến việc chúng có thuộc cùng một chùm hay không
Trong thuật toán DBSCAN, ta cần xác định trước hai tham số gồm: e và minpts.Cho tập dữ liệu X, với x; va x; là hai điểm thuộc X Nếu d(x;,x;) < e, thi x; được
gọi là “liên thông trực tiếp” từ x;, va x; được gọi là điểm lõi Nếu tồn tại một day
X1,X2, ,X sao cho x; liên thông trực tiếp với x;41, Vi = 1,2, ,n — 1, thi x,
được gọi là “liên thông” từ xị Thuật toán DBSCAN bắt đầu bằng việc chọn ngẫunhiên một điểm dữ liệu, nếu điểm dữ liệu được chọn là điểm lõi, tất cả những điểm liên thông với điểm này được xét vào cùng một chùm Quá trình này được lặp đến
Trang 24thông” và “liên thông trực tiếp” giữa các điểm được minh họa bởi Hình Thuật
toán DBSCAN được minh họa bởi Hình và được trình bày chi tiết trong Thuật
toán 1.2 như sau:
(c) Vong lap 2 (d) Két qua phan chim
Hình 1.4: Minh hoa thuật toán DBSCAN
Thuật toán 1.2
Khởi tao tập dữ liệu tạm thời D = X, thiết lập hai tham số ¢ và minpts
Bước 1 Chọn ngẫu nhiên một điểm dữ liệu x; bất kỳ thuộc D, thiết lập C là tap điểm
liên thông với x;.
16
Trang 25Bước 2 Nếu |C| > minpts, thiết lập chùm C, với |C| là số phần tử của tap C Sau đó ta
cập nhật tập dữ liệu tạm thời D := D\ Œ.
Bước 3 Lip lại hai bước trên cho đến khi D = Ú
Thuật toán DBSCAN có những ưu điểm như có thể xác định chùm với hình dạngbất kỳ và không cần người dùng phải xác định trước số chùm k Tuy nhiên, thuật
toán này lai cần người dùng xác định hai tham số e và minpts Trong đó, tham số
e đặc biệt quan trong vì ảnh hưởng trực tiếp đến việc xác định tính liên thông giữacác điểm và từ đó ảnh hưởng đến chùm được thiết lập Do đó, tham số này cần phải
được xem xét can thận Ngoài ra, việc sử dụng một giá trị e cố định dẫn đến một
số kết quả không tốt khi tập dữ liệu có các chùm với các mật độ khác nhau Do đó,
nhìn chung việc lựa chọn e và minpts phụ thuộc nhiều vào kiến thức chuyên gia, và
đó cũng là một hạn chế của thuật toán cổ điển này.
1.2.3 Thuật toán phan tích chùm cực đại hóa kỳ vọng EM
Tương tự như thuật toán k-means, thuật toán cực đại hóa kỳ vọng cần cho trước
số chùm k Tuy nhiên, thay vì xác định phân vùng dựa vào trọng tâm, thuật toán
EM xem mỗi chùm như là một thành phần của một mô hình hỗn hợp (mixturemodel) và tìm cách điều chỉnh các tham số của mô hình hỗn hợp qua giải thuật
lặp Cho trước tập dữ liệu cần phân tích chùm X gồm phần tử rời rac n chiều:
X = {xiI.xa ,XN}, (x; € IR"), và cho trước số chùm k, gọi Z = [z]y„„ là ma
trận chứa nhãn của các phần tử (z; = 1 nếu x; € Cj, và z¡; = 0 nếu x; ¢ Cj,
i=1,2, ,N, 7 = 1,2, ,k) Các bước của thuật toán EM được trình bày cụ
thể trong Thuật toán 1.3 và được minh họa trong Hình[L.5|
Thuat toán 1.3
Bước 1 Khởi tạo £ = 0, và chọn ngẫu nhiên các tham số gồm vec tơ trung bình pi) ma
(0) (0)
trận hiệp phương sai uy” va ti lệ trộn Ti, tính giá trị In của ham hợp lý của
dit liệu bởi công thức:
Trang 26mY aa (1.17)
VỚI
N 0
NO = 2+0) (243) (1.18)
i=l
Bước 4 Lip lai Bước 2 và Bước 3 đến khi
lnp (Xu, 2,0 6) - Inp (xin 1) BD gD) <&, (1.19)
Trang 271.3 Đánh giá chất lượng của một phương án phân tích chùm
Sau khi áp dụng các thuật toán phân tích chùm được trình bày ở phần trên và nhậnđược các kết quả phân vùng, ta cần đánh giá chất lượng của chùm được xây dựng
Có hai loại tiêu chuẩn thường được sử dụng gồm: tiêu chuẩn đánh giá “bên ngoài”
(external validity index) và tiêu chuẩn đánh giá “bên trong” (internal validity index).
1.3.1 Tiêu chuẩn đánh giá bên ngoài
Tiêu chuẩn đánh giá bên ngoài được sử dụng khi ta đã có nhãn thực tế của các phần
tử Sau khi một thuật toán cung cấp kết quả phân tích chùm, ta so sánh kết quả
phân vùng của thuật toán với kết quả thực tế nhằm đánh giá chất lượng phân vùng
của thuật toán đó Tiêu chuẩn này thường được sử dụng trên các bộ dữ liệu mẫu.
Khi có một số phương pháp phân tích chùm cần được so sánh và lựa chọn, ta dùngcác bộ dữ liệu mẫu này và tiêu chuẩn đánh giá bên ngoài để kiểm tra mức độ đáng
tin cậy của các thuật toán, từ đó, lựa chọn thuật toán phù hợp nhất Một tiêu chuẩn
đánh giá bên ngoài được sử dung phổ biến là ARI (Adjusted rand Index) [Z8] Gọi
P là kết quả phân vùng thực tế dựa trên các nhãn đã có sẵn, và Q là kết quả phân
vùng của thuật toán, chỉ số ARI được tính bởi Công thức (1.20).
a—(a+c)(a+b)/(a+b+c+d)
((a+c)+(at+b)) /2—(at+c)(atb)/(at+b+c+d)
Trong công thức trên, a là số các cặp phần tử được xếp vào cùng một chùm ở
ARI = (1.20)
cả P lan Q, b là số các cặp phần tử thuộc cùng một chùm trong P nhưng thuộc vào
hai chùm khác nhau trong Q, c là số các cặp phần tử thuộc hai chùm khác nhau
trong P nhưng thuộc vào cùng một chùm trong Q, và d là số các cặp phần tử thuộc
vào hai chùm khác nhau trong cả P lan Q Chỉ số ARI càng gần 1 thì kết quả phan
tích chùm nhận được từ thuật toán càng tốt (từ Công thức (1.20), khi P va Q trùng
nhau, b=c=0 va ARI =1).
1.3.2 Tiêu chuẩn đánh giá bên trong
Tiêu chuẩn đánh giá bên ngoài là một tiêu chuẩn tốt để đánh giá chất lượng của
một thuật toán phân tích chùm Tuy nhiên, khi ứng dụng trên các bộ dữ liệu thực
tế hoàn toàn mới, tiêu chuẩn này không thể sử dụng được vì ta chưa có thông tin
về phân vùng đúng của dữ liệu Do đó, tiêu chuẩn đánh giá bên trong được sử dụng
Trang 28tiêu chuẩn này sẽ đánh giá mức độ gần giữa các phần tử trong cùng một chùm (tính
nén, compactness) và mức độ tách biệt của các chùm (separation).
Gọi C = {C,C2, ,C,} là một phân vùng nhận được, một số tiêu chuẩn đánh giá bên trong phổ biến được trình bày như sau.
Trong các công thức trên, v; là trọng tâm của chùm C;, n; là số phần tử thuộc
chùm C; Công thức cho thấy rằng: khi khoảng cách giữa các phần tử trong
cùng một chùm đến trọng tâm của chùm càng nhỏ thi Intra cũng càng nhỏ Nói cách
khác, Intra có thể phản ánh được mức độ tương tự của các phần tử trong cùng một chùm của kết quả phân tích chùm nhận được Do đó, chỉ số này có thể được sử dụng
như là một chỉ số đánh giá mức độ tốt của một phương án phân tích chùm So với
chỉ số Intra, chỉ số S đề xuất bởi Xie và Beni có bổ sung một đại lượng thể hiện
khoảng cách giữa các trọng tâm của các chùm Chỉ số S$ tính toán khoảng cách từng
đôi một giữa các trọng tâm và sử dụng giá trị nhỏ nhất của tập hợp các khoảng cáchnày như là một tiêu chuẩn thể hiện mức độ khác biệt giữa các chùm Khi các chùmcàng xa nhau (các trọng tâm càng xa nhau), chỉ số S càng nhỏ Nhu vậy, chỉ số $
vừa có thể đánh giá được mức độ tách biệt giữa các chùm vừa có thể đánh giá được
sự tương tự giữa các phần tử trong cùng một chùm do thừa hưởng các tính chất từ
chỉ số Intra Do đó, chỉ số S' có thể được xem như một thang đo hợp lý hơn cho việc
đánh giá chất lượng của một phương án phân tích chùm các phần tử rời rạc
1.4 Một số đề xuất mới
1.4.1 Hệ số tương tự chùm
Để đánh giá sự tương tự của một nhóm các phần tử rời rạc, ngoài các công thức phổ
biến dựa trên khoảng cách đã được trình bày trong các Công thức (1.5), (1.6), 1.7).
chúng tôi đã đề xuất thang đo gọi là “hệ số tương tự chùm các phan tử rời rac”, SCD,[Ph4]).
20
Trang 29Cho tập dữ liệu Z và một chùm C cu thể, Œ € Z Hệ số tương tự chùm đượctrình bày bởi công thức sau:
5(C)
max {6(C), ad(Z)}?
trong đó 6(C) và 6(Z) là các khoảng cách dùng để đánh giá sự tương tự của nhóm
C và nhóm Z được tính bởi một trong các Công thức (1.5), (1.6), va (1.7); a là một
hằng số dương
Ta có một số nhận xét như sau:
e Từ Công thức (1.23), ta thấy rằng: khoảng cách giữa các phan tử trong nhóm
C càng nhỏ (6(C) càng nhỏ) thì SŒD(C) sẽ càng lớn và ngược lại Khi các phan
tử trong nhóm C hoàn toàn trùng nhau, ta có d(C) = 0 và SCD(C) = 1 Khi cácphần tử trong nhóm Œ có khoảng cách quá lớn so với nhau và vượt quá ad(Z)
thì SCD(C) = 0 Do đó, SCD có thể được xem là một thang đo chuẩn trên đoạn
[0,1] dùng để đánh giá sự tương tự của các phần tử trong cùng một nhóm, theo
đó, nếu SCD càng lớn thì các phần tử trong nhóm càng tương tự
e Ngoài việc được sử dụng như một tiêu chuẩn đánh giá sự tương tự giữa một
nhóm các phần tử, hệ số tương tự chùm SCD còn có thể được sử dụng như một tiêu chuẩn để đánh giá chất lượng của chùm được xây dựng, bên cạnh các chỉ số
Intra và chỉ số S Điều này có nghĩa là SCD được sử dụng ở cả hai giai đoạn:xây dựng chùm và đánh giá chùm Đây là một điểm mới so với các nghiên cứu
về phân tích chùm trước đây
e Hệ số tương tự chùm SCD xây dựng chùm và đánh giá chùm thông qua thang
đo chuẩn (normalization), có giá trị nằm trong đoạn [0,1] Do đó, chỉ số này không bị ảnh hưởng bởi đơn vị và kích cỡ của dữ liệu như một số loại tiêu chuẩn dựa vào khoảng cách Điều này dan đến một số ưu điểm của SCD trong một
số trường hợp nhất định Chang hạn: chỉ số Intra đánh giá chất lượng phân
vùng thông qua tổng bình phương khoảng cách từ các phần tử đến trọng tâm
của chùm chứa nó Vì khoảng cách phụ thuộc vào quy mô, đơn vị của dữ liệu
sử dụng nên ta không thể so sánh mức độ tốt của một phương pháp phân tích
chùm khi áp dụng cho nhiều loại dữ liệu khác nhau Trong khi quá trình so sánh
nêu trên hoàn toàn có thể được thực hiện tốt khi sử dụng một hệ số đánh giá
trên đoạn [0,1] như tiêu chuẩn SCD.
Trang 301.4.2 Thuật toán phân tích chùm tự động, không thứ bậc dựa trên hệ số
tương tự chùm
Trong phân tích chùm theo phương pháp không thứ bậc, chúng ta cần phân tích bộ
số liệu thành k chùm riêng biệt Tuy nhiên, đối với những bộ số liệu lớn, việc xác
định chính xác số chùm k và chọn chùm khởi tạo như thé nào là một vấn đề không
dễ thực hiện Thông thường, để tìm số chùm k phù hợp, ta thường dựa vào kiến thứctiên nghiệm về tập dữ liệu, phương pháp này không khả thi khi ta thực hiện bài toán
phân tích chùm trên các bộ dữ liệu hoàn toàn mới Một phương pháp khác là lặp đi
lặp lại thuật toán phân tích chùm với nhiều k khác nhau, sau đó so sánh các kết qua
với nhau dựa vào một số tiêu chuẩn nhất định Cách thực hiện như trên dẫn đến một
chi phí tính toán rất cao và không hiệu quả về mặt thực tế Nghiên cứu trong
đã trình bày một hướng tiếp cận mới nhằm xác định số chùm cho bài toán phân tích
chùm đối với đối tượng là số mờ (fuzzy number) dạng tam giác Theo hướng tiếp cận
này, các tác giả đã xem mỗi phần tử là một chùm (trọng tâm chùm riêng biệt) Qua
các vòng lặp, các phần tử (trọng tâm chùm) sẽ tự động tiến về trọng tâm của chùmchứa chúng Dựa trên ý tưởng của thuật toán phân tích chùm tự động được đề xuất
bởi [6 BJ, và dựa trên tiêu chuẩn hệ số tương tự chùm, [Ph4] đã đề xuất một thuật
toán CDE mới gồm hai giai đoạn Giai đoạn 1 giải quyết bài toán CDE theo hướngphân tích chùm tự động, qua đó, số chùm và ma trận phân vùng ban đầu sẽ đượcxác định Giai đoạn 2 sử dụng hướng tiếp cận không thứ bậc để xây dựng các chùmsao cho hệ số tương tự chùm của mỗi phần tử đến chùm nó đang thuộc là lớn nhất
Toàn bộ thuật toán trên được ký hiệu là SU-NSCD.
Gọi X = {xi,xa, ,xw} là tập hợp gồm N điểm dữ liệu ø chiều và VO =
{v\?, v9), " vW} là tập hợp của N trọng tâm tại vòng lặp t, thuật toán SU-NSCD
được trình bày trong Thuật toán 1.4.
Trang 31bởi các điểm dữ liệu.
3 Lặp lại hai bước trên cho đến khi max;{d,(vft vy <e£.
4 Đối với từng phần tử x;, xét hệ số tương tự chùm của chùm tạo bởi x; và các
chùm C; hiện có (i = 1,2, ,N;j7 = 1,2, ,k) Goi | = arg max SCD(x; U Œ;),
j
ta cập nhật x; vào chùm Cj.
5 Lặp lại Bước 4 cho đến khi phân vùng không đổi qua hai vòng lặp.
Trong thuật toán trên, giá trị của À ảnh hưởng đến tốc độ hội tu cũng như là
số chùm cuối cùng được xác định Khi \ = 0, ta nhận được chùm với mỗi chùm
gồm duy nhất một phần tử Khi \ > ov, ta nhận được một chùm duy nhất gồm tất
cả N phần tử trong tập dữ liệu Thong qua việc thực hiện và kiểm tra trên nhiều
bộ dit liệu, À = d;/10 được sử dụng Giá tri của e cũng ảnh hưởng đến tốc độ hội
tụ của thuật toán, e càng nhỏ thì thời gian cần thiết để thuật toán hội tụ càng lớn.
Việc chọn ¢ cũng cần căn cứ vào đơn vị của bài toán đang xem xét Trong luận án,
e = 10“ được sử dụng.
Trong Giai đoạn 1 (ba bước đầu tiên) của thuật toán, mỗi trọng tâm vi) được
cập nhật thông qua Công thức (1.24) Theo đó, điểm vit) tại vòng lặp t + 1 được
xem như là trung bình có trọng số của tất cả các điểm vì tại vòng lặp t, với độ
lớn của trọng số phụ thuộc vào khoảng cách d (v2, vi") Theo đó, nếu d (v2 vi)
càng nhỏ, trọng số sẽ càng lớn và ngược lại Noi một cách khác, những điểm vì
tâm của chùm chứa nó Sau khi kết thúc Bước 3, ta nhận được số chùm k cùng với
sẽ tiến về trọng tâm có trọng số của các lân cận của nó hay tiến về trọng
các chùm C; tương ứng với j = 1,2, ,k.
Mặc dù phân vùng nhận được sau ba bước đầu tiên của thuật toán đã tương đối
hợp lý, phân vùng này chưa được xác định là đã đạt đến một cực trị địa phương của
Trang 32hàm mục tiêu (thường dựa trên một số tiêu chuẩn đánh giá bên trong đã trình bày
ở phần trên) Dựa trên tiêu chuẩn hệ số tương tự chùm và giải thuật tìm kiếm theo
kiểu leo đồi (hill-climbing), hai bước cuối của thuật toán liên tục kiểm tra và cập
nhật phân vùng sao cho hệ số tương tự chùm của mỗi phần tử đến chùm mà phần tử
đó đang thuộc là lớn nhất Cách tiếp cận này cũng tương tự như thuật toán k-meansnhưng chú trọng vào việc cực đại hóa hệ số tương tự chùm của các chùm thay vì cựctiểu hóa tổng khoảng cách từ các phan tử đến trọng tâm như thuật toán k-means.
Do đó, so với các thuật toán cổ điển vốn cần người dùng xác định một số chùm k
cho trước, thuật toán đề xuất một mặt có thể xác định được số chùm một cách tự
động, một mặt có thể tận dụng một số ưu điểm của hệ số tương tự chùm như đã đề
cập ở Phan [1.4.1] Tinh chất hội tu của thuật toán SU-NSCD sẽ được làm rõ bởi các
định lý sau.
Định lý 1.1 Ta có một số tính chất sau:
1 Gọi cụ là bao lồi của tập VO = {u" vy), Ley wy}, ta có ot) Cc CO vi.
2 Gọi Cy := lim Cy () = =ñ cụ) Với mỗi đỉnh ui; của Ci, tồn tại j sao cho:
tro
lim vw = uy) (1.25)
tooo J
Chitng minh.
1 Từ Cong thức (1.24), ta có vit) là trung bình có trong số của vị VỚI j
1,2, ,N Do đó, vịt) = cl Do điều trên đúng với moi vir) nén oh) C
Ngoài ra, vì tap các trong tâm là tập hữu han trong không gian R”, nên với moi
i,t, tồn tại k sao cho uj’) = = vo Do đó, khi t — œ, tồn tại 7 sao cho ui) = = yl)
j
vo han lan Do do:
Stn —> so: ull? = vi), (1.27)
Trang 33Không mất tính tổng quát, giả sử ul”) = vì hoặc ul”) = vl),
(1.24), nếu vì = vì thì vị =v với moi t > s Do đó, với mọi s > 0, tồn
(t) (t) (+1) (t+1)
tai t > s sao cho uy; = Vj VÀ tị ˆ = Và,
tại s sao cho đ (ui uw.) < e Công thức (1.24) cho thấy mỗi trọng tâm sẽ ảnh
hưởng mạnh nhất lên chính nó ở vòng lặp sau Do đó, d (v/2.ui,) <e Ta có
thể chọn e đủ nhỏ sao cho d (v.v) <d (v/2.v7) ,Vk # 7,7 Khi đó, (1.24)
cho thay vi) khong thé thay thé vid) tai ul), Do đó, (1.25) được chứng
minh.
véimoit >T Từ
Ngoài ra với mọi e dương, ton
Dinh lý 1.2 Giai đoạn 1 của thuật toán SU-NSCD hội tụ.
Chứng mình.
(
Dinh lý 1.2 cho thấy một số trọng tâm vì hội tụ về các đỉnh của bao lồi Cy Đặt
tập hợp các trọng tâm đã hội tụ là © và đặt ch) là bao lồi tao bởi {vi} \a, Bởi
vì Qh) hội tụ sau 7¡ vòng lặp, ảnh hưởng của Qi) lên các phần tử còn lại tiến về 0 khi # > 7 Do đó, áp dụng Dinh lý 1.1, ta nhận được CS) C Cf, ví > T¡ và một số
œ
trọng tâm vị hội tụ về 0a;, với 0a; là đỉnh của bao lồi C2 và Cp = im cf) = a cf.
> 0o
t=0
Ta lặp lại chứng minh như trên đến khi tac cả các trọng tâm hội tu
Tính chất hội tụ trong Giai đoạn 1 của Thuật toán SU-NSCD đã được chứngminh Giai đoạn 2 của thuật toán có ý nghĩa điều chỉnh lại phân vùng sao cho tổng
hệ số tương tự chùm cuối cùng nhận được là tốt hơn Mặc dù đã được kiểm chứng
trên rất nhiều bộ số, tính chất hội tụ của giai đoạn 2 về mặt toán học vẫn chưa đượcchứng minh Đây là một hạn chế của thuật toán và cũng là một động lực cho việctiếp tục thực hiện những nghiên cứu tiếp theo
Vi dụ minh hoa
Nhằm minh hoa và kiểm chứng khả năng tự động phát hiện số chùm và phannhóm của thuật toán SU-NSCD, luận án mô phỏng một bộ dữ liệu đơn giản gồm ba
nhóm Trong đó, mỗi nhóm gồm 50 phần tử rời rạc tuân theo phân phối chuẩn hai
chiều N(y,X) với các giá trị trung bình và ma trận hiệp phương sai được cho như
sau.
Nhóm 1:
Trang 34Hình 1.6: Đồ thi phan tán của các điểm rời rac
Hình thể hiện đồ thị phân tán của các phần tử được khởi tạo Từ Hình |L.6
ta có thể thấy 150 điểm dữ liệu này được tách thành ba nhóm Luận án trước hết áp
dụng Giai đoạn 1 (từ Bước 1 đến Bước 3) của thuật toán SU-NSCD để tìm số chùm
và phân vùng khởi tạo thích hợp Sự hội tu của 150 phan tử trong Giai đoạn 1 được
mô tả bởi Hình [1.7] Hình cho thấy các trọng tâm hội tụ về ba điểm nhất định.
Do đó, ta xác định được số chùm hợp lý là k = 3 Ngoài ra, ta cũng xác định được
phân vùng khởi tạo căn cứ vào vị trí cuối cùng của các trọng tâm nhận được ở Bước
3 Tiếp tục thực hiện Giai đoạn 2 (Bước 4 và Bước 5) của thuật toán SU-NSCD, tanhận được phân vùng cuối cùng được thể hiện bởi Hình Kết quả này cho thấy SU-NSCD có thể tự động xác định số chùm và cho ra kết quả phân tích chùm hợp
⁄
lý.
26
Trang 35Bảng 1.1: Tổng hợp kết quả của thuật toán SU-NSCD và thuật toán k-means
Phương pháp Thống kê ARI t
SU-NSCD Trung binh 0.9216 0.6475
(c) Vong lap 8 (d) Vong lap 16
Hình 1.7: Quá trình hội tu trong giai đoạn một của thuật toán SU-NSCD
Bảng [L.1| tổng hợp kết quả phân tích của thuật toán SU-NSCD và thuật toán
k-means (với k = 2 và k = 3) sau 10 lần chạy độc lập Hai chỉ số được xem xét bao
gồm chỉ số ARI, và chi phí tính toán, f (giây máy tính), với các chỉ số được in đậmbiểu diễn kết quả của phương pháp đề xuất.
Trang 36Hình 1.8: Kết quả phan tích chùm sử dụng SU-NSCD
Bảng cho thấy SU-NSCD va k-means (k=3) đạt chỉ số ARI trung bình caonhất Trong khi, k-means cần phải xác định trước số chùm thì SU-NSCD có thể tựđộng xác định số chùm và cho kết quả phân vùng với độ chính xác tương đương với
phương pháp này Với thuật toán k-means, khi số chùm được xác định trước là khôngchính xác (k=2), thì chỉ số ARI của thuật toán cũng giảm đáng kể Kết quả trên cho
thấy những ưu điểm có SU-NSCD so với k-means Một điểm chưa thuận lợi của thuật
toán SU-NSCD nam ở chi phí tính toán khi thuật toán này sử dụng nhiều thời gian
hơn so với k-means Nguyên nhân là do thuật toán này phải tính toán hệ số tương
tự chùm thông qua tập hợp các khoảng cách từng đôi một giữa các phần tử Ngoài
ra, việc kết hợp hai thuật toán SU và NSCD ở hai giai đoạn khác nhau cũng góp
phần làm tăng chi phí tính toán Kết quả kiểm định Mann-Whitney được tổng hợp
tại Bảng [L3] minh chứng cho các nhận định trên Cu thể, với giả thuyết Ho-“trung
bình ARI (hoặc t) của hai thuật toán là như nhau, ta có thể bác bỏ giả thuyết trong
trường hợp so sánh giữa SU-NSCD và k-means (k = 2), nghĩa là SU-NSCD có độ
chính xác tốt hơn nhưng sử dụng nhiều thời gian tính toán hơn Tương tự, trong
trường hợp số chùm được xác định trước cho k-means là chính xác (k = 3), chưa có
bằng chứng chưa thấy sự khác biệt giữa 4RT nhận được từ hai thuật toán, nhưng
thuật toán đề xuất sử dụng nhiều chi phi tính toán hơn
Tóm lại, thuật toán k-means có thể cho kết quả tốt khi ta có sẵn các thông tin tiên nghiệm về dữ liệu, chang hạn như số chùm Trong trường hợp ta phân tích một
bộ dữ liệu hoàn toàn mới và không có sẵn các thông tin tiên nghiệm, SU-NSCD là
28
Trang 37Bảng 1.2: Kết quả kiểm định Mann-Whitney Giả thuyết Ho Giá trịp Kết quả kiểm định
Trung bình ARI của SU-NSCD và k-means (k=2) là như nhau ~0 Bác bỏ Ho
Trung bình £ của SU-NSCD và k-means (k=2) là như nhau 0 Bác bỏ Ho
Trung bình ART của SU-NSCD và k-means (k=3) là như nhau x1 Chap nhan Ho
Trung bình £ của SU-NSCD va k-means (k=3) là như nhau ~ 0 Bác bỏ Ho
một lựa chọn hợp lý hơn Thuật toán SU-NSCD cũng đã được kiểm chứng và chothay tính khả thi khi áp dụng trên các bộ dữ liệu với số chùm nhiều hơn hoặc chùmkhông có phân phối chuẩn Việc sử dụng SU-NSCD sẽ cho kết quả phân vùng tốt
hơn nhưng với chi phí tính toán cao hơn Do đó, tùy vào bài toán dang xem xét, ta
cần cân nhắc để sử dụng thuật toán phân tích chùm thích hợp nhất.
1.5 Ứng dung phân tích chùm các phần tử rời rac trong phan
tích số liệu
Trong những năm gần đây, Trường Đại học Tôn Đức Thắng đã triển khai phương
thức tuyển sinh riêng theo hình thức thi đánh giá năng lực gồm các môn thi: Toán
trung hoc phổ thông (THPT), SAT (Scholastic Aptitude Test), và GMAT (Graduate
Management Admission Test) Các câu hỏi trong từng bài thi phải đảm bảo một tỉ
trọng các mức độ một cách hợp lý Các mức độ được quy định bao gồm: dễ (loại 1),trung bình (loại 2), khó (loại 3) Các câu hỏi trong từng bài thi cụ thể được chọnngẫu nhiên từ một ngân hàng đề thi với các câu hỏi đã được phân loại mức độ bởicác chuyên gia Qua một số năm áp dụng, dựa trên kết quả thi thực tế của học sinh,nhà trường mong muốn đánh giá lại tính hợp lý của việc phân loại mức độ câu hỏiđược thực hiện trước đây bởi các chuyên gia; từ đó, đề xuất và thực hiện lại việc g4n
nhãn mới sao cho chính xác và hợp lý hơn Trong ví dụ này, dựa vào tỉ lệ trả lời đúng
cụ thể của từng câu hỏi, luận án ứng dụng phương pháp phân tích chùm các phần
tử rời rạc nhằm phân nhóm các câu hỏi sao cho các câu hỏi trong cùng một nhóm
có tỉ lệ trả lời đúng gần với nhau
Hình [1.9] thé hiện biểu đồ hộp của tỉ lệ trả lời đúng của các câu hỏi theo các mức
độ đã được gán nhãn bởi chuyên gia Trong đó, Hình [L.9(a)| thể hiện biểu đồ hộp cho
các câu hỏi thuộc môn thi Toán THPT, Hình thể hiện biểu đồ hộp cho các
câu hỏi thuộc môn thi GMAT, và Hình [L.9(c)| thé hiện biểu đồ hộp cho các câu hỏi
thuộc môn thi SAT Ta thấy rằng, đối với các môn GMAT và SAT, kết quả phân loại
của chuyên gia phần nào thể hiện sự hợp lý khi trung vị và tứ phân vị đều giảm dần
Trang 38Boxplot of MATH Boxplot of GMAT
Hình 1.9: Biểu đồ hộp của tỉ lệ trả lời đúng theo loại được xét bởi chuyên gia
theo các loại: dễ, trung bình, và khó Tuy nhiên, vùng chồng lấp giữa các loại vẫn
là tương đối lớn Sự chưa hợp lý thể hiện rõ nhất ở môn Toán THPT khi không có
sự khác biệt giữa tỉ lệ trả lời đúng giữa các câu hỏi thuộc nhóm trung bình và nhóm
khó.
Từ nhận xét trên, có thể thấy rõ tính cần thiết của việc phân nhóm lại các câuhỏi dựa vào phương pháp phân tích chùm Trong vấn đề đang xem xét, số nhóm cần
chia đã được xác định bởi nhà quản lý là (k = 3) Do đó, thuật toán phân tích chim
k-means với những ưu điểm về thời gian tính toán là một lựa chọn hợp lý cho bài
toán đang xem xét.
Hình minh họa sự phân bố của dữ liệu và kết quả phân tích chùm đối với
các câu hỏi thuộc môn Toán THPT Sử dụng thuật toán k-means, các câu hỏi được
xếp vào các mức độ với ti lệ trả lời đúng gần nhau và giữa các nhóm có sự phân biệt
nhất định Do đó, bước đầu có thể thấy phân tích chùm các phần tử rời rạc là một
phương án khả thi cho bài toán phân loại mức độ câu hỏi đang xem xét Hình
thể hiện biểu đồ hộp của tỉ lệ trả lời đúng của các câu hỏi theo các mức độ đã được
30
Trang 390 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Ti le tra loi dung
(a) Đồ thị phân tán của tỉ lệ trả lời đúng của các câu hỏi môn Toán
Ti le tra loi dung
(b) Kết quả phan tích chùm với k = 3
Hình 1.10: Dữ liệu và kết quả phân tích chùm của các câu hỏi môn Toán
gán nhãn bởi thuật toán k-means, ở tất cả các môn Ta có thể thấy rằng sự phân
nhóm các câu hỏi vào các mức độ khi sử dụng thuật toán phân tích chùm nhìn chung
là phù hợp với dữ liệu thực tế hơn sự phân nhóm định trước bởi các chuyên gia Tỉ
lệ các câu hỏi được điều chỉnh và giữ nguyên được tổng hợp bởi Bang [L.3]
Bảng [1.3|cho thấy rằng các câu hỏi không có sự điều chỉnh chiếm phần lớn, trong
khi các câu hỏi có sự điều chỉnh đột biến (từ dễ sang khó hoặc ngược lại) chiếm tỉ
lệ rất ít Điều này cho thấy việc sử dụng thuật toán phân tích chùm để phân nhómcâu hỏi có một sự tương đồng nhất định so với việc sử dụng ý kiến chuyên gia, và cả
hai đều có những sự hợp lý nhất định
Tất nhiên, việc sử dụng phương pháp phân tích chùm để chia nhóm các câu hỏi dựa hoàn toàn vào dữ liệu, và do đó sẽ có một số điểm chưa hợp lý Tuy nhiên, các
kết quả trên thật sự là nguồn thông tin tham khảo hữu ích cho các đợt đánh giá tiếp
theo của chuyên gia Ngoài ra, việc sử dụng thống kê Bayes nhằm kết hợp cả thông
tin tiên nghiệm từ chuyên gia và thông tin từ dữ liệu cũng là một định hướng khác
có thể được thực hiện nhằm mang lại các kết quả hợp lý hơn.
Trang 40Boxplot of NEW GMAT Boxplot of NEW MATH
1.0
1.0
08 08
06 08