Luận án tiến sĩ Toán học: Một số đóng góp trong bài toán phân tích chùm

Phân tích chùm cho di liệu khoảngMạng nơ ron tích chập Phân tích chùm cho dữ liệu có chứa nhiễu dựa trên mật độ Don vị đào tạo Phân tích chùm không thứ bậc cho các hàm mật độ xác suấtPhâ

Trang 1

DAI HỌC QUOC GIA TP HO CHÍ MINH TRUGNG DAI HOC KHOA HOC TU NHIEN

NGUYEN TRANG THAO

MOT SO DONG GOP TRONG

BAI TOÁN PHAN TICH CHUM

LUAN AN TIEN Si TOAN HOC

TP H6 Chi Minh — Nam 2023

Trang 2

DAI HỌC QUOC GIA TP HO CHÍ MINH TRUGNG DAI HOC KHOA HOC TU NHIEN

NGUYEN TRANG THAO

MOT SO DONG GOP TRONG

BAI TOAN PHAN TICH CHUM

Ngành: Lý thuyết xác suất và thong kê toán hoc

Mã số ngành: 62460106

Phản biện 1: PGS.TS Lê Si Đồng Phản biện 2: TS Nguyễn Văn Huấn

Phản biện 3: TS Tạ Quốc Bảo

Phản biện độc lập 1: TS Trần Phước Lộc

Phản biện độc lập 2: TS Lê Thị Thanh An

Người hướng dẫn 1: PGS TS Võ Văn Tài Người hướng dẫn 2: TS Lê Thị Xuân Mai

Tp Hồ Chí Minh — Năm 2023

Trang 3

Lời cam đoan

Tôi cam đoan luận án tiến sĩ ngành Lý thuyết xác suất và thống kê toán học, với đề

tài Một số đóng góp trong bài toán phân tích chùm là công trình khoa học do tôi

thực hiện dưới sự hướng dẫn của PGS TS Võ Văn Tài và TS Lê Thị Xuân Mai.

Những kết quả nghiên cứu của luận án hoàn toàn trung thực, chính xác và không

trùng lắp với các công trình đã công bố trong và ngoài nước

Nghiên cứu sinh

Nguyễn Trang Thảo

Trang 4

Lời cam ơn

Tôi vin kính gửi lời cảm ơn dau tiên va sâu sắc đến Giảng tiên hướng dan, Thay

Võ Văn Tài Toi đã được gặp gỡ, quen biết va làm uiệc cùng Thay không chỉ trong thờigian thực hiện luận án, mà còn trong suốt mét khoảng thời gian hoc tập va nghiêncứu hơn 10 năm qua Trong khoảng thời gian trên, Thay đã hướng dẫn va hỗ trợ họctrò rat nhiều từ công uiệc chuyên môn đến những van đề nan giải của cuộc sống Lamviée cùng Thay đã khiến cho hoc trò có nhiều động luc va đam mê đối uới công viécnghiên cứu xác suất thống kê va khoa hoc dit liệu; đó là một điều may mắn đối vớihọc trò Học trò xin gửi đến Thay lời cam ơn chân thành nhất

Tôi xin kính gửi lời cảm ơn chân thành đến Giảng uiên đồng hướng dan, Cô LêThị Xuân Mai, người đã truyền dat cho tôi những kiến thúc quy báu vé thống kê,cũng như đã hỗ trợ tôi hết mành trong quá trành học nghiên cứu sinh.

Tôi xin gửi lời cam ơn đến Thay Nguyễn Bác Văn, Thay Đặng Đúc Trọng, Co

Nguyễn Thị Mộng Ngọc, cùng tập thể cán bộ-giảng uiên bộ môn Xác suất Thông kê.

Khoa Toán- Tin học, Trường Dai học Khoa học Tự Nhiên, Dai học Quốc gia TPHCM,

ve những kiến thúc chuyên mon quý báu Quy Thay Cô đã truyền đạt

Tôi xin gửi lời cam ơn đến tập thể cán bộ Phòng Sau Dai học, Trường Pai học

Khoa học Tự Nhiên, đặc biệt là Cô Trần Thị Phượng Giang, vé những hỗ trợ uề mặthành chính của Quy Thay Cô trong suốt quá trinh học tập nghiên cứu sinh của minh.

Tôi zin gửi lời cam ơn đến Thay Nguyễn Thời Trung, Co Nguyễn Thi Kim Ngân,

va tập thể đồng nghiệp Viện Khoa học Tính toán, Trường Đại học Tôn Đức Thắng đã tạo nhiều điều kiện thuận lợi vé mặt công tiệc, giúp đố tôi có thể hoàn thành quyén

luận án nay.

Tôi zin gửi lời cam ơn chân thành đến Thay Nguyén Thời Trung, Thay NguyễnDinh Phu, Thay Vasanth, Thay Thich Nhất Hạnh, Thay Thích Minh Niệm, ThayThich Pháp Hòa, Thay Sayadaw U Jotika, Thay Ajahn Chah, Thay Ajahn Brahm,

Ba Dolores Cannon, Thay Osho, Thay Jiddu Krishnamurti, Thay John Va Nhitng

tác phẩm, những bài giảng, cũng như những buổi trao đổi của các Thay đã lan tỏa rat nhiều năng lượng tích cực, giúp moi người có thể cân bằng cuộc sống, có khả năng

sống va làm tiệc một cách an nhiên va đạo đúc

Con xin cam ơn công sinh thành, day bao của Cha Me Con xin cam on Me,

1

Trang 5

người đã vat va hy sinh suốt một đời vi con Không có Mẹ thà sẽ chẳng thể có con.

Xin cảm ơn gia đành nhỏ, Vo va các con tôi, những người luôn kề vai sát cánh,cùng tôi uượt qua moi vui buôn của cuộc sống Đặc biệt, xin gửi lời cam ơn cùng tinhthương chân thành đến Vợ, người luôn là hậu phương uững chắc, đã hy sinh nhiều

thời gian-công uiệc của ban thân để giúp tôi được tập trưng cho công tiệc nghiên cứu.

Xin cắm ơn bạn bè, đồng nghiệp, cùng muôn van điều không tên khác

Trang 7

1.4.2 Thuật toán phân tích chùm tu động thứ bậc dựa trên hệ số tương tự chùm

Trang 8

3.4.3 Viduminh hoa) Ặ.ẶẶ QẶ QC

vì

104

Trang 9

Phân tích chùm cho di liệu khoảng

Mạng nơ ron tích chập

Phân tích chùm cho dữ liệu có chứa nhiễu dựa trên mật độ

Don vị đào tạo

Phân tích chùm không thứ bậc cho các hàm mật độ xác suấtPhân tích chùm không thứ bậc cho các phần tử rời rạc

Khoảng cách chồng lấp cho dữ liệu khoảng

Hệ số tương tự chùm cho các hàm mật độ xác suất

Hệ số tương tự chùm cho các phần tử rời rạcChi số Silhouette

Nhiéu muối tiêuTổng của sai số bình phương

Tự động cập nhật

Tự động cập nhật hàm mật độ xác xuất

Tự động cập nhật dữ liệu khoảng

Trung học Phổ thông

Trang 10

Danh sách hình vẽ

Trang 11

Đồ thị phân tán của 16 khoảng :

So sánh quá trình hội tụ của hai thuật toán ERACI và ACIG-GD1

Trang 12

Danh sách bang

Trang 13

PHAN MỞ ĐẦU

0.1 Tổng quan bài toán phân tích chùm và lý do chọn đề tài

Ngày nay, trong xu thế toàn cầu hóa, chúng ta thường xuyên phải tiếp nhận và xử

lí một lượng lớn những thông tin khác nhau Theo thống kê của [14 [65], mỗingày có 2.5 x 10! bit dữ liệu được tạo ra, lượng dữ liệu được lưu trữ mỗi ngày của

Facebook lên đến 50 terabytes, trong khi đó, Google xử lí 40 petabytes dữ liệu mỗi

ngày và lưu giữ trực tuyến 2.6 petabytes dữ liệu mỗi giờ Cùng với sự gia tăng đột

biến của dữ liệu, nhu cầu lưu trữ, phân loại, gom nhóm dữ liệu một cách tự động

nhận được nhiều sự quan tâm hơn từ các nhà nghiên cứu thống kê trên thế giới Cónhiều phương pháp để thực hiện phân loại và gom nhóm dữ liệu, trong đó, phân tích

chùm là một trong những phương pháp chủ dao 5i.

Theo [T7 81) 83), phân tích chùm là một phương pháp thống kê đa biến nhằm

nhóm một tập các đối tượng lại thành các chùm theo những đặc điểm định trước.

Chùm được coi như là một nhóm dữ liệu, trong đó những phần tử trong cùng mộtchùm thì có sự tương tự nhau theo một số đặc điểm nhất định Khi chùm được xâydựng, những phần tử trong cùng một chùm sẽ có sự tương tự nhiều hơn so với những

phần tử của chùm khác Dối tượng của bài toán phân tích chùm rất đa dạng, nhưng

nhìn chung, có ba loại đối tượng chính gồm các phần tử rời rạc, các hàm mật độ xác

suất, và các khoảng (interval data) Đối với mỗi loại đối tượng, ta lại có các phương

pháp tiếp cận khác nhau, chẳng hạn như phương pháp phân tích không mờ nơi mỗi

phần tử sẽ được gán vào một chùm duy nhất hoặc phương pháp phân tích chùm mờ,nơi mỗi phần tử có thể được gán vào nhiều chùm với các xác suất được xác định cụ

thể.

Phân tích chùm cho các phan tử rời rac (clustering for discrete element, CDE)

đã được quan tâm nghiên cứu từ rất sớm Cho đến nay, số lượng nghiên cứu về phân

tích chùm các phần tử rời rạc hoàn toàn chiếm ưu thế so với các phương pháp phân

tích chùm đối với các loại đối tượng khác Một số công trình tiêu biểu được nghiên

Trang 14

cứu gần đây có thể được tham khảo trong [T7Ị (54) 64] Mặc dù đã có

những bước tiến đáng kể và có nhiều kết quả nghiên cứu có giá trị, bài toán phân

tích chùm các phần tử rời rạc vẫn còn nhiều vấn đề có thể tiếp tục khai thác về mặt

lý thuyết lan ứng dụng Về mặt lý thuyết, hầu hết các thuật toán phân tích chùmđều cần người dùng phải xác định trước số chùm Điều này là không thuận lợi trong

thực tế vì phụ thuộc nhiều vào kiến thức chuyên gia Một phương pháp khác để xác

định số chùm là đánh giá kết quả của bài toán phân tích chùm và xác định số chùm

tối ưu thông qua các chỉ số đánh giá như chỉ số Xie-Beni [Ø6], chỉ số Dunn Hỗ], chỉ số

Davies-Bouldin |§J, Tuy nhiên, việc này đòi hỏi chi phí tính toán lớn và không kha

thi khi áp dụng đối với các bài toán lớn mà cần thời gian tính toán nhanh Tương tự,

phần lớn các thuật toán phân tích chùm đều tạo ra các chùm có dạng hình cầu, điềunày làm cho kết quả trở nên không phù hợp khi các chùm có hình dạng bất kỳ Do

đó, phương pháp xác định số chùm và phương pháp phân tích chùm với dạng chùm

bất kỳ là hai trong số nhiều vấn đề lớn mà các nhà nghiên cứu quan tâm Về mặt ứng

dụng, phần lớn các thuật toán phân tích chùm được ứng dụng trong các lĩnh vực kỹthuật, kinh tế, xã hội đều là các thuật toán cơ bản Các thuật toán này có ưu điểm

là đơn giản và thường được tích hợp sẵn trong các phần mềm thống kê Tuy nhiên,

các kết quả có thể sẽ tốt hơn và đáng tin cậy hơn nếu như các nghiên cứu mới được

ứng dụng.

Bài toán CDE được đặc biệt quan tâm do hướng tiếp cận này phù hợp với nhiều

loại bài toán khác nhau, đơn giản và chi phí tính toán thấp Tuy nhiên, trong xu thế

của cách mạng công nghiệp 4.0 hiện nay, việc thu thập, lưu trữ, xử lý, phân tích dữ

liệu lớn trở thành một bài toán vô cùng quan trọng Dữ liệu lớn (big data) là dữ liệu

có độ biến động cao, không chắc chắn và được thu thập từ nhiều nguồn khác nhau

Do đó, bài toán CDE sẽ không phù hợp đối với dữ liệu lớn vì chúng ta không thể kếtluận các tính chất về độ biến động, tính không chắc chắn của dữ liệu khi chúng chỉ

được đại diện bởi một điểm duy nhất Từ đó, có thể thấy rằng, cần phải xem xét

bài toán phân tích chùm đối với một số loại đối tượng mới, chẳng hạn như là mộtphân phối hoặc là một khoảng dit liệu Do đó, bài toán phân tích chùm cho các hàmmật độ xác suất (Clustering for probability density function, CDF) và bài toán phântích chùm dành cho dữ liệu khoảng (Clustering for interval data, CID) hiện đã đượcquan tâm nghiên cứu trong thời gian gần đây

Đối với bài toán CDF, các nghiên cứu trong [Z0 [9] 57) đã đưa ra một số độ do

ban đầu như độ đo phân biệt và affinity Năm 2010, tiêu chuẩn “độ rộng chùm” được

Trang 15

đề xuất bởi [Ø0], các ví dụ số trên cỡ mẫu nhỏ cũng được trình bay và cho kết quả

hợp lý Tuy nhiên, khi thực hiện bài toán CDF với số lượng ham mật độ xác suất

lớn, tiêu chuẩn “độ rộng chùm” thể hiện một số điểm chưa hợp lý khi cận trên của

nó phụ thuộc vào số hàm mật độ xác suất đang xét Điều này cho thấy chúng ta vẫn

cần phải nghiên cứu các tiêu chuẩn khác, so sánh các tiêu chuẩn trên các bộ dữ liệu lớn hơn, từ đó mới có thể ứng dụng được trong phân tích dữ liệu thực tế Một số

nghiên cứu nổi bật khác trong thời gian gần đây về bài toán CDF có thể được tham

khảo thêm trong PI, HTI 58) 67) Trong các nghiên cứu kể trên, chưa có nghiên cứu

nào khai thác bài toán CDF theo hướng tiếp cận mờ, trong khi phân tích chùm mờ

đã được nghiên cứu rất nhiều đối với CDE Ngoài ra, vấn đề xác định số chùm hợp

lý, xác định phân vùng tối ưu toàn cục, và đánh giá kết quả của một phương án phânvùng vẫn còn là một câu hỏi mở trong bài toán CDE.

Tương tự như bài toán CDF, bài toán CID chỉ mới được quan tâm nghiên cứu

nhiều trong vài thập niên gần đây Về tiêu chuẩn đánh giá sự tương tự, một số loạikhoảng cách giữa hai khoảng đã được đề xuất và áp dụng cho bài toán phân tích

chùm như khoảng cách Euclide bình phương thích nghi (adaptive squared Euclidean

distances), khoảng cách city-block, khoảng cách Hausdorff, khoảng cách chồng lấp

(10) 48] Trong đó, khoảng cách chồng lấp được xem là có nhiều ưu điểm vì chúng

xem xét đến sự chồng lấp giữa hai khoảng dữ liệu mà không chỉ đơn thuần tính toándựa trên khoảng cách ngoài, hoặc khoảng cách tương ứng giữa các đầu mút Về thuật

toán, một số giải thuật được đề xuất bởi PI đều dựa trên một số chùm

cho trước Nghiên cứu của được xem là công trình đầu tiên về thuật toán xác

định số chùm cho bài toán phân tích chùm khoảng, tuy nhiên, việc tính toán của

thuật toán này lại dựa trên khoảng cách Hausdorff, trong khi khoảng cách chồng lấpđược xem là có nhiều uu điểm hơn Ngoài ra, việc xây dựng một thuật toán ổn định,không bị ảnh hưởng bởi nhiễu, đồng thời có khả năng phát hiện dữ liệu nhiễu cũng

chưa được quan tâm nghiên cứu trong cả hai bài toán CDF va CID.

Tóm lại, trong một bài toán phân tích chùm nói chung luôn tồn tại ba vấn đềchính cần làm rõ: (i)- thang đo đánh giá sự tương tự giữa các đối tượng đang xem xét;(ii)- thuật toán phan tích chùm; (iii)- đánh giá mức độ tốt của một phan vùng (mộtphương án phan tích chùm) Đối với vấn đề (i), chưa có nhiều tiêu chuẩn thực sự hợp

lý được đề xuất trong các bài toán CDF va CID Việc tính toán các tiêu chuẩn trêncác loại đối tượng là hàm mật độ xác suất và khoảng dữ liệu cũng không được thuậnlợi như các phần tử rời rạc Đối với vấn đề (ii), do chưa có nhiều tiêu chuẩn hợp lý

Trang 16

được đề xuất trong vấn dé (i), có rất nhiều khe hở nghiên cứu cần phải được tiếp tụcphát triển trong bài toán CDF va CID Chang hạn: phân tích chùm theo hướng tiếpcận mờ, phân tích chùm với số chùm chưa biết, phân tích chùm với dữ liệu có chứa

nhiễu, và tìm kiếm một kết quả phân vùng gần với phân vùng tối ưu toàn cục Vấn

đề (iii) cũng tương tự như van dé (i), khi chưa có nhiều tiêu chuẩn được đưa ra để

đánh giá mức độ tốt của một kết quả phân vùng trong bài toán CDF va CID Do

đó, có thể thay rang CDF va CID là các lĩnh vực nghiên cứu còn rất mới, việc khaithác các bài toán này sẽ dẫn đến nhiều kết quả thú vị Riêng đối với bài toán CDB,

mặc dù các vấn đề cơ bản đã được nghiên cứu và giải quyết một cách gần như trọn

vẹn, một số hạn chế về mặt lý thuyết và ứng dụng vẫn cần được nghiên cứu thêm

Từ các nhận định trên, có thể thấy rằng phân tích chùm là một khía cạnh thú vị

để nghiên cứu về cả lý thuyết lẫn ứng dụng Đó cũng chính là lý do đề tài “Một số

đóng góp trong bài toán phân tích chùm” được chọn làm hướng nghiên cứu của luận

án tiến sĩ này

0.2 Mục đích nghiên cứu

i Đề xuất một số tiêu chuẩn mới nhằm đánh giá sự tương tự giữa các phần tử rời

rạc, các hàm mật độ xác suất và dữ liệu khoảng

ii Đề xuất các thuật toán mới liên quan đến phân tích chùm cho dữ liệu điểm, ham

mật độ xác suất và dữ liệu khoảng dựa trên những kết quả của (i)

11 Ứng dụng các thuật toán phân tích chùm đề nghị trong một số lĩnh vực bao

gồm: phân tích dit liệu và nhận dạng hình ảnh

0.3 Đối tượng nghiên cứu

e Các tiêu chuẩn đánh giá sự tương tự giữa các phần tử rời rac, các hàm mật độ

xác suất và dit liệu khoảng

e Các phương pháp phân tích chùm các phần tử rời rac, các hàm mật độ xác suất,

và dữ liệu khoảng.

e Các ứng dụng của phân tích chùm các phần tử rời rac, các hàm mật độ xác suất

va dit liệu khoảng.

Trang 17

0.4 Phương pháp nghiên cứu

e Cải tiến tiêu chuẩn đánh giá sự tương tự của các loại phần tử dựa trên những

tiêu chuẩn đã tồn tại trước đó và đặc tính của từng loại phần tử.

e Cải tiến một số bước trong các thuật toán phân tích chùm trước đó để cải tiến

chất lượng xây dựng chùm dựa trên các tiêu chuẩn đánh giá.

e Sử dụng phần mềm Matlab để viết các chương trình phân tích chùm, thử nghiệm

từ các trường hợp đơn giản với dữ liệu mô phỏng đến các trường hợp thực tế

với dữ liệu xã hội và dữ liệu hình ảnh.

0.5 Bo cục của luận án

Phần còn lại của luận án gồm có nội dung, kết luận, định hướng nghiên cứu và tài

liệu tham khảo, trong đó phần nội dung được cấu trúc bởi 4 chương như sau:

e Chương 1 Phân tích chùm các phan tử rời rac

e Chương 2 Phân tích chùm các hàm mật độ xác suất

e Chương 3 Phân tích chùm dữ liệu khoảng.

e Chương 4 Phần kết luận và định hướng nghiên cứu

Trang 18

chùm thì tương tự nhau, và các phần tử thuộc các chùm khác nhau thì không tương

tự nhau, theo một số tiêu chí được định trước Nói một cách khác, bài toán CDE là

bài toán phân tích chùm, với đối tượng là các phần tử rời rạc Trong bài toán phân

tích chùm, các phần tử rời rạc là đối tượng được quan tâm nghiên cứu nhiều hơn

so với các đối tượng khác (hàm mật độ xác suất, khoảng, chuỗi thời gian ), nên

thông thường khi đề cập đến phân tích chùm, ta thường hiểu đó là bài toán CDE.

Trong chương này, luận án trình bày một số tiêu chuẩn nhằm đánh giá sự tương tự của các phần tử rời rạc, một số thuật toán phân tích chùm được sử dụng phổ biến,

một số tiêu chuẩn nhằm đánh giá chất lượng chùm được xây dựng Bên cạnh đó,

trong chương này, luận án cũng trình bày một số đề xuất mới của nhóm nghiên cứu

bao gồm: hệ số tương tự chùm các phan tử rời rac (Similar Coefficient of Cluster for

Discrete Elements, SCD) và thuật toán phân tích chim tự động, không thứ bậc dựa

trên SCD [Phd].

1.1 Sự tương tự của các phan tử rời rac

1.1.1 Sự tương tự của hai phần tử rời rac

Khoảng cách là đại lượng thường dùng để đánh giá sự tương tự của hai phần tử rời

rac Khoảng cách giữa hai phan tử là một metric, nghĩa là nếu d(x, y) là khoảng cách

của hai phần tử x và y (x,y € R”) thi đ(x,y) phải thỏa các điều kiện sau đây:

1 đ(x,y) >0,Vx,y Dau “=” xảy ra khi x = y

10

Trang 19

2 d(x,y) = d(y, x).

3 d(x,y) + d(y,z) > d(x,z).

Theo 3 điều kiện trên, ta có thé định nghĩa khoảng cách giữa 2 phan tử theo

nhiều cách khác nhau Cho hai điểm x = (#1,#2, ,#n),W = (1,2, ,n) € JR", khi đó ta có một số khoảng cách phổ biến như sau.

e® Khoảng cách Euclide:

e® Khoảng cách city-block:

da(%,y) = À ` lai — yil- (1.2)

e Khoảng cách Euclide thường được sử dụng phổ biến nhất trong các áp dụng của

nhiều vấn đề hiện tại Nó mô tả độ lớn của đoạn thang nối trực tiếp hai điểm x

va y.

e Khoảng cách city-block mô tả tổng độ lớn của n đoạn gấp khúc nối hai điểm

x,y€R" Mỗi đoạn trong n đoạn nay song song với | trục tương ứng trong n

trục của hệ quy chiếu

e Khoảng cách Chebyshev mô tả đoạn thang có độ dài lớn nhất trong ø đoạn gấp

khúc đã được đề cập trong khoảng cách city-block

e Khoảng cách Minkowski bậc m là một khoảng cách mang tính tổng quát Với

những m khác nhau, khoảng cách Minkowski bậc m sẽ tương ứng với một loại khoảng cách khác nhau Khi n = 1, dm(x,y) = d(x, y) Khi m = 2, d„(x, y) = d-(x,y) Độ lớn của khoảng cách Minkowski bậc m sẽ càng giảm khi m càng

Trang 20

1.1.2 Sự tương tự của một nhóm các phần tử rời rac

Thông thường, khi chùm được xây dựng, ta cần đánh giá chất lượng của các chùmđược tạo Để làm được điều này, ta cần có các khoảng cách nhằm đánh giá sự tương

tự của một nhóm các phần tử rời rạc Trong lĩnh vực phân tích chùm, các khoảng

cách này được gọi là “khoảng cách nội bộ” (intracluster distance) Gọi x và y là hai

điểm dữ liệu n chiều bất kỳ thuộc nhóm C, x,y € R”, một số khoảng cách phổ biến

6 dùng để đánh giá sự tương tự của một nhóm hữu hạn các phần tử rời rac như sau.

e Khoảng cách max (Complete Diameter Distance):

dmax(C) = max d(x,y) (1.5)

Trong các công thức trên, d là khoảng cách giữa hai phần tử rời rac đã được định

nghĩa ở phần trước, tùy vào loại khoảng cách d được sử dụng mà ta lại có nhiều kết

quả khác nhau; |C| là số phần tử có trong nhóm (chùm) C; v là trọng tâm (điểm

trung bình) của nhóm (chùm) Œ được tính bởi v = a » x.

xeŒ

1.1.3 Sự tương tự giữa hai nhóm các phần tử rời rac

Các thang đo đánh giá sự tương tự giữa hai nhóm các phần tử rời rạc thường được

quan tâm trong việc đánh giá chất lượng của một kết quả phân tích chùm khi ta

muốn biết các chùm được xây dựng có sự tách biệt như thế nào Bên cạnh đó, chúng

thường được sử dụng trong phân tích chùm theo hướng tiếp cận thứ bậc, khi ta xây

dựng các chùm mới dựa trên thông tin các chùm được tạo trước đó Gọi x, và y là

hai điểm dữ liệu n chiều bất kỳ lần lượt thuộc hai nhóm hữu hạn C, và C2, một số thang đo dùng để đánh giá sự tương tự giữa hai nhóm các phan tử rời rac Cy và C2

được tóm tắt bởi các công thức bên dưới

12

Trang 21

1.2 Một số thuật toán phân tích chùm cho các phần tử rời rac

Tùy vào khía cạnh đang xem xét mà các thuật toán phân tích chùm các phần tử rờirạc có thể được phân chia thành nhiều hướng tiếp cận khác nhau Hình trình bày tổng quan các hướng tiếp cận của bài toán CDE Theo đó, bài toán CDE có thể chia thành hai hướng tiếp cận chính là phân tích chùm không mờ và phân tíchchùm mờ Trong hướng tiếp cận không mờ, mỗi phần tử được gán vào một chùm

cụ thể và không thuộc vào các chùm khác; ngược lại, trong hướng tiếp cận mờ, mỗi

phần tử đồng thời thuộc vào tất cả các chùm với các mức độ phụ thuộc nhất định.Trong mỗi hướng tiếp cận mờ hoặc không mờ, ta lại có nhiều hướng tiếp cận khácnhau như phân tích chùm dựa vào khoảng cách/trọng tâm (distance/centroids based

clustering), phân tích chim dựa vào mô hình (model-based clustering), phân tích

chùm dựa vào mật độ (density-based clustering) Ngoài ra, một số hướng tiếp cận

khác như phân tích chùm thứ bậc và phân tích chùm tự động cũng có thể được kết hợp với cả phân tích chim mờ hoặc không mờ để cho ra một số hướng tiếp cận khác

nhau Phần này của luận án sẽ tập trung trình bày một số thuật toán phân tích chùm

phổ biến theo hướng tiếp cận không thứ bậc-không mờ Trong hướng tiếp cận không

thứ bậc-không mờ này, luận án lựa chọn trình bày ba thuật toán cổ điển đại diện cho

ba hướng phân tích chùm: dựa vào trọng tâm, dựa vào mật độ và dựa vào mô hình.Các thuật toán cụ thể bao gồm: thuật toán k- trung bình (k-means), thuật toán phan

tích chùm DBSCAN và thuật toán cực đại hóa kỳ vọng (EM) Do đây là các thuật

toán đã phổ biến và được sử dụng như các phương pháp đối chiếu trong luận án, luận

án chỉ giới thiệu sơ lược các nguyên lý và các bước thực hiện chính Các phân tích

Trang 22

based clustering

Distance- based clustering

Density-NON-FUZZY CLUS-

Hình 1.1: Tổng quan các thuật toán CDE

1.2.1 Thuật toán k-means

Cho trước tập dữ liệu cần phân tích chùm X gồm phần tử rời rac n chiều: X =

{XI,Xa, ,Xw}, (x; € IR"), và cho trước số chùm k, thuật toán k-means chia tập

dữ liệu X thành k chùm sao cho tổng khoảng cách giữa các phần tử đến trọng tâm

chùm chứa nó là nhỏ nhất Thuật toán k-means được trình bay chi tiết bởi Thuật

toán 1.1 và được minh họa bởi Hình |L.2|

Step 1 Step 2 Step 3

Step 3 (repeat)

Hình 1.2: Minh hoa các bước của thuật toán k-means

14

Trang 23

Thuật toán 1.1

Bước 1 Khởi tạo k trọng tâm của k chùm {v.v " vi") một cách ngẫu nhiên.

Bước 2 Tìm phân vùng tương ứng với k trọng tâm bằng cách gán từng phần tử vào chùm

chứa trọng tam gần nó nhất, nghĩa là tìm phan vùng C9) = {ci CỤ), " c9}

Bước 4: Lặp lại Bước 2 va Bước 3 cho đến khi thuật toán hội tụ, nghĩa là các trọng tam

không đổi qua hai vòng lặp liên tiếp, vl) = vi) vị,

1.2.2 Thuật toán phan tích chùm DBSCAN

Thuật toán k-means ở phần trên xây dựng chùm dựa vào khoảng cách từ các phần

tử đến trọng tâm, do đó, các chùm được xây dựng thường mang dạng hình cầu Điều

này dẫn đến một số điểm không phù hợp khi ứng dụng cho dữ liệu mà các chùm có

dạng bất kỳ Thuật toán DBSCAN được đề xuất bởi là một thuật toán có thểgiải quyết được bài toán phân tích chùm với hình dạng bất kỳ Thuật toán này cũng

thực hiện việc tính toán khoảng cách giữa các phần tử, tuy nhiên, các khoảng cách

này không được áp dụng một cách trực tiếp để xây dựng chùm mà được sử dụng để xét tính liên thông của các điểm dữ liệu Chính việc các điểm dữ liệu có liên thông với

nhau hay không sẽ quyết định đến việc chúng có thuộc cùng một chùm hay không

Trong thuật toán DBSCAN, ta cần xác định trước hai tham số gồm: e và minpts.Cho tập dữ liệu X, với x; va x; là hai điểm thuộc X Nếu d(x;,x;) < e, thi x; được

gọi là “liên thông trực tiếp” từ x;, va x; được gọi là điểm lõi Nếu tồn tại một day

X1,X2, ,X sao cho x; liên thông trực tiếp với x;41, Vi = 1,2, ,n — 1, thi x,

được gọi là “liên thông” từ xị Thuật toán DBSCAN bắt đầu bằng việc chọn ngẫunhiên một điểm dữ liệu, nếu điểm dữ liệu được chọn là điểm lõi, tất cả những điểm liên thông với điểm này được xét vào cùng một chùm Quá trình này được lặp đến

Trang 24

thông” và “liên thông trực tiếp” giữa các điểm được minh họa bởi Hình Thuật

toán DBSCAN được minh họa bởi Hình và được trình bày chi tiết trong Thuật

toán 1.2 như sau:

(c) Vong lap 2 (d) Két qua phan chim

Hình 1.4: Minh hoa thuật toán DBSCAN

Thuật toán 1.2

Khởi tao tập dữ liệu tạm thời D = X, thiết lập hai tham số ¢ và minpts

Bước 1 Chọn ngẫu nhiên một điểm dữ liệu x; bất kỳ thuộc D, thiết lập C là tap điểm

liên thông với x;.

16

Trang 25

Bước 2 Nếu |C| > minpts, thiết lập chùm C, với |C| là số phần tử của tap C Sau đó ta

cập nhật tập dữ liệu tạm thời D := D\ Œ.

Bước 3 Lip lại hai bước trên cho đến khi D = Ú

Thuật toán DBSCAN có những ưu điểm như có thể xác định chùm với hình dạngbất kỳ và không cần người dùng phải xác định trước số chùm k Tuy nhiên, thuật

toán này lai cần người dùng xác định hai tham số e và minpts Trong đó, tham số

e đặc biệt quan trong vì ảnh hưởng trực tiếp đến việc xác định tính liên thông giữacác điểm và từ đó ảnh hưởng đến chùm được thiết lập Do đó, tham số này cần phải

được xem xét can thận Ngoài ra, việc sử dụng một giá trị e cố định dẫn đến một

số kết quả không tốt khi tập dữ liệu có các chùm với các mật độ khác nhau Do đó,

nhìn chung việc lựa chọn e và minpts phụ thuộc nhiều vào kiến thức chuyên gia, và

đó cũng là một hạn chế của thuật toán cổ điển này.

1.2.3 Thuật toán phan tích chùm cực đại hóa kỳ vọng EM

Tương tự như thuật toán k-means, thuật toán cực đại hóa kỳ vọng cần cho trước

số chùm k Tuy nhiên, thay vì xác định phân vùng dựa vào trọng tâm, thuật toán

EM xem mỗi chùm như là một thành phần của một mô hình hỗn hợp (mixturemodel) và tìm cách điều chỉnh các tham số của mô hình hỗn hợp qua giải thuật

lặp Cho trước tập dữ liệu cần phân tích chùm X gồm phần tử rời rac n chiều:

X = {xiI.xa ,XN}, (x; € IR"), và cho trước số chùm k, gọi Z = [z]y„„ là ma

trận chứa nhãn của các phần tử (z; = 1 nếu x; € Cj, và z¡; = 0 nếu x; ¢ Cj,

i=1,2, ,N, 7 = 1,2, ,k) Các bước của thuật toán EM được trình bày cụ

thể trong Thuật toán 1.3 và được minh họa trong Hình[L.5|

Thuat toán 1.3

Bước 1 Khởi tạo £ = 0, và chọn ngẫu nhiên các tham số gồm vec tơ trung bình pi) ma

(0) (0)

trận hiệp phương sai uy” va ti lệ trộn Ti, tính giá trị In của ham hợp lý của

dit liệu bởi công thức:

Trang 26

mY aa (1.17)

VỚI

N 0

NO = 2+0) (243) (1.18)

i=l

Bước 4 Lip lai Bước 2 và Bước 3 đến khi

lnp (Xu, 2,0 6) - Inp (xin 1) BD gD) <&, (1.19)

Trang 27

1.3 Đánh giá chất lượng của một phương án phân tích chùm

Sau khi áp dụng các thuật toán phân tích chùm được trình bày ở phần trên và nhậnđược các kết quả phân vùng, ta cần đánh giá chất lượng của chùm được xây dựng

Có hai loại tiêu chuẩn thường được sử dụng gồm: tiêu chuẩn đánh giá “bên ngoài”

(external validity index) và tiêu chuẩn đánh giá “bên trong” (internal validity index).

1.3.1 Tiêu chuẩn đánh giá bên ngoài

Tiêu chuẩn đánh giá bên ngoài được sử dụng khi ta đã có nhãn thực tế của các phần

tử Sau khi một thuật toán cung cấp kết quả phân tích chùm, ta so sánh kết quả

phân vùng của thuật toán với kết quả thực tế nhằm đánh giá chất lượng phân vùng

của thuật toán đó Tiêu chuẩn này thường được sử dụng trên các bộ dữ liệu mẫu.

Khi có một số phương pháp phân tích chùm cần được so sánh và lựa chọn, ta dùngcác bộ dữ liệu mẫu này và tiêu chuẩn đánh giá bên ngoài để kiểm tra mức độ đáng

tin cậy của các thuật toán, từ đó, lựa chọn thuật toán phù hợp nhất Một tiêu chuẩn

đánh giá bên ngoài được sử dung phổ biến là ARI (Adjusted rand Index) [Z8] Gọi

P là kết quả phân vùng thực tế dựa trên các nhãn đã có sẵn, và Q là kết quả phân

vùng của thuật toán, chỉ số ARI được tính bởi Công thức (1.20).

a—(a+c)(a+b)/(a+b+c+d)

((a+c)+(at+b)) /2—(at+c)(atb)/(at+b+c+d)

Trong công thức trên, a là số các cặp phần tử được xếp vào cùng một chùm ở

ARI = (1.20)

cả P lan Q, b là số các cặp phần tử thuộc cùng một chùm trong P nhưng thuộc vào

hai chùm khác nhau trong Q, c là số các cặp phần tử thuộc hai chùm khác nhau

trong P nhưng thuộc vào cùng một chùm trong Q, và d là số các cặp phần tử thuộc

vào hai chùm khác nhau trong cả P lan Q Chỉ số ARI càng gần 1 thì kết quả phan

tích chùm nhận được từ thuật toán càng tốt (từ Công thức (1.20), khi P va Q trùng

nhau, b=c=0 va ARI =1).

1.3.2 Tiêu chuẩn đánh giá bên trong

Tiêu chuẩn đánh giá bên ngoài là một tiêu chuẩn tốt để đánh giá chất lượng của

một thuật toán phân tích chùm Tuy nhiên, khi ứng dụng trên các bộ dữ liệu thực

tế hoàn toàn mới, tiêu chuẩn này không thể sử dụng được vì ta chưa có thông tin

về phân vùng đúng của dữ liệu Do đó, tiêu chuẩn đánh giá bên trong được sử dụng

Trang 28

tiêu chuẩn này sẽ đánh giá mức độ gần giữa các phần tử trong cùng một chùm (tính

nén, compactness) và mức độ tách biệt của các chùm (separation).

Gọi C = {C,C2, ,C,} là một phân vùng nhận được, một số tiêu chuẩn đánh giá bên trong phổ biến được trình bày như sau.

Trong các công thức trên, v; là trọng tâm của chùm C;, n; là số phần tử thuộc

chùm C; Công thức cho thấy rằng: khi khoảng cách giữa các phần tử trong

cùng một chùm đến trọng tâm của chùm càng nhỏ thi Intra cũng càng nhỏ Nói cách

khác, Intra có thể phản ánh được mức độ tương tự của các phần tử trong cùng một chùm của kết quả phân tích chùm nhận được Do đó, chỉ số này có thể được sử dụng

như là một chỉ số đánh giá mức độ tốt của một phương án phân tích chùm So với

chỉ số Intra, chỉ số S đề xuất bởi Xie và Beni có bổ sung một đại lượng thể hiện

khoảng cách giữa các trọng tâm của các chùm Chỉ số S$ tính toán khoảng cách từng

đôi một giữa các trọng tâm và sử dụng giá trị nhỏ nhất của tập hợp các khoảng cáchnày như là một tiêu chuẩn thể hiện mức độ khác biệt giữa các chùm Khi các chùmcàng xa nhau (các trọng tâm càng xa nhau), chỉ số S càng nhỏ Nhu vậy, chỉ số $

vừa có thể đánh giá được mức độ tách biệt giữa các chùm vừa có thể đánh giá được

sự tương tự giữa các phần tử trong cùng một chùm do thừa hưởng các tính chất từ

chỉ số Intra Do đó, chỉ số S' có thể được xem như một thang đo hợp lý hơn cho việc

đánh giá chất lượng của một phương án phân tích chùm các phần tử rời rạc

1.4 Một số đề xuất mới

1.4.1 Hệ số tương tự chùm

Để đánh giá sự tương tự của một nhóm các phần tử rời rạc, ngoài các công thức phổ

biến dựa trên khoảng cách đã được trình bày trong các Công thức (1.5), (1.6), 1.7).

chúng tôi đã đề xuất thang đo gọi là “hệ số tương tự chùm các phan tử rời rac”, SCD,[Ph4]).

20

Trang 29

Cho tập dữ liệu Z và một chùm C cu thể, Œ € Z Hệ số tương tự chùm đượctrình bày bởi công thức sau:

5(C)

max {6(C), ad(Z)}?

trong đó 6(C) và 6(Z) là các khoảng cách dùng để đánh giá sự tương tự của nhóm

C và nhóm Z được tính bởi một trong các Công thức (1.5), (1.6), va (1.7); a là một

hằng số dương

Ta có một số nhận xét như sau:

e Từ Công thức (1.23), ta thấy rằng: khoảng cách giữa các phan tử trong nhóm

C càng nhỏ (6(C) càng nhỏ) thì SŒD(C) sẽ càng lớn và ngược lại Khi các phan

tử trong nhóm C hoàn toàn trùng nhau, ta có d(C) = 0 và SCD(C) = 1 Khi cácphần tử trong nhóm Œ có khoảng cách quá lớn so với nhau và vượt quá ad(Z)

thì SCD(C) = 0 Do đó, SCD có thể được xem là một thang đo chuẩn trên đoạn

[0,1] dùng để đánh giá sự tương tự của các phần tử trong cùng một nhóm, theo

đó, nếu SCD càng lớn thì các phần tử trong nhóm càng tương tự

e Ngoài việc được sử dụng như một tiêu chuẩn đánh giá sự tương tự giữa một

nhóm các phần tử, hệ số tương tự chùm SCD còn có thể được sử dụng như một tiêu chuẩn để đánh giá chất lượng của chùm được xây dựng, bên cạnh các chỉ số

Intra và chỉ số S Điều này có nghĩa là SCD được sử dụng ở cả hai giai đoạn:xây dựng chùm và đánh giá chùm Đây là một điểm mới so với các nghiên cứu

về phân tích chùm trước đây

e Hệ số tương tự chùm SCD xây dựng chùm và đánh giá chùm thông qua thang

đo chuẩn (normalization), có giá trị nằm trong đoạn [0,1] Do đó, chỉ số này không bị ảnh hưởng bởi đơn vị và kích cỡ của dữ liệu như một số loại tiêu chuẩn dựa vào khoảng cách Điều này dan đến một số ưu điểm của SCD trong một

số trường hợp nhất định Chang hạn: chỉ số Intra đánh giá chất lượng phân

vùng thông qua tổng bình phương khoảng cách từ các phần tử đến trọng tâm

của chùm chứa nó Vì khoảng cách phụ thuộc vào quy mô, đơn vị của dữ liệu

sử dụng nên ta không thể so sánh mức độ tốt của một phương pháp phân tích

chùm khi áp dụng cho nhiều loại dữ liệu khác nhau Trong khi quá trình so sánh

nêu trên hoàn toàn có thể được thực hiện tốt khi sử dụng một hệ số đánh giá

trên đoạn [0,1] như tiêu chuẩn SCD.

Trang 30

1.4.2 Thuật toán phân tích chùm tự động, không thứ bậc dựa trên hệ số

tương tự chùm

Trong phân tích chùm theo phương pháp không thứ bậc, chúng ta cần phân tích bộ

số liệu thành k chùm riêng biệt Tuy nhiên, đối với những bộ số liệu lớn, việc xác

định chính xác số chùm k và chọn chùm khởi tạo như thé nào là một vấn đề không

dễ thực hiện Thông thường, để tìm số chùm k phù hợp, ta thường dựa vào kiến thứctiên nghiệm về tập dữ liệu, phương pháp này không khả thi khi ta thực hiện bài toán

phân tích chùm trên các bộ dữ liệu hoàn toàn mới Một phương pháp khác là lặp đi

lặp lại thuật toán phân tích chùm với nhiều k khác nhau, sau đó so sánh các kết qua

với nhau dựa vào một số tiêu chuẩn nhất định Cách thực hiện như trên dẫn đến một

chi phí tính toán rất cao và không hiệu quả về mặt thực tế Nghiên cứu trong

đã trình bày một hướng tiếp cận mới nhằm xác định số chùm cho bài toán phân tích

chùm đối với đối tượng là số mờ (fuzzy number) dạng tam giác Theo hướng tiếp cận

này, các tác giả đã xem mỗi phần tử là một chùm (trọng tâm chùm riêng biệt) Qua

các vòng lặp, các phần tử (trọng tâm chùm) sẽ tự động tiến về trọng tâm của chùmchứa chúng Dựa trên ý tưởng của thuật toán phân tích chùm tự động được đề xuất

bởi [6 BJ, và dựa trên tiêu chuẩn hệ số tương tự chùm, [Ph4] đã đề xuất một thuật

toán CDE mới gồm hai giai đoạn Giai đoạn 1 giải quyết bài toán CDE theo hướngphân tích chùm tự động, qua đó, số chùm và ma trận phân vùng ban đầu sẽ đượcxác định Giai đoạn 2 sử dụng hướng tiếp cận không thứ bậc để xây dựng các chùmsao cho hệ số tương tự chùm của mỗi phần tử đến chùm nó đang thuộc là lớn nhất

Toàn bộ thuật toán trên được ký hiệu là SU-NSCD.

Gọi X = {xi,xa, ,xw} là tập hợp gồm N điểm dữ liệu ø chiều và VO =

{v\?, v9), " vW} là tập hợp của N trọng tâm tại vòng lặp t, thuật toán SU-NSCD

được trình bày trong Thuật toán 1.4.

Trang 31

bởi các điểm dữ liệu.

3 Lặp lại hai bước trên cho đến khi max;{d,(vft vy <e£.

4 Đối với từng phần tử x;, xét hệ số tương tự chùm của chùm tạo bởi x; và các

chùm C; hiện có (i = 1,2, ,N;j7 = 1,2, ,k) Goi | = arg max SCD(x; U Œ;),

j

ta cập nhật x; vào chùm Cj.

5 Lặp lại Bước 4 cho đến khi phân vùng không đổi qua hai vòng lặp.

Trong thuật toán trên, giá trị của À ảnh hưởng đến tốc độ hội tu cũng như là

số chùm cuối cùng được xác định Khi \ = 0, ta nhận được chùm với mỗi chùm

gồm duy nhất một phần tử Khi \ > ov, ta nhận được một chùm duy nhất gồm tất

cả N phần tử trong tập dữ liệu Thong qua việc thực hiện và kiểm tra trên nhiều

bộ dit liệu, À = d;/10 được sử dụng Giá tri của e cũng ảnh hưởng đến tốc độ hội

tụ của thuật toán, e càng nhỏ thì thời gian cần thiết để thuật toán hội tụ càng lớn.

Việc chọn ¢ cũng cần căn cứ vào đơn vị của bài toán đang xem xét Trong luận án,

e = 10“ được sử dụng.

Trong Giai đoạn 1 (ba bước đầu tiên) của thuật toán, mỗi trọng tâm vi) được

cập nhật thông qua Công thức (1.24) Theo đó, điểm vit) tại vòng lặp t + 1 được

xem như là trung bình có trọng số của tất cả các điểm vì tại vòng lặp t, với độ

lớn của trọng số phụ thuộc vào khoảng cách d (v2, vi") Theo đó, nếu d (v2 vi)

càng nhỏ, trọng số sẽ càng lớn và ngược lại Noi một cách khác, những điểm vì

tâm của chùm chứa nó Sau khi kết thúc Bước 3, ta nhận được số chùm k cùng với

sẽ tiến về trọng tâm có trọng số của các lân cận của nó hay tiến về trọng

các chùm C; tương ứng với j = 1,2, ,k.

Mặc dù phân vùng nhận được sau ba bước đầu tiên của thuật toán đã tương đối

hợp lý, phân vùng này chưa được xác định là đã đạt đến một cực trị địa phương của

Trang 32

hàm mục tiêu (thường dựa trên một số tiêu chuẩn đánh giá bên trong đã trình bày

ở phần trên) Dựa trên tiêu chuẩn hệ số tương tự chùm và giải thuật tìm kiếm theo

kiểu leo đồi (hill-climbing), hai bước cuối của thuật toán liên tục kiểm tra và cập

nhật phân vùng sao cho hệ số tương tự chùm của mỗi phần tử đến chùm mà phần tử

đó đang thuộc là lớn nhất Cách tiếp cận này cũng tương tự như thuật toán k-meansnhưng chú trọng vào việc cực đại hóa hệ số tương tự chùm của các chùm thay vì cựctiểu hóa tổng khoảng cách từ các phan tử đến trọng tâm như thuật toán k-means.

Do đó, so với các thuật toán cổ điển vốn cần người dùng xác định một số chùm k

cho trước, thuật toán đề xuất một mặt có thể xác định được số chùm một cách tự

động, một mặt có thể tận dụng một số ưu điểm của hệ số tương tự chùm như đã đề

cập ở Phan [1.4.1] Tinh chất hội tu của thuật toán SU-NSCD sẽ được làm rõ bởi các

định lý sau.

Định lý 1.1 Ta có một số tính chất sau:

1 Gọi cụ là bao lồi của tập VO = {u" vy), Ley wy}, ta có ot) Cc CO vi.

2 Gọi Cy := lim Cy () = =ñ cụ) Với mỗi đỉnh ui; của Ci, tồn tại j sao cho:

tro

lim vw = uy) (1.25)

tooo J

Chitng minh.

1 Từ Cong thức (1.24), ta có vit) là trung bình có trong số của vị VỚI j

1,2, ,N Do đó, vịt) = cl Do điều trên đúng với moi vir) nén oh) C

Ngoài ra, vì tap các trong tâm là tập hữu han trong không gian R”, nên với moi

i,t, tồn tại k sao cho uj’) = = vo Do đó, khi t — œ, tồn tại 7 sao cho ui) = = yl)

j

vo han lan Do do:

Stn —> so: ull? = vi), (1.27)

Trang 33

Không mất tính tổng quát, giả sử ul”) = vì hoặc ul”) = vl),

(1.24), nếu vì = vì thì vị =v với moi t > s Do đó, với mọi s > 0, tồn

(t) (t) (+1) (t+1)

tai t > s sao cho uy; = Vj VÀ tị ˆ = Và,

tại s sao cho đ (ui uw.) < e Công thức (1.24) cho thấy mỗi trọng tâm sẽ ảnh

hưởng mạnh nhất lên chính nó ở vòng lặp sau Do đó, d (v/2.ui,) <e Ta có

thể chọn e đủ nhỏ sao cho d (v.v) <d (v/2.v7) ,Vk # 7,7 Khi đó, (1.24)

cho thay vi) khong thé thay thé vid) tai ul), Do đó, (1.25) được chứng

minh.

véimoit >T Từ

Ngoài ra với mọi e dương, ton

Dinh lý 1.2 Giai đoạn 1 của thuật toán SU-NSCD hội tụ.

Chứng mình.

(

Dinh lý 1.2 cho thấy một số trọng tâm vì hội tụ về các đỉnh của bao lồi Cy Đặt

vì Qh) hội tụ sau 7¡ vòng lặp, ảnh hưởng của Qi) lên các phần tử còn lại tiến về 0 khi # > 7 Do đó, áp dụng Dinh lý 1.1, ta nhận được CS) C Cf, ví > T¡ và một số

œ

trọng tâm vị hội tụ về 0a;, với 0a; là đỉnh của bao lồi C2 và Cp = im cf) = a cf.

> 0o

t=0

Ta lặp lại chứng minh như trên đến khi tac cả các trọng tâm hội tu

Tính chất hội tụ trong Giai đoạn 1 của Thuật toán SU-NSCD đã được chứngminh Giai đoạn 2 của thuật toán có ý nghĩa điều chỉnh lại phân vùng sao cho tổng

hệ số tương tự chùm cuối cùng nhận được là tốt hơn Mặc dù đã được kiểm chứng

trên rất nhiều bộ số, tính chất hội tụ của giai đoạn 2 về mặt toán học vẫn chưa đượcchứng minh Đây là một hạn chế của thuật toán và cũng là một động lực cho việctiếp tục thực hiện những nghiên cứu tiếp theo

Vi dụ minh hoa

Nhằm minh hoa và kiểm chứng khả năng tự động phát hiện số chùm và phannhóm của thuật toán SU-NSCD, luận án mô phỏng một bộ dữ liệu đơn giản gồm ba

nhóm Trong đó, mỗi nhóm gồm 50 phần tử rời rạc tuân theo phân phối chuẩn hai

chiều N(y,X) với các giá trị trung bình và ma trận hiệp phương sai được cho như

sau.

Nhóm 1:

Trang 34

Hình 1.6: Đồ thi phan tán của các điểm rời rac

Hình thể hiện đồ thị phân tán của các phần tử được khởi tạo Từ Hình |L.6

ta có thể thấy 150 điểm dữ liệu này được tách thành ba nhóm Luận án trước hết áp

dụng Giai đoạn 1 (từ Bước 1 đến Bước 3) của thuật toán SU-NSCD để tìm số chùm

và phân vùng khởi tạo thích hợp Sự hội tu của 150 phan tử trong Giai đoạn 1 được

mô tả bởi Hình [1.7] Hình cho thấy các trọng tâm hội tụ về ba điểm nhất định.

Do đó, ta xác định được số chùm hợp lý là k = 3 Ngoài ra, ta cũng xác định được

phân vùng khởi tạo căn cứ vào vị trí cuối cùng của các trọng tâm nhận được ở Bước

3 Tiếp tục thực hiện Giai đoạn 2 (Bước 4 và Bước 5) của thuật toán SU-NSCD, tanhận được phân vùng cuối cùng được thể hiện bởi Hình Kết quả này cho thấy SU-NSCD có thể tự động xác định số chùm và cho ra kết quả phân tích chùm hợp

⁄

lý.

26

Trang 35

Bảng 1.1: Tổng hợp kết quả của thuật toán SU-NSCD và thuật toán k-means

Phương pháp Thống kê ARI t

SU-NSCD Trung binh 0.9216 0.6475

(c) Vong lap 8 (d) Vong lap 16

Hình 1.7: Quá trình hội tu trong giai đoạn một của thuật toán SU-NSCD

Bảng [L.1| tổng hợp kết quả phân tích của thuật toán SU-NSCD và thuật toán

k-means (với k = 2 và k = 3) sau 10 lần chạy độc lập Hai chỉ số được xem xét bao

gồm chỉ số ARI, và chi phí tính toán, f (giây máy tính), với các chỉ số được in đậmbiểu diễn kết quả của phương pháp đề xuất.

Trang 36

Hình 1.8: Kết quả phan tích chùm sử dụng SU-NSCD

Bảng cho thấy SU-NSCD va k-means (k=3) đạt chỉ số ARI trung bình caonhất Trong khi, k-means cần phải xác định trước số chùm thì SU-NSCD có thể tựđộng xác định số chùm và cho kết quả phân vùng với độ chính xác tương đương với

phương pháp này Với thuật toán k-means, khi số chùm được xác định trước là khôngchính xác (k=2), thì chỉ số ARI của thuật toán cũng giảm đáng kể Kết quả trên cho

thấy những ưu điểm có SU-NSCD so với k-means Một điểm chưa thuận lợi của thuật

toán SU-NSCD nam ở chi phí tính toán khi thuật toán này sử dụng nhiều thời gian

hơn so với k-means Nguyên nhân là do thuật toán này phải tính toán hệ số tương

tự chùm thông qua tập hợp các khoảng cách từng đôi một giữa các phần tử Ngoài

ra, việc kết hợp hai thuật toán SU và NSCD ở hai giai đoạn khác nhau cũng góp

phần làm tăng chi phí tính toán Kết quả kiểm định Mann-Whitney được tổng hợp

tại Bảng [L3] minh chứng cho các nhận định trên Cu thể, với giả thuyết Ho-“trung

bình ARI (hoặc t) của hai thuật toán là như nhau, ta có thể bác bỏ giả thuyết trong

trường hợp so sánh giữa SU-NSCD và k-means (k = 2), nghĩa là SU-NSCD có độ

chính xác tốt hơn nhưng sử dụng nhiều thời gian tính toán hơn Tương tự, trong

trường hợp số chùm được xác định trước cho k-means là chính xác (k = 3), chưa có

bằng chứng chưa thấy sự khác biệt giữa 4RT nhận được từ hai thuật toán, nhưng

thuật toán đề xuất sử dụng nhiều chi phi tính toán hơn

Tóm lại, thuật toán k-means có thể cho kết quả tốt khi ta có sẵn các thông tin tiên nghiệm về dữ liệu, chang hạn như số chùm Trong trường hợp ta phân tích một

bộ dữ liệu hoàn toàn mới và không có sẵn các thông tin tiên nghiệm, SU-NSCD là

28

Trang 37

Bảng 1.2: Kết quả kiểm định Mann-Whitney Giả thuyết Ho Giá trịp Kết quả kiểm định

Trung bình ARI của SU-NSCD và k-means (k=2) là như nhau ~0 Bác bỏ Ho

Trung bình £ của SU-NSCD và k-means (k=2) là như nhau 0 Bác bỏ Ho

Trung bình ART của SU-NSCD và k-means (k=3) là như nhau x1 Chap nhan Ho

Trung bình £ của SU-NSCD va k-means (k=3) là như nhau ~ 0 Bác bỏ Ho

một lựa chọn hợp lý hơn Thuật toán SU-NSCD cũng đã được kiểm chứng và chothay tính khả thi khi áp dụng trên các bộ dữ liệu với số chùm nhiều hơn hoặc chùmkhông có phân phối chuẩn Việc sử dụng SU-NSCD sẽ cho kết quả phân vùng tốt

hơn nhưng với chi phí tính toán cao hơn Do đó, tùy vào bài toán dang xem xét, ta

cần cân nhắc để sử dụng thuật toán phân tích chùm thích hợp nhất.

1.5 Ứng dung phân tích chùm các phần tử rời rac trong phan

tích số liệu

Trong những năm gần đây, Trường Đại học Tôn Đức Thắng đã triển khai phương

thức tuyển sinh riêng theo hình thức thi đánh giá năng lực gồm các môn thi: Toán

trung hoc phổ thông (THPT), SAT (Scholastic Aptitude Test), và GMAT (Graduate

Management Admission Test) Các câu hỏi trong từng bài thi phải đảm bảo một tỉ

trọng các mức độ một cách hợp lý Các mức độ được quy định bao gồm: dễ (loại 1),trung bình (loại 2), khó (loại 3) Các câu hỏi trong từng bài thi cụ thể được chọnngẫu nhiên từ một ngân hàng đề thi với các câu hỏi đã được phân loại mức độ bởicác chuyên gia Qua một số năm áp dụng, dựa trên kết quả thi thực tế của học sinh,nhà trường mong muốn đánh giá lại tính hợp lý của việc phân loại mức độ câu hỏiđược thực hiện trước đây bởi các chuyên gia; từ đó, đề xuất và thực hiện lại việc g4n

nhãn mới sao cho chính xác và hợp lý hơn Trong ví dụ này, dựa vào tỉ lệ trả lời đúng

cụ thể của từng câu hỏi, luận án ứng dụng phương pháp phân tích chùm các phần

tử rời rạc nhằm phân nhóm các câu hỏi sao cho các câu hỏi trong cùng một nhóm

có tỉ lệ trả lời đúng gần với nhau

Hình [1.9] thé hiện biểu đồ hộp của tỉ lệ trả lời đúng của các câu hỏi theo các mức

độ đã được gán nhãn bởi chuyên gia Trong đó, Hình [L.9(a)| thể hiện biểu đồ hộp cho

các câu hỏi thuộc môn thi Toán THPT, Hình thể hiện biểu đồ hộp cho các

câu hỏi thuộc môn thi GMAT, và Hình [L.9(c)| thé hiện biểu đồ hộp cho các câu hỏi

thuộc môn thi SAT Ta thấy rằng, đối với các môn GMAT và SAT, kết quả phân loại

của chuyên gia phần nào thể hiện sự hợp lý khi trung vị và tứ phân vị đều giảm dần

Trang 38

Boxplot of MATH Boxplot of GMAT

Hình 1.9: Biểu đồ hộp của tỉ lệ trả lời đúng theo loại được xét bởi chuyên gia

theo các loại: dễ, trung bình, và khó Tuy nhiên, vùng chồng lấp giữa các loại vẫn

là tương đối lớn Sự chưa hợp lý thể hiện rõ nhất ở môn Toán THPT khi không có

sự khác biệt giữa tỉ lệ trả lời đúng giữa các câu hỏi thuộc nhóm trung bình và nhóm

khó.

Từ nhận xét trên, có thể thấy rõ tính cần thiết của việc phân nhóm lại các câuhỏi dựa vào phương pháp phân tích chùm Trong vấn đề đang xem xét, số nhóm cần

chia đã được xác định bởi nhà quản lý là (k = 3) Do đó, thuật toán phân tích chim

k-means với những ưu điểm về thời gian tính toán là một lựa chọn hợp lý cho bài

toán đang xem xét.

Hình minh họa sự phân bố của dữ liệu và kết quả phân tích chùm đối với

các câu hỏi thuộc môn Toán THPT Sử dụng thuật toán k-means, các câu hỏi được

xếp vào các mức độ với ti lệ trả lời đúng gần nhau và giữa các nhóm có sự phân biệt

nhất định Do đó, bước đầu có thể thấy phân tích chùm các phần tử rời rạc là một

phương án khả thi cho bài toán phân loại mức độ câu hỏi đang xem xét Hình

thể hiện biểu đồ hộp của tỉ lệ trả lời đúng của các câu hỏi theo các mức độ đã được

30

Trang 39

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Ti le tra loi dung

(a) Đồ thị phân tán của tỉ lệ trả lời đúng của các câu hỏi môn Toán

Ti le tra loi dung

(b) Kết quả phan tích chùm với k = 3

Hình 1.10: Dữ liệu và kết quả phân tích chùm của các câu hỏi môn Toán

gán nhãn bởi thuật toán k-means, ở tất cả các môn Ta có thể thấy rằng sự phân

nhóm các câu hỏi vào các mức độ khi sử dụng thuật toán phân tích chùm nhìn chung

là phù hợp với dữ liệu thực tế hơn sự phân nhóm định trước bởi các chuyên gia Tỉ

lệ các câu hỏi được điều chỉnh và giữ nguyên được tổng hợp bởi Bang [L.3]

Bảng [1.3|cho thấy rằng các câu hỏi không có sự điều chỉnh chiếm phần lớn, trong

khi các câu hỏi có sự điều chỉnh đột biến (từ dễ sang khó hoặc ngược lại) chiếm tỉ

lệ rất ít Điều này cho thấy việc sử dụng thuật toán phân tích chùm để phân nhómcâu hỏi có một sự tương đồng nhất định so với việc sử dụng ý kiến chuyên gia, và cả

hai đều có những sự hợp lý nhất định

Tất nhiên, việc sử dụng phương pháp phân tích chùm để chia nhóm các câu hỏi dựa hoàn toàn vào dữ liệu, và do đó sẽ có một số điểm chưa hợp lý Tuy nhiên, các

kết quả trên thật sự là nguồn thông tin tham khảo hữu ích cho các đợt đánh giá tiếp

theo của chuyên gia Ngoài ra, việc sử dụng thống kê Bayes nhằm kết hợp cả thông

tin tiên nghiệm từ chuyên gia và thông tin từ dữ liệu cũng là một định hướng khác

có thể được thực hiện nhằm mang lại các kết quả hợp lý hơn.

Trang 40

Boxplot of NEW GMAT Boxplot of NEW MATH

1.0

08 08

06 08

Tiêu đề	Một số đóng góp trong bài toán phân tích chùm
Tác giả	Nguyễn Trang Thảo
Người hướng dẫn	PGS. TS. Võ Văn Tài, TS. Lê Thị Xuân Mai
Trường học	Trường Đại học Khoa học Tự nhiên
Chuyên ngành	Lý thuyết xác suất và thống kê toán học
Thể loại	Luận án tiến sĩ
Năm xuất bản	2023
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	112
Dung lượng	34,63 MB