Thuật toán 1 đặt tên là FCM+ với phương pháp tính các hệ số khuyến nghị điều chỉnh số cụm dựa trên tất cả các phần tử của cụm và Thuậttoán 2 đặt tên là FCM++ với phương pháp tính các hệ
Trang 1ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH TRUONG DAI HQC CONG NGHE THONG TIN
go
DOAN HUAN
NGHIEN CUU CAI TIEN CAC THUAT TOAN GOM CUM MO VA XAY DUNG UNG DUNG KHAI PHA DU LIEU TRONG CO SO DU LIEU
ERP DOANH NGHIỆP DƯỢC PHAM
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SÓ: 60 48 01
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
(Đã hiệu chỉnh theo góp ý của Hội đồng bảo vệ ngày 29/03/2012)
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS NGUYÊN ĐÌNH THUÂN
ng
TP HO CHÍ MINH - NAM 2012
Trang 2LỜI CAM ĐOAN
Tôi cam đoan rằng
đề tài này do chính tôi thực hiện.
Các số liệu, bảng biểu được thu thập,
các kết quả phân tích, dẫn chứng và
chương trình trong đề tài là trung thực.
Không có sự trùng lặp, sao chép từ bất kỳ đề tài, luận văn hay công trình nghiên cứu khoa học
của các tác giả nào khác.
Ngày 20 tháng 02 năm 2012
Học viên cao học
Đoàn Huấn
Trang 3LỜI CÁM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc đến
Tiên sĩ Nguyên Đình Thuân_
Nguoi đã tận tình hướng dân tôi hoàn thành luận văn này.
Tôi xin chân thành cám ơn các thay cô của trường Đại học Công nghệ Thông tin,
Dai học Khoa học Tự nhiên, Đại học Bách Khoa Thành phố Hồ Chi Minh
da tận tâm giảng dạy, hướng dẫn cho tôi trong các năm học cao học vừa qua.
Tôi xin cám ơn Ban Giám đốc Công ty Cổ phần Dược phẩm 3/2 (FT-Pharma) đã hỗ
trợ cho phép tôi sử dụng tài liệu, dữ liệu từ cơ sở dit liệu cua hệ thông phân mêm ERP của Công ty dé làm luận văn nay.
Tôi xin tri ân Người cha quá cô và Người me đã sinh thành và dưỡng dục tôi
Tôi xin cám ơn các thành viên khác trong gia đình đã động viên, giúp đỡ tôi rất nhiêu trong thời gian học cao học cũng như làm luận văn này.
Mùa xuân năm 2012
Doan Huan
Trang 413 Đối tượng phạm vi nghiên cứu của đi
1.3.1 Các thuật toán gom cụm mờ
1.3.2 Cơ sở dữ liệu của hệ thống phần mềm ERP doanh nghiệp dược phẩm vàcác thành phần liên quan
1.4 Y nghĩa khoa học và thực tiễn của đê tài.
1.5 Cấu trúc của luận văn
Chương 2-LÝ THUYET VE GOM CUM
2.2.2.2 Biến nhị phân đối xứng
Biến nhị phân bat đối xứng
2.3 Ý nghĩa của gom cụm
2.4 Cac yêu cầu của gom cum[1][6]
2.5 Cac ứng dụng của gom cụm dữ liệu [I][6].
2.6 Các phương pháp gom cụm [19]
2.6.1 Các phương pháp phân hoạch [1][6]
2.6.2 Các phương pháp phân cấp [1][6]
2.6.3 Các phương pháp dựa trên mật độ [2][6].
2.6.4 Các phương pháp dựa trên mô hình [2][6]
2.6.5 Các phương pháp dựa trên lưới [3][6].
2.7 Thuật toán Fuzzy C-1 -means ns (FCM) (6}{7][10] BOSE SIAADEBNHHHKSSOCWWINUDAAARAUWAK
Trang 52.8.2 Gom cụm gia tăng K-Means mờ dựa trên K-Center và véctơ lượng tử 26
Chương 3 - TÌM HIỂU HE THONG PHAN MEM ERP VÀ QUI TRINH TONGHỢP DU LIEU DE THỰC HIỆN VIỆC GOM CUM “
3.1 Giới thiệu hệ thống ERP [4][14]
3.2 Mô hình tô chức chung của Công ty được phâm [4]
3.3 Các qui trình chính trong hoạt động sản xuất, kinh doanh [4]
3.3.1 Qui trình mua hàng
3.3.2 Qui trình bán hàng
3.4 Cơ sở dữ liệu của hệ thông phân mêm ERP
3.5 Chọn đối tượng gom cum
3.6.5 Các bảng dữ liệu dùng đê gom cụm
Chương 4- ĐÈ XUẤT CẢI TIỀN THUẬT TOÁN FCM CÓ TRỌNG SỐ HỖ TRỢ
VIỆC DIEU CHỈNH SO CUM vA CAI DAT CHUONG TRINH UNG DUNG 45
4.1 Thuật toán FCM có trọng số
éu dùng đê tập hợp dữ liệu
“4 2.1.
4.2.2 ệ
4.2.3 Đề xuất các hệ số khuyến nghị điều chỉnh số cụm
4.2.4 Ý tưởng cải tiến.
4.2.5 Thuật toán FCM+,
4.2.6 Chương trình ứng dung
43 Ýtưởng cải tiến dựa trên một số hệ số của các phần tử cực biên trong cụm 59
4.3.1 Một số khái niệm liên quan đến phần tử cực biên
4.3.2 Đề xuất các hệ số khuyến nghị điều chỉnh số cum
4.3.4 Ý tưởng cải tiến
4.3.4 Thuật toán FCM++
4.4 Phân tích số liệu từ các thuật t
4.4.1 So sánh kh‹ ảng cách dma„ của hai thuật toán cải tiên FCM+ và FCM++.68
So sánh hệ sô a của hai thuật toán cải tiến FCM+ và FCM+
Trang 6SSSIAADEENSD
Chương 5-KET LUẬN
5.1 Những đóng góp của đê tài.
HAI BÀI BAO ĐÃ ĐƯỢC CHAP NHAN VÀ ĐĂNG KỶ YEU CUA CÁC HỘI
Trang 7-iv-DANH MUC HiNH
Hình 1.1 Chu trình mô tả tac động qua lại giữa hoạt động của doanh
nghiệp và khai phá dữ liệu, phát hiện tri thức
Hình 2.1 Hai phương pháp tiếp cận phân cấp
Hình 2.2 Minh họa đối tượng hạt nhân
Hình 2.3 Hình minh họa kết nói theo mật độ của p và q
Hình 2.4 Các cụm trong thuật toán gom cụm theo mật độ và phần
Hình 2.5 Gom cum theo mô hình.
Hình 2.6 Mô hình cau trúc lưới
Hình 2.7 Hai trọng tâm xếp nhóm
Hình 3.1 Mô hình phần mềm ERP
Hình 3.2 Mô hình tổ chức phân cấp của công ty được phẩm
Hình 3.3 Sơ đồ mô tả qui trình mua hang
Hình 3.4 Sơ đồ mô tả qui trình bán hàng
Hình 3.5 Sơ đồ tổ chức các bảng của CSDL
Hình 3.6 Cau trúc lưu trữ dữ liệu của Hóa đơn bán hàng
Hình 3.7 Cầu trúc lưu trữ dữ liệu của Phiếu thu tiền mặt
Hình 3.8 Cấu trúc lưu trữ dé liệu của Báo có ngân hang Trang 41
Hình 3.10 Mô tả quá trình hình thành các thuộc tính của khách hàng
Hình 4.1 Mô tả phan tử biên
Hình 4.3 Hình dạng cụm không cân đối trong các cụm dang nay a
thường lớn do dyyax lớn.
Hình 4.4 Hình dạng cụm khá cân
Trang 50
thường nhỏ Trang 51 Hình 4.5 Hình dạng hai cụm có xu hướng ghép vào nhau khi f tiên gan
Trang 8Trang 52
Hình 4.6 Menu chính của chương trình Trang 57 Hình 4.7 Màn hình chọn bảng chứa các i tượng dữ liệu can gom cụm Trang 57
Hình 4.8 Màn hình của chương trình để nhập các tham số Trang 58
Hình 4.9 Màn hình của chương trình hỏi về khuyến nghị điều chỉnh cụm Trang 58Hình 4.10 Kết quả tính toán các hệ số khuyến nghị điều chỉnh cụm Trang 59
Hình 4.11 Hình minh họa thể hiện việc tính ơ trên các phần tử cực biên
A,B,C,D Trang 60
Hình 4.12 Đồ thị biểu diễn sự biến thiên của hai hệ số 0„„„„ @ max
theo sô cụm trên dữ liệu một tháng và vị trí khuyến nghị
chọn sé cụm phù hợp Trang 72
Hình 4.13 Dé thị biểu diễn sự biến thiên của hai hệ số Bmax 8 max
theo số cụm trên dữ liệu một tháng và vị trí khuyến nghị
chọn số cụm phù hợp Trang 73
số cụm trên dữ liệu tám tháng và vị trí khuyến nghị chọn
số cụm phù hợp Trang 76Hình 4.15 Đồ thị biểu diễn sự biến thiên của hai hệ số Bmax, / max
theo số cụm trên dữ liệu tám tháng và vị trí khuyến nghị
chon số cụm phù hợp Trang 77
Trang 9-vi-DANH MUC BANG
Bang 2.1 Bang sự kiện (contigency table) cho biến nhị phan (cả đối xứng
một tháng
tám tháng Trang 76
Bảng 4.7 Khoảng giá trị của doanh sô khi gom 6 cụm trên
số liệu tám tháng Trang 79
Trang 10~ vii
-DANH MUC CAC TU VIET TAT
Từ viết tắt Thay cho cụm tir
“Thuật toán gom cụm mo
C-Means
World Trade Organization
Trang 11Chương 1-TONG QUAN
11 Médau
Trong lich sử phat triển của minh, khám pha tri thức, thu thập tri thức là khátvọng lớn nhất con người luôn hướng đến Dựa trên tri thức có được mà con người
đưa ra các quyết định hành động, chính nhờ tri thức mà con người dần dần vươn lên
làm chủ bản thân, làm chủ thiên nhiên, xây dựng xã hội ngày càng văn minh, hiện
đại Từ hoạt động kinh tế mang tính đơn lẻ hay gia đình, để tăng tính cạnh tranh,con người dần tiến đến những hoạt động kinh tế mang tính cộng tác Một đơn vị
hoạt động kinh tế cộng tác phổ biến hiện nay là doanh nghiệp Ngay nay có thé nói,
doanh nghiệp là một đơn vị hoạt động kinh tế pho bién nhất, dem lại nhiều của cải
vật chất nhất cho xã hội
Tri thức mà con người tìm kiếm, thu thập rat đa dạng và tiềm ân trong nhiều
dạng khác nhau Tri thức có thể đến từ các chuyên gia, từ sách báo và cả từ dữ
liệu Trong thời đại ngày nay, hằng ngày hầu hết các hoạt động sản xuất kinh doanh
của doanh nghiệp đều được ghi nhận vào CSDL của hệ thống phần mềm ERP Theo
thời gian các CSDL này lưu trữ một lượng dữ liệu rất lớn vượt quá khả năng diễn
dịch và lĩnh hội của con người, phát sinh yêu cầu sáng tạo các công cụ kỹ thuật mới
để phân tích dé liệu một cách thông minh[5] Trong các CSDL này cũng tiềm annhững tri thức có giá trị mà doanh nghiệp cần khai thác để làm cơ sở đưa ra các
quyết định điều hành hoặc điều chỉnh lại các hoạt động của mình
( HO TRỢ QUYẾT ĐỊNH DIEU HANH
HOẠT ĐỌNG |_—Ì
TẠO RA DỮ KHAI PHA
CUA DOANH oe DATABASE Ehin
Hình 1.1: Chu trình mô tả tac động qua lại giữa hoạt động của doanh nghiệp
và khai phá đữ liệu, phát hiện tri thức
Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn
Trang 12Cũng như tat cả các nước trên thế giới nền kinh tế Việt Nam cũng có sự đónggóp to lớn của các doanh nghiệp Do đó tạo mọi điều kiện thuận lợi và hỗ trợ tốt chodoanh nghiệp hoạt động là một nhiệm vụ hết sức quan trọng.
12 Giới thiệu đề tài
1.2.1 Lý do chọn đề tài
Dé nền kinh tế Việt Nam mạnh cần phải có ngày càng nhiều doanh nghiệp
mạnh, có tính cạnh tranh cao không chỉ trong nước mà cả ở nước ngoài Một
doanh nghiệp muốn vững mạnh cần xây dựng các chính sách, các hệ thống raquyết định trong kinh doanh một cách khoa học và kịp thời Muốn đề ra cácchính sách hay đưa ra các quyết định nay cần phải có sự phân tích dữ liệu liên
quan đến thị trường Tuy nhiên hiện nay việc phân tích dữ liệu nhất là việc áp
dụng các thuật giải khai phá dit liệu của công nghệ thông tin dé phân tích dữ liệu
là công việc còn nhiều hạn chế ở nước ta, cả ở tầm quốc gia lẫn trong các doanh
nghiệp Cuối năm 2006 Việt Nam gia nhập Tổ chức Thương mại Thế giới
(WTO), từ đây trở đi bắt buộc các doanh nghiệp trong nước phải bước vào sânchơi lớn toàn cầu nên việc cạnh tranh sẽ ngày càng gay gắt Vì vậy trong thế giớikhông còn sự bảo hộ của nhà nước mà ngày càng trở nên phẳng (khái niệm củaThomas L Friedman-nhà báo tác giả của cuốn sách Thé giới phẳng) công tác
phân tích dữ liệu trong các doanh nghiệp để có cơ sở đưa ra các quyết định, chính
sách đúng và hợp lý ngày càng có vai trò hết sức quan trọng Trong bối cảnh đó
đề tài “Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng
khai phá dữ liệu trong cơ sở dữ liệu ERP doanh nghiệp dược phâm” nhằm góp
phan đáp ứng nhu cầu phân tích dữ liệu của các doanh nghiệp, giúp cho doanh
nghiệp Việt Nam có cơ sở khoa học khi đưa ra các quyết định của mình.
1.2.2 Mục tiêu của đề tài
Trên cơ sở xác định loại hình nghiên cứu của để tài là nghiên cứu gan với
ứng dụng thực tiễn, mục tiêu của dé tài là Nghiên cứu và chọn một số thuật toángom cụm mờ phù hợp, tiến hành cải tiến các thuật toán này Xây dựng các
Trang 13tượng quan trọng trong cơ sở dữ liệu của hệ thống phần mềm ERP doanhnghiệp Với các chỉ tiêu cải tiễn thuật toán cơ bản được đặt ra như sau:
Hỗ trợ người dùng chọn lựa số cụm phù hợp để thực hiện việc gom cụm.Trong thực tế việc chọn số cụm phủ hợp có vai trò rất quan trọng Chẳng hạn
một công ty thực hiện việc gom cụm khách hàng thành hai nhóm khách hàng
thanh toán tốt và nhóm khách hàng thanh toán không tốt rồi có chính sáchphù hợp cho từng nhóm thì tác động của các chính sách đúng đắn nay sẽ demlại lợi ích rất lớn
Phân tích dit liệu sau khi gom cụm bằng các thuật toán cải tiến trên nhiều tậpđối tượng dữ liệu khác nhau và với nhiều số cụm khác khau Từ đó tìm kiếm
các qui luật, hằng số chuẩn hỗ trợ việc đưa ra khuyến nghị điều chỉnh số cụm
phù hợp nhất cho các tập đối tượng đữ liệu.
1.2.3 Các giai đoạn thực hiện đề tài
Quá trình nghiên cứu đề tài được tiến hành qua các bước như sau:
Giải đoạn I- Nghiên cứu lý thuyết, tìm kiếm tài liệu: Tìm hiểu về mặt lý
thuyết các thuật toán gom cụm mờ tiêu biéu từ những thuật toán kinh điểnđến những thuật toán mới nhất gần đây dé hiểu về các chức năng và các ưunhược điểm của chúng Từ đó làm cơ sở cho việc chọn lựa thuật toán phùhợp để cải tiến và xây dựng chương trình ứng dụng gom cụm các đối tượng
đữ liệu trong doanh nghiệp.
Giai đoạn 2- Tìm hiểu, chọn lọc dữ liệu: Nghiên cứu cơ sở dir liệu của hệthống phần mềm ERP doanh nghiệp dược phẩm từ đó chọn lọc các đối tượngquan trọng để thực hiện việc gom cụm
Giai đoạn 3- Cải tiên thuật toán và xây dựng chương trình ứng dung: Chon
một số thuật toán gom cụm mờ tiêu biểu phù hợp với các tập đối tượng dữliệu đã chọn ở giai đoạn 2 Đề xuất việc cải tiến các thuật toán này Xây dựng
chương trình cài đặt dựa trên các thuật toán đã cải tiến để gom cụm các đối
tượng đã chọn lọc ở trên, dựa trên kết quả gom cụm, phân tích dữ liệu cácnhóm đối tượng này Dựa trên số liệu phân tích dé đưa ra khuyến nghị số
Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huan
Trang 14cụm phù hợp, từ đó có thé thực hiện việc chạy lại thuật toán gom cụm với số
cụm phù hợp hơn.
© Giai đoạn 4- Tổng kết: Đánh giá các kết quả, kết luận và hướng phát triển
của dé tai
1.3 Đối tượng phạm vi nghiên cứu của dé tài
1.3.1 Cac thuật toán gom cụm mờ.
Đối tượng và phạm vi nghiên cứu của đề tài này là các thuật toán gomcụm mờ với độ đo trị khoảng và các chương trình liên quan đến nó phục vụ choviệc phân tích dữ liệu trong cơ sở dữ liệu của hệ thống phần mềm ERP doanhnghiệp dược phẩm
1.3.2 Cơ sở dữ liệu của hệ thống phần mềm ERP doanh nghiệp dược phẩm
và các thành phần liên quan
Đề tài cũng tìm hiểu về cách thức tổ chức, cấu trúc các bảng chứa dữ liệu
cũng như quá trình hình thành các đối tượng dữ liệu làm dữ liệu đầu vào cho các
chương trình ứng dụng sẽ được cài đặt ở chương 4.
1.4 Ý nghĩa khoa học và thực tiễn của đề tài
Hiện nay việc nghiên cứu, ứng dụng thuật toán gom cụm và đặc biệt là gom
cụm mờ đã được nhiều tác giả quan tâm đến Ở nước ta cũng đã có một số đề tài,
luận văn nghiên cứu về các thuật toán gom cụm mờ Tuy nhiên các tác giả chủ yếu
thực nghiệm trên các tập số liệu mẫu đề minh họa cho nghiên cứu của mình Không
chỉ dừng lại ở việc nghiên cứu lý thuyết theo xu hướng trên, để tài cũng đặt ra mụctiêu thực tiễn là xây dựng một chương trình chạy trên số liệu thật của Công ty cổphần Dược phẩm 3/2 (FT-Pharma) nhằm hỗ trợ doanh nghiệp trong việc phân tích
dữ liệu từ đó góp phần giúp đề ra các chính sách, quyết định đúng đắn Điều đó sẽ
làm tăng tính cạnh tranh trong hoạt động sản xuất kinh doanh của doanh ng
Chúng tôi đã được sự chấp thuận của Ban giám đốc Công ty cổ phần dược phẩm 3/2(FT-Pharma) cho sử dụng số liệu thật trong cơ sở dữ liệu của hệ thống phần mềm
ERP của họ vào quá trình nghiên cứu làm luận văn này (xem phụ lục 1).
Trang 151.5 Cấu trúc của luận văn
Luận văn bao gồm năm chương Chương | giới thiệu tổng quan về đề tài.Chương 2 trình bày về lý thuyết gom cụm như các độ đo, các phương pháp gom
cụm Chương 2 cũng giới thiệu một số thuật toán gom cụm mờ tiêu biêu như
FCM, Gom cụm mờ với tiêu chuẩn phân tách mới, Gom cụm gia tăng K-Means mờ
dựa trên K-Center và véctơ lượng tử Chương 3, Chương 4 chứa nội dung nghiên
cứu chính của đề tài Chương 3 giới thiệu về hệ thống phần mềm ERP cũng như cơ
sở dữ liệu của hệ thống phần mềm này, trình bày các bước chuẩn bị dữ liệu
Chương 4 đề xuất việc cải tiến thuật toán FCM có trọng số hỗ trợ việc điều chỉnh số
cụm với hai cách tiếp cận Thuật toán 1 đặt tên là FCM+ với phương pháp tính các
hệ số khuyến nghị điều chỉnh số cụm dựa trên tất cả các phần tử của cụm và Thuậttoán 2 đặt tên là FCM++ với phương pháp tính các hệ số khuyến nghị điều chỉnh số
cụm dựa trên tat cả các phần tử cực biên của cụm Chương này cũng giới thiệu các
chương trình ứng dụng được viết dựa trên các thuật toán cải tiến FCM+, FCM++ và
phân tích đữ liệu thu được từ kết quả thực hiện chương trình Dựa trên kết quả phântích đề xuất một số hằng số cho các hệ sé dé định hướng việc điều chỉnh số cụm
Chương 5 là phần kết luận và hướng phát triển của đề tài
Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huan
Trang 16Chương 2-LÝ THUYẾT VỀ GOM CỤM
21 Khái niệm[1][6][12]
Gom cụm đữ liệu là quá trình tìm những mẫu đại diện hoặc gom những đối
tượng dữ liệu tương tự nhau theo một tiêu chuân đánh giá nào đó thành những cụm.
Trong các cụm này các đối tượng dữ liệu trong cùng một cụm có độ tương đồng cao
hơn, còn các đối tượng đữ liệu ở các cụm khác nhau thì sẽ có độ tương đồng thấphơn theo tiêu chuẩn đánh giá đã chọn
Gom cụm đữ liệu là hình thức học không giám sát hay còn gọi là phương
pháp học không thầy Nó không đòi hỏi định nghĩa trước các mẫu dữ liệu huấnluyện vì vậy có thể coi gom cụm là phương pháp học bằng quan sát
2.1.1 Gom cụm rõ:
Là cách gom cụm mà một đối tượng dữ liệu khi ta xem xét ta thấy nó
tương đồng với nhóm nào nhất thì ta cho chúng vào nhóm đó Nói cách kháctrong gom cụm rõ một đối tượng đữ liệu hoặc là thuộc về hoàn toàn một nhóm
nào đó hoặc là không thuộc hoàn toàn vào nhóm nào đó mà thuộc hoàn toàn vào
nhóm kia Vi dụ trong thư viện việc sắp xếp sách theo ba nhóm sau Khoa học kỹ
thuật, Kinh tế, Văn học Một cuốn sách mới mua về chỉ có thể được sắp vào một
trong ba nhóm đó mà không thé xếp vào hai hay cả ba nhóm được
Thuật toán gom cụm rõ nồi tiếng và tiêu biểu là K-means
2.1.2 Gom cụm mờ:
Là một mở rộng của gom cụm rõ khi cho phép mỗi đối tượng dữ liệu cóthể thuộc về hai hay nhiều cụm thông qua mức độ thuộc về (membership) của đốitượng đó vào từng cụm Mức độ thuộc về (gọi tắt là Đồ thudc) nay là một giá trịthực nằm trong đoạn [0,1] Khi Độ thuộc của các đối tượng dữ liệu đối với mộtcụm nao đó tiến đến bằng 1 hoặc 0 thì việc gom cụm tiến đến gom cụm rõ, ngượclại là gom cụm mờ Tổng độ thuộc của một đối tượng dữ liệu đối với tất cả các
Trang 17khách hàng A thuộc về nhóm khách hàng có doanh số lớn với độ thuộc 0.8 Với ý
nghĩa như vậy một đối tượng đữ liệu thuộc về một cụm với độ thuộc càng cao thì
nó mang bản chất của cụm đó càng lớn và ngược lại
Thuật toán gom cụm mờ nỗi tiếng và tiêu biểu là FCM (Fuzzy C-Means)
Việc tối ưu của các thuật toán gom cụm mờ thường dựa trên việc tối thiểu hóa
một hàm mục tiêu Trong thuật toán gom cụm mờ FCM hàm mục tiêu được xác
x; vào cụm j (cụm j có C¡ là trọng tâm), m > I là tham số mờ hóa và d(x;, €j là
độ đo khoảng cách giữa đối tượng dit liệu x; và trọng tâm của cụm j_ là C¡.
2.2 Độ do [1][6][16]
Để gom cụm chúng ta cần một tiêu chuẩn đánh giá sự tương đồng giữa các
đối tượng dữ liệu cần gom cụm Thông thường đó chính là độ đo khoảng cách trong
không gian các đối tượng dữ liệu cần gom cụm Do mỗi không gian đối tượng dữ
liệu có những đặc trưng khác nhau nên không có một độ đo nào có thé dùng chungcho mọi trường hợp Tùy theo mục tiêu của bài toán gom cụm và bản chất của của
các đối tượng dữ liệu cần gom cụm mà người dùng chọn cho mình một đo khoảng
cách phù hợp với mục đích của bài toán đặt ra.
2.2.1 Các tính chất của độ đo
Gọi S là không gian các đối tượng dit liệu, x, y, z là các phần tử dữ liệu
trong X Độ đo khoảng cách d làm hàm số d: SxS —›R thỏa bốn tính chat sau:
d(x,y) > 0 (tính chất không âm)d(x,y) = 0 nếu x = y (tính chất điểm)
d(x,y) = d(y,x) (tính chất đối xứng)
d(x,y) < d(x,z) + d(z,y) (tính chat bat dang thức tam giác)
Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huan
Trang 18Với các điều kiện như vậy thì khi d(x,y) càng nhỏ thì x và y càng gần nhautức càng tương đồng với nhau.
2.2.2 Các kiểu dữ liệu cơ sở
Trong thực tế các đối tượng dữ liệu có thể có nhiều kiểu thuộc tính khác
nhau Mỗi thuộc tính nay đặc trưng bằng một kiểu dữ liệu cơ sở Do đó dé xây
dựng được độ đo cho đối tượng đữ liệu ta phải xây dựng được độ đo cho các kiểu
cơ sở Các kiểu dữ liệu cơ sở thường gặp là biến trị khoảng (interval value), nhị
phân đối xứng (symmetric binary), nhị phân bất đối xứng (asymmetric binary),
định danh (niminal), thứ tự (ordinal), tỷ lệ khoảng (ratio-scaled).
2.2.2.1 Biến trị hoảng
Các biến trị khoảng là độ đo liên tục của các đại lượng tuyến tính đơn
giản như khoảng cách xa gan, chiéu cao, trọng lượng, nhiệt dé
Đơn vị đo có thể ảnh hưởng đến kết quả gom cụm do đó để tránh sự
phụ thuộc vào đơn vị đo đôi khi cần phải chuẩn hóa dit liệu trước khi thực
hiện gom cụm.
e Chuẩn hóa các độ do
Phương pháp chuẩn hóa độ đo cho biến trị khoảng như sau:
Tinh sai biệt tuyệt đối trung bình:
Trang 19với i= (Xụ, Xø, Nip) Và j = (X/, Xj Xp) là các đối tượng dữ liệup-chiều và q là số nguyên đương (q>0)
- Khoảng cách Manhattan là khoảng cách Minkowski khi q = 1.
dij) = Ixa-x al +lxi2-x jal + 4lxip—X jpl
- Khoang cach Euclide la khoang cach Minkowski khi q = 2.
Đây chính là khoảng cách hình học trong không gian n chiều
số của tất cả các thuộc tính của đối tượng dữ liệu bằng 1 Tùy theo
từng bài toán gom cụm và đối tượng dữ liệu cụ thể mà chọn các trọng
số cho các thuộc tính cho phù hợp
2.2.2.2 Biến nhị phân đối xứng
Biến nhị phân là biến chỉ có hai giá trị là 0 hay 1 Biến nhị phân là đối
xứng nếu hai giá trị này có ý nghĩa tương đương tức là không xem trọng giá trị
nào Độ tương đồng dựa trên biến nhị phân đối xứng được gọi là tương tự bất
biên.
Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn
Trang 20Bang 2.1: Bang sự kiện (contigency table) cho biến nhị phân (cả đốixứng và bất đối xứng)
2.2.2.3 Biến nhị phân bat đối xứng
dŒj) =
Biến nhị phân là bất đối xứng nếu có một giá trị có ý nghĩa quan trọng
hơn (thường là giá trị 1) Lúc đó thường có xu hướng thiên vị cho giá trị ưu tiên đó.
Hệ số đối sánh cho biến nhị phân bất đối xứng:
2.2.2.4 Biến định danh
Biến định danh là biến nhận nhiều hơn hai giá trị Ví dụ biến màu sắc
có thể nhận các giá trị: đỏ, vàng, xanh, lục Có hai phương pháp để xác định
khoảng cách theo biến định danh:
¢ Hé6 số đối sánh đơn giản:
aij) = P“
P
Trang 21e Đưa biến định danh về biến nhị phân bằng cách thay mỗi giá trị địnhdanh bằng một biến nhị phân mới Ví dụ biến màu sắc (đỏ, vàng, xanh,lục) có thể chuyển thành bốn biến nhị phân: đỏ (có/không), vàng
(có/không), xanh (có/không), lục (có/không).
2.2.2.5 Biến thứ tự
Biến thứ tự là bién trên một tập giá trị có xác định quan hệ thứ tự trên
đó, ví dụ xếp hạng trong học tập: giỏi, khá, trung bình, yếu Trong biến thứ tự
thì thứ tự của các trị là quan trọng Biến thứ tự có thể rời rạc hoặc liên tục
Độ đo cho biến thứ tự được xây dựng như sau:
Giả sử ta có biến thứ tự xị
e Thay thế xị bởi hạng của chúng xj; € {1, ,Mr}
¢ Ánh xạ hạng của từng biến vào [0,1] bằng cách thay thế đối tượng i trong
2.2.2.7 Biến có kiểu hỗn hợp
Đối tượng dữ liệu có thể có các thuộc tính gồm cả sáu loại biến đơn
như trên Trong trường hợp đó có thể dùng công thức được gan trọng dé kếthợp các hiệu quả của các biến thành phần
Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn
Trang 22Li Ndi)
aaj) =o
X6;(f)
fal
Trong đó 6, được tính như sau:
84 (£) = 0 khi xị hoặc x;: không tồn tại hoặc xi¢ = xj =
ð¡(Ð = 1 trong các trường hợp còn lại.
Ngoài ra d¡() được tính như sau:
Đối với biến trị khoảng hoặc thứ tự:
di(f) là khoảng cách đã được chuẩn hóa
e_ Đối với các biến nhị phân hoặc định danh:
- dụ@) =0 khi xị = xịr = 0.
- dj(f) = 1 trong các trường hợp khác.
2.3 Ý nghĩa của gom cụm
Gom cụm có vai trò hết sức quan trọng trong đời sống thường ngày của con
người, đôi khi nó thật tự nhiên như chúng ta gom các cây bút vào một chỗ, các cuốnsách hay tạp chí vào một chỗ khác Con người biết rằng gom các vật dụng tương
đồng nhau như vậy vào một cụm dé sau này có thé dé dang “cư xử” với chúng nhưtìm kiếm hay di chuyển chúng chăng hạn
Mục tiêu của gom cụm là xác định được bản chất nhóm (sự tương đồng)
trong tập đối tượng dữ liệu chưa gan nhãn Sau khi xác định được bản chất nhóm
của từng cụm đữ liệu như vậy chúng ta sẽ có những xử lý tiếp theo đối với các cụmnhư đánh giá lại việc gom cụm như vậy có phù hợp với bài toán đặt ra, đề ra cácchính sách tương ứng cho bản chất mỗi cụm Ví dụ như trong bài toán gom cụmkhách hàng trong doanh nghiệp làm sao chúng ta tìm ra được bản chất các nhómkhách hàng dé đưa ra được các chính sách phù hợp cho mỗi nhóm
Trang 232.4 Các yêu cầu của gom cụm[1][6]
Có khả năng làm việc h quả với lượng dữ liệu lớn: Các thuật toán gom
cụm tốt không chỉ chạy tốt trên các tập dữ liệu nhỏ mà nó phải làm việc hiệu
quả với các tập dit liệu lớn.
Có khả năng thích nghỉ với nhiều loại dữ liệu khác nhau: Chúng ta biết
rằng nhiều đối tượng dữ liệu có các thuộc tính có kiểu dữ liệu đơn khác nhau
hoặc thậm chí là kiểu hỗn hợp nên các thuật toán gom cụm phải có khả năngthích nghỉ với nhiều loại dit liệu khác nhau
Có kha năng khám phá các cụm có hình dang bất kỳ: Về mặt tổng quátcác cụm dữ liệu trong thực tế có thể có hình dạng bất kỳ nên yêu cầu cácthuật toán gom cụm có khả năng khám phá các cụm có hình dạng bất kỳ là
thật sự cần thiết
Có khả năng làm việc với dữ liệu nhiễu và mẫu cá biệt: Trong thực tế các
tập đối tượng dữ liệu có thể chứa các dữ liệu nhiễu, dữ liệu sai, dữ liệu ngoại
lai, Một thuật toán gom cụm tốt phải có khả năng xử lý với các đữ liệunhiễu và các mẫu dữ liệu cá biệt
Yéu cầu tối thiểu tri thức lĩnh vực nhằm xác định các tham số đầu vào:Nhiều thuật toán gom cụm thường yêu cầu các tham só đầu vào như số cụm,tham số mờ hóa Kết quả gom cụm thường khá nhạy cảm với các tham sốđầu vào này Một thuật toán gom cụm tốt thường phải yêu cầu càng ít tham
số càng tốt và cũng chỉ yêu cầu ít nhất tri thức dé xác định các tham số này.Không bị ảnh hướng bởi thứ tự nhập của dữ liệu: Một tập đối tượng dữliệu tại từng thời điểm khác nhau có thể có thứ tự khác nhau Một thuật toán
gom cụm tốt thường không bị ảnh hưởng bởi thứ tự của tập đối tượng đữ liệu
đưa vào Điều đó có nghĩa là cùng một tập đối tượng dữ liệu nhưng khi đưavào thuật toán theo những thứ tự khác nhau mà kết quả gom cụm vẫn giống
nhau thì thuật toán không bị ảnh hưởng bởi thứ tự nhập của dữ liệu.
Làm vi tốt trên các đối tượng di u có số chiều lớn: Trong thực tế cónhững đối tượng dữ liệu chỉ có một vài thuộc tính nhưng cũng có những đối
Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huân
Trang 24tượng dữ liệu đôi khi có thể có hàng ngàn thuộc tính Một thuật toán gomcụm tốt thường phải làm việc tốt trên tất cả các đối tượng dữ liệu kê cả đốitượng đó có số chiều lớn
Chấp nhận các ràng buộc do người dùng yêu cầu: Nhiều ứng dụng thực tế
không chỉ thực hiện việc gom cụm mà trong quá trình gom cụm còn phải đáp
ứng các ràng buộc do người dùng đặt ra.
Có thể hiểu và sử dụng được kết quả gom cụm: Một thuật toán gom cụmtốt phải cho ra các kết quả dé hiéu và dé sử dụng
Các ứng dụng của gom cụm dữ liệu [1][6]
Gom cụm đữ liệu được ứng dung trong rat nhiều lĩnh vực:
Sản xuất, thương mại: Tìm kiếm nhóm các mặt hàng đem lại doanh số lớn,
lợi nhuận cao, bán chay dé tập trung sản xuất, kinh doanh Tìm kiếm các
nhóm khách hàng đem lại cho công ty nhiều lợi nhuận, thanh toán tiền mua
hàng tốt để có các chính sách chăm sóc như chiết khấu, thưởng, khuyếnmãi phù hợp, cũng như các nhóm khách hàng nợ xấu, nợ quá hạn để có
chính sách thu hồi công nợ phù hợp hoặc tạm ngưng bán hàng cho các đối
tượng này để tránh rủi ro
Bao hiểm: Phân nhóm các khách hàng có chi phí bảo hiểm bắt thường dé tìm
hiểu, kiểm tra nhằm chống gian lận
Sinh học: Phân nhóm gen, phân nhóm giống loài để phục vụ việc nghiên
cứu.
Qui hoạch, tài nguyên, môi trường: Phân loại đất đai theo công năng sửdụng, phân loại sự phân bố của tài nguyên khoáng sản, phân loại các địaphương, vùng bị 6 nhiém dé quản ly
Tiền xử lý cho các thuật toán khác: Đôi khi người ta dùng kết quả của
thuật toán gom cụm là bước tiền xử lý dé làm dit liệu đầu vào cho các thuật
toán khác.
Trang 252.6 Các phương pháp gom cum [19]
Dựa trên cách tiếp cận và thuật toán sử dụng, có các phương pháp gom cụm
chính được trình bày sau.
2.6.1 Các phương pháp phân hoạch [1][6]
Đây là phương pháp tạo phân hoạch n đối tượng dữ liệu cần gom cụm
thành k cụm sao cho:
© _ Mỗi cụm chứa ít nhất một đối tượng
© Moi đối tượng thuộc về một cụm duy nhất
© kiàsố cụm đã được cho trước
Đây là các yêu cầu của phương pháp gom cụm rõ Tuy nhiên từ khi xuất
hiện phương pháp gom cụm mờ thì yêu cầu thứ hai (mỗi đối tượng thuộc về một
cụm duy nhất) là không còn cần thiết, mà thay vào đó là mức độ thuộc về
(membership) của đối tượng vào cụm Mức độ thuộc về này có giá trị trong đoạn
[0,1] Khi mức độ thuộc về chỉ có các giá trị hoặc là 0 hoặc là 1 thì ta có gomcụm rõ Như vậy có thể nói gom cụm mờ là một sự mở rộng tự nhiên của gom
cụm rõ và nó tông quát hơn gom cụm rõ
Các thuật toán gom cụm có độ phức tạp rất lớn khi xác định nghiệm tối ưu
toàn cục bằng phương pháp vét cạn do nó phải tìm kiếm tất cả các cách phânhoạch có thể có được Với số cụm k cho trước và n đối tượng dit liệu cần gomcụm có thé có (k" - (k-1)” - -1) khả năng gom cụm khác nhau Đây là con sốquá lớn nếu n lớn do đó các thuật toán tối ưu toàn cục bằng phương pháp vét cạn
là không có tính khả thi Chính vì vậy trên thực tế người ta thường đi tìm giải pháp tối ưu cục bộ cho bài toán gom cụm bằng cách sử dụng một hàm mục tiêu làm tiêu chuẩn đánh giá chất lượng gom cụm cũng như xác định điểm dừng cho thuật toán Trong giải pháp tối ưu cục bộ người ta thường sử dụng các phương pháp heuristic Chẳng hạn trong thuật toán K-means thì mỗi cụm được đại điện bằng trọng tâm của cụm đó, còn trong thuật toán K-
medoids mỗi cụm lại được đại diện bởi một đối tượng của cụm
Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn
Trang 26Các thuật toán tiêu biểu của phương pháp phân hoạch là K-means,
C-means, PAM
2.6.2 Các phương pháp phân cấp [1][6]
Đây là các phương pháp tạo phân cấp cụm chứ không tạo phân hoạch các
đối tượng Nghĩa là nó sẽ sắp xếp một tập đối tượng dit liệu đã cho thành một cấu
trúc có dạng hình cây Phương pháp này không cần xác định trước số cụm mà số
cụm sẽ do khoảng cách giữa các cụm hoặc điều kiện dừng của thuật toán quyết
định Tiêu chuẩn gom cụm thường được xác định bởi ma trận khoảng cách
Có hai cách tiếp cận của phương pháp phân cấp là:
e Gộp cụm:
- Xuất phát từ mỗi đối tượng và tạo một cụm chứa nó
- Nếu hai cụm đủ gần nhau (dưới một ngưỡng nào đó) sẽ được gộp lại
thành một cụm duy nhất
- Lap lại bước hai cho đến khi thỏa điều kiện dừng hoặc chỉ còn một cụm
duy nhất là toàn bộ không gian
e Tách cum:
- Xuat phát từ một cụm duy nhất là toàn bộ không gian
- Chon cụm có độ phân biệt cao nhất (ma trận phân biệt có phan tử lớn
nhất hoặc trị trung bình lớn nhất) đề tách đôi Bước này sẽ áp dụng các
phương pháp phân hoạch đối với cụm đã chọn
-_ Lặp lại bước hai cho đến khi thỏa điều kiện dừng hoặc mỗi đối tượng
thuộc một cụm
Trang 27“—T———————ễ Tách
Bước 4 Bước 3 Bước 2 Bước 1 Bước 0
Hình 2.1: Hai phương pháp tiếp cận phân cấp
Trong các phương pháp này các khoảng cách thường được dùng là:
d(C¡, Cj) = avg xec¡, ycc¡ (dŒ,y)}
e© Khoảng cách trọng tâm
d(C¡, C)) = {d(a,b)} với a là trọng tâm của cụm C¡, b là trọng tâm của cụm C¡.
Các thuật toán tiêu biểu của phương pháp phân cấp là CURE, BIRCH
2.6.3 Các phương pháp dựa trên mật độ [2][6]
Các phương pháp dựa trên mật độ dựa trên ý tưởng:
© Mỗi cụm là một vùng dày đặc (dense region) gồm các đối tượng dit liệu Các
đối tượng đữ liệu trong vùng thưa hơn được xem là nhiễu.
© _ Mỗi cụm có dang tùy ý.
Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn
Trang 28Để hiểu rõ phương pháp gom cụm dựa trên mật độ chúng ta xem xét một
số khái niệm sau:
© Cho p, q, o là các đối tượng dữ liệu trong không gian D
© _ Với ø >0 cho trước, tập hợp Ne(p) = {q | d(q,p) < #} được gọi là lân cận bán
kính ¢ của p Hay nó còn gọi là vùng láng giềng bán kính ¢ của một đối
tượng, gọi tắt e-neighborhood
© MinPts: số lượng đối tượng ít nhất được yêu cầu trong z-neighborhood của
một đối tượng còn được gọi là ngưỡng trù mật
- _ Nếu đối tượng p có ø-neighborhood với MinPts thì đối tượng này được
gọi là đối tượng hạt nhân (core object)
/o / »
s
Hình 2.2: Minh họa đối tượng hạt nhân
p: là đối tượng hạt nhân (MinPts = 3)
q: không phải là đối tượng hạt nhân
- Đối tượng p được gọi là điểm biên nếu nó không phải là đối tượng hạt
nhân.
-q được gọi là đi tới được trực tiếp theo mật độ từ p nếu p là một điểm
hạt nhân và q thuộc lân cận của p.
- Pa được gọi là di tới được theo mật độ từ p\ nếu tồn tại một dãy các
điểm Pi» Pitt (i=2, ,n-2) sao cho pị¿¡ đi tới được trực tiếp theo mật độ
từ pi.
- pvaq được gọi là có kết nối theo mật độ nếu tồn tại điểm o sao cho cả
p và q đều đi đới được theo mật độ từ o theo các thông số ø và MinPts
Trang 29Hình 2.3: Hình minh họa kết nối theo mật độ của pvàq
Với ý tưởng ban đầu được nêu ở trên sau khi hiểu được khái niệm kết nối
theo mật độ ta có thể phát biểu lại mục tiêu gom cụm các thuật toán dựa trên mật
độ như sau: một cụm là một tập tối đại các điểm có kết nói mật độ
Border | il Outlier
Core
Hinh 2.4: Cac cum trong thuat toan gom cum theo mat d6 va phan tử nhiễu
DBSCAN là thuật toán tiêu biêu của phương pháp gom cụm theo mật độ.
Ngoài ra còn có một số thuật toán khác theo phương pháp này như OPTICS,
DENCLUE.
Luận Văn Thạc Si Công Nghệ Thông Tin Đoàn Huân
Trang 302.6.4 Các phương pháp dựa trên mô hình [2][6]
Đây là phương pháp dựa trên sự phù hợp giữa dữ liệu và các mô hình toán
học Phương pháp này dựa trên ý tưởng: Dữ liệu phát sinh từ một sự kết hợp nào
đó của các phân phối xác suất ân Có một số phương pháp tiếp cận chính:
e Tiếp cận thống kê: một giải thuật tiêu biểu là EM
(Expectation-Maximization) Đó có thê xem là sự mở rộng của giải thuật gom cụm dựa
trên phân hoạch k-means.
e Tiếp cận học máy: gom cụm ý niệm (conceptual clustering): Tạo ra cách
phân lớp các đối tượng chưa được gán nhãn dựa vào các mô tả đặc trưng chomỗi nhóm đối tượng ứng với mỗi khái niệm (concept)
e _ Tiếp cận mang neural: Self-Organizing Feature Map (SOM)- bản đồ tự cầu
trúc SOM.
- Biéu diễn mỗi cụm là một ví dụ tiêu biểu (exemplar)
- Một ví dụ tiêu biểu đóng vai trò của một prototype của cụm
- Các đối tượng mới được phân bố vào một cụm nếu tương tự với ví dụ
tiêu biểu của cụm đó nhất dựa trên độ đo khoảng cách
Trang 31Trong hình 2.5 mỗi cụm tương ứng với một phân phối xác suất, trung tâmcụm đặt tại giá trị trung bình và với một độ lệch chuẩn Ở đây có hai cụm tương
ứng với hai phân phối Gaussian g(m), ø¡) và g(mạ, ø).
Các thuật toán tiêu biểu của phương pháp mô hình là EM, COBWEB
2.6.5 Các phương pháp dựa trên lưới [3][6]
Ý tưởng của phương pháp này là tiếp cận dựa trên lưới dùng cấu trúc ditliệu đa phân giải Trước tiên nó lượng tử hóa không gian dữ liệu vào trong một sốhữu hạn các ô mà đã hình thành nên cấu trúc lưới, sau đó thực hiện tất cả cácthao tác trong cau trúc lưới đó Cách tiếp cận dựa trên lưới này không di chuyểncác đối tượng trong các ô mà xây dựng nhiều mức phân cấp của nhóm các đốitượng trong một ô Phương pháp này rất phù hợp với các phân tích gom cụm ứngdụng trong không gian (phân loại sao, thiên hà ) Ưu điểm của phương phápnày là xử lý nhanh và độc lập với số đối tượng dit liệu trong tập dữ liệu ban đầu,
tuy nhiên nó lại phụ thuộc vào số ô trong mỗi chiều của không gian lưới Hình
sau là một ví dụ về cau trúc lưới:
Hình 2.6: Mô hình cau trúc lưới
Các thuật toán điển hình theo phương pháp gom cụm dựa trên lưới là
STING, WaveCluster, CLIQUE
2.7 _ Thuật toán Fuzzy C-means (FCM) [6][7][10]
Các bước của thuật toán Fuzzy C-Means:
Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn
Trang 32Ngược lại nếu dị = 0 thi x; trùng với trọng tâm Cj của cụm j, tị = 1.
Nếu sự thay đổi của ma trận U là đủ nhỏ so với bước kế trước thì chuyên
đến bước 8 Ngược lại thì lặp lại từ bước 4
Để xác định là U thay đổi nhỏ thì có thể dùng một độ đo khoảng cách matrận nào đó như sai số trung bình, sai số lớn nhất
Ở đây chúng tôi dùng:
() co) on
max! He, - M, |<epsilon Với nghĩa gÿ, là //, tai bước lặp
Trang 338 Dựa trên ma trận U, sắp xếp các đối tượng dit liệu x;, cùng độ thuộc lớn
nhất của nó vào các cụm theo qui tắc xét độ thuộc của đối tượng đữ liệu
đó với từng cụm, đối tượng dữ liệu sẽ thuộc vào cụm nào có độ thuộc lớn
nhất, nếu có từ hai độ thuộc lớn nhất bằng nhau trở lên thì chọn một trong
số các cụm đó để đưa vào Thuật toán kết thúc
2.8 Một số nghiên cứu mới về gom cụm mờ
Dé cập nhật một số thành tựu nghiên cứu mới về gom cụm mờ, phan này xin
giới thiệu hai công trình là Gom cụm mờ với tiêu chuẩn phân tách mới (Fuzzy
Clustering with Novel Separable Criterion) [20] và Gom cụm gia tăng K-Means mờ dựa trên K-Center và véctơ lượng tử (Fuzzy K-Means Incremental Clustering Based
on K-Center and Vector Quantization) [13].
2.8.1 Gom cụm mờ với tiêu chuẩn phân tách mới
Thuật toán gom cụm mờ cải tiến này đã được phát triển dựa trên thuật
toán Fuzzy C-Means (FCM) cổ điển để đạt được các kết quả gom cụm chất
lượng tốt hơn Việc cập nhật các biểu thức tính toán cho thành viên và trung tâmcụm nhận được từ thuật toán tối ưu luân phiên Hai ma trận phân bố mờ tronghàm mục tiêu đảm bảo cho độ chặt giữa các điểm dữ liệu và các trung tâm cụm
và cũng củng có sự phân chia giữa các trung tâm cụm bằng một tiêu chuẩn phân
chia mới Các đặc tính của thuật toán gom cụm được đề nghị chỉ ra sự cải tiến
hơn các đặc tính của phương pháp FCM Sự mô phỏng số học chỉ ra rằng thuậttoán gom cụm này có nhiều kết quả gom cụm chính xác hơn phương pháp FCM
Theo các tác giả trong FCM hàm mục tiêu đi theo ma trận phân bó trongcụm với các cụm hình cầu nhằm đạt được sự cực tiểu hàm mục tiêu với sự tối ưu
một cách luân phiên.
Các thuật toán gom cụm khác như GK[9], GG[11] được phát triển đểkhám phá các cụm có cấu trúc không phải hình cầu nhưng cả hai phương phápnày đều thiếu quan tâm đến các mối quan hệ giữa các trung tâm cụm trong hàmmục tiêu Sự tương thích của các điểm với các trung tâm cụm là được bảo đảm
trong phương pháp PCM được trình bày bởi Krishnapuram va Keller [17] Tuy
Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn
Trang 34nhiên thuật toán của họ biểu thị cách xử lý không tốt bởi vì không có các mốiliên hệ giữa các cụm [15] Khái niệm về sự qui tắc hóa đã được sử dụng bởi
Ozdemir và Akarun [8] trong thuật toán sự phân chia giữa các cụm (ICS) và bởi
Yang cùng những người khác [18] trong thuật toán phân tách và nén mờ (FCS).
Không may thuật toán ICS có các hàm mục tiêu khác nhau đối với các trung tâmcụm khác nhau với giới hạn điều chỉnh chỉ được xem xét như một sự xáo trộn
“Thuật toán FCS có các ranh giới nhân cứng phụ thuộc vào các thực nghiệm va tất
cả các điểm đữ liệu trong một nhân không thé tách bạch bởi vì chúng có các giá
trị độ thuộc giống nhau
Với việc phân tích về các thuật toán trên các tác giả đã thực hiện việc cảitiến bằng cách mô tả một hàm mục tiêu mở rộng gồm có một ma trận phân bổbên trong cụm mờ và một ma trận phân bố các trung tâm giữa các cụm mới.Thuật toán gom cụm mờ tương ứng đảm bảo độ chặt giữa các điểm dữ liệu và
giữa các trung tâm cụm và cũng làm đủ mạnh sự phân tách giữa các trung tâm
cụm dựa trên tiêu chuẩn phân tách
Thuật toán Gom cụm mờ với tiêu chuẩn phân tách mới:
Khởi tạo:
Cho tập dữ liệu Z, gán bộ đếm số lần lặp 1 = 0 và m > 1 Chọn số trung
tâm cụm ban đầu c, tiêu chuẩn kết thúc € > 0, và tham số 0 < B <1
Khởi tạo ngẫu nhiên ma trận độ thuộc U®= [Hijlexn với {ij là độ thuộc
của z¡ vào vị Khởi tạo ma trận trọng số UO = Lêwle với Mm là
trọng số giữa vị và vụ
Bước 1: Tính các trung tâm cụm v; theo công thức:
Trang 35Trường hợp đặc biệt sẽ xuất hiện trong hai biéu thức cập nhật khi
"
|:,-»l=9 of > =nE&=0 =| " 1)
trong bat kỳ lần lặp nào Khi điều đó xảy ra thì giá trị 0 sẽ được gan vào
trung tâm cụm tương ứng và độ thuộc được chọn tùy ý sao cho thỏa sự
Ba đặc tính quan trọng của thuật toán Gom cụm mờ với tiêu chuẩn phân
tách mới so với thuật toán FCM như sau:
e Ham mục tiêu của thuật toán FCM chỉ xem xét ma trận phân bố bên trong
cụm, trong khi thuật toán được đề nghị bao gồm cả ma trận phân bố bên
Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn
Trang 36trong cụm và ma trận phân bố giữa các cụm Do đó sự cực tiểu hóa hàm mụctiêu của thuật toán dé nghị làm gia tăng một cách hiệu quả cả việc làm chặt
và tách cụm.
e _ Cả hai thuật toán sử dụng thuật toán tối ưu luân phiên.
© So sánh biểu thức cập nhật trung tâm cụm của FCM và của thuật toán đề
nghị chỉ ra rằng cả tử số và mẫu số của biểu thức cập nhật trung tâm cụm củathuật toán đề nghị có những chức năng đặc biệt đó là cải thiện sự chính xáccủa trung tâm cụm Tuy nhiên độ phức tạp tính toán của thuật toán đề nghịcũng gia tăng So sánh với biểu thức cập nhật trung tâm cụm của FCM, biểuthức cập nhật trung tâm cụm của thuật toán dé nghị tăng thêm 2(c+1) toán tử
cộng (+), (3+c+3+2c”) toán tử nhân, 2 toán tử định chuẩn và 2 toán tử luận lý
trong một bước lặp.
2.8.2 Gom cụm gia tăng K-Means mờ dựa trên K-Center và véctơ lượng tử.
Các tác giả đã kết hợp thuật toán K-means mờ và véc tơ lượng tử dé bổsung cho nhau trong phương thức tăng cường bởi vì mỗi phương pháp có những
ưu điểm mà phương pháp kia không có Ngưỡng của véctơ lượng tử là được chotrước và kiểu tính toán khoảng cách giữa điểm dữ liệu mới đến và k trung tâm làđược giới thiệu theo một cách mới Đầu tiên các tác giả giảm các thuộc tính dưthừa và loại trừ sự khác nhau về đơn vị tính của các chiều và làm cho các đơn vị
tính của tắt cả các thuộc tính giống nhau
Sau đó các tác giả sử dụng k-center để đưa ra k giá trị trung bình ban đầu
và phân hoạch các điểm dữ liệu vào không nhiều hơn k cụm Bên cạnh đó các tác
giả chọn véctơ lượng tử để phân lớp các điểm dữ liệu tăng cường và sau đó điều
chỉnh các giá trị trung bình sau khi cấu trúc của cụm thay đổi
Cuối cùng áp dụng thuật toán mới vào tập dit liệu thực và các kết qua của
nó chỉ ra sự hiệu quả và chính xác của nó.
Trang 37Đầu tiên sẽ trình bày thuật toán thuật toán k-means mờ có trọng số, sau đó
sẽ trình bày thuật toán Gom cụm gia tăng K-Means mờ dựa trên K-Center và véctơ lượng tử:
e _ Thuật toán thuật toán k-means mờ có trọng số:
Bước 1:
Nhập các tham số ø, n, k, y và thời gian lặp tối đa s
Khởi tạo các trọng số ban đầu @¡= l/m
Bước 2:
Đặt tất cả các điểm dữ liệu vào trong tập H và đê cho tập các trung tâm C
là rỗng Chọn một điểm ngẫu nhiên từ H làm trung tâm thứ nhất và đặt
nó vào C đồng thời xóa khỏi H
Bước 3:
Đánh giá điểm dữ liệu trong H mà xa nhất đối với các điểm dữ liệu trung
tâm trong C làm trung tâm tiếp theo và đặt nó vào C đồng thời xóa khỏi
Trang 38Lặp lại Bước 5 đến Bước 6 cho đến khi F(T,W,C) không thẻ cải thiện
thêm nữa hoặc thời gian lặp lớn hơn s.
e - Thuật toán Gom cum gia tăng K-Means mờ dựa trên K-Center và vécto
lượng tử.
Bước 1:
Loại bỏ sự khác nhau của các đơn vị tính của các chiều theo (19) là công
thức sẽ làm tất cả các điểm dữ liệu có chiều zero
ee) ism (19)
fi R
Trang 39Bước 2:
Phân hoạch các điểm dit liệu ban đầu vào k cụm sử dụng thuật toán
k-means mờ có trọng số được đề cập ở trên
Bước 3:
Sắp xếp k giá trị trung bình vào một vector lượng tử có cấu trúc hình cây
sử dụng hai trọng tâm gom cụm được chỉ ra trong Hình 2.7:
Hoạt động thiết lập cây có thể được chỉ ra như sau:
1 Cho số của các lớp của cây 141 = 1 và số của các nhóm g = 1 đối với
lớp I, sau đó chúng ta tính toán giá trị trung bình của tat cả k trung tâm
và đặt nó vào gốc của mức đầu tiên của cây và tắt cả các trung tâm là ở
trong một nhóm.
2 Tăng 1=1+ 1, chúng ta chia mỗi một nhóm của các nhóm đang tồn tại
thành hai nhóm nhỏ và ở đây có thé có nhiếu nhất 2'' nhóm và dé các
giá trị trung bình của các trung tâm của các nhóm nhỏ mới thành các
Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn
Trang 40gốc của lớp | và mỗi giá trị trung bình thay thế cho một nhóm đối vớilớp I, cho gla số nhóm thực sự.
3 Nếu tất cả các nhóm chỉ có một trung tâm thì dừng lại, ngược lại đi đến
bước 2.
Trên thực tế, chúng ta biết rằng tất cả k giá trị trung bình của thuật
toán k-means mờ là lá của cây từ quá trình của việc thiết lập cây
(Lưu ý: Tập đữ liệu ban đầu gồm có k cụm, giá trị trung bình của k
cụm này là nút gốc đầu tiên, giá trị trung bình của k/2 cụm bên trái là nútgốc lớp tiếp theo và giá trị trung bình của k/2 cụm bên phải cũng là nút gốc
lớp tiếp theo )
Bước 4:
Trích ra một điểm dữ liệu mới đến tiếp theo x” (trường hợp online) hay
bóc trích một mẫu dữ liệu từ ma trận dữ liệu một cách ngẫu nhiên hay có
thứ tự (trường hợp offline), sử dung (19) dé làm nó không có chiều
Bước 5:
Tính khoảng cách của điểm dữ liệu được chọn đến gốc của cây và các
cây con của nó bằng cách sử dụng khoảng cách Euclidean như sau:
Gia sử x" là gần hơn mị so với mị thì chúng ta chi cần tính hai khoảng
cách giữa x’ và mj; và x’ và Miz, giả sử khoảng cách giữa x’ và mj; là nhỏ
hơn, thì chúng ta cần tính hai khoảng cách cách giữa x” và mại; và x” và
TịJa; Nếu khoảng cách cách giữa x’ và mị¡¡ là nhỏ hơn và mj, không
có các điểm con thì x” là gần nhất đối với mj)