Khi đĩ DAvemax4” được định nghĩa như sau: umin + umax Davemax 41 = 5 Ý tưởng của phương pháp này là chúng ta chỉ quan tâm đến các giá trị của X mà tại đĩ nĩ phù hợp hay tương thích với n
Trang 1BO GIAO DUC VA DAO TAO
ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC
NGUYÊN TRUNG HIẾU
TÌM HIỂU MỘT SỐ PHƯƠNG PHÁP
PHAN CUM MO VA UNG DUNG VAO PHAN TICH THONG TIN RUI RO TRONG
QUAN LY THUE DOANH NGHIEP CHUYEN NGANH: KHOA HOC MAY TINH
MA SO: 8.48.01.01
LUAN VAN THAC SI KHOA HOC DINH HUGNG UNG DUNG
NGƯỜI HƯỚNG DAN KHOA HOC TS NGUYEN CONG HAO
Thừa Thiên Huế, 2020
Trang 2
Lkhix €A
As (x) = (1.1)
0 khix €A
Mic da Aa va A la hai déi tuong toan hoc hoan toan khac nhau, nhung chung đều biểu diễn cùng một khái niệm về tập hop: x € A khi va chi khi Aa (x) = 1, hay x thuộc vào tập A với “độ thuộc vào” bằng 1, vi vay ham Aa duoc gọi là hàm đặc trưng của tập A Như vậy tập hợp A co thể được biểu thị bằng mot ham ma gia tri
của nĩ là độ thuộc về hay đơn giản là độ thuộc của phần tử trong X vào tập hợp A:
Néu Aa (x) = 1 thì x € A với độ thuộc là 1 hay 100% thudc vao A, con néu Aa (x) =
0 thi x £ A với độ thuộc là 0 hay khơng thuộc vao A
1.1.1 Khái niệm tập mờ
Định nghĩa 1.1 Cho một tập vũ trụ X Tập hợp A~ được xác định bởi đẳng thức: A“={z(u)/u:u€X,/-(u) €[0, I]} được gọi là một tập hợp mờ trên tập X
Biến z lẫy giá trị trong X được gọi là biển cơ sở và vì vậy tập X cịn được gọi là tập tham chiếu hay miễn cơ sở
Hàm ¿4~ : X [0 1] được gọi là hàm thuộc (membership function) và giá tri a-{0) tại u được gọi là độ thuộc của phan tử u, thuộc về tap hop mo A” Néu khơng
gây nhằm lẫn, hàm thuộc a- cũng được ký hiệu là A“() nếu biến cơ sở khơng biểu thị hay A*(u) nếu biến u xuất hiện
Lưu ý rằng về phải của định nghĩa A~ là một tập kinh điển và do đĩ định nghĩa
trên là hồn chỉnh họ tất cả các tập mờ trên miễn cơ sở X được ký hiệu là FX),
F(X) = {wa XD [0, 1] } = [0, IP}
Cĩ nhiều cách biểu diễn hình thức một tập mờ trong trường hợp X là một tập
hữu hạn đếm được hay vơ hạn liên tục tập mờ A“ cĩ thể được biểu diễn bằng các
biểu thức như sau:
Trong trường hợp X hữu hạn, X = {u¡ :1= l1,2, }, ta cĩ thể viết:
Trang 3(cực đại tồn phần), ký hiệu giá trị khử ở của 4“ theo phương pháp cực đại trung bình là DAvemax(A^) Khi đĩ DAvemax(4”) được định nghĩa như sau:
umin + umax Davemax (41) = 5
Ý tưởng của phương pháp này là chúng ta chỉ quan tâm đến các giá trị của X mà tại đĩ nĩ phù hợp hay tương thích với ngữ nghĩa của tập mờ 4” nhất tại đĩ độ
thuộc là cực đại tồn phân, những giá trị khác của X mà tại đĩ độ thuộc nhỏ hơn 1 đều bị bỏ qua Vì vậy, một khả năng lựa chọn giá trị khử mờ là giá trị trung bình của
giá trị nhỏ nhất và giá trị lớn nhất tại đĩ độ thuộc vào tập mờ là lớn nhất đĩ chính là
lý do người ta gọi phương pháp khử mờ này là phương pháp cực đại trung bình b) Phương pháp cực đại trung bình cĩ trọng số
Ý tưởng của phương pháp này là tìm những đoạn tại đĩ hàm thuộc /4 đạt
cực đại địa phương, nghĩa là tại các giá trị của miễn cơ sở mà độ thuộc của chúng đạt cực đại địa phương Nĩi khác đi các giá trị đĩ của u thuộc về tập mờ 4“ với độ tin cậy cĩ độ trội nhất, các giá trị như vậy cần được tham gia “đĩng gĩp” vào việc
xác định giá trị khử mờ của tập 4F với trọng số đĩng gĩp chính là độ thuộc của chúng vào tập 4” Chúng ta chọn cách đĩng gĩp như vậy bằng phương pháp lấy trung bình cĩ trọng số (weighted average maxima method) vì vậy cách tính giá trị khử mờ của tập mờ 4” như sau:
Xác định các giá trị của u mả tại đĩ hàm thuộc /4~ đạt giá trị cực đại địa
phương ký hiệu zmin; và mai là giá trị nhỏ nhất và lớn nhất trong các giá trị của X
ma tai do ham thuộc đạt cực đại địa phương, giá trị trung bình cộng của ¡wim¡ và
umaxi sẽ được ký hiệu là „avemaxi trong đĩ chỉ số 7 chỉ nĩ là giá trị tương ứng với
giá trị cực đại địa phương thứ 7
Giả sử hàm thuộc #4 cĩ m giá trị cực đại địa phương, ? = 1, 2, , 7
Khi đĩ giá trị khử mờ của tập mờ 4ˆ được tính theo cơng thức trung bình cộng cĩ trọng số như sau:
m -(uavemax) uavemax
Dự w-AveMax = diy dig XZ, u(wavemax)
Trang 4Điều kiện dừng: các trọng tâm của cụm khơng thay đổi - Đánh giá thuật tốn:
Độ phức tạp tính tốn là O((3»kđ) z 7°) Trong đĩ, ø là số đối tượng dữ
liệu, là số cụm dữ liệu, đ là số chiều, 7 là số vịng lặp, 7 là thời gian dé thực
hiện một phép tính cơ sở như phép tính nhân, chia
- Ưu điểm: K-means phân tích phân cụm đơn giản nên cĩ thê áp đụng đối với
tập dữ liệu lớn
- Nhược điểm: K-means khơng khắc phục được nhiễu và giá trị & phải được
cho bởi người đùng chỉ thích hợp áp dụng với dữ liệu cĩ thuộc tính số và khám phá
ra các cụm cĩ dạng hình cầu
b) Thuật tốn K_MEDOIDS (PAM)
Giải thuật K-means rất nhạy với các phần tử ngoại lai, do vậy một đối tượng
giá trị cực lớn về cơ bản sẽ làm thay đổi tâm cụm và cĩ thể bĩp méo phân bồ của dữ
liệu ban đầu
Tâm cụm khơng cĩ phần tử ngoại lai Tâm cụm khi cĩ phản tử ngoại lai
Hình 2.4: Sự thay đơi tâm cụm trong K-means khi cĩ phân tử ngoại lai Ý tưởng của K-medoids thay vì lấy giá trị trung bình của các đối tượng trong
cụm như một điểm tham khảo, K-medoids lay một đối tượng đại diện trong cụm, gọi là međọd nĩ là điểm đại diện được định vị trung tâm nhất trong cụm Do vậy,
phương pháp phân chia vẫn được thực hiện dựa trên nguyên tắc tối thiểu hố tổng các độ khơng tương đồng giữa mỗi đối tượng với điểm tham khảo tương ứng của nĩ điểm này thiết lập nên cơ sở của phương phap K-mediods
Trang 5Bang 3.1: Bang 3.2: Bang 3.3: Bang 3.4: Bang 3.5: DANH MUC BANG BIEU Trang Mơ tả thơng tin các chỉ tiêu các cột dữ liệu thuộc tập dữ liệu J1 HỤE2019:5]SXeserssgeicniciotittibtÐEttlefÐttflGGEIESIGENISIIGHSNISUSMSINEAIGuB3x0ninai 53 Kết quả tính F với số cụm e = [3,Š] -©22222222222221211222122112112 xe 57
Kết quả phân cụm doanh nghiệp trên tập dữ liệu THUE2019.xlsx 57 So sánh kết quả phân cụm dữ liệu THUE2019.xlsx với thơng tin rủi ro vi phạm thuế 22: 2s 221221122112111211111211111121121121121222222 re 58
Xác định doanh nghiệp thuộc cum 2.0 ccc eececeeeeeeeeeeneeneeseeeeeens 59
Trang 6Hinh 1.1: Hinh 1.2: Hinh 2.1: Hinh 2.2: Hinh 2.3: Hinh 2.4: Hinh 2.5: Hinh 2.6: Hinh 2.7: Hinh 2.8: Hinh 2.9: Hinh 2.10: Hinh 2.11: Hinh 2.12: Hinh 3.1: Hinh 3.2: Hinh 3.3: Hinh 3.4: Hinh 3.5: Hinh 3.6: DANH MỤC HÌNH Trang Biểu diễn hàm số Âa 22222 22122212211221211211211222222 e6 3 l1] -daaii.A 11
Ví dụ về phân cụm dữ liệu . S2: Seo 16
Ví dụ phân cụm các ngơi nhà dựa trên khoảng cách 18
Vi dụ phân cụm các ngơi nhà dựa trên kích cở ccccccsccsc°: 18
Sự thay đổi tâm cụm trong K-means khi cĩ phần tử ngoại lai 24 Phân cụm phân cấp Top-down và Bottom-up 2ss22szs2szszsccz 26
Liên kết đơn 5c 222221 t2 HH re Ø7 kể KƠNHÏinunnunsgnsnrntnottiDnfingotDERHGHEJ004000DB0/080000010000000005700:008.701N00910000n80 27
Khái quát thuật toan CHAMELEON
Cấu trúc phân cụm dựa trên lưới - ¿+ sc St ‡sEsrstxsreerrerrrrsres Vi dụ phân cụm dựa trên mơ hình [Š] c5: 5S ‡sxsvsrxsrrersrrsres 33 Quá trình ước lượng số cụm tối ưu dựa trên độ chồng và độ nén của
dỮ THẾ 20106600115 SLTDEBSEGNBEEEEHEUEEIEHEEETEEGSIEERSBEHEEISDSNSERSHBIPSEplleell 46 Đề xuất phương án lựa chọn nhĩm doanh nghiệp rủi ro vi phạm thuế cao 49
Trang 7DANH MUC CAC KY HIEU VA CAC TU VIET TAT TIENG VIET
Viết tắt Thuật ngữ Tiếng Việt Giải thích
GTGT Giá trị gia tăng Tờ khai thuế giá trị gia tăng MST Mã số thuế Mã số thuế doanh nghiệp HTM Hàm mục tiêu DANH MỤC CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TAT TIENG ANH
Viết tắt Thuật ngữ Tiếng Anh Giải thích
FCM Fuzzy C-Means Một thuật tốn phân cụm mờ EM Epsilon Giá trị mục tiêu tối thiểu CURE | Clustering Using Representatives | Phan cum dữ liệu sử dụng đại diện
KFCM | Kernel Fuzzy Clustering Means Phương tiện phân cụm mờ PAM Partitioning Around Methoids Phân vùng xung quanh Methoids
STatistical Information Grip pak
Trang 8MO DAU
Nộp thuế vừa là trách nhiệm vừa là nghĩa vụ của mỗi cơng dân để gĩp phần xây dựng đất nước Đề tránh xảy ra các vi phạm về nghĩa vụ của đối tượng nộp thuế gây thất thốt nguồn thu cho ngân sách, tạo sự bình đẳng và cơng bằng xã hội về nghĩa vụ nộp thuế thì cơng tác thanh, kiểm tra thuế cần tăng cường hơn nữa nhằm ngăn ngừa, phát hiện và xử lý kịp thời những vi phạm vẻ thuế Việc thanh, kiểm tra
cần hiện đại hĩa từ khâu quản lý thuế, đặc biệt là trong thời kỳ 4.0 như hiện nay thì
các hành vi trốn tránh nghĩa vụ nộp thuế ngày càng tỉnh vi Với tính chất đa dạng và phức tạp của dữ liệu trong kho dữ liệu người nộp thuế, cần thiết phải cĩ hướng nghiên cứu và cách tổ chức các kho dữ liệu để trích xuất thơng tin phù hợp Phân cụm là một trong những phương pháp nghiên cứu phơ biến hiện nay, và phân cụm mờ là cơng cụ hữu hiệu trong các bài tốn phân tích thơng tin
Mục tiêu của phân cụm là chia nhỏ các đối tượng vào các cụm sao cho các
đối tượng cùng cụm là tương đồng với nhau nhất Phân cụm cĩ nhiều ứng dụng trong thương mại, giúp các nhà cung cấp biết được nhĩm khách hàng quan trọng cĩ các đặc trưng tương đồng nhau và đặc tả họ từ các mẫu trong cơ sở dữ liệu khách hàng Phân cụm mờ là phương pháp phân cụm đữ liệu mở rộng trong đĩ mỗi điểm
dữ liệu cĩ thể thuộc về hai hay nhiều cụm với các gia tri ham thuộc tương ứng Năm 1969, Ruspini[9] đã giới thiệu khái niệm phân hoạch mờ để mơ tả cấu trúc của một
cụm mờ, đến năm 1973, Dunn[10] đã mở rộng phương pháp phân cụm và đã phát triển thuật tốn phân cụm mờ, ý tưởng của thuật tốn là xây đựng một phương pháp
phân cụm mờ dựa trên tối thiểu hĩa hàm mục tiêu Sau đĩ, Bezdek[8] đã cải tiến và
tổng quát hĩa hàm mục tiêu mờ bằng cách thêm trọng số mũ, cho đến nay cĩ rất nhiều biến thể của phân cụm mờ được ứng dụng trong các bài tốn khác nhau
Mục tiêu của đề tài là ứng dụng thuật tốn phân cụm mờ trong phân tích thơng tin rủi ro quản lý thuế doanh nghiệp Một cơ sở đữ liệu mẫu về thơng tin tờ khai thuế,
Trang 9dụng để làm đầu vào cho hệ thống phân tích rủi ro sử dụng phương pháp phân cụm mờ hệ thống phân tích sẽ được triển khai xây dựng và thử nghiệm kiểm chứng
Các phần chính trong luận văn:
Chương 1: Tổng quan lý thuyết tập mờ
Chương này giới thiệu một cách khái quát nhất về lý thuyết tập mờ, các giai đoạn của tập mờ trên dữ liệu, biến ngơn ngữ và các phép tốn trên tập mờ
Chương 2: Một số phương pháp phân cụm mờ
Chương này sẽ giới thiệu về phân cụm dữ liệu, các mục tiêu, một số yêu cầu của phân cụm dữ liệu và một số kỹ thuật tiếp cận trong phân cụm dữ liệu Đồng
thời, đề cập đến thuật tốn phân cụm mờ trong đĩ cĩ thuật tốn Fuzzy Clustering Means (FCM) và các phương pháp xác định số cụm trong gom cụm dữ liệu
Chương 3: Ứng dụng vào phân tích thơng tin rủi ro trong quản lý thuế doanh nghiệp
Trang 10Chuong 1: TONG QUAN LY THUYET TAP MO
Người ta hay nhằm lẫn mức độ đúng với xác suất, tuy nhiên hai khái niệm
này khác han nhau, độ đúng đẫn của logic mo biểu diễn độ liên thuộc với các tập
được định nghĩa khơng rõ ràng chứ khơng phải khả năng xảy ra một biến cố hay điều kiện nào đĩ Logie mờ cho phép độ liên thuộc cĩ giá trị trong khoảng đĩng 0
và 1, và ở hình thức ngơn từ, các khái niệm khơng chính xác như "hơi hơi", "oan
như", "khá là" và "rất", cu thể nĩ cho phép quan hệ thành viên khơng đầy đủ giữa thành viên và tập hợp Tính chất này cĩ liên quan đến tập mờ và lý thuyết xác suất,
logic mo đã được đưa ra lần đầu tiên vào năm 1965 bởi GS Lotfi Zadeh tại Đại học California, Berkeley Mặc dù được chấp nhận rộng rãi và cĩ nhiều ứng dụng thành
cơng, nhưng logie mờ vẫn bị phê phán tại một số cộng đồng nghiên cứu
1.1 TAP MO VA THONG TIN KHONG CHAC CHAN
L Zadeh là người sáng lập ra lý thuyết tập mờ với hàng loạt bài báo mở đường cho sự phát triển và ứng dụng của lý thuyết này, khởi đầu là bai bao “Fuzzy
Sets” trên Tạp chí Information and Control, 8, 1965 Y tuong nổi bật của khái niệm
tập mờ của Zadeh là từ những khái niệm trừu tượng về ngữ nghĩa của thơng tin mờ,
khơng chắc chăn như trẻ, nhanh, cao-thấp, xinh đẹp , ơng đã tìm ra cách biểu diễn nĩ bằng một khái niệm tốn học, được gọi là tập mờ, như là một sự khái quát trực
tiếp của khái niệm tập hợp kinh điển (tập cơ điển) [1]
Đề dễ hiểu chúng ta hãy nhớ lại cách nhìn khái niệm tập hợp kinh điển như là
khái niệm các hàm số
Cho một tập vũ trụ X tập tất cả các tập con i(a)=l của X ký hiệu là P(A) và nĩ trở thành một đại số | aT
tập hợp với các phép tính hợp U , giao 1, hiéu \
và lấy phan bu -, (P(X), U,0, \, -) Bây giờ mỗi
tap hop A € P(X) c6 thể được xem như là một hàm số 4A : X > {0, 1} được xác định như sau: ()
Trang 11
Lkhix €A
As (x) = (1.1)
0 khix €A
Mic da Aa va A la hai déi tuong toan hoc hoan toan khac nhau, nhung chung đều biểu diễn cùng một khái niệm về tập hop: x € A khi va chi khi Aa (x) = 1, hay x thuộc vào tập A với “độ thuộc vào” bằng 1, vi vay ham Aa duoc gọi là hàm đặc trưng của tập A Như vậy tập hợp A co thể được biểu thị bằng mot ham ma gia tri
của nĩ là độ thuộc về hay đơn giản là độ thuộc của phần tử trong X vào tập hợp A:
Néu Aa (x) = 1 thì x € A với độ thuộc là 1 hay 100% thudc vao A, con néu Aa (x) =
0 thi x £ A với độ thuộc là 0 hay khơng thuộc vao A
1.1.1 Khái niệm tập mờ
Định nghĩa 1.1 Cho một tập vũ trụ X Tập hợp A~ được xác định bởi đẳng thức: A“={z(u)/u:u€X,/-(u) €[0, I]} được gọi là một tập hợp mờ trên tập X
Biến z lẫy giá trị trong X được gọi là biển cơ sở và vì vậy tập X cịn được gọi là tập tham chiếu hay miễn cơ sở
Hàm ¿4~ : X [0 1] được gọi là hàm thuộc (membership function) và giá tri a-{0) tại u được gọi là độ thuộc của phan tử u, thuộc về tap hop mo A” Néu khơng
gây nhằm lẫn, hàm thuộc a- cũng được ký hiệu là A“() nếu biến cơ sở khơng biểu thị hay A*(u) nếu biến u xuất hiện
Lưu ý rằng về phải của định nghĩa A~ là một tập kinh điển và do đĩ định nghĩa
trên là hồn chỉnh họ tất cả các tập mờ trên miễn cơ sở X được ký hiệu là FX),
F(X) = {wa XD [0, 1] } = [0, IP}
Cĩ nhiều cách biểu diễn hình thức một tập mờ trong trường hợp X là một tập
hữu hạn đếm được hay vơ hạn liên tục tập mờ A“ cĩ thể được biểu diễn bằng các
biểu thức như sau:
Trong trường hợp X hữu hạn, X = {u¡ :1= l1,2, }, ta cĩ thể viết:
Trang 12hay AX =Nisiso Ma-(ui)/ vi
Trong trường hợp này được gọi là tập mo roi rac (discrete fuzzy)
Trong trường hợp X là vơ hạn đếm được, X= {ui:1= 1,2, }, ta cĩ thể viết: AW = 1<i<e /,-(0)/ Ui Trong trường hợp X là vơ hạn liên tục, X = [a, b] ta cĩ thể viết: 4= Ẹ Ha~ (H)⁄ Định nghĩa 1.2 Tập mờ A“ xác định bởi 4 giá trị (a,b,c,d) ký hiệu 4ˆ = (a,b,c,d) và được xác định: 0 nếu x<a (x=a)/(b-a) néua<x<b b-a Ma-(X) = 1 néu b<x<c (d-x)/(d-c) néu c<x<d 0 néu x>d 1.1.2 Cách biểu điễn tập mờ
Ở trên chúng ta thấy khái niệm tập mờ là một sự khái quát trực tiếp của khái niệm tập kinh điển điều này cho phép hy vọng nĩ sẽ đặt cơ sở cho mối liên hệ chặt chẽ giữa hai khái niệm tập hợp này Đề dẫn đến việc nghiên cứu đĩ, trước hết chúng
ta đưa ra khái niệm fap lat cắt œ của một tập mờ
Định nghĩa 1.3 Cho một tập mờ A” trên tập vũ trụ X và a € [0, 1] Tap lat cắt ơ (hoặc œ') của tập A” là một tập kinh điển, ký hiệu là Aa (hoặc Au+” ), được
xác định bằng đẳng thức sau:
Aa = {u EX: pa (u) > 0} (hodc Au” = {u EX: pa- (u ) > a })
Trang 13Đề đơn giản ký hiệu, ta viết họ các tập kinh điển như vậy bằng h(A>) = {Aa : 0 <a< 1}, Av € FX)
Ho cac tap hop nhu vay co cac tinh chất sau:
Định ly 1.1 Cho Av, B~ € F(X), h 1a anh xa duoc cho trong (1.2) và
h(A>) = {Aw :0<a<1}, ACB) = {Bu : 0 <a< 1} Khi do,
- Mỗi họ h(A~) như vậy 1a day don diéu gidm, néu a <f, thi A,” > Ag”:
- Nếu A“ #B' thi {Aw 0<a<1} 4 {Bu 0<a< lh
Nghia la tồn tại một song ánh từ họ các tap mo F(X) vào họ của những họ tập kinh điển P(X) ở đạng (1.2) 1.2.3 Một số đặc trưng của tập mờ Định nghĩa 1.4 - Giả của tập mờ A”, ký hiệu là Suppor1(), là tập con của X trên đĩ HẠ~ (u) #0, Support(A”) = u: HẠ (u)> 0}
- D6 cao của tập mờ: Độ cao của tập mờ A”, ky hiéu la hight(A~), la can trén
dung cua ham thudc pa- trén X, hight(A~) = Sup{ pa- (u): u € X}
- Tập mờ chuẩn (normal): Tập mờ A” duoc goi la chudn néu hight(A*) = 1
Trai lai, tập mờ được gọi là đưới chuẩn (subnormal)
- Lối của tập mờ: Lõi của tập mờ A”, ký hiệu là Core(A”), là một tập con của
X được xác định như sau: Cøre(A”)= {u€ X: /-.(uU)= highf(A”)} Định nghĩa 1.5 Lực lượng của tập mờ
Cho A“ là một tập mờ trên X
- Lực lượng vơ hướng (scalar cardinality): Lực lượng hay bản số thực của tập
4F, ký hiệu là Cown(1"), được tính theo cơng thức đếm sau (đơi khi được gọi là
Trang 14arith Count (A~) = Đụ (u), nếu X là tập hữu hạn hay đếm được ueU arith , Count (A~) = >0) du , nêu X là tập vơ hạn liên tục ueU arith là tổng và tích số học Ở đây S””.Í
- Luc long mé (fuzzy cardinality): Luc long hay ban sé mo cia tập A~ là một tập mờ trên tập các số nguyên khơng âm N duge dinh nghĩa như sau:
Card (1) = | ,„„.„ (n)dn
trong đĩ /cza a~ )(n) được xác định theo cơng thức sau, với | Ar | là lực lượng của tập mức //caa 4~)(n) = suppremum {t € [0, 1]: | A%| =n}
C6 thé xem céng thite tinh Count(A”) ở trên như là cơng thức “đếm” số phần tử trong X Thực vậy, nếu tập 4“ trở về tập kinh điển thì ¿ (z) = 1 trên X và do đĩ cơng thức Cowz#(1) trên chính là bộ đếm số phân tử Khi ø¿ (u) #Z 1, thì u chỉ thuộc về tập ⁄4“ với tỷ lệ phan tram bang jas (u) va do dé phan tử u chỉ được “đếm” vào số lượng các phần tử một đại lượng bằng /4~ (u)
Lưu ý rằng, khác với trường hợp tập kinh điển, dù tập X là vơ hạn đếm được hay vơ han (continuum), thi luc luong cua tap mo A~ vẫn cĩ thể là hữu hạn, tùy theo
dáng điệu của hàm /4~ (u)
1.2 BIEN NGON NGU
1.2.1 Khái niệm biến ngơn ngữ
Biến ngơn ngữ là một bộ năm (Š, 74Š), X, R, A⁄ ), trong đĩ S là tên biến, T(S)
Trang 151.2.2 Các đặc trưng của biến ngơn ngữ
Trong thực tế cĩ rất nhiều biến ngơn ngữ khác nhau về các giá trị nguyên thuỷ, chẳng hạn như biến ngơn ngữ SỐ NGÀY LLÌM VIỆC cĩ giá trị nguyên thuỷ là ít, nhiễu, biên ngơn ngữ LƯƠNG cĩ giá trị nguyên thuỷ là Øấp, cao Tuy nhiên, những kết quả nghiên cứu đối với một miễn trị của một biến ngơn ngữ cụ thể vẫn giữ được ý nghĩa về mặt cấu trúc đối với miễn giá trị của các biến cịn lại đặc trưng này được gọi là fính phổ quát của biến ngơn ngữ
Do đĩ, khi tìm kiếm mơ hình cho các gia tử và các liên từ chúng ta khơng quan tâm đến giá trị nguyên thuỷ của biến ngơn ngữ đang xét đặc trưng này được gọi là fính độc lập ngữ cảnh của gia tử và liên từ
Các đặc trưng trên cho phép chúng ta sử dụng cùng một tập các gia tử và xây dựng một cấu trúc tốn học đuy nhất cho miễn giá trị của các biến ngơn ngữ khác nhau
1.3 CÁC PHÉP TỐN TRÊN TẬP MỜ
Xét một biến ngơn ngữ § như đã được định nghĩa ở trên, chúng ta cĩ nhận
xét rằng tập ảnh của tập 7/5) qua ánh xạ ÄZ/Š) khơng cĩ cấu trúc đại số, trên đĩ chúng ta khơng định nghĩa được các phép tính trên tập mờ Một lý do nữa làm cho chúng ta khơng quan tâm đến điều này là cấu trúc đại số của tập gốc 7Š) cũng chưa
được phát hiện Trong khi chúng ta chưa phát hiện ra cấu trúc đại số của miễn 7 (S), trong mục nay ching ta sé dinh nghia trén tap F(X, [0, 1]) mot cấu trúc đại số
Trước khi định nghĩa các phép tính trong #2, [0, I]), chúng ta hãy xem đoạn
[0 1] như là một cấu trúc dàn Lo = (0 1], 1,U, /, -) với thứ tự tự nhiên trên đoạn [0 1] Khi đĩ, với mọi a, b €[0, I], ta cĩ:
a U b= max {a, b}, aM b= min {a, b} va-a=1Nb
Chúng ta cĩ thể kiểm ching rang Lp.) = ((0, 1], đ,U, -) là một đại số DeMorgan, hon nữa nĩ cĩ các tính chất sau:
- Các phép tính hop U va giao M co tinh giao hốn
Trang 16- Các phép tính hợp U và giao f1 cĩ tính chat phân phối lẫn nhau aU(bfc)=(aUb)N@Uc) vaaN (bUc)=(aNb) U (anc) - Tính chất nuốt (absorption) và nuốt déi ngau (dual absorption): Tính chất nuốt > aN(aUb)=a,
Tính chất nuốt đối ngẫu : a U (aN b)=a, Tính lũy đẳng : a Ua=avàafìa=a Tính chất phủ phủ định : -(-a)=a
Tính đơn điệu giảm > ax<b>-a>-b
- Tinh chat DeMorgan : -(aUb)=-aN-b; -(aNb)=-aU-b
Dựa trên cấu trúc oan chúng ta sẽ định nghĩa các phép tính trên tập mờ thơng qua các phép tính của dàn Lyo,1
1.3.1 Phép Hợp (U)
Cho hai tập mờ A~ và Br trên tập vũ trụ X hợp của hai tập mờ này là một tập mờ ký hiệu là A“ U B, mà hàm thuộc của nĩ được định nghĩa theo điểm
(pointwise) như sau: /~ U z~(u) = 4~ (u) U /z~ (u) hay trong trường hợp X là hữu
hạn hay đếm được
AUB - 3i<<eMa- 0/0 U 3«<i<e Ha» (00):
=~ 311<i<e [u4~ (ui)/ui U HB~ (0M) ]/ tị
hay, trong trường hợp u là tập continuum
AUB = J M,.(u)du U J Me (u)du = ueU [Z2„„ (0)©222;„ (0) lẩu Một cách tổng quát cho 4/7 € Ƒ(), ¡ €7 với 7 là tập chỉ số hữu hạn hay vơ
hạn nào đĩ Khi đĩ, hợp của các tập mờ như vậy ký hiệu là U¡ei 47 được định nghĩa bằng hàm thuộc như sau: ;e; 4Z(u) = Sup;er 47 (u)
Một cách tổng quát nếu cho trước các tập mờ 17 ,1= 1,2 , m, thì hợp của
Trang 171.3.2 Phép Giao (f\)
Cho hai tập mờ 44” và Z” trên tập vũ trụ X hợp của hai tập mờ này là một tập mờ ký hiệu là 4“ í1 # mà hàm thuộc của nĩ được định nghĩa theo điểm (pointwise) nhu sau:
a~n 2-8) = gu (8) M1 fp (u)
hay trong trường hợp X là hữu hạn hay đếm được
4đ = 31<i<eHa~(M)mi (Ì 31<i<e Ha~ (M)/th
= X1«i<e|[MaA-(M)(M Ì Ma- (M1 ]/ tí hay, trong trường hợp X là tập continuum,
ANB = i= (u)du TL): Xa [2L ()tz„ (0) lẩu
ueU ueU
Một cách tổng quát cho 447 € Ƒ(X), ¡ €7, voi J la tap chi số hữu hạn hay vơ hạn nào đĩ Khi đĩ, hợp của các tập mờ như vậy ký hiệu là f1; r A, được định
nghĩa bằng hàm thuộc như sau: đ¡cz⁄4ƒ(u) = Inf ier APU)
1.3.3 Phép tơng đại số
Cho hai tập mờ 4“ và Ð' trên tập vũ trụ X tơng đại số của hai tập mờ này là
mot tap mo ky hiéu la A~ © B được định nghĩa bởi dang thức sau:
Trong trường hợp X là hữu hạn hay vơ hạn đếm được
4 @B =3 „eu|Ma- (1) + Mg~(H) - Ma~ (1) ta~(M) | t
Trong trường hợp X là vơ hạn continuum
A B= | [9+ ma-(M)- Hào (0) ta-(M)] du
Lưu ý rằng giá trị biểu thức gưa- (w) + ,a~ (M) - tla~ (M) ta (w) luơn luơn thuộc [0 1] và do đĩ các định nghĩa của phép tính @ trên là đúng đắn
Trang 181.3.4 Phép tích hai đại số Nhân đại số hai tập mờ A“ và B“ là một tập mờ ký hiệu là A~ @ Bo duoc xác định như sau: Trong trường hợp X là hữu hạn hay vơ hạn đếm được 4® =3xeu[H4-(M) ta~(M) ]/ 1, Trong trường hợp X là vơ hạn continuum, 4®B=[_ [ma-(@).ma-(0)] du 1.3.5 Phép co (concentration)
Cho tập mờ 4“ trên X phép tập trung tập mờ 4 là tập mờ ký hiệu là
CON(1), được định nghĩa như sau:
CON (4°) =f us (du = (4) *, voi a> 1
Vi a> 1 nén w%4 (u) < + (u) va do dé mién gidi hạn bởi hàm ¿/24- (u) sẽ nằm
tron trong mién giới hạn bởi hàm /⁄¿-.(u) hàm thuộc /⁄4„(u) của tập mờ bi co lai sau phép tập trung Nĩi khác đi tập mờ CON/1) biểu thị một khái niệm đặc tả hơn khái
niệm gốc biêu thị bởi tập mờ 4“ (xem Hình 1.2) về trực quan chúng ta thấy khái niệm mờ cảng đặc tả thì nĩ càng chính xác hơn, ít mờ hơn va gần giá trị kinh điển hơn
Thơng thường người ta sử dụng phét tập trung để biêu thị ngữ nghĩa tác động của gia tử rấï (very) vì ngữ nghĩa chẳng hạn của khái niệm rất trẻ là đặc tả hay ít mờ
hơn so với khái niệm tre 1.3.6 Phép dãn (Dilation)
Ngược với phép ứập rung là phép đãn phép dãn khi tác động vào một trong trường
hợp này ta thấy tạp mờ A~ ký hiệu là DIL (Aˆ)
được xác định bởi đẳng thức sau: 0 15 25 35 45 5 Hinh 1.2 Phép tap trung
Trang 19DIL (4°) = iz wa (udu = (AYP , voi B<1
Trong trường hợp này ta thấy #4 (u) > /4 (u) và đo đĩ phép dãn sẽ làm
hàm thuộc của tập mờ đĩ đẩn nở ra, hàm thuộc của tập mờ thu được sẽ xác định một miễn thực sự bao hàm miễn giới hạn bởi hàm thuộc của tập mờ gốc Trên Hình
1.2, ta thấy đường cong nét chấm biểu thị hàm thuộc ¿¿ (u) cịn đường cong nét
liền biểu thị hàm thuộc /4- (u) Ngữ nghĩa của khái niệm mờ biểu thị bởi tập mờ kết
quả ít đặc tả hơn hay ngữ nghĩa của nĩ càng mờ hơn
Ngược với hay đối ngẫu với việc sử dụng phép CON, phép DIL được sử dụng để biểu thị ngữ nghĩa của gia tử cĩ ?hê hay xấp xỉ vì ngữ nghĩa của khái niệm cĩ thể trẻ ít đặc tả hơn hay tính mờ của nĩ lớn hơn
1.3.7 Phép mờ hĩa (Euzzification) Việc mờ hĩa cĩ hai bài tốn:
- Tìm tập mờ biểu thị một tập kinh điển hay một cách tổng quát hơn là mờ
hĩa một tập mờ đã cho A~
- Tìm độ thuộc của giá trị ngơn ngữ của một biến ngơn ngữ tương ứng với
một dữ liệu đầu vào là thực hoặc mờ
Theo nghĩa thứ nhất ta định nghĩa phép mị hĩa như sau :
Phép mờ hĩa #' của một tập mờ 4“ trên tập vũ trụ X sẽ cho ta một tập mờ F(A~,K~) được xác định theo cơng thức sau:
FT, K)= |, ma- (0) K (0)đu
trong đĩ Kˆ(ø) là một tập mờ trên X, u € X, được gọi là nhân (kernel) của #'
Nếu ø¿- (u) là hàm thuộc của tập kinh điển 1 phần tử {u}, /4 (z) chỉ bằng 1 tại phần tử u cịn lại là bằng 0 hay ta cĩ tập “mờ” {1/u}, thì ta cĩ
F({ Lm}, K“(w)) = KT(w)
Nếu A” la tập kinh điển 4, ø¿ (ø) = 1 trên 44 và bằng 0 ngồi 4, thì mờ hĩa của 4 với nhân K”(ø) sẽ là tập mờ sau: #4, K”) = [4 K~ (w)du
Trang 201.3.8 Phép khử mờ
Trong điều khiển mờ cũng như trong lập luận các chuyên gia với các luật tri thức mờ, đữ liệu đầu ra nhìn chung đều là những tập mờ Thực tế chúng ta cũng thường gặp nhu cầu chuyên đổi dữ liệu mờ đầu ra thành giá trị thực một cách phù hợp, phương pháp chuyển đổi như vậy được gọi là phương pháp khử mờ (defuzzification) Nhu cầu này thường gặp nhất trong điều khiển mờ vì đầu ra địi
hỏi là giá trị thực để tác động vào một quá trinh thực nào đĩ
Tuy nhiên, về trực quan chúng ta cĩ thê đưa ra những yêu cầu để một phương pháp khử mờ được xem là tốt Hellendoorn and Thomas (năm 1993) đã đưa ra 5 tiêu chuẩn trực quan sau [2]:
- Tính liên tục, nghĩa là một sự thay đổi nhỏ của dữ liệu đầu vào của phương
pháp nĩ cũng chỉ tạo ra những thay đổi nhỏ ở đữ liệu đầu ra;
- Tính khơng nhập nhằng (disambiguity), nghĩa là phương pháp chỉ sinh ra
một giá trị đầu ra duy nhất,
- Tính hợp lý (plausibility) địi hỏi rằng giá trị đầu ra phải nằm ở vùng trung
tâm của tập mờ và độ thuộc hay giá trị hàm thuộc tại đĩ phải lớn (khơng nhất thiết lớn nhất);
- Độ phức tạp tính đơn giản (computational simplicity), một địi hỏi tự nhiên và Tính trọng số của phương pháp (weighting methođ) địi hỏi phương pháp tính đến trọng số hay “sự ưu tiên” của các tập mờ kết quả đầu ra (đối với trường hợp bài tốn cho nhiều kết quả đầu ra như đối với một số phương pháp lập luận mờ đa điều kiện)
Nĩi chung, chúng ta cĩ thể hiểu các tiêu chuẩn cần bảo đâm giá trị khử mờ
của tap mo A” la phan từ thực đại điện một cach hop ly cua A”
Sau đây chúng ta nghiên cứu một vài phương pháp khử mờ: a) Phương pháp cực đại trung bình (average maximum)
Cho tập mờ 4ˆ với hàm thuộc /4-~ goi umin va umax tuong tng là hai giá trị
nhỏ nhất và lớn nhất của miễn cơ sở u mà tại đĩ hàm thuộc HA~ nhận giá trị lớn nhất
Trang 21(cực đại tồn phần), ký hiệu giá trị khử ở của 4“ theo phương pháp cực đại trung bình là DAvemax(A^) Khi đĩ DAvemax(4”) được định nghĩa như sau:
umin + umax Davemax (41) = 5
Ý tưởng của phương pháp này là chúng ta chỉ quan tâm đến các giá trị của X mà tại đĩ nĩ phù hợp hay tương thích với ngữ nghĩa của tập mờ 4” nhất tại đĩ độ
thuộc là cực đại tồn phân, những giá trị khác của X mà tại đĩ độ thuộc nhỏ hơn 1 đều bị bỏ qua Vì vậy, một khả năng lựa chọn giá trị khử mờ là giá trị trung bình của
giá trị nhỏ nhất và giá trị lớn nhất tại đĩ độ thuộc vào tập mờ là lớn nhất đĩ chính là
lý do người ta gọi phương pháp khử mờ này là phương pháp cực đại trung bình b) Phương pháp cực đại trung bình cĩ trọng số
Ý tưởng của phương pháp này là tìm những đoạn tại đĩ hàm thuộc /4 đạt
cực đại địa phương, nghĩa là tại các giá trị của miễn cơ sở mà độ thuộc của chúng đạt cực đại địa phương Nĩi khác đi các giá trị đĩ của u thuộc về tập mờ 4“ với độ tin cậy cĩ độ trội nhất, các giá trị như vậy cần được tham gia “đĩng gĩp” vào việc
xác định giá trị khử mờ của tập 4F với trọng số đĩng gĩp chính là độ thuộc của chúng vào tập 4” Chúng ta chọn cách đĩng gĩp như vậy bằng phương pháp lấy trung bình cĩ trọng số (weighted average maxima method) vì vậy cách tính giá trị khử mờ của tập mờ 4” như sau:
Xác định các giá trị của u mả tại đĩ hàm thuộc /4~ đạt giá trị cực đại địa
phương ký hiệu zmin; và mai là giá trị nhỏ nhất và lớn nhất trong các giá trị của X
ma tai do ham thuộc đạt cực đại địa phương, giá trị trung bình cộng của ¡wim¡ và
umaxi sẽ được ký hiệu là „avemaxi trong đĩ chỉ số 7 chỉ nĩ là giá trị tương ứng với
giá trị cực đại địa phương thứ 7
Giả sử hàm thuộc #4 cĩ m giá trị cực đại địa phương, ? = 1, 2, , 7
Khi đĩ giá trị khử mờ của tập mờ 4ˆ được tính theo cơng thức trung bình cộng cĩ trọng số như sau:
m -(uavemax) uavemax
Dự w-AveMax = diy dig XZ, u(wavemax)
Trang 22c) Phuong pháp trọng tâm
Trong hai phương pháp trên người ta chỉ quan tâm đến giá trị của miền X mà
tại đĩ hàm thuộc đạt cực đại, cịn các giá trị khác đều bị bỏ qua Như vậy cĩ vẻ
“thiếu bình đẳng” phương pháp trọng tâm (centroid method hay centre of gravity) xuất phát từ ý tưởng mọi giá trị của X đều được đĩng gĩp với trọng số vào việc xác
định giá trị khử mờ của tập mờ 4; ở đây trọng số của nĩ là độ thuộc của phần tử thuộc vào tập mờ 41”
Theo nghĩa thơng thường của trọng tâm, cơng thức tính giả trị khử mờ cĩ
ƒ up(u)du
dang như sau: Deentroia(A™) = p loan
1.4 TIEU KET CHUONG 1
Như vậy Chương l của Luận văn đã trình bày cơ sở lý thuyết tập mờ, các phép tốn trên tập mờ, tập mờ đĩng vai trị quan trọng trong việc phân cụm dữ liệu
Trong cách biểu diễn tập mờ sử dụng đến một hàm thuộc để biểu thị tính thuộc
(thành viên) của đối tượng vào một tập Trong Chương 2 tiếp theo của Luận văn này sẽ giới thiệu tổng quan về phân cụm đữ liệu kết hợp yếu tố mờ và một số thuật tốn phân cụm mờ
Trang 23Chương 2: MỘT SĨ PHƯƠNG PHÁP PHÂN CỤM MỜ
Phân cụm dữ liệu là quá trình tổ chức các đối tượng thành từng nhĩm mà các đối tượng ở mỗi nhĩm đều tương tự nhau theo một tính chất nào đĩ những đối tượng khơng tương tự tính chất ở nhĩm khác Phân cụm dữ liệu là quá trình nhĩm
một tập các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng cịn các đối tượng thuộc khác nhau sẽ
khơng tương đồng, phân cụm dữ liệu là một ví dụ của phương pháp học khơng cĩ
thầy Khơng giống như phân lớp đữ liệu, phân cụm dữ liệu khơng địi hỏi phải định
nghĩa trước các mẫu đữ liệu huấn luyện Vì thế, cĩ thể coi phân cụm dữ liệu là một
cách học bằng quan sát trong khi phân lớp đữ liệu là học bằng ví đụ
2.1 TONG QUAN VE PHAN CUM DU LIEU
2.1.1 Phần cụm dữ liệu là gì?
Phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các đối tượng trong một cụm “tương tự” (Similar) với nhau và
các đối tượng trong các cụm khác nhau sẽ “khơng tương tự” (Dissimilar) với nhau
Số các cụm dữ liệu được phân ở đây cĩ thể được xác định trước theo kinh nghiệm hoặc cĩ thể được tự động xác định, chúng ta cĩ thể thay diéu này với một vi du đơn
giản như sau:
Hình 2.1: Vi du vé phan cum dit liéu
Trong trường hợp này, chúng ta dễ dàng xác định được 4 cụm dựa vào các dữ liệu đã cho các tiêu chí “tương tự” để phân cụm trong trường hợp này là khoảng
Trang 24cách hai hoặc nhiều đối tượng thuộc nhĩm của chúng được “đĩng gĩi” theo một khoảng cách nhất định, điều này được gọi là phân cụm dựa trên khoảng cách nhĩm
đối tượng
Để tối ưu hĩa các thuật tốn phân cụm, dữ liệu yêu cầu phải được chuẩn hĩa
Cĩ 2 dạng chuân hĩa dữ liệu phổ biến:
- Min-max normalization: khi muén gia trị chuẩn hĩa nằm trong đoạn 0 ] * x—min(X) max(X)—min(X) - Z-score standardization: Gia tri chuan héa trong doan -3 3 x-min(X) _—— SD(Œ) oe
Một kiểu khác của phân cụm dữ liệu là phân cụm dữ liệu dựa vào khái niệm: hai hoặc nhiều đối tượng thuộc cùng nhĩm nếu cĩ một định nghĩa khái niệm chung
cho tất cả các đối tượng trong đĩ Nĩi cách khác đối tượng của nhĩm phải phù hợp với nhau theo miêu tả các khái niệm đã được định nghĩa, khơng phải theo những biện pháp đơn giản tương tự
2.1.2 Mục tiêu của phần cụm dữ liệu
Mục tiêu của phân cụm dữ liệu là để xác định các nhĩm nội tại bên trong một bộ dữ liệu khơng cĩ nhãn Nhưng để cĩ thể quyết định được cái gì tạo thành một cụm tốt và làm thế nào dé quyết định cái gì đã tạo nên một phân cụm dữ liệu tốt? Nĩ cĩ thể được hiển thị rằng khơng cĩ tiêu chuẩn tuyệt đối “tốt nhất” mà sẽ là độc
lập với mục đích cuối cùng của phân cụm dữ liệu Do đĩ, người sử dụng phải cung cấp tiêu chuân theo cách như vậy mà kết quả của phân cụm đữ liệu sẽ phù hợp với
nhu câu của họ cần
Ví dụ, chúng ta cĩ thể quan tâm đến việc tìm kiếm đối tượng đại diện cho các
nhĩm đồng nhất trong “các cụm tự nhiên” và mơ tả thuộc tính khơng biết của chúng trong việc tìm kiếm các nhĩm hữu ích và phù hợp hoặc trong việc tìm kiếm các đối
tượng bất thường trong dữ liệu (cá biệt, ngoại lệ, nhiễu )
Trang 25e â eo đ đ â e.? Tr e ° ⁄ ee se 3 i \ (* e a 'e đ oe: â e@ eo eô â @
Hỡnh 2.2: Vi du phan cụm các ngơi nhà đụta trên khoảng cách
Một vấn để thường gặp trong phân cụm là hầu hết các dữ liệu cần cho phân
cụm đều cĩ chứa dữ liệu nhiễu do quá trình thu thập thiếu chính xác hoặc thiếu đầy
đủ, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lý đữ liệu nhằm khắc
phục hoặc loại bỏ nhiễu trước khi chuyền sang giai đoạn phân tích cụm dữ liệu
Nhiễu ở đây được hiểu là các đối tượng đữ liệu khơng chính xác, khơng tường minh
hoặc là các đối tượng dữ liệu khuyết, thiếu thơng tin về một số thuộc tính Một
trong các kỹ thuật xử lý nhiễu phơ biến là việc thay thé giá trị các thuộc tính của đối tượng nhiễu bằng giá trị thuộc tính tương ứng
Ngồi ra, dị tìm đối tượng ngoại lai cũng là một trong những hướng nghiên cứu quan trọng trong phân cụm, chức năng của nĩ là xác định một nhĩm nhỏ các
đối tượng dữ liệu khác thường so với các dữ liệu trong cơ sở dữ liệu, tức là các đối tượng dữ liệu khơng tuân theo các hành vị hoặc mơ hình dữ liệu nhằm tránh sự ảnh
hưởng của chúng tới quá trình và kết quả của phân cụm
sả bị a FF é
Wes - ’ oy
Hình 2.3: Vi du phân cụm các ngơi nhà dựa trên kích co
Theo các nghiên cứu đến thời điểm hiện nay thì chưa cĩ một phương pháp phân cụm tổng quát nào cĩ thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cơ sở dữ liệu Hơn nữa, đối với các phương pháp phân cụm cần cĩ cách thức biểu diễn
Trang 26cấu trúc của cơ sở đữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ cĩ tương ứng
một thuật tốn phân cụm phù hợp Vì vậy, phân cụm dữ liệu vẫn đang là một vấn để
khĩ và mở, vì phải giải quyết nhiều vấn đề cơ bản một cách trọn vẹn và phủ hợp với
nhiều dạng dữ liệu khác nhau, đặc biệt là đối với dữ liệu hỗn hợp đang ngày càng
tăng trong các hệ quản trị dữ liệu và đây cũng là một trong những thách thức lớn trong lĩnh vực khai phá dữ liệu
2.1.3 Quy trình phân cụm dữ liệu
Phân cụm là một thách thức trong lĩnh vực nghiên cứu ở chỗ những ứng dụng tiềm năng của chúng được đưa ra ngay chính trong những yêu cầu đặc biệt của chúng Sau đây là những yêu cầu cơ bản của phân cụm [2]:
- Cĩ khả năng mở rộng : nhiều thuật tốn phân cụm làm việc tốt với những
tập dữ liệu nhỏ chứa ít hơn 200 đối tượng, tuy nhiên, một cơ sở dữ liệu lớn cĩ thể chứa tới hàng triệu đối tượng, việc phân cụm với một tập dữ liệu lớn cĩ thể làm ảnh
hưởng tới kết quả Vậy làm cách nào để chúng ta cĩ thê phát triển các thuật tốn phân cụm cĩ khả năng mở rộng hiệu quả đối với các cơ sở dữ liệu lớn ?
- Khả năng thích nghi với các kiêu thuộc tính khác nhau: nhiều thuật tốn
được thiết kế cho việc phân cụm dữ liệu cĩ kiểu khoảng (kiểu 80) Tuy nhién, nhiéu ung dung co thể địi hỏi việc phân cụm với nhiều kiểu dữ liệu khác nhau, như kiểu nhị phân, kiểu tường minh (định danh - khơng thứ tự), và dữ liệu cĩ thứ tự hay dạng
hỗn hợp của những kiểu dữ liệu này
- Khám phá các cụm với hình dạng bất kỳ: nhiều thuật tốn phân cụm xác định các cụm dựa trên các phép đo khoảng cách Euclidean và khoảng cách Manhattan Các thuật tốn dựa trên các phép đo như vậy hướng tới việc tìm kiếm
các cụm hình cầu với mật độ và kích cỡ tương tự nhau Tuy nhiên, một cụm cĩ thể cĩ bất cứ một hình dạng nào; do đĩ việc phát triển các thuật tốn cĩ thể khám phá ra các cụm cĩ hình dạng bất kỳ là một việc làm quan trọng
- Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào: nhiều thuật
tốn phân cụm yêu cầu người dùng đưa vào những tham số nhất định trong phân
Trang 27tích phân cụm (như số lượng các cụm mong muốn) Kết quả của phân cụm thường
khá nhạy cảm với các tham số đầu vào, nhiều tham số rất khĩ để xác định nhất là
với các tập đữ liệu cĩ lượng các đối tượng lớn Điều này khơng những gây trở ngại cho người đùng mà cịn làm khĩ cĩ thể điều chỉnh được chất lượng của phân cụm
- Khả năng thích nghi với đữ liệu nhiễu: hầu hết những cơ sở dữ liệu thực
đều chứa đựng dữ liệu ngoại lai, đữ liệu lỗi, dữ liệu chưa biết hoặc dữ liệu sai Một
số thuật tốn phân cụm nhạy cảm với dữ liệu như vậy và cĩ thể dẫn đến chất lượng
phân cụm thấp
-Ít nhạy cảm với thứ tự của các dữ liệu vào: một số thuật tốn phân cụm nhạy cảm với thứ tự của dữ liệu vào, ví dụ như với cùng một tập dữ liệu khi được đưa ra với các thứ tự khác nhau thi với cùng một thuật tốn cĩ thể sinh ra các cụm rất khác nhau Do đĩ, việc quan trọng là phát triển các thuật tốn mà ít nhạy cảm với thứ tự vào của dữ liệu
- Số chiều lớn: một cơ sở dữ liệu hoặc một kho dữ liệu cĩ thể chứa một số chiều hoặc một số các thuộc tính Nhiều thuật tốn phân cụm áp dụng tốt cho dữ
liệu với số chiều thấp bao gồm chỉ từ 2 đến 3 chiều, người ta đánh giá việc phân
cụm là cĩ chất lượng tốt nếu nĩ áp dụng được cho dữ liệu cĩ từ 3 chiều trở lên Đĩ là sự thách thức với các đối tượng dữ liệu cụm trong khơng gian với số chiều lớn,
đặc biệt vì khi xét những khơng gian với số chiều lớn cĩ thể rất thưa và cĩ độ nghiêng lớn
- Phân cụm ràng buộc: nhiều ứng dụng thực tế cĩ thể cần thực hiện phân cụm dưới các loại ràng buộc khác nhau Một nhiệm vụ đặt ra là đi tìm những nhĩm dữ liệu cĩ trạng thái phân cụm tốt và thỏa mãn các ràng buộc
- Dễ hiệu và dễ sử dụng: Người sử dụng cĩ thê chờ đợi những kết quả phân
cụm dễ hiểu, dễ lý giải và dễ sử dụng Nghĩa là, sự phân cụm cĩ thể cần được giải
thích ý nghĩa và ứng dụng rõ ràng
Với những yêu cầu đáng lưu ý này, nghiên cứu của ta về phân tích phân cụm
diễn ra cụ thê như sau:
Trang 28- Đầu tiên, ta nghiên cứu các kiểu đữ liệu khác nhau và cách chúng cĩ thể gây ảnh hưởng tới các phương pháp phân cụm
- Thứ hai, ta đưa ra một cách phân loại chung trong các phương pháp phân cụm - Sau đỏ, ta nghiên cứu chỉ tiết mỗi phương pháp phân cụm, bao gồm các phương pháp phân hoạch, phân cấp, dựa trên mật độ, Ta cũng khảo sát sự phân cụm trong khơng gian đa chiều và các biến thể của các phương pháp khác
2.1.4 Một số ứng dụng của phân cụm dữ liệu
Phân cụm dữ liệu cĩ thể ứng dụng trong nhiều lãnh vực [2.3] như:
- Thương mại: tìm kiếm nhĩm các khách hàng quan trọng dựa vào các thuộc tính đặc trưng tương đồng và những đặc tả của họ trong các bản ghi mua bán của cơ
sở dữ liệu;
- Sinh học: phân loại động thực vật qua các chức năng gen tương đồng của chúng: - Thư viện: phân loại các cụm sách cĩ nội dung và ý nghĩa tương đồng nhau để cung cấp cho đọc giả, cũng như đặt hàng với nhà cung cấp;
- Bảo hiểm: nhận đạng nhĩm tham gia bảo hiểm cĩ chi phí yêu cầu bồi thường trung bình cao, xác định gian lận trong bảo hiểm thơng qua các mẫu cá biệt;
- Quy hoạch đơ thị: nhận dạng các nhĩm nhà theo kiểu, vị trí địa lí, gia tri
nhằm cung cấp thơng tin cho quy hoạch đơ thị;
- Nghiên cứu địa chấn: phân cụm để theo dõi các tâm động đất nhằm cung cấp thơng tin cho việc nhận dạng các vùng nguy hiểm;
- WWW: tài liệu phân loại, phân nhĩm dữ liệu weblog để khám phá các nhĩm về các hình thức tiếp cận tương tự trợ giúp cho việc khai phá thơng tin từ đữ liệu
2.1.5 Những vấn đề tồn tại trong phân cụm dữ liệu
- Kỹ thuật clustering (phân cụm) hiện nay khơng trình bày được tất cả các yêu cầu đầy đủ (và đồng thời);
- Việc tương tác với số lượng lớn các mẫu tin của dữ liệu cĩ thể gặp vấn để phức tạp về thời gian tính tốn:
Trang 29- Hiệu quả của phương pháp phụ thuộc vào định nghĩa của “khoảng cách”
(đối với phân cụm dữ liệu dựa trên khoảng cách) Nếu khơng tồn tại một thước đo khoảng cách rõ ràng chúng ta “phải tự xác định”, đây là một vấn để thật sự khĩ nhất
là trong khơng gian đa chiều;
- Kết quả của thuật tốn phân cụm dữ liệu cĩ thể được giải thích theo nhiều
cách khác nhau (mà trong nhiều trường hợp chỉ cĩ thê được giải thích theo ý riêng của mỗi người)
2.2 MOT SO KY THUAT PHAN CUM DU LIEU
Các kỹ thuật phân cụm cĩ rất nhiều cách tiếp cận và các ứng dụng trong thực tế, nĩ đều hướng tới hai mục tiêu chung đĩ là chất lượng của các cụm khám phá
được và tốc độ thực hiện của thuật tốn Hiện nay, các kỹ thuật phân cụm cĩ thể
phân loại theo các phương pháp tiếp cận chính như sau: phân cụm phân hoạch (Partitioning Methods); phan cum phan c4p (Hierarchical Methods), phan cum dua
trên mat dO (Density-Based Methods); phan cụm dựa trên lưới (Grid-Based
Methods); phân cum dia trén m6 hinh (Model-Based Clustering Methods) 2.2.1 Phuong phap phan cum phan hoach (Partitioning Methods)
Kỹ thuật này phân hoạch một tập hợp đữ liệu cĩ z phần tử thành & nhĩm cho
đến khi xác định số các cụm được thiết lập số các cụm được thiết lập là các đặc
trưng được lựa chọn trước, phương pháp này là tốt cho việc tìm các cụm hình cầu trong khơng gian Euclidean Ngồi ra, phương pháp nảy cũng phụ thuộc vào
khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào cĩ quan hệ là
gần nhau với mỗi điểm khác và các điểm dữ liệu nào khơng cĩ quan hệ hoặc cĩ quan hệ là xa nhau so với mỗi điểm khác
Tuy nhiên, phương pháp này khơng thê xử lí các cụm cĩ hình dạng kỳ quặc
hoặc các cụm cĩ mật độ các điểm dầy đặc Các thuật tốn phân hoạch dữ liệu cĩ độ phức tạp rất lớn khi xác định nghiệm tối ưu tồn cục cho vấn để phân cụm dữ liệu,
do nĩ phải tìm kiếm tất cả các cách phân hoạch cĩ thê được
Trang 30Chính vì vậy, trên thực tế thường đi tìm giải pháp tối ưu cục bộ cho vấn để này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Như vậy, ý tưởng
chính của thuật tốn phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược ăn
tham (Greedy) để tìm kiếm nghiệm
Điền hình trong phương pháp tiếp cận theo phân cụm phân họach là các thuật toan nhu: K_ means, K-medoids, CLARA (Clustering Large Applications), CLARANS (Clustering Large Applications based on RAndomized Search)
a) Thudt toan KMEANS (MacQueue 1967)
Thuật tốn này dựa trên độ đo khoảng cach của các đối tượng dữ liệu trong cụm mục đích của thuật tốn k-means là sinh & cụm dữ liệu /C¡, C¿, , Cz} từ một
tập dữ liệu chứa ø đối tượng trong khơng gian d chiều X; = /&u, xø, , Xa}, ¡ = 1 m, sao cho tối thiểu hàm tiêu chuẩn:
Trong đĩ: m¡ là trọng tâm của cụm C; Ð là khoảng cách giữa hai đối tượng Input: Số cụm & và các trọng tâm cụm {m;} &;= l
Oufput: Các cụm C[7] (1 <¡ <#) và hàm tiêu chuân E đạt giá trị tối thiêu Thuật tốn:
Bước 1: Khởi tạo chọn & trọng tâm {z} # = 1 ban đầu trong khơng gian Rd (d
là số chiều của dữ liệu) Việc lựa chọn này cĩ thể là ngẫu nhiên hoặc theo kinh nghiệm
Bước 2: Lặp
«Tính tốn khoảng cách: Đối với mỗi điểm x¡ (1 < ¡ < n), tính tốn khoảng cách của nĩ tới mỗi trong tam mj (1 <j < k) sau đĩ tìm trọng tâm gần nhất đối với
mỗi điểm
¢ Cap nhat lai trong tam
« Đối với mỗi ] <j < k, cập nhật trong tam cum mj bang cach xac dinh
trung bình cộng các vectơ đối tượng dữ liệu
Trang 31Điều kiện dừng: các trọng tâm của cụm khơng thay đổi - Đánh giá thuật tốn:
Độ phức tạp tính tốn là O((3»kđ) z 7°) Trong đĩ, ø là số đối tượng dữ
liệu, là số cụm dữ liệu, đ là số chiều, 7 là số vịng lặp, 7 là thời gian dé thực
hiện một phép tính cơ sở như phép tính nhân, chia
- Ưu điểm: K-means phân tích phân cụm đơn giản nên cĩ thê áp đụng đối với
tập dữ liệu lớn
- Nhược điểm: K-means khơng khắc phục được nhiễu và giá trị & phải được
cho bởi người đùng chỉ thích hợp áp dụng với dữ liệu cĩ thuộc tính số và khám phá
ra các cụm cĩ dạng hình cầu
b) Thuật tốn K_MEDOIDS (PAM)
Giải thuật K-means rất nhạy với các phần tử ngoại lai, do vậy một đối tượng
giá trị cực lớn về cơ bản sẽ làm thay đổi tâm cụm và cĩ thể bĩp méo phân bồ của dữ
liệu ban đầu
Tâm cụm khơng cĩ phần tử ngoại lai Tâm cụm khi cĩ phản tử ngoại lai
Hình 2.4: Sự thay đơi tâm cụm trong K-means khi cĩ phân tử ngoại lai Ý tưởng của K-medoids thay vì lấy giá trị trung bình của các đối tượng trong
cụm như một điểm tham khảo, K-medoids lay một đối tượng đại diện trong cụm, gọi là međọd nĩ là điểm đại diện được định vị trung tâm nhất trong cụm Do vậy,
phương pháp phân chia vẫn được thực hiện dựa trên nguyên tắc tối thiểu hố tổng các độ khơng tương đồng giữa mỗi đối tượng với điểm tham khảo tương ứng của nĩ điểm này thiết lập nên cơ sở của phương phap K-mediods
Trang 32Giai thudt PAM day la giai thuat phan cum kiểu K-mediods, no tim k cum trong n đối tượng bằng cách trước tiên tìm một số đối tuong dai dién (medoid) cho méi cum tap cac medoid ban đầu được lựa chọn tuỳ ý Sau đĩ, nĩ lặp lại bằng cách
thay một trong số các medoid bằng một trong số những cái khơng phải zeđoid miễn là tổng khoảng cách của kết quả phân cụm được cải thiện
Input: Số cụm # và một cơ sở dữ liệu chứa ø đối tượng
Output: Mét tap & cụm đã tối thiểu hố tổng các độ đo khơng tương đồng của tất cả các đối tượng tới medoid gần nhất của chúng
Thuật tốn:
Bước 1 Chọn tùy ý & đối tượng giữ vai trị là các medoid ban đầu Bước2 Lặp
- Ấn định mỗi đối tuong vao cum co medoid gan nĩ nhất,
« Tính hàm mục tiêu (tổng các độ đo tương đồng của tất cả các đối tượng tới medoid gan nhất của chúng);
« Đơi medoid x bằng một đối tượng y nếu như việc thay đổi này làm giảm
hàm mục tiêu;
Cho đến khi: khơng cĩ sự thay đổi nào - Đánh giá thuật tốn:
Độ phức tạp cho một lần lặp don 1a O(k(n - k)’)
- Ưu điểm: cĩ thể xác định đối tượng ngoại lai
- Nhược điểm: khơng thích hợp cho phân cụm dữ liệu cĩ số lượng ø lớn và số cụm cần chia là nhiễu
2.2.2 Phương pháp phân cụm phân cấp (Hierarchical Methods)
Phương pháp này xây đựng một phân cấp trên cơ sở các đối tượng dữ liệu đang xem xét, nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc cĩ dạng hình cây, cây phân cấp này được xây đựng theo kỹ thuật đệ quy Cĩ hai cách tiếp
Trang 33cận phổ biến của kỹ thuật này đĩ là: hịa nhập nhĩm, thường được gọi là tiếp cận (Bottom-Up); phân chia nhĩm, thường được gọi là tiếp cận (Top-Down)
bottom-up step 0 step 1 step 2 step 3 step 4
Top-down
step 4 step 3 step 2 step | step 0 F
Hinh 2.5: Phan cum phan cdp Top-down va Bottom-up
- Phương pháp “dưới lên”(Bo#om 1p): Phương pháp này bắt đầu với mỗi
đối tượng được khởi tạo tương ứng với các cụm riêng biệt, sau đĩ tiến hành nhĩm
các đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trung tâm của hai
nhĩm), quá trình này được thực hiện cho đến khi tất cả các nhĩm được hịa nhập
vào một nhĩm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sử dụng chiến lược ăn tham trong quá trình phân cụm
- Phương pháp “trên xuống” (Top Down) : Bắt đầu với trạng thái là tất cả
các đối tượng được xếp trong cùng một cụm, mỗi vịng lặp thành cơng một cụm được tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự nào đĩ cho đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiện dừng thỏa mãn
Cách tiếp cận này sử dụng chiến lược chia để trị trong quá trình phân cụm, điền hình trong phương pháp tiếp cận theo phân cụm phân cấp là các thuật tốn như : AGNES (Agglomerative Nesting), DIANA (Divisive Analysis), BIRCH (1996), CURE (1998), CHAMELEON (1999)
b) Một số thuật tốn cơ bản trong phân cụm phân cấp
Trong những phương pháp phân cụm phân cấp ta cần xác định khoảng cách giữa 2 nhĩm:
Trang 34- Single Link: khoảng cách ngắn nhất giữa hai đối tượng thuộc hai nhĩm
Hình 2.6: Lên kết đơn
- Complete Link: khoảng cách xa nhất giữa hai đối tượng thuộc hai nhĩm
Hình 2.7: U/ên kết đơi
+ Thuật tốn CURE
Trong khi hầu hết các thuật tốn thực hiện phân cụm với các cụm hình cầu và
kích thước tương tự, như vậy là khơng hiệu quả khi xuất hiện các phần tử ngoại lai
Thuật tốn CURE khắc phục được vấn để này và tốt hơn với các phan tử ngoại lai;
CURE là thuật tốn sử dụng chiến lược boffom-up của phương pháp phân cụm phân
cấp Khác với các thuật tốn phân cụm phân hoạch, thuật tốn CƯE sử dụng nhiều đối tượng để biểu diễn cho một cụm dữ liệu thay vì sử dụng các trọng tâm hay đối
tượng tâm
Để xử lí được các cơ sở dữ liệu lớn, CURE sử dụng mẫu ngẫu nhiên và phân hoạch, một mẫu là được xác định ngau nhiên trước khi được phân hoạch va sau đĩ
tiến hành phân cụm trên mỗi phân hoạch, như vậy mỗi phân hoạch là từng phần đã
được phân cụm, các cụm thu được lại được phân cụm lần thứ hai để thu được các
cụm con mong muốn, nhưng mẫu ngẫu nhiên khơng nhất thiết đưa ra một mơ tả tốt
cho tồn bộ tập dữ liệu, chọn một mẫu ngẫu nhiên 5Š từ tập dữ liệu ban đầu
Input: Tập dữ liệu với n đối trong Output: Cac cum C[i] (1 <i<k)
Trang 35Thuat toan:
Buéc 1 Phan tach mau S thành các nhĩm dữ liệu cĩ kích thước bằng nhau Bước 2 Tiến hành phân cụm riêng rẽ cho mỗi nhĩm
Bước 3 Loại bỏ các đối tượng ngoại lai bằng việc lấy mẫu ngẫu nhiên, nếu
một cụm tăng trưởng quá chậm thì loại bỏ nĩ
Bước 4 Phân cụm cho các cụm riêng biệt: Các đối tượng đại diện được di
chuyển về phía tâm của cụm mới hình thành các đối tượng này sẽ mơ tả hình đạng
cụm đĩ
Bước 5 Đánh dấu dữ liệu với các nhãn cụm tương ứng - Đánh giá thuật tốn:
Độ phức tạp tính tốn của thuật tốn CURE là O(n?log(n))
- Ưu điểm: CURE là thuật tốn tin cậy trong việc khám phá ra các cụm với
hình thù bất kỳ và cĩ thé áp đụng tốt đối với dữ liệu cĩ phần tử ngoại lai và trên các
tập đữ liệu hai chiều
- Nhược điểm: CURE là dễ bị ảnh hưởng bởi các tham số cho bởi người đùng
như cỡ mẫu, số cụm mong muốn, tỉ lệ co của các phan tu dai dién
+ Thudt toan CHAMELEON
Phương pháp CHAMELEON mit cach tiép c4n khdc trong viée phan cum được phát triển bởi Karypis, Han và Kumar năm (1999), sử đụng mơ hình động trong phân cụm phân cấp
CHAMELEON cé duge dia trén quan sát các yếu điểm của giải thuật phân cụm phân cấp CURE, ở đĩ CƯRE và các lược đồ đã bỏ qua thơng tin về liên kết của các đối tượng trong hai cụm khác nhau
Bước đầu tiên của C714AMELEON' là xây dựng một đồ thị cĩ mật độ thưa và
sau đĩ ứng dụng một thuật tốn phân vùng dé thi dé phân cụm dữ liệu với số lượng lớn của các cụm con Tiếp theo, CHAMELEON thuc hiện tích tụ phân cụm phân cấp
Trang 36như 4GNES, bằng hịa nhập các cụm con nhỏ theo hai phép đo, mối quan hệ kết nối và mối quan hệ gần gũi của các nhĩm con
Thuật tốn này đựa trên tiếp cận đồ thị K-láng giêng gần nhất CHAMELEON chỉ ra sự tương đồng giữa mỗi cặp các cụm C¡ và C¡ theo liên kết tương đối R.(C¡,
C¡) và độ chặt tương đối R.(C¡, C¡) của chúng Liên kết tương đối R.(C¡, C¡) giữa hai
cum Cj va Cj duoc định nghĩa như liên két tuyét đối giữa C¡ và C¡ đã tiêu chuẩn hĩa đối với liên kết nội tại của hai cụm C¡ và Cj Do la:
IEC(C, C)|
RACi, C) = |ECeil + [ECG
2
Với EC(C¡, C¡ ), EC là cạnh cắt (edge-cut) của cụm chứa của C¡ và Cj dé cum nay được rơi vào trong C¡ và C¡, tương tự như vậy ECc¡ (hay ECcj) là kích thước của Min-cut bisector (tức là tổng số của các cạnh mà chia đồ thị thành hai phần thơ bằng nhau)
Độ chặt tương đối giữa một cặp các cụm C¡ và C¡ là R¿(C¡, C¡) được định
nghĩa như là độ chặt tuyệt đối giữa C¡ và C¡ được tiêu chuẩn hĩa đối với kết nối nội
tại của hai cụm C; va Cj "Construct - « ~ ¬ ` ) Sparse Graph £ lp %L Partition the Graph » " = " ———~¿* “—*“ * - sf) > - ` ee .» ^: —>„ > A ` * »< - | x \ / T * ˆ aS * - = Data Set al L \ or K e Xu — at * ˆ ` Merge Partition * ` 7 a“ Final Clusters a - a)
Hình 2.8: Khái quát thuật tốn CHAMELEON Input: đữ liệu đầu vào gồm ø đối tượng
Output: Cac cum C[i] (1 <1 <k)
Trang 37Thuat toan:
Bước 1 Tinh tốn độ tương tự cho từng đối tượng dữ liệu đầu tiên độ tương
đồng cĩ thể lớn hơn K hay KXX (k láng giềng gần nhất);
Bước 2 Xây dựng đồ thị K-láng giêng gần nhất, trong đĩ mỗi nút tương ứng
với một đối tượng dữ liệu Mỗi cạnh giữa các nút đại điện hai đối tượng liên kết đến
hơn k hàng xĩm;
Bước 3 Phân vùng dé thi thành cụm, bằng cách giảm thiểu cạnh-cắt: đưa ra một cụm C, nĩ tương ứng với tìm độ lớn tối thiểu của các cạnh đề loại bỏ mà làm
cho hai phân vùng bị ngắt kết nối C¡ và C¡ từ C Karypisefal (1999) đựa vào sự kết
noi tuyét doi EC(C) hay EC(Ci, C¡ );
Bước 4 Áp dụng các giải thuật phân cụm phân cấp bằng cách lặp đi lặp lại
việc liên kết các cụm cĩ quan hệ kết nối RI, sinh ra bởi quan hệ gần gũi RC, là cao
nhất RI(C¡, C¡) x RC (Ci, Cj)" — max
Sự lặp đi lặp lại dừng lại khi chỉ tìm ra số cụm mong muốn
- Đánh giá thuật tốn:
Độ phức tạp thuật tốn O(nm + nlog n + m”log m)
- Ưu điểm: Thuật tốn khơng phụ thuộc vào người sử dụng các tham số như K-means khơng phụ thuộc vào mơ hình tĩnh hay động và cĩ thê tự động thích nghỉ với đặc trưng bên trong của các cụm đang được hịa nhập Nĩ cĩ khả năng hơn để khám phá các cụm cĩ hình thù bất kỳ cĩ chất lượng cao hơn CURE
- Nhược điểm: mắt nhiều thời gian xử lý cho dữ liệu đa chiều 2.2.3 Phương pháp phần cụm dựa trên lưới (Grid-Based Methods)
Kỹ thuật phân cụm dựa trên lưới do W.Wang và các cộng sự để xuất (1997) thích hợp với dữ liệu da chiều, dựa trên cấu trúc dữ liệu lưới để phân cụm, phương
pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu khơng gian, mục tiêu của phương pháp này là lượng hĩa đữ liệu thành các ơ tạo thành cấu trúc dữ liệu lưới Sau đĩ, các thao tác phân cụm chỉ cần làm việc với các đối tượng trong từng ơ trên
Trang 38lưới chứ khơng phải các đối tượng đữ liệu Cách tiếp cận dựa trên lưới này khơng di chuyển các đối tượng trong các ơ mà xây dựng nhiều mức phân cấp của nhĩm các đối tượng trong một ơ Phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chúng khơng trộn các ơ, đồng thời giải quyết khắc phục yêu cầu đối với dữ liệu đa chiều mà phương pháp phân cụm dựa trên mật độ khơng giải quyết được | Tang 1 Mức 1 (mức cao nhất) cĩ thể chỉ Ị : chứa một cell | | Ị i ; Tang i-1 | Tang i ‘Cell mite i-1 co thé trong img voi 4 cell của mức ¡
Hình 2.9: Cấu trúc phân cụm dựa trên lưới
Điền hình trong phương pháp tiếp cận theo phân cụm dựa trên lưới là các thuat toan nhu : STING (a STatistical INformation Grid approach) boi W.Wang, Yang va Muntz (1997), WAVECLUSTER boi Sheikholeslami, Chatterjee va Zhang (1998), CLIQUE (Clustering In QUEst) boi Agrawal, Gehrke, Gunopulos, Raghavan (1998)
a) Thuật toan STING
STING (STatistical INformation Grid) do W.Wang, Yang va Munz phat trién năm (1997), là kỹ thuật phân cụm đa phân giải dựa trên lưới, trong đĩ vùng khơng gian dữ liệu được phân rã thành số hữu hạn các ơ chữ nhật, điều này cĩ ý nghĩa là
các ơ lưới được hình thành từ các ơ lưới con để thực hiện phân cụm Cĩ nhiều mức
của các ơ chữ nhật tương ứng với các mức khác nhau của phân giải trong cấu trúc lưới và các ơ này hình thành cấu trúc phân cấp, mỗi ơ ở mức cao được phân hoạch thành các ơ nhỏ ở mức thấp hơn tiếp theo trong cấu trúc phân cấp Các giá trị của các tham số thống kê gồm: số trung bình - mid, số tối đa - max, số tối thiêu - min,
số đếm - count, độ lệch chuẩn - s,
Trang 39Các đối tượng dữ liệu lần lượt được chèn vào lưới và các tham số thống kê ở
trên được tính trực tiếp thơng qua các đối tượng dữ liệu này, các truy vấn khơng gian được thực hiện bằng cách xét các ơ thích hợp tại mỗi mức phân cấp Một truy vấn khơng gian được xác định như là một thơng tin khơi phục lại của dữ liệu khơng gian và các quan hệ của chúng S77NG cĩ khả năng mở rộng cao, nhưng do sử dụng phương pháp đa phân giải nên nĩ phụ thuộc chặt chẽ vào trọng tâm của mức thấp nhất
Iput: Số ơ trong mức thấp nhất, số đối tượng trong ơ Output: Cac cum dé liéu theo yêu cầu
Thuat toan:
Bước 1 Xác định tang dé bat dau
Bước 2 Với mỗi ơ của tầng này, tính tốn khoảng tin cậy (hoặc ước lượng khoảng) của xác suất mà ơ này liên quan tới truy vấn
Bước 3 Từ khoảng tin cậy của tính tốn trên, gán nhãn cho là cĩ liên quan hoặc khơng liên quan
Bước 4 Nếu lớp này là lớp cuối cùng
- Nếu đặc tả được câu truy vấn thì tìm thấy các miễn cĩ các ơ liên quan trả lại miễn mà phủ hợp với yêu cầu của truy vấn, chuyên sang bước 5
- Nếu khơng thì truy lục lại dữ liệu vào trong các ơ liên quan và thực hiện xử
lý trả lại kết quả phù hợp yêu cầu của truy vấn
Nếu lớp này khơng là lớp cuối: duyệt xuống dưới của cấu trúc cây phân cấp một mức Quay lại Bước 2 cho các ơ mà hình thành các ơ liên quan của lớp cĩ mức cao hơn
Bước 5Š Dừng
- Đánh giá thuật tốn: S77NG duyệt tồn bộ dữ liệu một lần nên độ phức tạp
tính tốn để tính tốn các đại lượng thống kê cho mỗi ơ là O(n), trong đĩ n là tổng số đối tượng Sau khi xây đựng cấu trúc dữ liệu phân cấp, thời gian xử lý cho các
Trang 40- Ưu điểm: Tính tốn dựa trên lưới là truy vấn độc lập vì thơng tin thống kê được bảo quản trong mỗi ơ đại diện nên chỉ cần thơng tin tĩm tắt của dữ liệu trong ơ chứ khơng phải là dữ liệu thực tế và khơng phụ thuộc vào câu truy vấn, cấu trúc dữ
liệu lưới thuận tiện cho quá trình xử lý song song và cập nhật liên tục, độ phức tạp
thuật tốn thấp
- Nhược điểm: Trong khi sử dụng cách tiếp cận đa phân giải để thực hiện
phân tích cụm chất lượng của phân cụm 577NG hồn tồn phụ thuộc vào tính chất
hộp ở mức thấp nhất của cấu trúc lưới Nếu tính chất hộp là mịn, dẫn đến chỉ phí thời gian xử lý tăng, tính tốn trở nên phức tạp và nếu mức dưới cùng là quá thơ thì nĩ cĩ thê làm giảm bớt chất lượng và độ chính xác của phân tích cụm
2.2.4 Phân cụm dựa trên mơ hình (Model-Based Clustering Methods)
Phương pháp này cố gắng khám phá các phép xấp xỉ tốt của các tham số mơ
hình sao cho khớp với dữ liệu một cách tốt nhất Chúng cĩ thể sử dụng chiến lược phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mơ hình mà
chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mơ hình này để nhận dạng ra các phân hoạch
Phương pháp phân cụm dựa trên mơ hình
cơ găng khớp giữa các dữ liệu với mơ hình tốn tøe? Inhibitory clusters học, nĩ dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân phối xác suất cơ bản Các thuật Phong connections tốn phân cụm đựa trên mơ hình cĩ hai cách tiếp n r ^ 3 A ^ ` Layer 2 cận chính: mơ hình thơng kê và mạng nơron kbibisy ( clusters Phương pháp này gần giống với phương pháp phân
cụm dựa trên mật độ, vì chúng phát triển các cụm
riêng biệt nhăm cải tiên các mơ hình đã được xác Lợ«! h eg 0o 0 ạ90 ư N
Input units )
0a a 000 7
định trước đĩ, nhưng đơi khi nĩ khong bat đâu với ‘8 Se 8g 08 eo một sơ cụm cơ định và khơng sử dụng cùng một |
khái niệm mật độ cho các cụm Tnpot pattern
Hinh 2.10: Vi du phan cum dita trén m6 hinh