1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu một số phương pháp phân cụm mờ và ứng dụng vào phân tích thông tin rủi ro trong quản lý thuế doanh nghiệp

74 4 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm hiểu một số phương pháp phân cụm mờ và ứng dụng vào phân tích thông tin rủi ro trong quản lý thuế doanh nghiệp
Tác giả Nguyễn Trung Hiếu
Người hướng dẫn TS. Nguyễn Công Hào
Trường học Đại học Huế
Chuyên ngành Khoa học máy tính
Thể loại luận văn thạc sĩ
Năm xuất bản 2020
Thành phố Thừa Thiên Huế
Định dạng
Số trang 74
Dung lượng 32 MB

Nội dung

Khi đĩ DAvemax4” được định nghĩa như sau: umin + umax Davemax 41 = 5 Ý tưởng của phương pháp này là chúng ta chỉ quan tâm đến các giá trị của X mà tại đĩ nĩ phù hợp hay tương thích với n

Trang 1

BO GIAO DUC VA DAO TAO

ĐẠI HỌC HUẾ

TRƯỜNG ĐẠI HỌC KHOA HỌC

NGUYÊN TRUNG HIẾU

TÌM HIỂU MỘT SỐ PHƯƠNG PHÁP

PHAN CUM MO VA UNG DUNG VAO PHAN TICH THONG TIN RUI RO TRONG

QUAN LY THUE DOANH NGHIEP CHUYEN NGANH: KHOA HOC MAY TINH

MA SO: 8.48.01.01

LUAN VAN THAC SI KHOA HOC DINH HUGNG UNG DUNG

NGƯỜI HƯỚNG DAN KHOA HOC TS NGUYEN CONG HAO

Thừa Thiên Huế, 2020

Trang 2

Lkhix €A

As (x) = (1.1)

0 khix €A

Mic da Aa va A la hai déi tuong toan hoc hoan toan khac nhau, nhung chung đều biểu diễn cùng một khái niệm về tập hop: x € A khi va chi khi Aa (x) = 1, hay x thuộc vào tập A với “độ thuộc vào” bằng 1, vi vay ham Aa duoc gọi là hàm đặc trưng của tập A Như vậy tập hợp A co thể được biểu thị bằng mot ham ma gia tri

của nĩ là độ thuộc về hay đơn giản là độ thuộc của phần tử trong X vào tập hợp A:

Néu Aa (x) = 1 thì x € A với độ thuộc là 1 hay 100% thudc vao A, con néu Aa (x) =

0 thi x £ A với độ thuộc là 0 hay khơng thuộc vao A

1.1.1 Khái niệm tập mờ

Định nghĩa 1.1 Cho một tập vũ trụ X Tập hợp A~ được xác định bởi đẳng thức: A“={z(u)/u:u€X,/-(u) €[0, I]} được gọi là một tập hợp mờ trên tập X

Biến z lẫy giá trị trong X được gọi là biển cơ sở và vì vậy tập X cịn được gọi là tập tham chiếu hay miễn cơ sở

Hàm ¿4~ : X [0 1] được gọi là hàm thuộc (membership function) và giá tri a-{0) tại u được gọi là độ thuộc của phan tử u, thuộc về tap hop mo A” Néu khơng

gây nhằm lẫn, hàm thuộc a- cũng được ký hiệu là A“() nếu biến cơ sở khơng biểu thị hay A*(u) nếu biến u xuất hiện

Lưu ý rằng về phải của định nghĩa A~ là một tập kinh điển và do đĩ định nghĩa

trên là hồn chỉnh họ tất cả các tập mờ trên miễn cơ sở X được ký hiệu là FX),

F(X) = {wa XD [0, 1] } = [0, IP}

Cĩ nhiều cách biểu diễn hình thức một tập mờ trong trường hợp X là một tập

hữu hạn đếm được hay vơ hạn liên tục tập mờ A“ cĩ thể được biểu diễn bằng các

biểu thức như sau:

Trong trường hợp X hữu hạn, X = {u¡ :1= l1,2, }, ta cĩ thể viết:

Trang 3

(cực đại tồn phần), ký hiệu giá trị khử ở của 4“ theo phương pháp cực đại trung bình là DAvemax(A^) Khi đĩ DAvemax(4”) được định nghĩa như sau:

umin + umax Davemax (41) = 5

Ý tưởng của phương pháp này là chúng ta chỉ quan tâm đến các giá trị của X mà tại đĩ nĩ phù hợp hay tương thích với ngữ nghĩa của tập mờ 4” nhất tại đĩ độ

thuộc là cực đại tồn phân, những giá trị khác của X mà tại đĩ độ thuộc nhỏ hơn 1 đều bị bỏ qua Vì vậy, một khả năng lựa chọn giá trị khử mờ là giá trị trung bình của

giá trị nhỏ nhất và giá trị lớn nhất tại đĩ độ thuộc vào tập mờ là lớn nhất đĩ chính là

lý do người ta gọi phương pháp khử mờ này là phương pháp cực đại trung bình b) Phương pháp cực đại trung bình cĩ trọng số

Ý tưởng của phương pháp này là tìm những đoạn tại đĩ hàm thuộc /4 đạt

cực đại địa phương, nghĩa là tại các giá trị của miễn cơ sở mà độ thuộc của chúng đạt cực đại địa phương Nĩi khác đi các giá trị đĩ của u thuộc về tập mờ 4“ với độ tin cậy cĩ độ trội nhất, các giá trị như vậy cần được tham gia “đĩng gĩp” vào việc

xác định giá trị khử mờ của tập 4F với trọng số đĩng gĩp chính là độ thuộc của chúng vào tập 4” Chúng ta chọn cách đĩng gĩp như vậy bằng phương pháp lấy trung bình cĩ trọng số (weighted average maxima method) vì vậy cách tính giá trị khử mờ của tập mờ 4” như sau:

Xác định các giá trị của u mả tại đĩ hàm thuộc /4~ đạt giá trị cực đại địa

phương ký hiệu zmin; và mai là giá trị nhỏ nhất và lớn nhất trong các giá trị của X

ma tai do ham thuộc đạt cực đại địa phương, giá trị trung bình cộng của ¡wim¡ và

umaxi sẽ được ký hiệu là „avemaxi trong đĩ chỉ số 7 chỉ nĩ là giá trị tương ứng với

giá trị cực đại địa phương thứ 7

Giả sử hàm thuộc #4 cĩ m giá trị cực đại địa phương, ? = 1, 2, , 7

Khi đĩ giá trị khử mờ của tập mờ 4ˆ được tính theo cơng thức trung bình cộng cĩ trọng số như sau:

m -(uavemax) uavemax

Dự w-AveMax = diy dig XZ, u(wavemax)

Trang 4

Điều kiện dừng: các trọng tâm của cụm khơng thay đổi - Đánh giá thuật tốn:

Độ phức tạp tính tốn là O((3»kđ) z 7°) Trong đĩ, ø là số đối tượng dữ

liệu, là số cụm dữ liệu, đ là số chiều, 7 là số vịng lặp, 7 là thời gian dé thực

hiện một phép tính cơ sở như phép tính nhân, chia

- Ưu điểm: K-means phân tích phân cụm đơn giản nên cĩ thê áp đụng đối với

tập dữ liệu lớn

- Nhược điểm: K-means khơng khắc phục được nhiễu và giá trị & phải được

cho bởi người đùng chỉ thích hợp áp dụng với dữ liệu cĩ thuộc tính số và khám phá

ra các cụm cĩ dạng hình cầu

b) Thuật tốn K_MEDOIDS (PAM)

Giải thuật K-means rất nhạy với các phần tử ngoại lai, do vậy một đối tượng

giá trị cực lớn về cơ bản sẽ làm thay đổi tâm cụm và cĩ thể bĩp méo phân bồ của dữ

liệu ban đầu

Tâm cụm khơng cĩ phần tử ngoại lai Tâm cụm khi cĩ phản tử ngoại lai

Hình 2.4: Sự thay đơi tâm cụm trong K-means khi cĩ phân tử ngoại lai Ý tưởng của K-medoids thay vì lấy giá trị trung bình của các đối tượng trong

cụm như một điểm tham khảo, K-medoids lay một đối tượng đại diện trong cụm, gọi là međọd nĩ là điểm đại diện được định vị trung tâm nhất trong cụm Do vậy,

phương pháp phân chia vẫn được thực hiện dựa trên nguyên tắc tối thiểu hố tổng các độ khơng tương đồng giữa mỗi đối tượng với điểm tham khảo tương ứng của nĩ điểm này thiết lập nên cơ sở của phương phap K-mediods

Trang 5

Bang 3.1: Bang 3.2: Bang 3.3: Bang 3.4: Bang 3.5: DANH MUC BANG BIEU Trang Mơ tả thơng tin các chỉ tiêu các cột dữ liệu thuộc tập dữ liệu J1 HỤE2019:5]SXeserssgeicniciotittibtÐEttlefÐttflGGEIESIGENISIIGHSNISUSMSINEAIGuB3x0ninai 53 Kết quả tính F với số cụm e = [3,Š] -©22222222222221211222122112112 xe 57

Kết quả phân cụm doanh nghiệp trên tập dữ liệu THUE2019.xlsx 57 So sánh kết quả phân cụm dữ liệu THUE2019.xlsx với thơng tin rủi ro vi phạm thuế 22: 2s 221221122112111211111211111121121121121222222 re 58

Xác định doanh nghiệp thuộc cum 2.0 ccc eececeeeeeeeeeeneeneeseeeeeens 59

Trang 6

Hinh 1.1: Hinh 1.2: Hinh 2.1: Hinh 2.2: Hinh 2.3: Hinh 2.4: Hinh 2.5: Hinh 2.6: Hinh 2.7: Hinh 2.8: Hinh 2.9: Hinh 2.10: Hinh 2.11: Hinh 2.12: Hinh 3.1: Hinh 3.2: Hinh 3.3: Hinh 3.4: Hinh 3.5: Hinh 3.6: DANH MỤC HÌNH Trang Biểu diễn hàm số Âa 22222 22122212211221211211211222222 e6 3 l1] -daaii.A 11

Ví dụ về phân cụm dữ liệu . S2: Seo 16

Ví dụ phân cụm các ngơi nhà dựa trên khoảng cách 18

Vi dụ phân cụm các ngơi nhà dựa trên kích cở ccccccsccsc°: 18

Sự thay đổi tâm cụm trong K-means khi cĩ phần tử ngoại lai 24 Phân cụm phân cấp Top-down và Bottom-up 2ss22szs2szszsccz 26

Liên kết đơn 5c 222221 t2 HH re Ø7 kể KƠNHÏinunnunsgnsnrntnottiDnfingotDERHGHEJ004000DB0/080000010000000005700:008.701N00910000n80 27

Khái quát thuật toan CHAMELEON

Cấu trúc phân cụm dựa trên lưới - ¿+ sc St ‡sEsrstxsreerrerrrrsres Vi dụ phân cụm dựa trên mơ hình [Š] c5: 5S ‡sxsvsrxsrrersrrsres 33 Quá trình ước lượng số cụm tối ưu dựa trên độ chồng và độ nén của

dỮ THẾ 20106600115 SLTDEBSEGNBEEEEHEUEEIEHEEETEEGSIEERSBEHEEISDSNSERSHBIPSEplleell 46 Đề xuất phương án lựa chọn nhĩm doanh nghiệp rủi ro vi phạm thuế cao 49

Trang 7

DANH MUC CAC KY HIEU VA CAC TU VIET TAT TIENG VIET

Viết tắt Thuật ngữ Tiếng Việt Giải thích

GTGT Giá trị gia tăng Tờ khai thuế giá trị gia tăng MST Mã số thuế Mã số thuế doanh nghiệp HTM Hàm mục tiêu DANH MỤC CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TAT TIENG ANH

Viết tắt Thuật ngữ Tiếng Anh Giải thích

FCM Fuzzy C-Means Một thuật tốn phân cụm mờ EM Epsilon Giá trị mục tiêu tối thiểu CURE | Clustering Using Representatives | Phan cum dữ liệu sử dụng đại diện

KFCM | Kernel Fuzzy Clustering Means Phương tiện phân cụm mờ PAM Partitioning Around Methoids Phân vùng xung quanh Methoids

STatistical Information Grip pak

Trang 8

MO DAU

Nộp thuế vừa là trách nhiệm vừa là nghĩa vụ của mỗi cơng dân để gĩp phần xây dựng đất nước Đề tránh xảy ra các vi phạm về nghĩa vụ của đối tượng nộp thuế gây thất thốt nguồn thu cho ngân sách, tạo sự bình đẳng và cơng bằng xã hội về nghĩa vụ nộp thuế thì cơng tác thanh, kiểm tra thuế cần tăng cường hơn nữa nhằm ngăn ngừa, phát hiện và xử lý kịp thời những vi phạm vẻ thuế Việc thanh, kiểm tra

cần hiện đại hĩa từ khâu quản lý thuế, đặc biệt là trong thời kỳ 4.0 như hiện nay thì

các hành vi trốn tránh nghĩa vụ nộp thuế ngày càng tỉnh vi Với tính chất đa dạng và phức tạp của dữ liệu trong kho dữ liệu người nộp thuế, cần thiết phải cĩ hướng nghiên cứu và cách tổ chức các kho dữ liệu để trích xuất thơng tin phù hợp Phân cụm là một trong những phương pháp nghiên cứu phơ biến hiện nay, và phân cụm mờ là cơng cụ hữu hiệu trong các bài tốn phân tích thơng tin

Mục tiêu của phân cụm là chia nhỏ các đối tượng vào các cụm sao cho các

đối tượng cùng cụm là tương đồng với nhau nhất Phân cụm cĩ nhiều ứng dụng trong thương mại, giúp các nhà cung cấp biết được nhĩm khách hàng quan trọng cĩ các đặc trưng tương đồng nhau và đặc tả họ từ các mẫu trong cơ sở dữ liệu khách hàng Phân cụm mờ là phương pháp phân cụm đữ liệu mở rộng trong đĩ mỗi điểm

dữ liệu cĩ thể thuộc về hai hay nhiều cụm với các gia tri ham thuộc tương ứng Năm 1969, Ruspini[9] đã giới thiệu khái niệm phân hoạch mờ để mơ tả cấu trúc của một

cụm mờ, đến năm 1973, Dunn[10] đã mở rộng phương pháp phân cụm và đã phát triển thuật tốn phân cụm mờ, ý tưởng của thuật tốn là xây đựng một phương pháp

phân cụm mờ dựa trên tối thiểu hĩa hàm mục tiêu Sau đĩ, Bezdek[8] đã cải tiến và

tổng quát hĩa hàm mục tiêu mờ bằng cách thêm trọng số mũ, cho đến nay cĩ rất nhiều biến thể của phân cụm mờ được ứng dụng trong các bài tốn khác nhau

Mục tiêu của đề tài là ứng dụng thuật tốn phân cụm mờ trong phân tích thơng tin rủi ro quản lý thuế doanh nghiệp Một cơ sở đữ liệu mẫu về thơng tin tờ khai thuế,

Trang 9

dụng để làm đầu vào cho hệ thống phân tích rủi ro sử dụng phương pháp phân cụm mờ hệ thống phân tích sẽ được triển khai xây dựng và thử nghiệm kiểm chứng

Các phần chính trong luận văn:

Chương 1: Tổng quan lý thuyết tập mờ

Chương này giới thiệu một cách khái quát nhất về lý thuyết tập mờ, các giai đoạn của tập mờ trên dữ liệu, biến ngơn ngữ và các phép tốn trên tập mờ

Chương 2: Một số phương pháp phân cụm mờ

Chương này sẽ giới thiệu về phân cụm dữ liệu, các mục tiêu, một số yêu cầu của phân cụm dữ liệu và một số kỹ thuật tiếp cận trong phân cụm dữ liệu Đồng

thời, đề cập đến thuật tốn phân cụm mờ trong đĩ cĩ thuật tốn Fuzzy Clustering Means (FCM) và các phương pháp xác định số cụm trong gom cụm dữ liệu

Chương 3: Ứng dụng vào phân tích thơng tin rủi ro trong quản lý thuế doanh nghiệp

Trang 10

Chuong 1: TONG QUAN LY THUYET TAP MO

Người ta hay nhằm lẫn mức độ đúng với xác suất, tuy nhiên hai khái niệm

này khác han nhau, độ đúng đẫn của logic mo biểu diễn độ liên thuộc với các tập

được định nghĩa khơng rõ ràng chứ khơng phải khả năng xảy ra một biến cố hay điều kiện nào đĩ Logie mờ cho phép độ liên thuộc cĩ giá trị trong khoảng đĩng 0

và 1, và ở hình thức ngơn từ, các khái niệm khơng chính xác như "hơi hơi", "oan

như", "khá là" và "rất", cu thể nĩ cho phép quan hệ thành viên khơng đầy đủ giữa thành viên và tập hợp Tính chất này cĩ liên quan đến tập mờ và lý thuyết xác suất,

logic mo đã được đưa ra lần đầu tiên vào năm 1965 bởi GS Lotfi Zadeh tại Đại học California, Berkeley Mặc dù được chấp nhận rộng rãi và cĩ nhiều ứng dụng thành

cơng, nhưng logie mờ vẫn bị phê phán tại một số cộng đồng nghiên cứu

1.1 TAP MO VA THONG TIN KHONG CHAC CHAN

L Zadeh là người sáng lập ra lý thuyết tập mờ với hàng loạt bài báo mở đường cho sự phát triển và ứng dụng của lý thuyết này, khởi đầu là bai bao “Fuzzy

Sets” trên Tạp chí Information and Control, 8, 1965 Y tuong nổi bật của khái niệm

tập mờ của Zadeh là từ những khái niệm trừu tượng về ngữ nghĩa của thơng tin mờ,

khơng chắc chăn như trẻ, nhanh, cao-thấp, xinh đẹp , ơng đã tìm ra cách biểu diễn nĩ bằng một khái niệm tốn học, được gọi là tập mờ, như là một sự khái quát trực

tiếp của khái niệm tập hợp kinh điển (tập cơ điển) [1]

Đề dễ hiểu chúng ta hãy nhớ lại cách nhìn khái niệm tập hợp kinh điển như là

khái niệm các hàm số

Cho một tập vũ trụ X tập tất cả các tập con i(a)=l của X ký hiệu là P(A) và nĩ trở thành một đại số | aT

tập hợp với các phép tính hợp U , giao 1, hiéu \

và lấy phan bu -, (P(X), U,0, \, -) Bây giờ mỗi

tap hop A € P(X) c6 thể được xem như là một hàm số 4A : X > {0, 1} được xác định như sau: ()

Trang 11

Lkhix €A

As (x) = (1.1)

0 khix €A

Mic da Aa va A la hai déi tuong toan hoc hoan toan khac nhau, nhung chung đều biểu diễn cùng một khái niệm về tập hop: x € A khi va chi khi Aa (x) = 1, hay x thuộc vào tập A với “độ thuộc vào” bằng 1, vi vay ham Aa duoc gọi là hàm đặc trưng của tập A Như vậy tập hợp A co thể được biểu thị bằng mot ham ma gia tri

của nĩ là độ thuộc về hay đơn giản là độ thuộc của phần tử trong X vào tập hợp A:

Néu Aa (x) = 1 thì x € A với độ thuộc là 1 hay 100% thudc vao A, con néu Aa (x) =

0 thi x £ A với độ thuộc là 0 hay khơng thuộc vao A

1.1.1 Khái niệm tập mờ

Định nghĩa 1.1 Cho một tập vũ trụ X Tập hợp A~ được xác định bởi đẳng thức: A“={z(u)/u:u€X,/-(u) €[0, I]} được gọi là một tập hợp mờ trên tập X

Biến z lẫy giá trị trong X được gọi là biển cơ sở và vì vậy tập X cịn được gọi là tập tham chiếu hay miễn cơ sở

Hàm ¿4~ : X [0 1] được gọi là hàm thuộc (membership function) và giá tri a-{0) tại u được gọi là độ thuộc của phan tử u, thuộc về tap hop mo A” Néu khơng

gây nhằm lẫn, hàm thuộc a- cũng được ký hiệu là A“() nếu biến cơ sở khơng biểu thị hay A*(u) nếu biến u xuất hiện

Lưu ý rằng về phải của định nghĩa A~ là một tập kinh điển và do đĩ định nghĩa

trên là hồn chỉnh họ tất cả các tập mờ trên miễn cơ sở X được ký hiệu là FX),

F(X) = {wa XD [0, 1] } = [0, IP}

Cĩ nhiều cách biểu diễn hình thức một tập mờ trong trường hợp X là một tập

hữu hạn đếm được hay vơ hạn liên tục tập mờ A“ cĩ thể được biểu diễn bằng các

biểu thức như sau:

Trong trường hợp X hữu hạn, X = {u¡ :1= l1,2, }, ta cĩ thể viết:

Trang 12

hay AX =Nisiso Ma-(ui)/ vi

Trong trường hợp này được gọi là tập mo roi rac (discrete fuzzy)

Trong trường hợp X là vơ hạn đếm được, X= {ui:1= 1,2, }, ta cĩ thể viết: AW = 1<i<e /,-(0)/ Ui Trong trường hợp X là vơ hạn liên tục, X = [a, b] ta cĩ thể viết: 4= Ẹ Ha~ (H)⁄ Định nghĩa 1.2 Tập mờ A“ xác định bởi 4 giá trị (a,b,c,d) ký hiệu 4ˆ = (a,b,c,d) và được xác định: 0 nếu x<a (x=a)/(b-a) néua<x<b b-a Ma-(X) = 1 néu b<x<c (d-x)/(d-c) néu c<x<d 0 néu x>d 1.1.2 Cách biểu điễn tập mờ

Ở trên chúng ta thấy khái niệm tập mờ là một sự khái quát trực tiếp của khái niệm tập kinh điển điều này cho phép hy vọng nĩ sẽ đặt cơ sở cho mối liên hệ chặt chẽ giữa hai khái niệm tập hợp này Đề dẫn đến việc nghiên cứu đĩ, trước hết chúng

ta đưa ra khái niệm fap lat cắt œ của một tập mờ

Định nghĩa 1.3 Cho một tập mờ A” trên tập vũ trụ X và a € [0, 1] Tap lat cắt ơ (hoặc œ') của tập A” là một tập kinh điển, ký hiệu là Aa (hoặc Au+” ), được

xác định bằng đẳng thức sau:

Aa = {u EX: pa (u) > 0} (hodc Au” = {u EX: pa- (u ) > a })

Trang 13

Đề đơn giản ký hiệu, ta viết họ các tập kinh điển như vậy bằng h(A>) = {Aa : 0 <a< 1}, Av € FX)

Ho cac tap hop nhu vay co cac tinh chất sau:

Định ly 1.1 Cho Av, B~ € F(X), h 1a anh xa duoc cho trong (1.2) và

h(A>) = {Aw :0<a<1}, ACB) = {Bu : 0 <a< 1} Khi do,

- Mỗi họ h(A~) như vậy 1a day don diéu gidm, néu a <f, thi A,” > Ag”:

- Nếu A“ #B' thi {Aw 0<a<1} 4 {Bu 0<a< lh

Nghia la tồn tại một song ánh từ họ các tap mo F(X) vào họ của những họ tập kinh điển P(X) ở đạng (1.2) 1.2.3 Một số đặc trưng của tập mờ Định nghĩa 1.4 - Giả của tập mờ A”, ký hiệu là Suppor1(), là tập con của X trên đĩ HẠ~ (u) #0, Support(A”) = u: HẠ (u)> 0}

- D6 cao của tập mờ: Độ cao của tập mờ A”, ky hiéu la hight(A~), la can trén

dung cua ham thudc pa- trén X, hight(A~) = Sup{ pa- (u): u € X}

- Tập mờ chuẩn (normal): Tập mờ A” duoc goi la chudn néu hight(A*) = 1

Trai lai, tập mờ được gọi là đưới chuẩn (subnormal)

- Lối của tập mờ: Lõi của tập mờ A”, ký hiệu là Core(A”), là một tập con của

X được xác định như sau: Cøre(A”)= {u€ X: /-.(uU)= highf(A”)} Định nghĩa 1.5 Lực lượng của tập mờ

Cho A“ là một tập mờ trên X

- Lực lượng vơ hướng (scalar cardinality): Lực lượng hay bản số thực của tập

4F, ký hiệu là Cown(1"), được tính theo cơng thức đếm sau (đơi khi được gọi là

Trang 14

arith Count (A~) = Đụ (u), nếu X là tập hữu hạn hay đếm được ueU arith , Count (A~) = >0) du , nêu X là tập vơ hạn liên tục ueU arith là tổng và tích số học Ở đây S””.Í

- Luc long mé (fuzzy cardinality): Luc long hay ban sé mo cia tập A~ là một tập mờ trên tập các số nguyên khơng âm N duge dinh nghĩa như sau:

Card (1) = | ,„„.„ (n)dn

trong đĩ /cza a~ )(n) được xác định theo cơng thức sau, với | Ar | là lực lượng của tập mức //caa 4~)(n) = suppremum {t € [0, 1]: | A%| =n}

C6 thé xem céng thite tinh Count(A”) ở trên như là cơng thức “đếm” số phần tử trong X Thực vậy, nếu tập 4“ trở về tập kinh điển thì ¿ (z) = 1 trên X và do đĩ cơng thức Cowz#(1) trên chính là bộ đếm số phân tử Khi ø¿ (u) #Z 1, thì u chỉ thuộc về tập ⁄4“ với tỷ lệ phan tram bang jas (u) va do dé phan tử u chỉ được “đếm” vào số lượng các phần tử một đại lượng bằng /4~ (u)

Lưu ý rằng, khác với trường hợp tập kinh điển, dù tập X là vơ hạn đếm được hay vơ han (continuum), thi luc luong cua tap mo A~ vẫn cĩ thể là hữu hạn, tùy theo

dáng điệu của hàm /4~ (u)

1.2 BIEN NGON NGU

1.2.1 Khái niệm biến ngơn ngữ

Biến ngơn ngữ là một bộ năm (Š, 74Š), X, R, A⁄ ), trong đĩ S là tên biến, T(S)

Trang 15

1.2.2 Các đặc trưng của biến ngơn ngữ

Trong thực tế cĩ rất nhiều biến ngơn ngữ khác nhau về các giá trị nguyên thuỷ, chẳng hạn như biến ngơn ngữ SỐ NGÀY LLÌM VIỆC cĩ giá trị nguyên thuỷ là ít, nhiễu, biên ngơn ngữ LƯƠNG cĩ giá trị nguyên thuỷ là Øấp, cao Tuy nhiên, những kết quả nghiên cứu đối với một miễn trị của một biến ngơn ngữ cụ thể vẫn giữ được ý nghĩa về mặt cấu trúc đối với miễn giá trị của các biến cịn lại đặc trưng này được gọi là fính phổ quát của biến ngơn ngữ

Do đĩ, khi tìm kiếm mơ hình cho các gia tử và các liên từ chúng ta khơng quan tâm đến giá trị nguyên thuỷ của biến ngơn ngữ đang xét đặc trưng này được gọi là fính độc lập ngữ cảnh của gia tử và liên từ

Các đặc trưng trên cho phép chúng ta sử dụng cùng một tập các gia tử và xây dựng một cấu trúc tốn học đuy nhất cho miễn giá trị của các biến ngơn ngữ khác nhau

1.3 CÁC PHÉP TỐN TRÊN TẬP MỜ

Xét một biến ngơn ngữ § như đã được định nghĩa ở trên, chúng ta cĩ nhận

xét rằng tập ảnh của tập 7/5) qua ánh xạ ÄZ/Š) khơng cĩ cấu trúc đại số, trên đĩ chúng ta khơng định nghĩa được các phép tính trên tập mờ Một lý do nữa làm cho chúng ta khơng quan tâm đến điều này là cấu trúc đại số của tập gốc 7Š) cũng chưa

được phát hiện Trong khi chúng ta chưa phát hiện ra cấu trúc đại số của miễn 7 (S), trong mục nay ching ta sé dinh nghia trén tap F(X, [0, 1]) mot cấu trúc đại số

Trước khi định nghĩa các phép tính trong #2, [0, I]), chúng ta hãy xem đoạn

[0 1] như là một cấu trúc dàn Lo = (0 1], 1,U, /, -) với thứ tự tự nhiên trên đoạn [0 1] Khi đĩ, với mọi a, b €[0, I], ta cĩ:

a U b= max {a, b}, aM b= min {a, b} va-a=1Nb

Chúng ta cĩ thể kiểm ching rang Lp.) = ((0, 1], đ,U, -) là một đại số DeMorgan, hon nữa nĩ cĩ các tính chất sau:

- Các phép tính hop U va giao M co tinh giao hốn

Trang 16

- Các phép tính hợp U và giao f1 cĩ tính chat phân phối lẫn nhau aU(bfc)=(aUb)N@Uc) vaaN (bUc)=(aNb) U (anc) - Tính chất nuốt (absorption) và nuốt déi ngau (dual absorption): Tính chất nuốt > aN(aUb)=a,

Tính chất nuốt đối ngẫu : a U (aN b)=a, Tính lũy đẳng : a Ua=avàafìa=a Tính chất phủ phủ định : -(-a)=a

Tính đơn điệu giảm > ax<b>-a>-b

- Tinh chat DeMorgan : -(aUb)=-aN-b; -(aNb)=-aU-b

Dựa trên cấu trúc oan chúng ta sẽ định nghĩa các phép tính trên tập mờ thơng qua các phép tính của dàn Lyo,1

1.3.1 Phép Hợp (U)

Cho hai tập mờ A~ và Br trên tập vũ trụ X hợp của hai tập mờ này là một tập mờ ký hiệu là A“ U B, mà hàm thuộc của nĩ được định nghĩa theo điểm

(pointwise) như sau: /~ U z~(u) = 4~ (u) U /z~ (u) hay trong trường hợp X là hữu

hạn hay đếm được

AUB - 3i<<eMa- 0/0 U 3«<i<e Ha» (00):

=~ 311<i<e [u4~ (ui)/ui U HB~ (0M) ]/ tị

hay, trong trường hợp u là tập continuum

AUB = J M,.(u)du U J Me (u)du = ueU [Z2„„ (0)©222;„ (0) lẩu Một cách tổng quát cho 4/7 € Ƒ(), ¡ €7 với 7 là tập chỉ số hữu hạn hay vơ

hạn nào đĩ Khi đĩ, hợp của các tập mờ như vậy ký hiệu là U¡ei 47 được định nghĩa bằng hàm thuộc như sau: ;e; 4Z(u) = Sup;er 47 (u)

Một cách tổng quát nếu cho trước các tập mờ 17 ,1= 1,2 , m, thì hợp của

Trang 17

1.3.2 Phép Giao (f\)

Cho hai tập mờ 44” và Z” trên tập vũ trụ X hợp của hai tập mờ này là một tập mờ ký hiệu là 4“ í1 # mà hàm thuộc của nĩ được định nghĩa theo điểm (pointwise) nhu sau:

a~n 2-8) = gu (8) M1 fp (u)

hay trong trường hợp X là hữu hạn hay đếm được

4đ = 31<i<eHa~(M)mi (Ì 31<i<e Ha~ (M)/th

= X1«i<e|[MaA-(M)(M Ì Ma- (M1 ]/ tí hay, trong trường hợp X là tập continuum,

ANB = i= (u)du TL): Xa [2L ()tz„ (0) lẩu

ueU ueU

Một cách tổng quát cho 447 € Ƒ(X), ¡ €7, voi J la tap chi số hữu hạn hay vơ hạn nào đĩ Khi đĩ, hợp của các tập mờ như vậy ký hiệu là f1; r A, được định

nghĩa bằng hàm thuộc như sau: đ¡cz⁄4ƒ(u) = Inf ier APU)

1.3.3 Phép tơng đại số

Cho hai tập mờ 4“ và Ð' trên tập vũ trụ X tơng đại số của hai tập mờ này là

mot tap mo ky hiéu la A~ © B được định nghĩa bởi dang thức sau:

Trong trường hợp X là hữu hạn hay vơ hạn đếm được

4 @B =3 „eu|Ma- (1) + Mg~(H) - Ma~ (1) ta~(M) | t

Trong trường hợp X là vơ hạn continuum

A B= | [9+ ma-(M)- Hào (0) ta-(M)] du

Lưu ý rằng giá trị biểu thức gưa- (w) + ,a~ (M) - tla~ (M) ta (w) luơn luơn thuộc [0 1] và do đĩ các định nghĩa của phép tính @ trên là đúng đắn

Trang 18

1.3.4 Phép tích hai đại số Nhân đại số hai tập mờ A“ và B“ là một tập mờ ký hiệu là A~ @ Bo duoc xác định như sau: Trong trường hợp X là hữu hạn hay vơ hạn đếm được 4® =3xeu[H4-(M) ta~(M) ]/ 1, Trong trường hợp X là vơ hạn continuum, 4®B=[_ [ma-(@).ma-(0)] du 1.3.5 Phép co (concentration)

Cho tập mờ 4“ trên X phép tập trung tập mờ 4 là tập mờ ký hiệu là

CON(1), được định nghĩa như sau:

CON (4°) =f us (du = (4) *, voi a> 1

Vi a> 1 nén w%4 (u) < + (u) va do dé mién gidi hạn bởi hàm ¿/24- (u) sẽ nằm

tron trong mién giới hạn bởi hàm /⁄¿-.(u) hàm thuộc /⁄4„(u) của tập mờ bi co lai sau phép tập trung Nĩi khác đi tập mờ CON/1) biểu thị một khái niệm đặc tả hơn khái

niệm gốc biêu thị bởi tập mờ 4“ (xem Hình 1.2) về trực quan chúng ta thấy khái niệm mờ cảng đặc tả thì nĩ càng chính xác hơn, ít mờ hơn va gần giá trị kinh điển hơn

Thơng thường người ta sử dụng phét tập trung để biêu thị ngữ nghĩa tác động của gia tử rấï (very) vì ngữ nghĩa chẳng hạn của khái niệm rất trẻ là đặc tả hay ít mờ

hơn so với khái niệm tre 1.3.6 Phép dãn (Dilation)

Ngược với phép ứập rung là phép đãn phép dãn khi tác động vào một trong trường

hợp này ta thấy tạp mờ A~ ký hiệu là DIL (Aˆ)

được xác định bởi đẳng thức sau: 0 15 25 35 45 5 Hinh 1.2 Phép tap trung

Trang 19

DIL (4°) = iz wa (udu = (AYP , voi B<1

Trong trường hợp này ta thấy #4 (u) > /4 (u) và đo đĩ phép dãn sẽ làm

hàm thuộc của tập mờ đĩ đẩn nở ra, hàm thuộc của tập mờ thu được sẽ xác định một miễn thực sự bao hàm miễn giới hạn bởi hàm thuộc của tập mờ gốc Trên Hình

1.2, ta thấy đường cong nét chấm biểu thị hàm thuộc ¿¿ (u) cịn đường cong nét

liền biểu thị hàm thuộc /4- (u) Ngữ nghĩa của khái niệm mờ biểu thị bởi tập mờ kết

quả ít đặc tả hơn hay ngữ nghĩa của nĩ càng mờ hơn

Ngược với hay đối ngẫu với việc sử dụng phép CON, phép DIL được sử dụng để biểu thị ngữ nghĩa của gia tử cĩ ?hê hay xấp xỉ vì ngữ nghĩa của khái niệm cĩ thể trẻ ít đặc tả hơn hay tính mờ của nĩ lớn hơn

1.3.7 Phép mờ hĩa (Euzzification) Việc mờ hĩa cĩ hai bài tốn:

- Tìm tập mờ biểu thị một tập kinh điển hay một cách tổng quát hơn là mờ

hĩa một tập mờ đã cho A~

- Tìm độ thuộc của giá trị ngơn ngữ của một biến ngơn ngữ tương ứng với

một dữ liệu đầu vào là thực hoặc mờ

Theo nghĩa thứ nhất ta định nghĩa phép mị hĩa như sau :

Phép mờ hĩa #' của một tập mờ 4“ trên tập vũ trụ X sẽ cho ta một tập mờ F(A~,K~) được xác định theo cơng thức sau:

FT, K)= |, ma- (0) K (0)đu

trong đĩ Kˆ(ø) là một tập mờ trên X, u € X, được gọi là nhân (kernel) của #'

Nếu ø¿- (u) là hàm thuộc của tập kinh điển 1 phần tử {u}, /4 (z) chỉ bằng 1 tại phần tử u cịn lại là bằng 0 hay ta cĩ tập “mờ” {1/u}, thì ta cĩ

F({ Lm}, K“(w)) = KT(w)

Nếu A” la tập kinh điển 4, ø¿ (ø) = 1 trên 44 và bằng 0 ngồi 4, thì mờ hĩa của 4 với nhân K”(ø) sẽ là tập mờ sau: #4, K”) = [4 K~ (w)du

Trang 20

1.3.8 Phép khử mờ

Trong điều khiển mờ cũng như trong lập luận các chuyên gia với các luật tri thức mờ, đữ liệu đầu ra nhìn chung đều là những tập mờ Thực tế chúng ta cũng thường gặp nhu cầu chuyên đổi dữ liệu mờ đầu ra thành giá trị thực một cách phù hợp, phương pháp chuyển đổi như vậy được gọi là phương pháp khử mờ (defuzzification) Nhu cầu này thường gặp nhất trong điều khiển mờ vì đầu ra địi

hỏi là giá trị thực để tác động vào một quá trinh thực nào đĩ

Tuy nhiên, về trực quan chúng ta cĩ thê đưa ra những yêu cầu để một phương pháp khử mờ được xem là tốt Hellendoorn and Thomas (năm 1993) đã đưa ra 5 tiêu chuẩn trực quan sau [2]:

- Tính liên tục, nghĩa là một sự thay đổi nhỏ của dữ liệu đầu vào của phương

pháp nĩ cũng chỉ tạo ra những thay đổi nhỏ ở đữ liệu đầu ra;

- Tính khơng nhập nhằng (disambiguity), nghĩa là phương pháp chỉ sinh ra

một giá trị đầu ra duy nhất,

- Tính hợp lý (plausibility) địi hỏi rằng giá trị đầu ra phải nằm ở vùng trung

tâm của tập mờ và độ thuộc hay giá trị hàm thuộc tại đĩ phải lớn (khơng nhất thiết lớn nhất);

- Độ phức tạp tính đơn giản (computational simplicity), một địi hỏi tự nhiên và Tính trọng số của phương pháp (weighting methođ) địi hỏi phương pháp tính đến trọng số hay “sự ưu tiên” của các tập mờ kết quả đầu ra (đối với trường hợp bài tốn cho nhiều kết quả đầu ra như đối với một số phương pháp lập luận mờ đa điều kiện)

Nĩi chung, chúng ta cĩ thể hiểu các tiêu chuẩn cần bảo đâm giá trị khử mờ

của tap mo A” la phan từ thực đại điện một cach hop ly cua A”

Sau đây chúng ta nghiên cứu một vài phương pháp khử mờ: a) Phương pháp cực đại trung bình (average maximum)

Cho tập mờ 4ˆ với hàm thuộc /4-~ goi umin va umax tuong tng là hai giá trị

nhỏ nhất và lớn nhất của miễn cơ sở u mà tại đĩ hàm thuộc HA~ nhận giá trị lớn nhất

Trang 21

(cực đại tồn phần), ký hiệu giá trị khử ở của 4“ theo phương pháp cực đại trung bình là DAvemax(A^) Khi đĩ DAvemax(4”) được định nghĩa như sau:

umin + umax Davemax (41) = 5

Ý tưởng của phương pháp này là chúng ta chỉ quan tâm đến các giá trị của X mà tại đĩ nĩ phù hợp hay tương thích với ngữ nghĩa của tập mờ 4” nhất tại đĩ độ

thuộc là cực đại tồn phân, những giá trị khác của X mà tại đĩ độ thuộc nhỏ hơn 1 đều bị bỏ qua Vì vậy, một khả năng lựa chọn giá trị khử mờ là giá trị trung bình của

giá trị nhỏ nhất và giá trị lớn nhất tại đĩ độ thuộc vào tập mờ là lớn nhất đĩ chính là

lý do người ta gọi phương pháp khử mờ này là phương pháp cực đại trung bình b) Phương pháp cực đại trung bình cĩ trọng số

Ý tưởng của phương pháp này là tìm những đoạn tại đĩ hàm thuộc /4 đạt

cực đại địa phương, nghĩa là tại các giá trị của miễn cơ sở mà độ thuộc của chúng đạt cực đại địa phương Nĩi khác đi các giá trị đĩ của u thuộc về tập mờ 4“ với độ tin cậy cĩ độ trội nhất, các giá trị như vậy cần được tham gia “đĩng gĩp” vào việc

xác định giá trị khử mờ của tập 4F với trọng số đĩng gĩp chính là độ thuộc của chúng vào tập 4” Chúng ta chọn cách đĩng gĩp như vậy bằng phương pháp lấy trung bình cĩ trọng số (weighted average maxima method) vì vậy cách tính giá trị khử mờ của tập mờ 4” như sau:

Xác định các giá trị của u mả tại đĩ hàm thuộc /4~ đạt giá trị cực đại địa

phương ký hiệu zmin; và mai là giá trị nhỏ nhất và lớn nhất trong các giá trị của X

ma tai do ham thuộc đạt cực đại địa phương, giá trị trung bình cộng của ¡wim¡ và

umaxi sẽ được ký hiệu là „avemaxi trong đĩ chỉ số 7 chỉ nĩ là giá trị tương ứng với

giá trị cực đại địa phương thứ 7

Giả sử hàm thuộc #4 cĩ m giá trị cực đại địa phương, ? = 1, 2, , 7

Khi đĩ giá trị khử mờ của tập mờ 4ˆ được tính theo cơng thức trung bình cộng cĩ trọng số như sau:

m -(uavemax) uavemax

Dự w-AveMax = diy dig XZ, u(wavemax)

Trang 22

c) Phuong pháp trọng tâm

Trong hai phương pháp trên người ta chỉ quan tâm đến giá trị của miền X mà

tại đĩ hàm thuộc đạt cực đại, cịn các giá trị khác đều bị bỏ qua Như vậy cĩ vẻ

“thiếu bình đẳng” phương pháp trọng tâm (centroid method hay centre of gravity) xuất phát từ ý tưởng mọi giá trị của X đều được đĩng gĩp với trọng số vào việc xác

định giá trị khử mờ của tập mờ 4; ở đây trọng số của nĩ là độ thuộc của phần tử thuộc vào tập mờ 41”

Theo nghĩa thơng thường của trọng tâm, cơng thức tính giả trị khử mờ cĩ

ƒ up(u)du

dang như sau: Deentroia(A™) = p loan

1.4 TIEU KET CHUONG 1

Như vậy Chương l của Luận văn đã trình bày cơ sở lý thuyết tập mờ, các phép tốn trên tập mờ, tập mờ đĩng vai trị quan trọng trong việc phân cụm dữ liệu

Trong cách biểu diễn tập mờ sử dụng đến một hàm thuộc để biểu thị tính thuộc

(thành viên) của đối tượng vào một tập Trong Chương 2 tiếp theo của Luận văn này sẽ giới thiệu tổng quan về phân cụm đữ liệu kết hợp yếu tố mờ và một số thuật tốn phân cụm mờ

Trang 23

Chương 2: MỘT SĨ PHƯƠNG PHÁP PHÂN CỤM MỜ

Phân cụm dữ liệu là quá trình tổ chức các đối tượng thành từng nhĩm mà các đối tượng ở mỗi nhĩm đều tương tự nhau theo một tính chất nào đĩ những đối tượng khơng tương tự tính chất ở nhĩm khác Phân cụm dữ liệu là quá trình nhĩm

một tập các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng cịn các đối tượng thuộc khác nhau sẽ

khơng tương đồng, phân cụm dữ liệu là một ví dụ của phương pháp học khơng cĩ

thầy Khơng giống như phân lớp đữ liệu, phân cụm dữ liệu khơng địi hỏi phải định

nghĩa trước các mẫu đữ liệu huấn luyện Vì thế, cĩ thể coi phân cụm dữ liệu là một

cách học bằng quan sát trong khi phân lớp đữ liệu là học bằng ví đụ

2.1 TONG QUAN VE PHAN CUM DU LIEU

2.1.1 Phần cụm dữ liệu là gì?

Phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các đối tượng trong một cụm “tương tự” (Similar) với nhau và

các đối tượng trong các cụm khác nhau sẽ “khơng tương tự” (Dissimilar) với nhau

Số các cụm dữ liệu được phân ở đây cĩ thể được xác định trước theo kinh nghiệm hoặc cĩ thể được tự động xác định, chúng ta cĩ thể thay diéu này với một vi du đơn

giản như sau:

Hình 2.1: Vi du vé phan cum dit liéu

Trong trường hợp này, chúng ta dễ dàng xác định được 4 cụm dựa vào các dữ liệu đã cho các tiêu chí “tương tự” để phân cụm trong trường hợp này là khoảng

Trang 24

cách hai hoặc nhiều đối tượng thuộc nhĩm của chúng được “đĩng gĩi” theo một khoảng cách nhất định, điều này được gọi là phân cụm dựa trên khoảng cách nhĩm

đối tượng

Để tối ưu hĩa các thuật tốn phân cụm, dữ liệu yêu cầu phải được chuẩn hĩa

Cĩ 2 dạng chuân hĩa dữ liệu phổ biến:

- Min-max normalization: khi muén gia trị chuẩn hĩa nằm trong đoạn 0 ] * x—min(X) max(X)—min(X) - Z-score standardization: Gia tri chuan héa trong doan -3 3 x-min(X) _—— SD(Œ) oe

Một kiểu khác của phân cụm dữ liệu là phân cụm dữ liệu dựa vào khái niệm: hai hoặc nhiều đối tượng thuộc cùng nhĩm nếu cĩ một định nghĩa khái niệm chung

cho tất cả các đối tượng trong đĩ Nĩi cách khác đối tượng của nhĩm phải phù hợp với nhau theo miêu tả các khái niệm đã được định nghĩa, khơng phải theo những biện pháp đơn giản tương tự

2.1.2 Mục tiêu của phần cụm dữ liệu

Mục tiêu của phân cụm dữ liệu là để xác định các nhĩm nội tại bên trong một bộ dữ liệu khơng cĩ nhãn Nhưng để cĩ thể quyết định được cái gì tạo thành một cụm tốt và làm thế nào dé quyết định cái gì đã tạo nên một phân cụm dữ liệu tốt? Nĩ cĩ thể được hiển thị rằng khơng cĩ tiêu chuẩn tuyệt đối “tốt nhất” mà sẽ là độc

lập với mục đích cuối cùng của phân cụm dữ liệu Do đĩ, người sử dụng phải cung cấp tiêu chuân theo cách như vậy mà kết quả của phân cụm đữ liệu sẽ phù hợp với

nhu câu của họ cần

Ví dụ, chúng ta cĩ thể quan tâm đến việc tìm kiếm đối tượng đại diện cho các

nhĩm đồng nhất trong “các cụm tự nhiên” và mơ tả thuộc tính khơng biết của chúng trong việc tìm kiếm các nhĩm hữu ích và phù hợp hoặc trong việc tìm kiếm các đối

tượng bất thường trong dữ liệu (cá biệt, ngoại lệ, nhiễu )

Trang 25

e â eo đ đ â e.? Tr e ° ⁄ ee se 3 i \ (* e a 'e đ oe: â e@ eo eô â @

Hỡnh 2.2: Vi du phan cụm các ngơi nhà đụta trên khoảng cách

Một vấn để thường gặp trong phân cụm là hầu hết các dữ liệu cần cho phân

cụm đều cĩ chứa dữ liệu nhiễu do quá trình thu thập thiếu chính xác hoặc thiếu đầy

đủ, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lý đữ liệu nhằm khắc

phục hoặc loại bỏ nhiễu trước khi chuyền sang giai đoạn phân tích cụm dữ liệu

Nhiễu ở đây được hiểu là các đối tượng đữ liệu khơng chính xác, khơng tường minh

hoặc là các đối tượng dữ liệu khuyết, thiếu thơng tin về một số thuộc tính Một

trong các kỹ thuật xử lý nhiễu phơ biến là việc thay thé giá trị các thuộc tính của đối tượng nhiễu bằng giá trị thuộc tính tương ứng

Ngồi ra, dị tìm đối tượng ngoại lai cũng là một trong những hướng nghiên cứu quan trọng trong phân cụm, chức năng của nĩ là xác định một nhĩm nhỏ các

đối tượng dữ liệu khác thường so với các dữ liệu trong cơ sở dữ liệu, tức là các đối tượng dữ liệu khơng tuân theo các hành vị hoặc mơ hình dữ liệu nhằm tránh sự ảnh

hưởng của chúng tới quá trình và kết quả của phân cụm

sả bị a FF é

Wes - ’ oy

Hình 2.3: Vi du phân cụm các ngơi nhà dựa trên kích co

Theo các nghiên cứu đến thời điểm hiện nay thì chưa cĩ một phương pháp phân cụm tổng quát nào cĩ thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cơ sở dữ liệu Hơn nữa, đối với các phương pháp phân cụm cần cĩ cách thức biểu diễn

Trang 26

cấu trúc của cơ sở đữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ cĩ tương ứng

một thuật tốn phân cụm phù hợp Vì vậy, phân cụm dữ liệu vẫn đang là một vấn để

khĩ và mở, vì phải giải quyết nhiều vấn đề cơ bản một cách trọn vẹn và phủ hợp với

nhiều dạng dữ liệu khác nhau, đặc biệt là đối với dữ liệu hỗn hợp đang ngày càng

tăng trong các hệ quản trị dữ liệu và đây cũng là một trong những thách thức lớn trong lĩnh vực khai phá dữ liệu

2.1.3 Quy trình phân cụm dữ liệu

Phân cụm là một thách thức trong lĩnh vực nghiên cứu ở chỗ những ứng dụng tiềm năng của chúng được đưa ra ngay chính trong những yêu cầu đặc biệt của chúng Sau đây là những yêu cầu cơ bản của phân cụm [2]:

- Cĩ khả năng mở rộng : nhiều thuật tốn phân cụm làm việc tốt với những

tập dữ liệu nhỏ chứa ít hơn 200 đối tượng, tuy nhiên, một cơ sở dữ liệu lớn cĩ thể chứa tới hàng triệu đối tượng, việc phân cụm với một tập dữ liệu lớn cĩ thể làm ảnh

hưởng tới kết quả Vậy làm cách nào để chúng ta cĩ thê phát triển các thuật tốn phân cụm cĩ khả năng mở rộng hiệu quả đối với các cơ sở dữ liệu lớn ?

- Khả năng thích nghi với các kiêu thuộc tính khác nhau: nhiều thuật tốn

được thiết kế cho việc phân cụm dữ liệu cĩ kiểu khoảng (kiểu 80) Tuy nhién, nhiéu ung dung co thể địi hỏi việc phân cụm với nhiều kiểu dữ liệu khác nhau, như kiểu nhị phân, kiểu tường minh (định danh - khơng thứ tự), và dữ liệu cĩ thứ tự hay dạng

hỗn hợp của những kiểu dữ liệu này

- Khám phá các cụm với hình dạng bất kỳ: nhiều thuật tốn phân cụm xác định các cụm dựa trên các phép đo khoảng cách Euclidean và khoảng cách Manhattan Các thuật tốn dựa trên các phép đo như vậy hướng tới việc tìm kiếm

các cụm hình cầu với mật độ và kích cỡ tương tự nhau Tuy nhiên, một cụm cĩ thể cĩ bất cứ một hình dạng nào; do đĩ việc phát triển các thuật tốn cĩ thể khám phá ra các cụm cĩ hình dạng bất kỳ là một việc làm quan trọng

- Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào: nhiều thuật

tốn phân cụm yêu cầu người dùng đưa vào những tham số nhất định trong phân

Trang 27

tích phân cụm (như số lượng các cụm mong muốn) Kết quả của phân cụm thường

khá nhạy cảm với các tham số đầu vào, nhiều tham số rất khĩ để xác định nhất là

với các tập đữ liệu cĩ lượng các đối tượng lớn Điều này khơng những gây trở ngại cho người đùng mà cịn làm khĩ cĩ thể điều chỉnh được chất lượng của phân cụm

- Khả năng thích nghi với đữ liệu nhiễu: hầu hết những cơ sở dữ liệu thực

đều chứa đựng dữ liệu ngoại lai, đữ liệu lỗi, dữ liệu chưa biết hoặc dữ liệu sai Một

số thuật tốn phân cụm nhạy cảm với dữ liệu như vậy và cĩ thể dẫn đến chất lượng

phân cụm thấp

-Ít nhạy cảm với thứ tự của các dữ liệu vào: một số thuật tốn phân cụm nhạy cảm với thứ tự của dữ liệu vào, ví dụ như với cùng một tập dữ liệu khi được đưa ra với các thứ tự khác nhau thi với cùng một thuật tốn cĩ thể sinh ra các cụm rất khác nhau Do đĩ, việc quan trọng là phát triển các thuật tốn mà ít nhạy cảm với thứ tự vào của dữ liệu

- Số chiều lớn: một cơ sở dữ liệu hoặc một kho dữ liệu cĩ thể chứa một số chiều hoặc một số các thuộc tính Nhiều thuật tốn phân cụm áp dụng tốt cho dữ

liệu với số chiều thấp bao gồm chỉ từ 2 đến 3 chiều, người ta đánh giá việc phân

cụm là cĩ chất lượng tốt nếu nĩ áp dụng được cho dữ liệu cĩ từ 3 chiều trở lên Đĩ là sự thách thức với các đối tượng dữ liệu cụm trong khơng gian với số chiều lớn,

đặc biệt vì khi xét những khơng gian với số chiều lớn cĩ thể rất thưa và cĩ độ nghiêng lớn

- Phân cụm ràng buộc: nhiều ứng dụng thực tế cĩ thể cần thực hiện phân cụm dưới các loại ràng buộc khác nhau Một nhiệm vụ đặt ra là đi tìm những nhĩm dữ liệu cĩ trạng thái phân cụm tốt và thỏa mãn các ràng buộc

- Dễ hiệu và dễ sử dụng: Người sử dụng cĩ thê chờ đợi những kết quả phân

cụm dễ hiểu, dễ lý giải và dễ sử dụng Nghĩa là, sự phân cụm cĩ thể cần được giải

thích ý nghĩa và ứng dụng rõ ràng

Với những yêu cầu đáng lưu ý này, nghiên cứu của ta về phân tích phân cụm

diễn ra cụ thê như sau:

Trang 28

- Đầu tiên, ta nghiên cứu các kiểu đữ liệu khác nhau và cách chúng cĩ thể gây ảnh hưởng tới các phương pháp phân cụm

- Thứ hai, ta đưa ra một cách phân loại chung trong các phương pháp phân cụm - Sau đỏ, ta nghiên cứu chỉ tiết mỗi phương pháp phân cụm, bao gồm các phương pháp phân hoạch, phân cấp, dựa trên mật độ, Ta cũng khảo sát sự phân cụm trong khơng gian đa chiều và các biến thể của các phương pháp khác

2.1.4 Một số ứng dụng của phân cụm dữ liệu

Phân cụm dữ liệu cĩ thể ứng dụng trong nhiều lãnh vực [2.3] như:

- Thương mại: tìm kiếm nhĩm các khách hàng quan trọng dựa vào các thuộc tính đặc trưng tương đồng và những đặc tả của họ trong các bản ghi mua bán của cơ

sở dữ liệu;

- Sinh học: phân loại động thực vật qua các chức năng gen tương đồng của chúng: - Thư viện: phân loại các cụm sách cĩ nội dung và ý nghĩa tương đồng nhau để cung cấp cho đọc giả, cũng như đặt hàng với nhà cung cấp;

- Bảo hiểm: nhận đạng nhĩm tham gia bảo hiểm cĩ chi phí yêu cầu bồi thường trung bình cao, xác định gian lận trong bảo hiểm thơng qua các mẫu cá biệt;

- Quy hoạch đơ thị: nhận dạng các nhĩm nhà theo kiểu, vị trí địa lí, gia tri

nhằm cung cấp thơng tin cho quy hoạch đơ thị;

- Nghiên cứu địa chấn: phân cụm để theo dõi các tâm động đất nhằm cung cấp thơng tin cho việc nhận dạng các vùng nguy hiểm;

- WWW: tài liệu phân loại, phân nhĩm dữ liệu weblog để khám phá các nhĩm về các hình thức tiếp cận tương tự trợ giúp cho việc khai phá thơng tin từ đữ liệu

2.1.5 Những vấn đề tồn tại trong phân cụm dữ liệu

- Kỹ thuật clustering (phân cụm) hiện nay khơng trình bày được tất cả các yêu cầu đầy đủ (và đồng thời);

- Việc tương tác với số lượng lớn các mẫu tin của dữ liệu cĩ thể gặp vấn để phức tạp về thời gian tính tốn:

Trang 29

- Hiệu quả của phương pháp phụ thuộc vào định nghĩa của “khoảng cách”

(đối với phân cụm dữ liệu dựa trên khoảng cách) Nếu khơng tồn tại một thước đo khoảng cách rõ ràng chúng ta “phải tự xác định”, đây là một vấn để thật sự khĩ nhất

là trong khơng gian đa chiều;

- Kết quả của thuật tốn phân cụm dữ liệu cĩ thể được giải thích theo nhiều

cách khác nhau (mà trong nhiều trường hợp chỉ cĩ thê được giải thích theo ý riêng của mỗi người)

2.2 MOT SO KY THUAT PHAN CUM DU LIEU

Các kỹ thuật phân cụm cĩ rất nhiều cách tiếp cận và các ứng dụng trong thực tế, nĩ đều hướng tới hai mục tiêu chung đĩ là chất lượng của các cụm khám phá

được và tốc độ thực hiện của thuật tốn Hiện nay, các kỹ thuật phân cụm cĩ thể

phân loại theo các phương pháp tiếp cận chính như sau: phân cụm phân hoạch (Partitioning Methods); phan cum phan c4p (Hierarchical Methods), phan cum dua

trên mat dO (Density-Based Methods); phan cụm dựa trên lưới (Grid-Based

Methods); phân cum dia trén m6 hinh (Model-Based Clustering Methods) 2.2.1 Phuong phap phan cum phan hoach (Partitioning Methods)

Kỹ thuật này phân hoạch một tập hợp đữ liệu cĩ z phần tử thành & nhĩm cho

đến khi xác định số các cụm được thiết lập số các cụm được thiết lập là các đặc

trưng được lựa chọn trước, phương pháp này là tốt cho việc tìm các cụm hình cầu trong khơng gian Euclidean Ngồi ra, phương pháp nảy cũng phụ thuộc vào

khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào cĩ quan hệ là

gần nhau với mỗi điểm khác và các điểm dữ liệu nào khơng cĩ quan hệ hoặc cĩ quan hệ là xa nhau so với mỗi điểm khác

Tuy nhiên, phương pháp này khơng thê xử lí các cụm cĩ hình dạng kỳ quặc

hoặc các cụm cĩ mật độ các điểm dầy đặc Các thuật tốn phân hoạch dữ liệu cĩ độ phức tạp rất lớn khi xác định nghiệm tối ưu tồn cục cho vấn để phân cụm dữ liệu,

do nĩ phải tìm kiếm tất cả các cách phân hoạch cĩ thê được

Trang 30

Chính vì vậy, trên thực tế thường đi tìm giải pháp tối ưu cục bộ cho vấn để này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Như vậy, ý tưởng

chính của thuật tốn phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược ăn

tham (Greedy) để tìm kiếm nghiệm

Điền hình trong phương pháp tiếp cận theo phân cụm phân họach là các thuật toan nhu: K_ means, K-medoids, CLARA (Clustering Large Applications), CLARANS (Clustering Large Applications based on RAndomized Search)

a) Thudt toan KMEANS (MacQueue 1967)

Thuật tốn này dựa trên độ đo khoảng cach của các đối tượng dữ liệu trong cụm mục đích của thuật tốn k-means là sinh & cụm dữ liệu /C¡, C¿, , Cz} từ một

tập dữ liệu chứa ø đối tượng trong khơng gian d chiều X; = /&u, xø, , Xa}, ¡ = 1 m, sao cho tối thiểu hàm tiêu chuẩn:

Trong đĩ: m¡ là trọng tâm của cụm C; Ð là khoảng cách giữa hai đối tượng Input: Số cụm & và các trọng tâm cụm {m;} &;= l

Oufput: Các cụm C[7] (1 <¡ <#) và hàm tiêu chuân E đạt giá trị tối thiêu Thuật tốn:

Bước 1: Khởi tạo chọn & trọng tâm {z} # = 1 ban đầu trong khơng gian Rd (d

là số chiều của dữ liệu) Việc lựa chọn này cĩ thể là ngẫu nhiên hoặc theo kinh nghiệm

Bước 2: Lặp

«Tính tốn khoảng cách: Đối với mỗi điểm x¡ (1 < ¡ < n), tính tốn khoảng cách của nĩ tới mỗi trong tam mj (1 <j < k) sau đĩ tìm trọng tâm gần nhất đối với

mỗi điểm

¢ Cap nhat lai trong tam

« Đối với mỗi ] <j < k, cập nhật trong tam cum mj bang cach xac dinh

trung bình cộng các vectơ đối tượng dữ liệu

Trang 31

Điều kiện dừng: các trọng tâm của cụm khơng thay đổi - Đánh giá thuật tốn:

Độ phức tạp tính tốn là O((3»kđ) z 7°) Trong đĩ, ø là số đối tượng dữ

liệu, là số cụm dữ liệu, đ là số chiều, 7 là số vịng lặp, 7 là thời gian dé thực

hiện một phép tính cơ sở như phép tính nhân, chia

- Ưu điểm: K-means phân tích phân cụm đơn giản nên cĩ thê áp đụng đối với

tập dữ liệu lớn

- Nhược điểm: K-means khơng khắc phục được nhiễu và giá trị & phải được

cho bởi người đùng chỉ thích hợp áp dụng với dữ liệu cĩ thuộc tính số và khám phá

ra các cụm cĩ dạng hình cầu

b) Thuật tốn K_MEDOIDS (PAM)

Giải thuật K-means rất nhạy với các phần tử ngoại lai, do vậy một đối tượng

giá trị cực lớn về cơ bản sẽ làm thay đổi tâm cụm và cĩ thể bĩp méo phân bồ của dữ

liệu ban đầu

Tâm cụm khơng cĩ phần tử ngoại lai Tâm cụm khi cĩ phản tử ngoại lai

Hình 2.4: Sự thay đơi tâm cụm trong K-means khi cĩ phân tử ngoại lai Ý tưởng của K-medoids thay vì lấy giá trị trung bình của các đối tượng trong

cụm như một điểm tham khảo, K-medoids lay một đối tượng đại diện trong cụm, gọi là međọd nĩ là điểm đại diện được định vị trung tâm nhất trong cụm Do vậy,

phương pháp phân chia vẫn được thực hiện dựa trên nguyên tắc tối thiểu hố tổng các độ khơng tương đồng giữa mỗi đối tượng với điểm tham khảo tương ứng của nĩ điểm này thiết lập nên cơ sở của phương phap K-mediods

Trang 32

Giai thudt PAM day la giai thuat phan cum kiểu K-mediods, no tim k cum trong n đối tượng bằng cách trước tiên tìm một số đối tuong dai dién (medoid) cho méi cum tap cac medoid ban đầu được lựa chọn tuỳ ý Sau đĩ, nĩ lặp lại bằng cách

thay một trong số các medoid bằng một trong số những cái khơng phải zeđoid miễn là tổng khoảng cách của kết quả phân cụm được cải thiện

Input: Số cụm # và một cơ sở dữ liệu chứa ø đối tượng

Output: Mét tap & cụm đã tối thiểu hố tổng các độ đo khơng tương đồng của tất cả các đối tượng tới medoid gần nhất của chúng

Thuật tốn:

Bước 1 Chọn tùy ý & đối tượng giữ vai trị là các medoid ban đầu Bước2 Lặp

- Ấn định mỗi đối tuong vao cum co medoid gan nĩ nhất,

« Tính hàm mục tiêu (tổng các độ đo tương đồng của tất cả các đối tượng tới medoid gan nhất của chúng);

« Đơi medoid x bằng một đối tượng y nếu như việc thay đổi này làm giảm

hàm mục tiêu;

Cho đến khi: khơng cĩ sự thay đổi nào - Đánh giá thuật tốn:

Độ phức tạp cho một lần lặp don 1a O(k(n - k)’)

- Ưu điểm: cĩ thể xác định đối tượng ngoại lai

- Nhược điểm: khơng thích hợp cho phân cụm dữ liệu cĩ số lượng ø lớn và số cụm cần chia là nhiễu

2.2.2 Phương pháp phân cụm phân cấp (Hierarchical Methods)

Phương pháp này xây đựng một phân cấp trên cơ sở các đối tượng dữ liệu đang xem xét, nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc cĩ dạng hình cây, cây phân cấp này được xây đựng theo kỹ thuật đệ quy Cĩ hai cách tiếp

Trang 33

cận phổ biến của kỹ thuật này đĩ là: hịa nhập nhĩm, thường được gọi là tiếp cận (Bottom-Up); phân chia nhĩm, thường được gọi là tiếp cận (Top-Down)

bottom-up step 0 step 1 step 2 step 3 step 4

Top-down

step 4 step 3 step 2 step | step 0 F

Hinh 2.5: Phan cum phan cdp Top-down va Bottom-up

- Phương pháp “dưới lên”(Bo#om 1p): Phương pháp này bắt đầu với mỗi

đối tượng được khởi tạo tương ứng với các cụm riêng biệt, sau đĩ tiến hành nhĩm

các đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trung tâm của hai

nhĩm), quá trình này được thực hiện cho đến khi tất cả các nhĩm được hịa nhập

vào một nhĩm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sử dụng chiến lược ăn tham trong quá trình phân cụm

- Phương pháp “trên xuống” (Top Down) : Bắt đầu với trạng thái là tất cả

các đối tượng được xếp trong cùng một cụm, mỗi vịng lặp thành cơng một cụm được tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự nào đĩ cho đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiện dừng thỏa mãn

Cách tiếp cận này sử dụng chiến lược chia để trị trong quá trình phân cụm, điền hình trong phương pháp tiếp cận theo phân cụm phân cấp là các thuật tốn như : AGNES (Agglomerative Nesting), DIANA (Divisive Analysis), BIRCH (1996), CURE (1998), CHAMELEON (1999)

b) Một số thuật tốn cơ bản trong phân cụm phân cấp

Trong những phương pháp phân cụm phân cấp ta cần xác định khoảng cách giữa 2 nhĩm:

Trang 34

- Single Link: khoảng cách ngắn nhất giữa hai đối tượng thuộc hai nhĩm

Hình 2.6: Lên kết đơn

- Complete Link: khoảng cách xa nhất giữa hai đối tượng thuộc hai nhĩm

Hình 2.7: U/ên kết đơi

+ Thuật tốn CURE

Trong khi hầu hết các thuật tốn thực hiện phân cụm với các cụm hình cầu và

kích thước tương tự, như vậy là khơng hiệu quả khi xuất hiện các phần tử ngoại lai

Thuật tốn CURE khắc phục được vấn để này và tốt hơn với các phan tử ngoại lai;

CURE là thuật tốn sử dụng chiến lược boffom-up của phương pháp phân cụm phân

cấp Khác với các thuật tốn phân cụm phân hoạch, thuật tốn CƯE sử dụng nhiều đối tượng để biểu diễn cho một cụm dữ liệu thay vì sử dụng các trọng tâm hay đối

tượng tâm

Để xử lí được các cơ sở dữ liệu lớn, CURE sử dụng mẫu ngẫu nhiên và phân hoạch, một mẫu là được xác định ngau nhiên trước khi được phân hoạch va sau đĩ

tiến hành phân cụm trên mỗi phân hoạch, như vậy mỗi phân hoạch là từng phần đã

được phân cụm, các cụm thu được lại được phân cụm lần thứ hai để thu được các

cụm con mong muốn, nhưng mẫu ngẫu nhiên khơng nhất thiết đưa ra một mơ tả tốt

cho tồn bộ tập dữ liệu, chọn một mẫu ngẫu nhiên 5Š từ tập dữ liệu ban đầu

Input: Tập dữ liệu với n đối trong Output: Cac cum C[i] (1 <i<k)

Trang 35

Thuat toan:

Buéc 1 Phan tach mau S thành các nhĩm dữ liệu cĩ kích thước bằng nhau Bước 2 Tiến hành phân cụm riêng rẽ cho mỗi nhĩm

Bước 3 Loại bỏ các đối tượng ngoại lai bằng việc lấy mẫu ngẫu nhiên, nếu

một cụm tăng trưởng quá chậm thì loại bỏ nĩ

Bước 4 Phân cụm cho các cụm riêng biệt: Các đối tượng đại diện được di

chuyển về phía tâm của cụm mới hình thành các đối tượng này sẽ mơ tả hình đạng

cụm đĩ

Bước 5 Đánh dấu dữ liệu với các nhãn cụm tương ứng - Đánh giá thuật tốn:

Độ phức tạp tính tốn của thuật tốn CURE là O(n?log(n))

- Ưu điểm: CURE là thuật tốn tin cậy trong việc khám phá ra các cụm với

hình thù bất kỳ và cĩ thé áp đụng tốt đối với dữ liệu cĩ phần tử ngoại lai và trên các

tập đữ liệu hai chiều

- Nhược điểm: CURE là dễ bị ảnh hưởng bởi các tham số cho bởi người đùng

như cỡ mẫu, số cụm mong muốn, tỉ lệ co của các phan tu dai dién

+ Thudt toan CHAMELEON

Phương pháp CHAMELEON mit cach tiép c4n khdc trong viée phan cum được phát triển bởi Karypis, Han và Kumar năm (1999), sử đụng mơ hình động trong phân cụm phân cấp

CHAMELEON cé duge dia trén quan sát các yếu điểm của giải thuật phân cụm phân cấp CURE, ở đĩ CƯRE và các lược đồ đã bỏ qua thơng tin về liên kết của các đối tượng trong hai cụm khác nhau

Bước đầu tiên của C714AMELEON' là xây dựng một đồ thị cĩ mật độ thưa và

sau đĩ ứng dụng một thuật tốn phân vùng dé thi dé phân cụm dữ liệu với số lượng lớn của các cụm con Tiếp theo, CHAMELEON thuc hiện tích tụ phân cụm phân cấp

Trang 36

như 4GNES, bằng hịa nhập các cụm con nhỏ theo hai phép đo, mối quan hệ kết nối và mối quan hệ gần gũi của các nhĩm con

Thuật tốn này đựa trên tiếp cận đồ thị K-láng giêng gần nhất CHAMELEON chỉ ra sự tương đồng giữa mỗi cặp các cụm C¡ và C¡ theo liên kết tương đối R.(C¡,

C¡) và độ chặt tương đối R.(C¡, C¡) của chúng Liên kết tương đối R.(C¡, C¡) giữa hai

cum Cj va Cj duoc định nghĩa như liên két tuyét đối giữa C¡ và C¡ đã tiêu chuẩn hĩa đối với liên kết nội tại của hai cụm C¡ và Cj Do la:

IEC(C, C)|

RACi, C) = |ECeil + [ECG

2

Với EC(C¡, C¡ ), EC là cạnh cắt (edge-cut) của cụm chứa của C¡ và Cj dé cum nay được rơi vào trong C¡ và C¡, tương tự như vậy ECc¡ (hay ECcj) là kích thước của Min-cut bisector (tức là tổng số của các cạnh mà chia đồ thị thành hai phần thơ bằng nhau)

Độ chặt tương đối giữa một cặp các cụm C¡ và C¡ là R¿(C¡, C¡) được định

nghĩa như là độ chặt tuyệt đối giữa C¡ và C¡ được tiêu chuẩn hĩa đối với kết nối nội

tại của hai cụm C; va Cj "Construct - « ~ ¬ ` ) Sparse Graph £ lp %L Partition the Graph » " = " ———~¿* “—*“ * - sf) > - ` ee .» ^: —>„ > A ` * »< - | x \ / T * ˆ aS * - = Data Set al L \ or K e Xu — at * ˆ ` Merge Partition * ` 7 a“ Final Clusters a - a)

Hình 2.8: Khái quát thuật tốn CHAMELEON Input: đữ liệu đầu vào gồm ø đối tượng

Output: Cac cum C[i] (1 <1 <k)

Trang 37

Thuat toan:

Bước 1 Tinh tốn độ tương tự cho từng đối tượng dữ liệu đầu tiên độ tương

đồng cĩ thể lớn hơn K hay KXX (k láng giềng gần nhất);

Bước 2 Xây dựng đồ thị K-láng giêng gần nhất, trong đĩ mỗi nút tương ứng

với một đối tượng dữ liệu Mỗi cạnh giữa các nút đại điện hai đối tượng liên kết đến

hơn k hàng xĩm;

Bước 3 Phân vùng dé thi thành cụm, bằng cách giảm thiểu cạnh-cắt: đưa ra một cụm C, nĩ tương ứng với tìm độ lớn tối thiểu của các cạnh đề loại bỏ mà làm

cho hai phân vùng bị ngắt kết nối C¡ và C¡ từ C Karypisefal (1999) đựa vào sự kết

noi tuyét doi EC(C) hay EC(Ci, C¡ );

Bước 4 Áp dụng các giải thuật phân cụm phân cấp bằng cách lặp đi lặp lại

việc liên kết các cụm cĩ quan hệ kết nối RI, sinh ra bởi quan hệ gần gũi RC, là cao

nhất RI(C¡, C¡) x RC (Ci, Cj)" — max

Sự lặp đi lặp lại dừng lại khi chỉ tìm ra số cụm mong muốn

- Đánh giá thuật tốn:

Độ phức tạp thuật tốn O(nm + nlog n + m”log m)

- Ưu điểm: Thuật tốn khơng phụ thuộc vào người sử dụng các tham số như K-means khơng phụ thuộc vào mơ hình tĩnh hay động và cĩ thê tự động thích nghỉ với đặc trưng bên trong của các cụm đang được hịa nhập Nĩ cĩ khả năng hơn để khám phá các cụm cĩ hình thù bất kỳ cĩ chất lượng cao hơn CURE

- Nhược điểm: mắt nhiều thời gian xử lý cho dữ liệu đa chiều 2.2.3 Phương pháp phần cụm dựa trên lưới (Grid-Based Methods)

Kỹ thuật phân cụm dựa trên lưới do W.Wang và các cộng sự để xuất (1997) thích hợp với dữ liệu da chiều, dựa trên cấu trúc dữ liệu lưới để phân cụm, phương

pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu khơng gian, mục tiêu của phương pháp này là lượng hĩa đữ liệu thành các ơ tạo thành cấu trúc dữ liệu lưới Sau đĩ, các thao tác phân cụm chỉ cần làm việc với các đối tượng trong từng ơ trên

Trang 38

lưới chứ khơng phải các đối tượng đữ liệu Cách tiếp cận dựa trên lưới này khơng di chuyển các đối tượng trong các ơ mà xây dựng nhiều mức phân cấp của nhĩm các đối tượng trong một ơ Phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chúng khơng trộn các ơ, đồng thời giải quyết khắc phục yêu cầu đối với dữ liệu đa chiều mà phương pháp phân cụm dựa trên mật độ khơng giải quyết được | Tang 1 Mức 1 (mức cao nhất) cĩ thể chỉ Ị : chứa một cell | | Ị i ; Tang i-1 | Tang i ‘Cell mite i-1 co thé trong img voi 4 cell của mức ¡

Hình 2.9: Cấu trúc phân cụm dựa trên lưới

Điền hình trong phương pháp tiếp cận theo phân cụm dựa trên lưới là các thuat toan nhu : STING (a STatistical INformation Grid approach) boi W.Wang, Yang va Muntz (1997), WAVECLUSTER boi Sheikholeslami, Chatterjee va Zhang (1998), CLIQUE (Clustering In QUEst) boi Agrawal, Gehrke, Gunopulos, Raghavan (1998)

a) Thuật toan STING

STING (STatistical INformation Grid) do W.Wang, Yang va Munz phat trién năm (1997), là kỹ thuật phân cụm đa phân giải dựa trên lưới, trong đĩ vùng khơng gian dữ liệu được phân rã thành số hữu hạn các ơ chữ nhật, điều này cĩ ý nghĩa là

các ơ lưới được hình thành từ các ơ lưới con để thực hiện phân cụm Cĩ nhiều mức

của các ơ chữ nhật tương ứng với các mức khác nhau của phân giải trong cấu trúc lưới và các ơ này hình thành cấu trúc phân cấp, mỗi ơ ở mức cao được phân hoạch thành các ơ nhỏ ở mức thấp hơn tiếp theo trong cấu trúc phân cấp Các giá trị của các tham số thống kê gồm: số trung bình - mid, số tối đa - max, số tối thiêu - min,

số đếm - count, độ lệch chuẩn - s,

Trang 39

Các đối tượng dữ liệu lần lượt được chèn vào lưới và các tham số thống kê ở

trên được tính trực tiếp thơng qua các đối tượng dữ liệu này, các truy vấn khơng gian được thực hiện bằng cách xét các ơ thích hợp tại mỗi mức phân cấp Một truy vấn khơng gian được xác định như là một thơng tin khơi phục lại của dữ liệu khơng gian và các quan hệ của chúng S77NG cĩ khả năng mở rộng cao, nhưng do sử dụng phương pháp đa phân giải nên nĩ phụ thuộc chặt chẽ vào trọng tâm của mức thấp nhất

Iput: Số ơ trong mức thấp nhất, số đối tượng trong ơ Output: Cac cum dé liéu theo yêu cầu

Thuat toan:

Bước 1 Xác định tang dé bat dau

Bước 2 Với mỗi ơ của tầng này, tính tốn khoảng tin cậy (hoặc ước lượng khoảng) của xác suất mà ơ này liên quan tới truy vấn

Bước 3 Từ khoảng tin cậy của tính tốn trên, gán nhãn cho là cĩ liên quan hoặc khơng liên quan

Bước 4 Nếu lớp này là lớp cuối cùng

- Nếu đặc tả được câu truy vấn thì tìm thấy các miễn cĩ các ơ liên quan trả lại miễn mà phủ hợp với yêu cầu của truy vấn, chuyên sang bước 5

- Nếu khơng thì truy lục lại dữ liệu vào trong các ơ liên quan và thực hiện xử

lý trả lại kết quả phù hợp yêu cầu của truy vấn

Nếu lớp này khơng là lớp cuối: duyệt xuống dưới của cấu trúc cây phân cấp một mức Quay lại Bước 2 cho các ơ mà hình thành các ơ liên quan của lớp cĩ mức cao hơn

Bước 5Š Dừng

- Đánh giá thuật tốn: S77NG duyệt tồn bộ dữ liệu một lần nên độ phức tạp

tính tốn để tính tốn các đại lượng thống kê cho mỗi ơ là O(n), trong đĩ n là tổng số đối tượng Sau khi xây đựng cấu trúc dữ liệu phân cấp, thời gian xử lý cho các

Trang 40

- Ưu điểm: Tính tốn dựa trên lưới là truy vấn độc lập vì thơng tin thống kê được bảo quản trong mỗi ơ đại diện nên chỉ cần thơng tin tĩm tắt của dữ liệu trong ơ chứ khơng phải là dữ liệu thực tế và khơng phụ thuộc vào câu truy vấn, cấu trúc dữ

liệu lưới thuận tiện cho quá trình xử lý song song và cập nhật liên tục, độ phức tạp

thuật tốn thấp

- Nhược điểm: Trong khi sử dụng cách tiếp cận đa phân giải để thực hiện

phân tích cụm chất lượng của phân cụm 577NG hồn tồn phụ thuộc vào tính chất

hộp ở mức thấp nhất của cấu trúc lưới Nếu tính chất hộp là mịn, dẫn đến chỉ phí thời gian xử lý tăng, tính tốn trở nên phức tạp và nếu mức dưới cùng là quá thơ thì nĩ cĩ thê làm giảm bớt chất lượng và độ chính xác của phân tích cụm

2.2.4 Phân cụm dựa trên mơ hình (Model-Based Clustering Methods)

Phương pháp này cố gắng khám phá các phép xấp xỉ tốt của các tham số mơ

hình sao cho khớp với dữ liệu một cách tốt nhất Chúng cĩ thể sử dụng chiến lược phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mơ hình mà

chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mơ hình này để nhận dạng ra các phân hoạch

Phương pháp phân cụm dựa trên mơ hình

cơ găng khớp giữa các dữ liệu với mơ hình tốn tøe? Inhibitory clusters học, nĩ dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân phối xác suất cơ bản Các thuật Phong connections tốn phân cụm đựa trên mơ hình cĩ hai cách tiếp n r ^ 3 A ^ ` Layer 2 cận chính: mơ hình thơng kê và mạng nơron kbibisy ( clusters Phương pháp này gần giống với phương pháp phân

cụm dựa trên mật độ, vì chúng phát triển các cụm

riêng biệt nhăm cải tiên các mơ hình đã được xác Lợ«! h eg 0o 0 ạ90 ư N

Input units )

0a a 000 7

định trước đĩ, nhưng đơi khi nĩ khong bat đâu với ‘8 Se 8g 08 eo một sơ cụm cơ định và khơng sử dụng cùng một |

khái niệm mật độ cho các cụm Tnpot pattern

Hinh 2.10: Vi du phan cum dita trén m6 hinh

Ngày đăng: 11/01/2024, 22:45

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN