2.2.1 KHÁI NIỆM TƢƠNG TỰ VÀ PHI TƢƠNG TỰ
Khi cỏc đặc tớnh của dữ liệu đƣợc xỏc định, ta phải tỡm cỏch thớch hợp để xỏc định “khoảng cỏch” giữa cỏc đối tƣợng, hay là phộp đo tƣơng tự dữ liệu. Đõy là cỏc hàm để đo sự giống nhau giữa cỏc cặp đối tƣợng dữ liệu, thụng thƣờng cỏc hàm này hoặc là để tớnh độ tƣơng tự hoặc là để tớnh độ phi tƣơng tự giữa cỏc đối tƣợng dữ liệu. Giỏ trị của hàm tớnh độ đo tƣơng tự càng lớn thỡ sự giống nhau giữa cỏc đối tƣợng càng lớn và ngƣợc lại, cũn hàm tớnh độ phi tƣơng tự tỷ lệ nghịch với hàm tớnh độ tƣơng tự. Độ tƣơng tự hoặc phi tƣơng tự cú nhiều cỏch để xỏc định, chỳng đƣợc đo bằng khoảng cỏch giữa cỏc đối tƣợng. Tất cả cỏc cỏch đo độ tƣơng tự đều phụ thuộc vào kiểu thuộc tớnh mà ngƣời sử dụng phõn tớch. Vớ dụ, đối với cỏc thuộc tớnh hạng mục thỡ khụng sử dụng độ đo khoảng cỏch là một hƣớng hỡnh học của dữ liệu.
Tất cả cỏc độ đo dƣới đõy đƣợc xỏc định trong khụng gian metric. Bất kỳ một metric nào cũng là một độ đo nhƣng điều ngƣợc lại khụng đỳng. Để trỏnh sự nhầm lẫn, thuật ngữ độ đo ở đõy đề cập đến hàm tớnh độ tƣơng tự hoặc hàm tớnh độ phi tƣơng tự. Một khụng gian metric là một tập trong đú cú
xỏc định “khoảng cỏch” giữa cỏc cặp phần tử, với những tớnh chất thụng thƣờng của khoảng cỏch hỡnh học. Nghĩa là, một tập X (cỏc phần tử của nú cú thể là những đối tƣợng bất kỳ) cỏc đối tƣợng trong cơ sở dữ liệu D đƣợc gọi là một khụng gian metric nếu:
Với mỗi cặp phần tử x, y thuộc X đều đƣợc xỏc định theo một quy tắc nào đú, một số thực (x,y) đƣợc gọi là khoảng cỏch giữa x và y.
Quy tắc núi trờn thoả món hệ tớnh chất sau:
(x,y) > 0 nếu x≠y
(x,y) = 0 nếu x=y
(x,y) = (y,x) với mọi x,y
(x,y) ≤ (x,z) + (y,z)
Hàm (x,y) đƣợc gọi là một metric của khụng gian, cỏc phần tử của X đƣợc gọi là một điểm của khụng gian này.
2.2.2. ĐỘ ĐO TƢƠNG TỰ VÀ KHễNG TƢƠNG TỰ Độ đo khụng tƣơng tự: Độ đo khụng tƣơng tự:
Một độ đo khụng tƣơng tự d trờnmột tập X là một hàm: d : X x X R trong đú R là tập số thực sao cho:
d0 R: - < d0 d(x,y)< +, x,yX (2.4)
d(x,x) = d0, xX (2.5)
Và:
d(x,y) = d(y,x), x,yX (2.6)
d(x,y) = d0 khi và chỉ khi: x= y (2.7) và
d(x,z) d(x,y) + d(y,z), x,y,zX (2.8) thỡ d đƣợc gọi là một DM Metric (Disimilar Metric)
Theo (2.7) chỉ ra rằng độ đo khụng tƣơng tự nhỏ nhất khi hai vộctơ là đồng nhất.
Dễ dàng nhận thấy khoảng cỏch Euclid là một độ đo khụng tƣơng tự metric.
Độ đo tƣơng tự:
Một độ đo tƣơng tự s trờn X là một hàm: s : X x X R trong đú R là tập số thực sao cho:
s0 R: - < s(x,y) so < +, x,yX (2.9)
s(x,x) = s0, xX (2.10)
Và:
s(x,y) = s(y,x), x,yX (2.11)
Ngoài ra:
s(x,y) = s0 khi và chỉ khi: x = y (2.12) và
s(x,y)s(y,z) [s(x,y) +s(y,z)]s(x,z), x,y,zX (2.13) thỡ d đƣợc gọi là một SM metric (Similar Metric)
2.2.3 PHẫP ĐO KHOẢNG CÁCH
Một thành phần quan trọng trong thuật toỏn phõn cụm là phộp đo khoảng cỏch giữa hai điểm dữ liệu. Nếu thành phần của vectơ dữ liệu thể
hiện trong cựng một đơn vị giống nhau thỡ nú tồn tại khoảng cỏch Euclid cú thể xỏc định nhúm dữ liệu tƣơng tự. Tuy nhiờn, khụng phải lỳc nào khoảng cỏch Euclid cũng cho kết quả chớnh xỏc. Hỡnh 2.1. minh họa về phộp đo chiều cao và chiều ngang của một đối tƣợng thực hiện trong một đơn vị vật lý giống nhau nhƣng khỏc nhau về tỷ lệ.
Hỡnh 2.1. Mối quan hệ giữa tỷ lệ phộp đo và sự phõn cụm
Tuy nhiờn, đõy khụng chỉ là vấn đề đồ thị: Vấn đề phỏt sinh từ cụng thức toỏn học đƣợc sử dụng để kết hợp khoảng cỏch giữa cỏc thành phần vectơ thuộc tớnh dữ liệu đơn trong một khoảng duy nhất mà cú thể đƣợc sử dụng cho mục đớnh phõn cụm. Cỏc cụng thức khỏc nhau cú thể dẫn tới những cụm khỏc nhau.
Cỏc thuật toỏn cần cú cỏc phộp đo khoảng cỏch hoặc độ tƣơng tự giữa hai đối tƣợng để thực hiện phõn cụm. Kiến thức miền phải đƣợc sử dụng để trỡnh bày rừ ràng phộp đo khoảng cỏch thớch hợp cho mỗi ứng dụng. Hiện nay phộp đo cú nhiều mức độ khỏc nhau tuỳ theo từng trƣờng hợp [1][4].
Một số phương phỏp đo khoảng cỏch giữa cỏc đối tượng trong khụng gian Metric.
Giả sử hai đối tƣợng x,y cú p thuộc tớnh: X=(x1,x2,…,xp)
Y=(y1,y2,…,yp)
o Khoảng cỏch Minkowski đƣợc định nghĩa bởi
o Một số phộp đo khoảng cỏch thƣờng dựng | | max ) , ( ) distance (Chebychev 3, | | ) , ( distance) (M anhattan 1 2, | | ) , ( ) distance (Euclidean 2 1, 1 1 2 2 1 i i p i p i i i p i i i y x y x d r y x y x d r y x y x d r o Vớ dụ: Hỡnh 2.2. Vớ dụ về cỏc phộp đo khoảng cỏch
. 4 } 3 , 4 { max : distance Chebychev 3, . 7 3 4 : distance M anhattan 2, . 5 3 4 : distance Euclidean 1, 2 2 2
Ngoài ra, cũn tồn tại một số phộp đo khoảng cỏch giữa hai cụm dữ liệu, cụ thể như sau:
Average Linkage (Sự kết nối trung bỡnh): là giỏ trị trung bỡnh khoảng cỏch của tất cả cỏc điểm trong hai cụm đú.
Single Linkage (Sự kết nối đơn): là khoảng cỏch giữa hai điểm gần nhau nhất trong hai cụm đú.
Complete Linkage (Sự kết nối đầy đủ): là khoảng cỏch giữa hai điểm xa nhau nhất trong hai cụm đú.
Centroid (Trung tõm): là khoảng cỏch giữa hai trung tõm của cụm
Hỡnh 2.3. Một số loại khoảng cỏch giữa hai cụm
2.2.3.1 Thuộc tớnh nhị phõn
Tất cả cỏc phộp đo đƣợc định nghĩa ở trờn là đa số thớch hợp cho cỏc biến liờn tục, cho cỏc biến danh nghĩa, “phộp đo khoảng cỏch” là 0 nếu cỏc trƣờng hợp cú cựng giỏ trị danh nghĩa và là 1 nếu cỏc trƣờng hợp cú cỏc giỏ trị danh nghĩa khỏc nhau hoặc với độ đo tƣơng tự 1 (nếu cỏc trƣờng hợp cú cựng giỏ trị danh nghĩa) và 0 (nếu khụng giống nhau).
Do đú nếu xem xột p biến định danh, cú thể đỏnh giỏ độ tƣơng tự của cỏc trƣờng hợp bằng số cỏc biến mà cú giỏ trị giống nhau. Núi chung, định nghĩa mới một biến nhị phõn từ mỗi biến danh nghĩa bằng việc nhúm cỏc nhón thành hai lớp, một nhón là 1, và nhón khỏc là 0. Xõy dựng và xem xột bằng ngẫu nhiờn cỏc sự kiện cú thể xảy ra và định nghĩa cỏc thuộc tớnh của đối tƣợng x, y bằng cỏc biến số nhị phõn 0 và 1. Y 1 0 X 1 A b a+b 0 C d c+d a+c b+d P=a+b+c+d Bảng tham số
a là tổng số cỏc thuộc tớnh cú giỏ trị 1 trong hai đối tƣợng x,y b là tổng số cỏc thuộc tớnh cú giỏ trị 1 trong x và 0 trong y c là tổng số cỏc thuộc tớnh cú giỏ trị 0 trong x và 1 trong y d là tổng số cỏc thuộc tớnh cú giỏ trị 0 trong hai đối tƣợng x, y p là tổng tất cả cỏc thuộc tớnh của hai đối tƣợng x, y
Cỏc phộp đo độ tƣơng tự của cỏc trƣờng hợp với dữ liệu thuộc tớnh nhị phõn đƣợc thực hiện bằng cỏch sau:
Hệ số đối sỏnh đơn giản: d(x,y)=
p d
a , cả hai trọng số cú vai trũ nhƣ nhau, nghĩa là chỳng đối xứng và cú cựng trọng số.
Hệ số Jaccard: d(x,y)= c b a a
, tham số này bỏ qua cỏc đối sỏnh 0-0. Cụng thức này sử dụng trong trƣờng hợp mà trọng số của cỏc thuộc tớnh cú giỏ trị 1 của đối tƣợng dữ liệu cú cao hơn nhiều so với cỏc thuộc tớnh cú giỏ trị 0, nhƣ vậy thuộc tớnh nhị phõn ở đõy là khụng đối xứng.
D(x,y)= p a d(x,y)= c b a d(x,y)= c b a a 2 2
Cỏc giỏ trị đƣợc định nghĩa trong khoảng [0,1] và cú thể biến đổi sang độ đo phi tƣơng tự bằng biểu thức: ds(x,y)=1-d(x,y)
2.2.3.2 Thuộc tớnh định danh
Độ đo phi tƣơng tự giữa hai đối tƣợng x và y đƣợc định nghĩa nhƣ sau: d(x,y)=
p m
p , trong đú m là số thuộc tớnh đối sỏnh tƣơng ứng trựng nhau và p là tổng số cỏc thuộc tớnh.
2.2.3.3 Thuộc tớnh cú thứ tự
Phộp đo độ phi tƣơng tự giữa cỏc đối tƣợng dữ liệu với thuộc tớnh thứ tự đƣợc thực hiện nhƣ sau. Giả sử i là thuộc tớnh thứ tự cú Mi giỏ trị (Mi là kớch thƣớc miền giỏ trị).
Cỏc trạng thỏi Mi đƣợc sắp thứ tự là [1…Mi], cú thể thay thế mỗi giỏ trị của thuộc tớnh bằng giỏ trị cựng loại ri với ri thuộc {1…Mi}
Mỗi một thuộc tớnh cú thứ tự cú cỏc miền giỏ trị khỏc nhau, vỡ vậy phải chuyển đổi chỳng về cựng miền giỏ trị [0,1] bằng cỏch thực hiện phộp biến đổi sau cho mỗi thuộc tớnh: Z(j)
i = 1 1 ) ( i j i M r
Sử dụng cụng thức tớnh độ phi tƣơng tự của thuộc tớnh khoảng đối với cỏc giỏ trị Z(j)
i , đõy cũng là độ phi tƣơng tự của thuộc tớnh cú thứ tự.
2.2.3.4 Thuộc tớnh tỉ lệ
Cú nhiều cỏch khỏc nhau để tớnh độ tƣơng tự giữa cỏc thuộc tớnh tỷ lệ. Một trong những số đú là sử dụng cụng thức tớnh logarit cho mỗi thuộc tớnh xi, vớ dụ qi=log(xi), lỳc này qi đúng vai trũ nhƣ thuộc tớnh khoảng. Phộp biến đổi logarit này thớch hợp trong trƣờng hợp cỏc giỏ trị của thuộc tớnh mẫu.
Trong thực tế, khi tớnh độ đo tƣơng tự dữ liệu, chỉ xem xột một phần cỏc thuộc tớnh đặc trƣng đối với cỏc kiểu dữ liệu hoặc là đỏnh trọng số cho tất cả cỏc thuộc tớnh dữ liệu. Trong một số trƣờng hợp, ngƣời ta loại bỏ đơn vị đo của cỏc thuộc tớnh dữ liệu bằng cỏch chuẩn hoỏ chỳng, hoặc gỏn trọng số cho mỗi thuộc tớnh giỏ trị trung bỡnh, độ lệch chuẩn. Cỏc trọng số này cú thể sử dụng trong cỏc độ đo khoảng cỏch trờn. Vớ dụ với mỗi thuộc tớnh dữ liệu đó đƣợc gỏn trọng số tƣơng ứng wi (1≤i≤k), độ tƣơng đồng dữ liệu đƣợc xỏc định nhƣ sau: d(x,y)= n i i i i x y w 1 2 ) (
Cú thể chuyển đổi mụ hỡnh cho cỏc kiểu dữ liệu trờn, vớ dụ dữ liệu kiểu hạng mục cú thể chuyển đổi thành dữ liệu nhị phõn hoặc ngƣợc lại nhƣng giải phỏp này rất tốn kộm về chi phớ tớnh toỏn. Do vậy, cần phải cõn nhắc khi ỏp dụng cỏch thức này.
Túm lại, tuỳ từng trƣờng hợp dữ liệu cụ thể mà cú thể sử dụng cỏc mụ hỡnh tớnh độ tƣơng tự khỏc nhau. Việc xỏc định độ tƣơng đồng dữ liệu thớch hợp, chớnh xỏc, đảm bảo khỏch quan là rất quan trọng, gúp phần xõy dựng thuật toỏn phõn cụm dữ liệu cú hiệu quả cao trong việc đảm bảo chất lƣợng cũng nhƣ chi phớ tớnh toỏn [7].
2.3 PHƢƠNG PHÁP PHÂN CỤM DỮ LIỆU
Cú rất nhiều kỹ thuật tiếp cận và ứng dụng trong thực tế của phõn cụm dữ liệu. Nhỡn chung, cỏc kỹ thuật phõn cụm đều hƣớng tới hai mục tiờu là
chất lượng của cỏc cụm khỏm phỏ đƣợc và tốc độ thực hiện của thuật toỏn. Tuy nhiờn, cỏc kỹ thuật phõn cụm cú thể đƣợc phõn thành một số loại cơ bản dựa trờn cỏc phƣơng phỏp tiếp cận nhƣ [5][10][11]:
Phƣơng phỏp phõn cụm phõn hoạch
Phƣơng phỏp phõn cụm phõn cấp
Phƣơng phỏp phõn cụm dựa trờn mật độ
Phƣơng phỏp phõn cụm dựa trờn lƣới
Phƣơng phỏp phõn cụm cú dữ liệu ràng buộc
2.3.1 PHƢƠNG PHÁP PHÂN CỤM PHÂN HOẠCH
Phƣơng phỏp phõn cụm phõn hoạch nhằm phõn một tập hợp dữ liệu cú
n phần tử cho trƣớc thành k nhúm dữ liệu sao cho: mỗi phần tử chỉ thuộc về một nhúm dữ liệu và mỗi nhúm dữ liệu cú ớt nhất một phần tử dữ liệu. Cỏc thuật toỏn phõn hoạch dữ liệu cú độ phức tạp rất lớn khi xỏc định nghiệm tối ƣu toàn cục cho vấn đề phõn cụm dữ liệu do nú phải tỡm kiếm tất cả cỏc cỏch phõn hoạch cú thể đƣợc. Số cỏc cụm đƣợc thiết lập sau khi phõn hoạch là cỏc đặc trƣng đƣợc lựa chọn trƣớc, phƣơng phỏp này tốt cho cỏc cụm hỡnh cầu trong khụng gian Euclid. Ngoài ra, phƣơng phỏp này cũn phụ thuộc vào
khoảng cỏch cơ bản giữa cỏc điểm để lựa chọn cỏc điểm dữ liệu nào cú quan hệ là gần nhau, xa nhau so với mỗi điểm khỏc. Phƣơng phỏp này khụng xử lý đƣợc cỏc điểm cú hỡnh thự kỳ quặc hay mật độ dày đặc. Do phải tỡm kiếm hết cỏc phõn hoạch cú thể đƣợc nờn cỏc thuật toỏn phõn hoạch dữ liệu cú độ phức tạp rất lớn khi xỏc định nghiệm toàn cục. Do vậy, trờn thực tế thƣờng đi tỡm giải phỏp tối ƣu cục bộ cho vấn đề này bằng cỏch sử dụng một hàm tiờu chuẩn để đỏnh giỏ chất lƣợng của cụm cũng nhƣ để hƣớng dẫn cho quỏ trỡnh tỡm kiếm phõn hoạch dữ liệu.
Với chiến lƣợc này, thụng thƣờng khởi tạo một phõn hoạch ban đầu cho tập dữ liệu theo phộp ngẫu nhiờn hoặc heuristic và liờn tục tinh chỉnh cho đến khi thu đƣợc một phõn hoạch mong muốn thoả món cỏc ràng buộc cho trƣớc. Cỏc thuật toỏn phõn cụm phõn hoạch cố gắng cải tiến tiờu chuẩn phõn cụm bằng cỏch tớnh cỏc giỏ trị độ đo tƣơng tự giữa cỏc đối tƣợng dữ liệu và sắp xếp cỏc giỏ trị này. Sau đú, thuật toỏn lựa chọn một giỏ trị trong dóy sắp xếp sao cho hàm tiờu chuẩn đạt giỏ trị tối thiểu. í tƣởng của thuật toỏn phõn hoạch tối ƣu cục bộ là sử dụng chiến lƣợc tham ăn (Greedy Method) để tỡm kiếm nghiệm. Một số thuật toỏn phõn cụm phõn hoạch điển hỡnh nhƣ K- means, PAM, CLARA, CLARANS,...
2.3.2 PHƢƠNG PHÁP PHÂN CỤM PHÂN CẤP
Phƣơng phỏp này xõy dựng một phõn cấp dựa trờn cơ sở cỏc đối tƣợng dữ liệu đang xem xột. Đú là việc sắp xếp một tập dữ liệu đó cho thành một cấu trỳc hỡnh cõy, cõy phõn cấp này đƣợc xõy dựng theo kỹ thuật đệ quy. Cú hai cỏch tiếp cận phổ biến của kỹ thuật này là hoà nhập nhúm (thƣờng gọi là tiếp cận bottom-up) và phõn chia nhúm (thƣờng gọi là tiếp cận top-down).
Kỹ thuật tiếp cận bottom-up: Bắt đầu xuất phỏt với mỗi đối tƣợng dữ liệu đƣợc khởi tạo tƣơng ứng với cỏc cụm riờng biệt và sau đú tiến hành hoà
nhập nhúm cỏc đối tƣợng theo cựng một độ đo tƣơng tự (nhƣ khoảng cỏch giữa hai trung tõm của nhúm), quỏ trỡnh này đƣợc thực hiện cho đến khi tất cả cỏc nhúm đƣợc hoà nhập vào một nhúm (mức cao nhất của cõy phõn cấp) hoặc cho đến khi cỏc điều kiện kết thỳc thoả món. Cỏch tiếp cận này sử dụng chiến lƣợc ăn tham trong quỏ trỡnh phõn cụm.
Kỹ thuật tiếp cận top-down: Bắt đầu với tất cả cỏc đối tƣợng dữ liệu đƣợc sắp xếp trong cựng một cụm và kỹ thuật này tiến hành chia nhỏ cỏc cụm. Mỗi vũng lặp thành cụng, một cụm đƣợc tỏch ra thành cỏc cụm nhỏ hơn theo giỏ trị của một phộp đo tƣơng tự nào đú cho đến khi mỗi đối tƣợng dữ liệu là một cụm riờng biệt hoặc cho đến khi điều kiện dừng thoả món. Cỏch tiếp cận này sử dụng chiến lƣợc chia để trị.
Hỡnh 2.4. Cỏc chiến lƣợc phõn cụm phõn cấp
Trong thực tế, cú rất nhiều trƣờng hợp ỏp dụng cả hai phƣơng phỏp phõn cụm phõn hoạch và phõn cụm phõn cấp, nghĩa là kết quả thu đƣợc của phƣơng phỏp phõn cấp cú thể đƣợc cải tiến thụng qua bƣớc phõn cụm phõn hoạch. Phõn cụm phõn hoạch và phõn cụm phõn cấp là hai phƣơng phỏp phõn
cụm dữ liệu cổ điển, hiện nay đó cú rất nhiều thuật toỏn cải tiến dựa trờn hai phƣơng phỏp đƣợc ỏp dụng rộng rói trong lĩnh vực khai phỏ dữ liệu.
2.3.3 PHƢƠNG PHÁP PHÂN CỤM DỰA TRấN MẬT ĐỘ
Phƣơng phỏp này nhúm cỏc đối tƣợng dữ liệu dựa trờn hàm mật độ xỏc định, mật độ là số đối tƣợng lõn cận của một đối tƣợng dữ liệu theo một ngƣỡng nào đú. Trong cỏch tiếp cận này, khi một dữ liệu đó đƣợc xỏc định thỡ