Tuy nhiờn, đõy khụng chỉ là vấn đề đồ thị: Vấn đề phỏt sinh từ cụng thức toỏn học được sử dụng để kết hợp khoảng cỏch giữa cỏc thành phần vectơ thuộc tớnh dữ liệu đơn trong một khoảng duy nhất mà cú thể được sử dụng cho mục đớnh phõn cụm. Cỏc cụng thức khỏc nhau cú thể dẫn tới những cụm khỏc nhau.
Cỏc thuật toỏn cần cú cỏc phộp đo khoảng cỏch hoặc độ tương tự giữa hai đối tượng để thực hiện phõn cụm. Kiến thức miền phải được sử dụng để trỡnh bày rừ ràng phộp đo khoảng cỏch thớch hợp cho mỗi ứng dụng. Hiện nay phộp đo cú nhiều mức độ khỏc nhau tuỳ theo từng trường hợp [1][4].
v Một số phương phỏp đo khoảng cỏch giữa cỏc đối trong khụng gian Metric.
Giả sử hai đối tượng x,y cú p thuộc tớnh: X=(x1,x2,…,xp)
Y=(y1,y2,…,yp)
o Khoảng cỏch Minkowski được định nghĩa bởi
o Một số phộp đo khoảng cỏch thường dựng
| | max ) , ( ) distance (Chebychev 3, | | ) , ( distance) (Manhattan 1 2, | | ) , ( ) distance (Euclidean 2 1, 1 1 2 2 1 i i p i p i i i p i i i y x y x d r y x y x d r y x y x d r − = +∞ = − = = − = = ≤ ≤ = = ∑ ∑
o Vớ dụ: Hỡnh 2.2. Vớ dụ về cỏc phộp đo khoảng cỏch . 4 } 3 , 4 { max : distance Chebychev 3, . 7 3 4 : distance Manhattan 2, . 5 3 4 : distance Euclidean 1, 2 2 2 = = + = +
v Ngoài ra, cũn tồn tại một số phộp đo khoảng cỏch giữa hai cụm dữ liệu, cụ thể như sau:
• Average Linkage: Khoảng cỏch giữa hai cụm dữ liệu là giỏ trị trung
bỡnh khoảng cỏch của tất cả cỏc điểm trong hai cụm đú.
• Single Linkage: Khoảng cỏch giữa hai cụm dữ liệu là khoảng cỏch giữa
hai điểm gần nhau nhất trong hai cụm đú.
• Complete Linkage: Khoảng cỏch giưac hai cụm dữ liệu là khoảng cỏch
giữa hai điểm xa nhau nhất trong hai cụm đú.
• Centroid: Khoảng cỏch giữa hai trum tõm của cụm
2.2.3. Thuộc tớnh nhị phõn
Tất cả cỏc phộp đo được định nghĩa ở trờn là đa số thớch hợp cho cỏc biến liờn tục, cho cỏc biến danh nghĩa, “phộp đo khoảng cỏch” là 0 nếu cỏc trường hợp cú cựng giỏ trị danh nghĩa và là 1 nếu cỏc trường hợp cú cỏc giỏ trị danh nghĩa khỏc nhau hoặc với độ đo tương tự 1 (nếu cỏc trường hợp cú cựng giỏ trị danh nghĩa) và 0 (nếu khụng giống nhau).
Do đú nếu xem xột p biến định danh, cú thể đỏnh giỏ độ tương tự của cỏc trường hợp bằng số cỏc biến mà cú giỏ trị giống nhau. Núi chung, định nghĩa mới một biến nhị phõn từ mỗi biến danh nghĩa bằng việc nhúm cỏc nhón thành hai lớp, một nhón là 1, và nhón khỏc là 0. Xõy dựng và xem xột bằng ngẫu nhiờn cỏc sự kiện cú thể xảy ra và định nghĩa cỏc thuộc tớnh của đối tượng x, y bằng cỏc biến số nhị phõn 0 và 1.
Y 1 0 X 1 a b a+b 0 c d c+d a+c b+d P=a+b+c+d Bảng 2.1. Bảng tham số
a là tổng số cỏc thuộc tớnh cú giỏ trị 1 trong hai đối tượng x,y b là tổng số cỏc thuộc tớnh cú giỏ trị 1 trong x và 0 trong y c là tổng số cỏc thuộc tớnh cú giỏ trị 0 trong x và 1 trong y d là tổng số cỏc thuộc tớnh cú giỏ trị 0 trong hai đối tượng x, y p là tổng tất cả cỏc thuộc tớnh của hai đối tượng x, y
Cỏc phộp đo độ tương tự của cỏc trường hợp với dữ liệu thuộc tớnh nhị phõn được thực hiện bằng cỏch sau:
Hệ số đối sỏnh đơn giản: d(x,y)=
p d
a+ , cả hai trọng số cú vai trũ như nhau, nghĩa là chỳng đối xứng và cú cựng trọng số.
Hệ số Jaccard: d(x,y)= c b a a +
+ , tham số này bỏ qua cỏc đối sỏnh 0-0. Cụng thức này sử dụng trong trường hợp mà trọng số của cỏc thuộc tớnh cú giỏ trị 1 của đối tượng dữ liệu cú cao hơn nhiều so với cỏc thuộc tớnh cú giỏ trị 0, như vậy thuộc tớnh nhị phõn ở đõy là khụng đối xứng.
d(x,y)= p a d(x,y)= c b a + d(x,y)= c b a a + + 2 2
Cỏc giỏ trị được định nghĩa trong khoảng [0,1] và cú thể biến đổi sang độ đo phi tương tự bằng biểu thức: ds(x,y)=1-d(x,y)
2.2.4. Thuộc tớnh định danh
Độ đo phi tương tự giữa hai đối tượng x và y được định nghĩa như sau: d(x,y)=
p m p−
, trong đú m là số thuộc tớnh đối sỏnh tương ứng trựng nhau và p là tổng số cỏc thuộc tớnh.
2.2.5. Thuộc tớnh cú thứ tự
Phộp đo độ phi tương tự giữa cỏc đối tượng dữ liệu với thuộc tớnh thứ tự được thực hiện như sau. Giả sử i là thuộc tớnh thứ tự cú Mi giỏ trị (Mi là kớch thước miền giỏ trị).
Cỏc trạng thỏi Mi được sắp thứ tự là [1…Mi], cú thể thay thế mỗi giỏ trị của thuộc tớnh bằng giỏ trị cựng loại ri với ri thuộc {1…Mi}
Mỗi một thuộc tớnh cú thứ tự cú cỏc miền giỏ trị khỏc nhau, vỡ vậy phải chuyển đổi chỳng về cựng miền giỏ trị [0,1] bằng cỏch thực hiện phộp biến đổi sau cho mỗi thuộc tớnh: Z(j)
i = 1 1 ) ( − − i j i M r
Sử dụng cụng thức tớnh độ phi tương tự của thuộc tớnh khoảng đối với cỏc giỏ trị Z(j)
i , đõy cũng là độ phi tương tự của thuộc tớnh cú thứ tự.
2.2.6. Thuộc tớnh tỉ lệ
Cú nhiều cỏch khỏc nhau để tớnh độ tương tự giữa cỏc thuộc tớnh tỷ lệ. Một trong những số đú là sử dụng cụng thức tớnh logarit cho mỗi thuộc tớnh xi, vớ dụ qi=log(xi), lỳc này qi đúng vai trũ như thuộc tớnh khoảng. Phộp biến đổi logarit này thớch hợp trong trường hợp cỏc giỏ trị của thuộc tớnh mẫu.
Trong thực tế, khi tớnh độ đo tương tự dữ liệu, chỉ xem xột một phần cỏc thuộc tớnh đặc trưng đối với cỏc kiểu dữ liệu hoặc là đỏnh trọng số cho tất cả cỏc thuộc tớnh dữ liệu. Trong một số trường hợp, người ta loại bỏ đơn vị đo của cỏc thuộc tớnh dữ liệu bằng cỏch chuẩn hoỏ chỳng, hoặc gỏn trọng số cho mỗi thuộc tớnh giỏ trị trung bỡnh, độ lệch chuẩn. Cỏc trọng số này cú thể sử dụng trong cỏc độ đo khoảng cỏch trờn. Vớ dụ với mỗi thuộc tớnh dữ liệu đó được gỏn trọng số tương ứng wi (1≤i≤k), độ tương đồng dữ liệu được xỏc định như sau: d(x,y)= ∑ = − n i i i i x y w 1 2 ) (
Cú thể chuyển đổi mụ hỡnh cho cỏc kiểu dữ liệu trờn, vớ dụ dữ liệu kiểu hạng mục cú thể chuyển đổi thành dữ liệu nhị phõn hoặc ngược lại nhưng giải phỏp này rất tốn kộm về chi phớ tớnh toỏn. Do vậy, cần phải cõn nhắc khi ỏp dụng cỏch thức này.
Túm lại, tuỳ từng trường hợp dữ liệu cụ thể mà cú thể sử dụng cỏc mụ hỡnh tớnh độ tương tự khỏc nhau. Việc xỏc định độ tương đồng dữ liệu thớch
hợp, chớnh xỏc, đảm bảo khỏch quan là rất quan trọng, gúp phần xõy dựng thuật toỏn PCDL cú hiệu quả cao trong việc đảm bảo chất lượng cũng như chi phớ tớnh toỏn [7].
2.3. NHỮNG KỸ THUẬT TIẾP CẬN TRONG PHÂN CỤM DỮ LIỆU
Cú rất nhiều kỹ thuật tiếp cận và ứng dụng trong thực tế của PCDL. Nhỡn chung, cỏc kỹ thuật phõn cụm đều hướng tới hai mục tiờu là chất lượng
của cỏc cụm khỏm phỏ được và tốc độ thực hiện của thuật toỏn. Tuy nhiờn,
cỏc kỹ thuật phõn cụm cú thể được phõn thành một số loại cơ bản dựa trờn cỏc phương phỏp tiếp cận như [5][10][11]:
w Phương phỏp phõn cụm phõn hoạch w Phương phỏp phõn cụm phõn cấp
w Phương phỏp phõn cụm dựa trờn mật độ w Phương phỏp phõn cụm dựa trờn lưới
w Phương phỏp phõn cụm cú dữ liệu ràng buộc
2.3.1. Phương phỏp phõn cụm phõn hoạch
Kỹ thuật này phõn hoạch một tập hợp dữ liệu cú n phần tử thành k nhúm cho đến khi xỏc định được số cụm được thiết lập. Số cỏc cụm được thiết lập là cỏc đặc trưng được lựa chọn trước, phương phỏp này tốt cho cỏc cụm hỡnh cầu trong khụng gian Euclidean. Ngoài ra, phương phỏp này cũn phụ thuộc vào khoảng cỏch cơ bản giữa cỏc điểm để lựa chọn cỏc điểm dữ liệu nào cú quan hệ là gần nhau, xa nhau so với mỗi điểm khỏc. Phương phỏp này khụng xử lý được cỏc điểm cú hỡnh thự kỳ quặc hay mật độ dày đặc. Do phải tỡm kiếm hết cỏc phõn hoạch cú thể được nờn cỏc thuật toỏn phõn hoạch dữ liệu cú độ phức tạp rất lớn khi xỏc định nghiệm toàn cục. Do vậy, trờn thực tế thường đi tỡm giải phỏp tối ưu cục bộ cho vấn đề này bằng cỏch sử dụng
một hàm tiờu chuẩn để đỏnh giỏ chất lượng của cụm cũng như để hướng dẫn cho quỏ trỡnh tỡm kiếm phõn hoạch dữ liệu.
Với chiến lược này, thụng thường khởi tạo một phõn hoạch ban đầu cho tập dữ liệu theo phộp ngẫu nhiờn hoặc heuristic và liờn tục tinh chỉnh cho đến khi thu được một phõn hoạch mong muốn thoả món cỏc ràng buộc cho trước. Cỏc thuật toỏn phõn cụm phõn hoạch cố gắng cải tiến tiờu chuẩn phõn cụm bằng cỏch tớnh cỏc giỏ trị độ đo tương tự giữa cỏc đối tượng dữ liệu và sắp xếp cỏc giỏ trị này. Sau đú, thuật toỏn lựa chọn một giỏ trị trong dóy sắp xếp sao cho hàm tiờu chuẩn đạt giỏ trị tối thiểu. í tưởng của thuật toỏn phõn hoạch tối ưu cục bộ là sử dụng chiến lược tham ăn (Greedy Method) để tỡm kiếm nghiệm.
2.3.2. Phương phỏp phõn cụm phõn cấp
Phương phỏp này xõy dựng một phõn cấp dựa trờn cơ sở cỏc đối tượng dữ liệu đang xem xột. Đú là việc sắp xếp một tập dữ liệu đó cho thành một cấu trỳc hỡnh cõy, cõy phõn cấp này được xõy dựng theo kỹ thuật đệ quy. Cú hai cỏch tiếp cận phổ biến của kỹ thuật này là hoà nhập nhúm (thường gọi là tiếp cận bottom-up) và phõn chia nhúm (thường gọi là tiếp cận top-down).
ỉ Kỹ thuật tiếp cận bottom-up: Bắt đầu xuất phỏt với mỗi đối tượng dữ liệu được khởi tạo tương ứng với cỏc cụm riờng biệt và sau đú tiến hành hoà nhập nhúm cỏc đối tượng theo cựng một độ đo tương tự (như khoảng cỏch giữa hai trung tõm của nhúm), quỏ trỡnh này được thực hiện cho đến khi tất cả cỏc nhúm được hoà nhập vào một nhúm (mức cao nhất của cõy phõn cấp) hoặc cho đến khi cỏc điều kiện kết thỳc thoả món. Cỏch tiếp cận này sử dụng chiến lược ăn tham trong quỏ trỡnh phõn cụm.
ỉ Kỹ thuật tiếp cận top-down: Bắt đầu với tất cả cỏc đối tượng dữ liệu được sắp xếp trong cựng một cụm và kỹ thuật này tiến hành chia nhỏ cỏc cụm. Mỗi vũng lặp thành cụng, một cụm được tỏch ra thành cỏc cụm nhỏ hơn
theo giỏ trị của một phộp đo tương tự nào đú cho đến khi mỗi đối tượng dữ liệu là một cụm riờng biệt hoặc cho đến khi điều kiện dừng thoả món. Cỏch tiếp cận này sử dụng chiến lược chia để trị.
Hỡnh 2.4. Cỏc chiến lược phõn cụm phõn cấp
Trong thực tế, cú rất nhiều trường hợp ỏp dụng cả hai phương phỏp phõn cụm phõn hoạch và phõn cụm phõn cấp, nghĩa là kết quả thu được của phương phỏp phõn cấp cú thể được cải tiến thụng qua bước phõn cụm phõn hoạch. Phõn cụm phõn hoạch và phõn cụm phõn cấp là hai phương phỏp phõn cụm dữ liệu cổ điển, hiện nay đó cú rất nhiều thuật toỏn cải tiến dựa trờn hai phương phỏp được ỏp dụng rộng rói trong lĩnh vực khai phỏ dữ liệu.
2.3.3. Phương phỏp phõn cụm dựa trờn mật độ
Kỹ thuật này nhúm cỏc đối tượng dữ liệu dựa trờn hàm mật độ xỏc định, mật độ là số đối tượng lõn cận của một đối tượng dữ liệu theo một ngưỡng nào đú. Trong cỏch tiếp cận này, khi một dữ liệu đó được xỏc định thỡ nú tiếp tục phỏt triển thờm cỏc đối tượng dữ liệu mới miễn là số cỏc đối tượng lõn cận này phải lớn hơn một ngưỡng đó được xỏc định trước. Phương phỏp phõn cụm dựa trờn mật độ của cỏc đối tượng để xỏc định cỏc cụm dữ liệu cú thể được phỏt hiện ra cỏc cụm dữ liệu với cỏc hỡnh thự bất kỳ. Kỹ thuật này cú
thể khắc phục được cỏc phần tử ngoại lai hoặc cỏc giỏ trị nhiễu tốt. Tuy nhiờn, việc xỏc định tham số mật độ của thuật toỏn là rất khú khăn, trong khi cỏc tham số này lại ảnh hưởng rất lớn đến kết quả phõn cụm [12].
2.3.4. Phương phỏp phõn cụm dựa trờn lưới
Kỹ thuật phõn cụm dựa trờn lưới thớch hợp với dữ liệu nhiều chiều, dựa trờn cấu trỳc dữ liệu lưới để phõn cụm, phương phỏp này chủ yếu tập trung ỏp dụng cho lớp dữ liệu khụng gian. Mục tiờu của phương phỏp này là lượng hoỏ dữ liệu thành cỏc ụ tạo thành lưới. Sau đú, cỏc thao tỏc phõn cụm dữ liệu chỉ cần làm việc với từng ụ trờn lưới chứ khụng phải cỏc đối tượng dữ liệu. Cỏch tiếp cận dựa trờn lưới này khụng di chuyển cỏc đối tượng trong cỏc ụ mà xõy dựng nhiều mức phõn cấp của nhúm cỏc đối tượng trong một ụ. Phương phỏp này gần giống phương phỏp phõn cụm phõn cấp nhưng chỳng khụng trộn cỏc ụ, đồng thời khắc phục được yờu cầu đối với dữ liệu nhiều chiều mà phương phỏp phõn cụm dựa trờn mật độ khụng giải quyết được. Ưu điểm của phương phỏp dựa trờn lưới là thời gian xử lý nhanh và độc lập với số lượng dữ liệu trong tập dữ liệu ban đầu, chỳng phụ thuộc vào số cỏc ụ trong mỗi chiều của khụng gian lưới.
2.3.5. Phương phỏp phõn cụm dựa trờn mụ hỡnh
Phương phỏp này cố gắng khỏm phỏ cỏc xấp xỉ tốt của cỏc tham số mụ hỡnh sao cho khớp với dữ liệu một cỏch tốt nhất. Chỳng cú thể sử dụng chiến lược phõn cụm phõn hoạch hoặc phõn cụm phõn cấp, dựa trờn cấu trỳc hoặc mụ hỡnh mà chỳng giả định về tập dữ liệu và cỏch chỳng hiệu chỉnh cỏc mụ hỡnh này để nhận ra cỏc phõn hoạch. Phương phỏp phõn cụm dựa trờn mụ hỡnh cố gắng khớp giữa cỏc dữ liệu với mụ hỡnh toỏn học, nú dựa trờn giả định rằng dữ liệu được tạo ra bằng hỗn hợp phõn phối xỏc suất cơ bản. Cỏc thuật toỏn phõn cụm dựa trờn mụ hỡnh cú hai cỏch tiếp cận chớnh là mụ hỡnh thống kờ và mạng nơron. Phương phỏp này gần giống với phương phỏp phõn cụm dựa trờn mật đụ, vỡ chỳng phỏt triển cỏc cụm riờng biệt nhằm cải tiến cỏc mụ hỡnh đó được xỏc định trước đú, nhưng đụi khi nú khụng bắt đầu với một số cụm cố định và khụng sử dụng cựng một khỏi niệm mật độ cho cỏc cụm.
2.3.6. Phương phỏp phõn cụm cú dữ liệu ràng buộc
Sự phỏt triển của PCDL khụng gian trờn CSDL lớn đó cung cấp nhiều cụng cụ tiện lợi cho việc phõn tớch thụng tin địa lý, tuy nhiờn hầu hết cỏc thuật toỏn này cung cấp rất ớt cỏch thức cho người dựng để xỏc định cỏc ràng buộc trong thế giới thực cần phải thoả món trong quỏ trỡnh phõn cụm. Để PCDL khụng gian hiệu quả hơn, cỏc nghiờn cứu bổ sung cần được thực hiện để cung cấp cho người dựng khả năng kết hợp cỏc ràng buộc trong thuật toỏn phõn cụm.
ỉ Cú một số cỏch phõn chia cụm phổ biến như sau:
- Phõn chia phẳng theo ranh giới - Phõn chia hỡnh cầu
- Phõn chia xỏc suất - Phõn chia hỡnh cõy
Hỡnh 2.6. Một số cỏch phõn chia cụm
Hiện nay, cỏc phương phỏp phõn cụm trờn đó và đang được phỏt triển, ỏp dụng nhiều trong cỏc lĩnh vực khỏc nhau và đó cú một số nhỏnh nghiờn cứu được phỏt triển trờn cơ sở cỏc phương phỏp đú như:
ỹ Phõn cụm thống kờ: Dựa trờn cỏc khỏi niệm phõn tớch hệ thống, nhỏnh