2. Cho điểm của cán bộ phản biện
2.4. Cỏc kiểu dữ liệu trong phõn cụm
Trong phõn cụm, cỏc đối tượng dữ liệu thường được diễn tả dưới dạng cỏc đặc tớnh hay cũn gọi là thuộc tớnh ( Khỏi niệm “cỏc kiểu dữ liệu” và “cỏc kiểu thuộc tớnh dữ liệu“ được xem là tương đương với nhau). Cỏc thuộc tớnh này là cỏc tham số để giải quyết vấn đề phõn cụm và sự lựa chọn chỳng cú tỏc động đỏng kể đến kết quả phõn cụm. Phõn loại cỏc kiểu thuộc tớnh khỏc nhau là vấn đề cần giải quyết đối với hầu hết cỏc tập dữ liệu nhằm cung cấp cỏc phương tiện thuận lợi để nhận dạng sự khỏc nhau của cỏc phần tử dữ liệu. Cỏc thuật toỏn phõn cụm thường sử dụng một trong hai cấu trỳc dữ liệu sau:
Ma trận dữ liệu (Data matrix, object-by-variable structure): là mảng n hàng, p cột, trong đú p là số thuộc tớnh của mỗi đối tượng. Mỗi hàng biểu diễn một đối tượng, cỏc phần tử trong mỗi hàng chỉ giỏ trị thuộc tớnh tương ứng của đối tượng đú. Mảng được cho như sau:
11 1f 1p 21 2f 2p n1 nf np x ... x ... x ... ... ... ... ... x ... x ... x ... ... ... ... ... x ... x ... x
Ma trận phi tương tự (Dissimilarity matrix, object-by-object structure): là mảng n hàng, n cột. Phần tử d(i,j) chứa khoảng cỏch hay độ khỏc biệt giữa cỏc đối tượng i và đối tượng j, d(i,j) là một số khụng õm, trong đú nếu d(i,j) xấp xỉ 0 thỡ hai đối tượng i và j là khỏ "gần" nhau, nếu d(i,j) càng lớn thỡ hai đối tượng i, j khỏ khỏc
nhau. Do d(i,j) = d(j,i) = 0 nờn ta cú thể biểu diễn ma trận phi tương tự như sau: d(2,1) ... ... ... d(3.1) d(3,2) ... ... ... ... ... ... ... d(n,1) d(n,2) ... ... 0 0 0 0
Với d(i,j) là khoảng cỏch giữa đối tượng i và đối tượng j.
Phần lớn cỏc thuật toỏn phõn cụm sử dụng cấu trỳc ma trận phi tương tự. Do vậy, nếu dữ liệu cần phõn cụm được tổ chức dưới dạng ma trận dữ liệu thỡ cần biến đổi về dạng ma trận phi tương tự trước khi tiến hành phõn cụm.
Cú hai đặc trưng để phõn loại: kớch thước miền và hệ đo.
Cho một CSDL D chứa n đối tượng trong khụng gian k chiều; x, y, z là cỏc đối tượng thuộc D:
x ( x1 , x2 ,..., xk ); y ( y1 , y2 , ... yk ); z ( z1 , z2 , ...zk )
trong đú xi, yi, zi với i = 1,.., k là cỏc đặc trưng hoặc thuộc tớnh tương ứng của cỏc đối tượng x, y, z; như vậy sẽ cú cỏc kiểu dữ liệu sau:
2.4.1. Kiểu dữ liệu dựa trờn kớch thước miền
Thuộc tớnh liờn tục: Nếu miền giỏ trị của nú là vụ hạn khụng đếm được,
nghĩa là giữa hai giỏ trị tồn tại vụ số giỏ trị khỏc (vớ dụ, cỏc thuộc tớnh mầu, nhiệt độ hoặc cường độ õm thanh,…)
Thuộc tớnh rời rạc: Nếu miền giỏ trị của nú là tập hữu hạn, đếm được (vớ dụ: cỏc thuộc tớnh số,…) trường hợp đặc biệt của thuộc tớnh rời rạc là thuộc tớnh nhị phõn mà miền giỏ trị chỉ cú hai phõn tử (vớ dụ: Yes/No, True/False, On/Off..)
2.4.2. Kiểu dữ liệu dựa trờn hệ đo
Thuộc tớnh định danh: Là dạng thuộc tớnh khỏi quỏt hoỏ của thuộc tớnh
nhị phõn, trong đú cú miền giỏ trị là rời rạc khụng phõn biệt thứ tự và cú nhiều hơn hai phần tử. Nếu x và y là hai đối tượng thuộc tớnh thỡ chỉ cú thể xỏc định là x ≠ y hoặc x =y.
Thuộc tớnh cú thứ tự: Là thuộc tớnh định danh nhưng cú thờm tớnh thứ tự nhưng chỳng khụng được định lượng. Nếu x và y là hai thuộc tớnh thứ tự thỡ cú thể xỏc định là x ≠ y hoặc x = y hoặc x > y hoặc x< y.
Thuộc tớnh khoảng: để đo cỏc giỏ trị theo xấp xỉ tuyến tớnh, với thuộc tớnh
khoảng cú thể xỏc định một thuộc tớnh là đứng trược hoặc đứng sau thuộc tớnh khỏc với một khoảng là bao nhiờu. Nếu xi > yi thỡ cú thể núi x cỏch y một khoảng xi - yi tương ứng với thuộc tớnh thứ i.
Việc lựa chọn đơn vị đo cho cỏc thuộc tớnh cũng ảnh hưởng đến chất lượng phõn cụm. Nếu đơn vị độ đo của một thuộc tớnh càng được chia nhỏ, thỡ khoảng cỏch xỏc định của thuộc tớnh đú càng lớn và ảnh hưởng nhiều hơn đến kết quả phõn cụm. Để trỏnh phụ thuộc vào việc lựa chọn đơn vị đo, dữ liệu cần được chuẩn húa. Việc chuẩn húa sẽ gỏn cho tất cả cỏc thuộc tớnh một trọng số bằng nhau. Tuy nhiờn, trong nhiều trường hợp người sử dụng cú thể thay đổi trọng số cho cỏc thuộc tớnh
Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng
Phạm Văn Đức-Lớp CT1201 16
Để chuẩn húa cỏc độ đo, một cỏch làm phổ biến là biến đổi cỏc thuộc tớnh về dạng khụng cú đơn vị đo. Giả sử đối với cỏc thuộc tớnh f, ta thực hiện như sau:
- Tớnh độ lệch trung bỡnh:
Sf = (|x1f - mf|+| x2f - mf |+…+| xnf - mf | )
Trong đú x1f ,…,xnf là giỏ trị thuộc tớnh f của n phần tử dữ liệu, và mf là giỏ trị trung bỡnh của f, được cho như sau:
mf = (x1f + x2f +… + xnf )
- Độ đo được chuẩn húa:
Thuộc tớnh nhị phõn là thuộc tớnh cú hai giỏ trị là 0 và 1.
Thuộc tớnh tớnh tỷ lệ: Là thuộc tớnh khoảng nhưng được xỏc định một
cỏch tương đối so với điểm mốc.
Trong cỏc thuộc tớnh trỡnh bày ở trờn, thuộc tớnh định danh và thuộc tớnh cú thứ tự gọi chung là thuộc tớnh hạng mục, cũn thuộc tớnh khoảng cỏch và thuộc tớnh tỷ lệ được gọi là thuộc tớnh số.
Đặc biệt, cũn cú dữ liệu khụng gian là loại dữ liệu cú thuộc tớnh số khỏi quỏt trong khụng gian nhiều chiều, dữ liệu khụng gian mụ tả cỏc thụng tin liờn quan đến khụng gian chứa đựng cỏc đối tượng (vớ dụ: thụng tin về hỡnh học, Quan hệ metric, Quan hệ hướng, …) Dữ liệu khụng gian cú thể là dữ liệu liờn tục hoặc rời rạc.
- Dữ liệu khụng gian liờn tục: Bao chứa một vựng khụng gian.
- Dữ liệu khụng gian rời rạc: Cú thể là một điểm trong khụng gian nhiều chiều và cho phộp xỏc định khoảng cỏch giữa cỏc đối tượng dữ liệu trong khụng gian.
2.5. Phộp đo độ tƣơng tự và khoảng cỏch đối với cỏc kiểu dữ liệu:
2.5.1. Khỏi niệm tương tự, phi tương tự
Khi cỏc đặc tớnh của dữ liệu được xỏc định, phải tỡm cỏch thớch hợp để xỏc định “khoảng cỏch” giữa cỏc đối tượng hay là phộp đo tương tự dữ liệu. Đõy là cỏc hàm để đo sự giống nhau giữa cỏc cặp đối tượng dữ liệu, thụng thường cỏc hàm này hoặc là để tớnh độ tương tự hoặc là để tớnh độ phi tương tự giữa cỏc đối tượng dữ liệu. Giỏ trị của hàm tớnh độ đo tương tự càng lớn thỡ sự giống nhau giữa cỏc đối tượng càng lớn và ngược lại, cũn hàm tớnh độ phi tương tự tỉ lệ nghịch với hàm tớnh độ tương tự. Độ tương tự hoặc phi tương tự cú nhiều cỏch để xỏc định, chỳng thường được đo bằng khoảng cỏch giữa cỏc đối tượng. Tất cả cỏc cỏch đo độ tương tự đều phụ thuộc vào kiểu thuộc tớnh mà con người phõn tớch. Vớ dụ, thuộc tớnh hạng mục thỡ khụng sử dụng độ đo khoảng cỏch mà sử dụng một hướng hỡnh học của dữ liệu.
Tất cả cỏc độ đo dưới đõy được xỏc định trong khụng gian metric. Bất kỳ một metric nào cũng là một độ đo, nhưng điều ngược lại khụng đỳng. Để trỏnh sự nhầm lẫn, thuật ngữ độ đo ở đõy đề cập đến hàm tớnh độ tương tự hoặc hàm tớnh độ phi tương tự. Một khụng gian metric là một tập trong đú cú xỏc định “khoảng cỏch” giữa từng cặp phần tử, với những tớnh chất thụng thường của khoảng cỏch hỡnh học. Nghĩa là, một tập X (cỏc phần tử của nú cú thể là những đối tượng bất kỳ) cỏc đối tượng dữ liệu trong CSDL D đề cập ở trờn được gọi là một khụng gian metric nếu:
- Với mỗi cặp phần tử x, y thuộc X đều xỏc định theo một quy tắc nào đú, một số thực d(x,y) được gọi là khoảng cỏch giữa x và y.
- Quy tắc núi trờn thỏa món hệ tớnh chất sau: (i) d(x,y) > 0 nếu x ≠ y; (ii) d(x,y) = 0 nếu x= y ;
(iii) d(x,y) = d(y,x) với mọi x,y ; (iv) d(x,y) ≤ d(x,z) + d(z,y) ;
Hàm δ(x,y) được gọi là một metric của khụng gian. Cỏc phần tử của X được gọi là cỏc điểm của khụng gian này.
2.5.2. Thuộc tớnh khoảng
Một thành phần quan trọng trong thuật toỏn phõn cụm là phộp đo khoảng cỏch giữa hai điểm dữ liệu. Nếu thành phần của vectơ thể hiện dữ liệu thuộc trong cựng một đơn vị giống nhau thỡ nú tồn tại khoảng cỏch Euclidean cú thể xỏc định được nhúm dữ liệu tương tự. Tuy nhiờn, khụng phải lỳc nào khoảng cỏch Euclidean cũng cho kết quả chớnh xỏc.
Tuy nhiờn chỳ ý rằng đõy khụng phải vấn đề đồ thị: vấn đề phỏt sinh từ cụng thức toỏn học được sử dụng để kết hợp khoảng cỏch giữa cỏc thành phần đơn đặc tớnh dữ liệu vectơ vào trong một độ đo khoảng duy nhất mà cú thể được sử dụng cho mục đớch phõn cụm: cỏc cụng thức khỏc nhau dẫn tới những cụm khỏc nhau.
Cỏc thuật toỏn cần cú cỏc phộp đo khoảng cỏch hoặc độ tương tự giữa hai đối tượng để thực hiện phõn cụm. Kiến thức miền phải được sử dụng để để trỡnh bày rừ ràng phộp đo khoảng thớch hợp cho mỗi ứng dụng. Hiện nay, phộp đo cú nhiều mức độ khỏch nhau tựy theo từng trường hợp.
Khoảng cỏch Minkowski:
d(i,j)= (q>0)
Khoảng cỏch Euclidean: là khoảng cỏch Minkowski khi q=2. Khoảng
cỏch Euclidean chớnh là khoảng cỏch hỡnh học trong khụng gian n chiều
d(i,j)=
Khoảng cỏch Manhattan: là khoảng cỏch Minkowski khi q=1. d(i,j)=
Khoảng cỏch cú trọng:
d(i,j)= (q>0)
Khoảng cỏch cú trọng là sự cải tiến của khoảng cỏch Minkowski, trong đú cú
tớnh ảnh hưởng của từng thuộc tớnh đến khoảng cỏch giữa hai đối tượng. Thuộc tớnh cú trọng số w càng lớn thỡ ảnh hưởng càng nhiều đến khoảng cỏch d. Việc chọn trọng số tựy thuộc vào ứng dụng và mục tiờu cụ thể.
2.5.3. Thuộc tớnh nhị phõn
Tất cả cỏc phộp đo được định nghĩa ở trờn là đa số thớch hợp cho cỏc biến liờn tục. Cho cỏc biến danh nghĩa, “phộp đo khoảng cỏch” là 0 nếu cỏc trường hợp cú cựng giỏ trị danh nghĩa, và 1 nếu cỏc trường hợp cú cỏc giỏ trị danh nghĩa khỏc nhau, hoặc với độ đo tương tự 1 (nếu cỏc trường hợp cú cựng giỏ trị danh nghĩa) và 0 (nếu khụng giống nhau).
Do đú nếu xem xột p biến định danh, cú thể đỏnh giỏ độ tương tự của cỏc trường hợp bằng số cỏc biến mà cú giỏ trị giống nhau. Núi chung định nghĩa với một biến
Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng
Phạm Văn Đức-Lớp CT1201 18
hai lớp, một nhón là 1, nhón khỏc là 0. Xõy dựng và xem xột bảng ngẫu nhiờn cỏc sự kiện cú thể xảy ra và định nghĩa cỏc thuộc tớnh của đối tượng x, y bằng cỏc biến số nhị phõn 0 và 1. Y 1 0 X 1 a bb b b b a+b 0 c d c+d a+c b+d p=a+b+c+d Hỡnh 2.8: Bảng tham số Trong đú:
a là tổng số cỏc thuộc tớnh cú giỏ trị 1 trong hai đối tượng x, y b là tổng số cỏc thuộc tớnh cú giỏ trị 1 trong x và giỏ trị 0 trong y c là tổng số cỏc thuộc tớnh cú giỏ trị 0 trong x và giỏ trị 1 trong y d là tổng số cỏc thuộc tớnh cú giỏ trị 0 trong hai đối tượng x, y p là tổng tất cả cỏc thuộc tớnh của hai đối tượng x, y
Ta cú tổng số cỏc thuộc tớnh về đối tượng p = a + b + c + d.
Cỏc phộp đo độ tương tự giữa hai đối tượng trong trường hợp dữ liệu thuộc tớnh nhị phõn được định nghĩa như sau:
Hệ số đối sỏnh đơn giản: d(x,y)=
cả hai đối tượng cú vai trũ như nhau, nghĩa là chỳng đối xứng và cú cựng trọng số.
Hệ số Jaccard:
d(x,y)=
tham số này bỏ qua số cỏc đối sỏnh 0-0
Cụng thức này sử dụng trong trường hợp mà trọng số của cỏc thuộc tớnh cú giỏ trị 1 của đối tượng dữ liệu cao hơn nhiều so với cỏc thuộc tớnh cú giỏ trị 0. Như vậy thuộc tớnh nhị phõn ở đõy là khụng đối xứng.
2.5.4. Thuộc tớnh định danh
Độ đo phi tương tự giữa hai đối tượng x và y được định nghĩa như sau:
d(x,y)=
trong đú, m là số thuộc tớnh đối sỏnh tương ứng trựng nhau, p là tổng số cỏc thuộc tớnh.
2.5.5. Thuộc tớnh cú thứ tự
Phộp đo độ phi tương tự giữa cỏc đối tượng dữ liệu với thuộc tớnh thứ tự được thực hiện như sau, ở đõy ta giả sử i là thuộc tớnh thứ tự cú Mi giỏ trị (Mi là kớch thước miền giỏ trị):
Cỏc trạng thỏi Mi được sắp thứ tự như sau: [1…Mi], chỳng ta cú thể thay thế mỗi giỏ trị của thuộc tớnh bằng giỏ trị cựng loại ri, với ri Mi
Mỗi một thuộc tớnh cú thứ tự cú cỏc miền giỏ trị khỏc nhau, vỡ vậy chỳng ta chuyển đổi chỳng về cựng miền giỏ trị [0, 1] bằng cỏch thực hiện phộp biến đổi sau cho mỗi thuộc tớnh :
Sử dụng cụng thức tớnh độ phi tương tự của thuộc tớnh khoảng đối với cỏc giỏ trị , đõy chũng chớnh là độ phi tương tự của thuộc tớnh cú thứ tự.
2.5.6. Thuộc tớnh tỉ lệ (Ratio Scale)
Cú nhiều cỏch khỏc nhau để tớnh độ tương tự giữa cỏc thuộc tớnh tỉ lệ. Một trong những số đú là sử dụng cụng thức tớnh logarit cho mỗi thuộc tớnh xi,
Thớ dụ: qi = log(xi)
lỳc này qi đúng vai trũ như thuộc tớnh khoảng. Phộp biến đổi logarit này thớch hợp trong trường hợp cỏc giỏ trị của thuộc tớnh là số mũ.
Trong thực tế, khi tớnh độ đo tương tự dữ liệu, người ta chỉ xem xột một phần cỏc thuộc tớnh đặc trưng đối với cỏc kiểu dữ liệu hoặc là đỏnh trọng số cho cho tất cả cỏc thuộc tớnh dữ liệu. Trong một số trường hợp, người ta loại bỏ đơn vị đo của cỏc thuộc tớnh dữ liệu bằng cỏch chuẩn hoỏ chỳng, hoặc gỏn trọng số cho mỗi thuộc tớnh giỏ trị trung bỡnh, độ lệch chuẩn. Cỏc trọng số này cú thể sử dụng trong cỏc độ đo khoảng cỏch trờn, thớ dụ với mỗi thuộc tớnh dữ liệu đó được gỏn trọng số tương ứng wi (1≤i≤k), độ tương đồng dữ liệu được xỏc định như sau:
, p i i i
i
d x y w x y 2
1
Cú thể chuyển đổi giữa cỏc mụ hỡnh cho cỏc kiểu dữ liệu trờn, vớ dụ như dữ liệu kiểu hạng mục cú thể chuyển đổi thành dữ liệu nhị phõn hoặc ngược lại. Giải phỏp này rất tốn kộm về chi phớ tớnh toỏn, do vậy, cần phải cõn nhắc khi ỏp dụng cỏch thức này.
Túm lại, tựy từng trường hợp dữ liệu cụ thể mà cú thể sử dụng cỏc mụ hỡnh tớnh độ tương tự khỏc nhau. Việc xỏc định độ tương đồng dữ liệu thớch hợp, chớnh xỏc đảm bảo khỏch quan là rất quan trọng, gúp phần xõy dựng thuật toỏn PCDL cú hiệu quả cao trong việc đảm bảo chất lượng cũng như chi phớ tớnh toỏn.
2.6. Cỏc hƣớng tiếp cận bài toỏn phõn cụm dữ liệu
Cú rất nhiều cỏc phương phỏp phõn cụm dữ liệu khỏc nhau. Việc lựa chọn phương phỏp nào tuỳ thuộc vào kiểu dữ liệu, mục tiờu và ứng dụng cụ thể. Nhỡn chung, cú thể chia thành cỏc phương phỏp sau:
2.6.1. Cỏc phƣơng phỏp phõn hoạch
Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng
Phạm Văn Đức-Lớp CT1201 20
Mỗi cụm chứa ớt nhất một đối tượng. Mỗi đối tượng thuộc về một cụm duy nhất. k là số cụm đó được cho trước.
Cỏc phƣơng phỏp tiếp cận phõn hoạch
Tối ưu toàn cục bằng vột cạn: với k cho trước cú thể cú (kn - (k-1) -…- 1) khả năng phõn hoạch khỏc nhau. Đõy là con số quỏ lớn nếu n là khỏ lớn do đú hầu như khụng thể thực hiện được.
Cỏc phương phỏp heuristic:
o K-means (MacQueen’67): Mỗi cụm được đại diện bằng trọng tõm của cụm. Phương phỏp này sẽ được trỡnh bày kỹ hơn ở phần sau.
o K-medoids ( kaufman & Rouseau’87) cũn được gọi là PAM( partition around medoids): Mỗi cụm được đại diện bởi một đối tượng của cụm.
2.6.2. Phƣơng phỏp phõn cấp( Hierachical methods)
Đõy là cỏc phương phỏp tạo phõn cấp cụm (hierarchical clustering) chứ khụng tạo phõn hoạch cỏc đối tượng. Phương phỏp này khụng cần phải xỏc định số cụm từ đầu. Số cụm sẽ do khoảng cỏch giữa cỏc cụm hoặc điều kiện dừng quyết định. Tiờu chuẩn phõn cụm thường được xỏc định bởi ma trận khoảng cỏch. Phõn cấp cụm