2. Cho điểm của cán bộ phản biện
2.5. Phộp đo độ tƣơng tự và khoảng cỏch đối với cỏc kiểu dữ liệu
2.5.1. Khỏi niệm tương tự, phi tương tự
Khi cỏc đặc tớnh của dữ liệu được xỏc định, phải tỡm cỏch thớch hợp để xỏc định “khoảng cỏch” giữa cỏc đối tượng hay là phộp đo tương tự dữ liệu. Đõy là cỏc hàm để đo sự giống nhau giữa cỏc cặp đối tượng dữ liệu, thụng thường cỏc hàm này hoặc là để tớnh độ tương tự hoặc là để tớnh độ phi tương tự giữa cỏc đối tượng dữ liệu. Giỏ trị của hàm tớnh độ đo tương tự càng lớn thỡ sự giống nhau giữa cỏc đối tượng càng lớn và ngược lại, cũn hàm tớnh độ phi tương tự tỉ lệ nghịch với hàm tớnh độ tương tự. Độ tương tự hoặc phi tương tự cú nhiều cỏch để xỏc định, chỳng thường được đo bằng khoảng cỏch giữa cỏc đối tượng. Tất cả cỏc cỏch đo độ tương tự đều phụ thuộc vào kiểu thuộc tớnh mà con người phõn tớch. Vớ dụ, thuộc tớnh hạng mục thỡ khụng sử dụng độ đo khoảng cỏch mà sử dụng một hướng hỡnh học của dữ liệu.
Tất cả cỏc độ đo dưới đõy được xỏc định trong khụng gian metric. Bất kỳ một metric nào cũng là một độ đo, nhưng điều ngược lại khụng đỳng. Để trỏnh sự nhầm lẫn, thuật ngữ độ đo ở đõy đề cập đến hàm tớnh độ tương tự hoặc hàm tớnh độ phi tương tự. Một khụng gian metric là một tập trong đú cú xỏc định “khoảng cỏch” giữa từng cặp phần tử, với những tớnh chất thụng thường của khoảng cỏch hỡnh học. Nghĩa là, một tập X (cỏc phần tử của nú cú thể là những đối tượng bất kỳ) cỏc đối tượng dữ liệu trong CSDL D đề cập ở trờn được gọi là một khụng gian metric nếu:
- Với mỗi cặp phần tử x, y thuộc X đều xỏc định theo một quy tắc nào đú, một số thực d(x,y) được gọi là khoảng cỏch giữa x và y.
- Quy tắc núi trờn thỏa món hệ tớnh chất sau: (i) d(x,y) > 0 nếu x ≠ y; (ii) d(x,y) = 0 nếu x= y ;
(iii) d(x,y) = d(y,x) với mọi x,y ; (iv) d(x,y) ≤ d(x,z) + d(z,y) ;
Hàm δ(x,y) được gọi là một metric của khụng gian. Cỏc phần tử của X được gọi là cỏc điểm của khụng gian này.
2.5.2. Thuộc tớnh khoảng
Một thành phần quan trọng trong thuật toỏn phõn cụm là phộp đo khoảng cỏch giữa hai điểm dữ liệu. Nếu thành phần của vectơ thể hiện dữ liệu thuộc trong cựng một đơn vị giống nhau thỡ nú tồn tại khoảng cỏch Euclidean cú thể xỏc định được nhúm dữ liệu tương tự. Tuy nhiờn, khụng phải lỳc nào khoảng cỏch Euclidean cũng cho kết quả chớnh xỏc.
Tuy nhiờn chỳ ý rằng đõy khụng phải vấn đề đồ thị: vấn đề phỏt sinh từ cụng thức toỏn học được sử dụng để kết hợp khoảng cỏch giữa cỏc thành phần đơn đặc tớnh dữ liệu vectơ vào trong một độ đo khoảng duy nhất mà cú thể được sử dụng cho mục đớch phõn cụm: cỏc cụng thức khỏc nhau dẫn tới những cụm khỏc nhau.
Cỏc thuật toỏn cần cú cỏc phộp đo khoảng cỏch hoặc độ tương tự giữa hai đối tượng để thực hiện phõn cụm. Kiến thức miền phải được sử dụng để để trỡnh bày rừ ràng phộp đo khoảng thớch hợp cho mỗi ứng dụng. Hiện nay, phộp đo cú nhiều mức độ khỏch nhau tựy theo từng trường hợp.
Khoảng cỏch Minkowski:
d(i,j)= (q>0)
Khoảng cỏch Euclidean: là khoảng cỏch Minkowski khi q=2. Khoảng
cỏch Euclidean chớnh là khoảng cỏch hỡnh học trong khụng gian n chiều
d(i,j)=
Khoảng cỏch Manhattan: là khoảng cỏch Minkowski khi q=1. d(i,j)=
Khoảng cỏch cú trọng:
d(i,j)= (q>0)
Khoảng cỏch cú trọng là sự cải tiến của khoảng cỏch Minkowski, trong đú cú
tớnh ảnh hưởng của từng thuộc tớnh đến khoảng cỏch giữa hai đối tượng. Thuộc tớnh cú trọng số w càng lớn thỡ ảnh hưởng càng nhiều đến khoảng cỏch d. Việc chọn trọng số tựy thuộc vào ứng dụng và mục tiờu cụ thể.
2.5.3. Thuộc tớnh nhị phõn
Tất cả cỏc phộp đo được định nghĩa ở trờn là đa số thớch hợp cho cỏc biến liờn tục. Cho cỏc biến danh nghĩa, “phộp đo khoảng cỏch” là 0 nếu cỏc trường hợp cú cựng giỏ trị danh nghĩa, và 1 nếu cỏc trường hợp cú cỏc giỏ trị danh nghĩa khỏc nhau, hoặc với độ đo tương tự 1 (nếu cỏc trường hợp cú cựng giỏ trị danh nghĩa) và 0 (nếu khụng giống nhau).
Do đú nếu xem xột p biến định danh, cú thể đỏnh giỏ độ tương tự của cỏc trường hợp bằng số cỏc biến mà cú giỏ trị giống nhau. Núi chung định nghĩa với một biến
Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng
Phạm Văn Đức-Lớp CT1201 18
hai lớp, một nhón là 1, nhón khỏc là 0. Xõy dựng và xem xột bảng ngẫu nhiờn cỏc sự kiện cú thể xảy ra và định nghĩa cỏc thuộc tớnh của đối tượng x, y bằng cỏc biến số nhị phõn 0 và 1. Y 1 0 X 1 a bb b b b a+b 0 c d c+d a+c b+d p=a+b+c+d Hỡnh 2.8: Bảng tham số Trong đú:
a là tổng số cỏc thuộc tớnh cú giỏ trị 1 trong hai đối tượng x, y b là tổng số cỏc thuộc tớnh cú giỏ trị 1 trong x và giỏ trị 0 trong y c là tổng số cỏc thuộc tớnh cú giỏ trị 0 trong x và giỏ trị 1 trong y d là tổng số cỏc thuộc tớnh cú giỏ trị 0 trong hai đối tượng x, y p là tổng tất cả cỏc thuộc tớnh của hai đối tượng x, y
Ta cú tổng số cỏc thuộc tớnh về đối tượng p = a + b + c + d.
Cỏc phộp đo độ tương tự giữa hai đối tượng trong trường hợp dữ liệu thuộc tớnh nhị phõn được định nghĩa như sau:
Hệ số đối sỏnh đơn giản: d(x,y)=
cả hai đối tượng cú vai trũ như nhau, nghĩa là chỳng đối xứng và cú cựng trọng số.
Hệ số Jaccard:
d(x,y)=
tham số này bỏ qua số cỏc đối sỏnh 0-0
Cụng thức này sử dụng trong trường hợp mà trọng số của cỏc thuộc tớnh cú giỏ trị 1 của đối tượng dữ liệu cao hơn nhiều so với cỏc thuộc tớnh cú giỏ trị 0. Như vậy thuộc tớnh nhị phõn ở đõy là khụng đối xứng.
2.5.4. Thuộc tớnh định danh
Độ đo phi tương tự giữa hai đối tượng x và y được định nghĩa như sau:
d(x,y)=
trong đú, m là số thuộc tớnh đối sỏnh tương ứng trựng nhau, p là tổng số cỏc thuộc tớnh.
2.5.5. Thuộc tớnh cú thứ tự
Phộp đo độ phi tương tự giữa cỏc đối tượng dữ liệu với thuộc tớnh thứ tự được thực hiện như sau, ở đõy ta giả sử i là thuộc tớnh thứ tự cú Mi giỏ trị (Mi là kớch thước miền giỏ trị):
Cỏc trạng thỏi Mi được sắp thứ tự như sau: [1…Mi], chỳng ta cú thể thay thế mỗi giỏ trị của thuộc tớnh bằng giỏ trị cựng loại ri, với ri Mi
Mỗi một thuộc tớnh cú thứ tự cú cỏc miền giỏ trị khỏc nhau, vỡ vậy chỳng ta chuyển đổi chỳng về cựng miền giỏ trị [0, 1] bằng cỏch thực hiện phộp biến đổi sau cho mỗi thuộc tớnh :
Sử dụng cụng thức tớnh độ phi tương tự của thuộc tớnh khoảng đối với cỏc giỏ trị , đõy chũng chớnh là độ phi tương tự của thuộc tớnh cú thứ tự.
2.5.6. Thuộc tớnh tỉ lệ (Ratio Scale)
Cú nhiều cỏch khỏc nhau để tớnh độ tương tự giữa cỏc thuộc tớnh tỉ lệ. Một trong những số đú là sử dụng cụng thức tớnh logarit cho mỗi thuộc tớnh xi,
Thớ dụ: qi = log(xi)
lỳc này qi đúng vai trũ như thuộc tớnh khoảng. Phộp biến đổi logarit này thớch hợp trong trường hợp cỏc giỏ trị của thuộc tớnh là số mũ.
Trong thực tế, khi tớnh độ đo tương tự dữ liệu, người ta chỉ xem xột một phần cỏc thuộc tớnh đặc trưng đối với cỏc kiểu dữ liệu hoặc là đỏnh trọng số cho cho tất cả cỏc thuộc tớnh dữ liệu. Trong một số trường hợp, người ta loại bỏ đơn vị đo của cỏc thuộc tớnh dữ liệu bằng cỏch chuẩn hoỏ chỳng, hoặc gỏn trọng số cho mỗi thuộc tớnh giỏ trị trung bỡnh, độ lệch chuẩn. Cỏc trọng số này cú thể sử dụng trong cỏc độ đo khoảng cỏch trờn, thớ dụ với mỗi thuộc tớnh dữ liệu đó được gỏn trọng số tương ứng wi (1≤i≤k), độ tương đồng dữ liệu được xỏc định như sau:
, p i i i
i
d x y w x y 2
1
Cú thể chuyển đổi giữa cỏc mụ hỡnh cho cỏc kiểu dữ liệu trờn, vớ dụ như dữ liệu kiểu hạng mục cú thể chuyển đổi thành dữ liệu nhị phõn hoặc ngược lại. Giải phỏp này rất tốn kộm về chi phớ tớnh toỏn, do vậy, cần phải cõn nhắc khi ỏp dụng cỏch thức này.
Túm lại, tựy từng trường hợp dữ liệu cụ thể mà cú thể sử dụng cỏc mụ hỡnh tớnh độ tương tự khỏc nhau. Việc xỏc định độ tương đồng dữ liệu thớch hợp, chớnh xỏc đảm bảo khỏch quan là rất quan trọng, gúp phần xõy dựng thuật toỏn PCDL cú hiệu quả cao trong việc đảm bảo chất lượng cũng như chi phớ tớnh toỏn.
2.6. Cỏc hƣớng tiếp cận bài toỏn phõn cụm dữ liệu
Cú rất nhiều cỏc phương phỏp phõn cụm dữ liệu khỏc nhau. Việc lựa chọn phương phỏp nào tuỳ thuộc vào kiểu dữ liệu, mục tiờu và ứng dụng cụ thể. Nhỡn chung, cú thể chia thành cỏc phương phỏp sau:
2.6.1. Cỏc phƣơng phỏp phõn hoạch
Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng
Phạm Văn Đức-Lớp CT1201 20
Mỗi cụm chứa ớt nhất một đối tượng. Mỗi đối tượng thuộc về một cụm duy nhất. k là số cụm đó được cho trước.
Cỏc phƣơng phỏp tiếp cận phõn hoạch
Tối ưu toàn cục bằng vột cạn: với k cho trước cú thể cú (kn - (k-1) -…- 1) khả năng phõn hoạch khỏc nhau. Đõy là con số quỏ lớn nếu n là khỏ lớn do đú hầu như khụng thể thực hiện được.
Cỏc phương phỏp heuristic:
o K-means (MacQueen’67): Mỗi cụm được đại diện bằng trọng tõm của cụm. Phương phỏp này sẽ được trỡnh bày kỹ hơn ở phần sau.
o K-medoids ( kaufman & Rouseau’87) cũn được gọi là PAM( partition around medoids): Mỗi cụm được đại diện bởi một đối tượng của cụm.
2.6.2. Phƣơng phỏp phõn cấp( Hierachical methods)
Đõy là cỏc phương phỏp tạo phõn cấp cụm (hierarchical clustering) chứ khụng tạo phõn hoạch cỏc đối tượng. Phương phỏp này khụng cần phải xỏc định số cụm từ đầu. Số cụm sẽ do khoảng cỏch giữa cỏc cụm hoặc điều kiện dừng quyết định. Tiờu chuẩn phõn cụm thường được xỏc định bởi ma trận khoảng cỏch. Phõn cấp cụm thường được biểu diễn dưới dạng đồ thị dạng cõy cỏc cụm (dendogram). Lỏ của cõy biểu diễn đối tượng riờng lẻ, nỳt trong biểu diễn cỏc cụm.
Cỏc phƣơng phỏp tiếp cận để phõn cụm phõn cấp gồm
Hỡnh 2.9: Hai phƣơng phỏp tiếp cận phõn cấp Gộp:
B1. Xuất phỏt mỗi đối tượng và tạo một cụm chứa nú
B2. Nếu hai cụm đủ gần nhau (dưới một ngưỡng nào đấy) sẽ được gộp lại thành một cụm duy nhất.
B3. Lặp lại B2 dến khi chỉ cũn một cụm duy nhất là toàn bộ khụng gian.
B1. Xuất phỏt từ một cụm duy nhất là toàn bộ khụng gian.
B2. Chọn cụm cú độ phõn biệt cao nhất (ma trận phõn biệt cú phần tử lớn nhất hoặc trị trung bỡnh lớn nhất) để tỏch đụi. Bước này ỏp dụng cỏc phương phỏp phõn hoạch đối với cụm đó chọn.
B3. Lặp lại B2 đến khi mỗi đối tượng thuộc một cụm hoặc đạt điều kiện dừng (đủ số cụm cần thiết hoặc khoảng cỏch giữa cỏc cụm đạt ngưỡng đủ nhỏ).
Cỏc khoảng cỏch giữa cỏc cụm thƣờng đƣợc dựng là:
Khoảng cỏch nhỏ nhất. hay cũn gọi là khoảng cỏch lien kết đơn (single link) hay khoảng cỏch người lỏng giềng gần nhất. Đõy là loại khoảng cỏch phự hợp để phỏt hiện cỏc cụm cú dạng chuỗi hơn là dạng khối.
d(Ci,Cj) = minx Ci, y Cj {d(x,y)}
Khoảng cỏch lớn nhất: hay gọi là khoảng cỏch liờn kết hoàn toàn (complete link) hoặc khoảng cỏch người lỏng giềng xa nhất. Đõy là loại khoảng cỏch phự hợp để phỏt hiện cỏc cụm cú dạng khối hơn là dạng chuỗi.
d(Ci,Cj) = maxx Ci, y Cj {d(x,y)} Khoảng cỏch trung bỡnh:
d(Ci,Cj) = avgx Ci, y Cj {d(x,y)}
Khoảng cỏch trọng tõm. Khoảng cỏch giữa hai trọng tõm của hai cụm được chọn làm khoảng cỏch của hai cụm đú. Khoảng cỏch phự hợp để phỏt hiện cỏc cụm cú dạng khối và tốc độ tớnh toỏn nhanh do chỉ quan tõm đến trọng tõm nờn giảm khối lượng tớnh toỏn.
2.6.3. Cỏc phƣơng phỏp dựa trờn mật độ (Density based Methods)
Cỏc ký hiệu và khỏi niệm:
p, q, o là cỏc điểm dữ liệu bất kỳ (cỏc đối tượng)
Với Eps dương cho trước,tập hợp NEps(p) ={q | d(q,p) ≤Eps } được gọi là lõn cận bỏn kớnh Eps của p.
p được gọi là điểm hạt nhõn nếu thỏa món |NEps(p)| ≥ min Pts
Trong đú min Pts: số nguyờn dương cho trước, min Pts là ngưỡng tối thiểu để coi một điểm là trự mật. Từ đõy khi núi một điểm là hạt nhõn thỡ ta hiểu là nú gắn với một bỏn kớnh và một ngưỡng trự mật nhất định.
p được gọi là điểm biờn nếu nú khụng phải là điểm nhõn.
q được gọi là đi tới được trực tiếp theo mật độ từ p nếu p là một điểm nhõn và q thuộc lõn cận của p.
pn được gọi là đi tới được theo mật độ từ p1 nếu tồn tại một dóy cỏc điểm pi (i=2,…,n) sao cho pi liờn thụng mật độ trực tiếp từ pi+1.
p và q được gọi là cú kết nối theo mật độ nếu tồn tại điểm o sao cho cả p và q đều liờn thụng mật độ từ o.
Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng
Phạm Văn Đức-Lớp CT1201 22
2.6.4. Phõn cụm dữ liệu dựa trờn lƣới
í tưởng: dựng cỏc cấu trỳc dữ liệu dạng lưới với nhiều cấp độ phõn giải. Những ụ lưới cú mật độ cao sẽ tạo thành những cụm. Phương phỏp này rất phự hợp với cỏc phõn tớch phõn cụm ừng dụng trong khụng gian (phõn loại sao, thiờn hà, …). Ngoài ra cũn cú cỏc thuật toỏn khỏc như thuật toỏn STING, WaveCluster, CLIQUE.
2.6.5. Phƣơng phỏp dựa trờn mụ hỡnh (Gom cụm khỏi niệm, mạng neural)
Đõy là cỏc phương phỏp dựa trờn sự phự hợp giữa dữ liệu và cỏc mụ hỡnh toỏn học. í tưởng của cỏc phương phỏp này là: Dữ liệu phỏt sinh từ một sự kết hợp nào đú của cỏc phõn phối xỏc xuất ẩn. Cú hai phương phỏp tiếp cận chớnh:
Tiếp cận thống kờ (phương phỏp COBWEB, CLASSIT, AUTOCLASS). Tiếp cận mạng noron (học cạnh tranh, bản đồ tự cấu trỳc SOM).
2.7. Cỏc vấn đề cú thể gặp phải:
- Cỏc kỹ thuật phõn cụm hiện tại chỉ giải quyết được một phần cỏc yờu cầu của bài toỏn.
- Một vấn đề thường gặp trong phõn cụm là hầu hết cỏc dữ liệu cần cho phõn cụm đều cú chứa dữ liệu nhiễu do quỏ trỡnh thu thập thiếu chớnh xỏc hoặc thiếu đầy đủ, vỡ vậy cần phải xõy dựng chiến lược cho bước tiền xử lớ dữ liệu nhằm khắc phục hoặc loại bỏ nhiễu trước khi chuyển sang giai đoạn phõn tớch cụm dữ liệu.
- Việc phõn cụm một dữ liệu với kớch thước và số lượng lớn là vấn đề khú khăn bởi vỡ độ phức tạp thời gian tăng cao.
- Khả năng hiệu quả của cỏc phương phỏp phõn cụm phụ thuộc vào định nghĩa "khoảng cỏch" (khi phõn cụm dựa trờn khoảng cỏch);
- Nếu một khoảng cỏch khụng tồn tại, thỡ chỳng ta phải "định nghĩa" nú, quỏ trỡnh thực hiện việc này khụng hề dễ dàng, đặc biệt là trong khụng gian đa chiều.
2.8. Phƣơng phỏp phõn hoạch (Partion Methods) 2.8.1. Thuật toỏn K-Means 2.8.1. Thuật toỏn K-Means
Cho k là số cụm sau khi phõn hoạch. (1≤ k ≤ n, với n là số điểm( đối tượng) trong khụng gian giữ liệu)
Thuật toỏn k-means gồm 4 bước:
B1. Chọn ngẫu nhiờn k điểm làm trọng tõm ban đầu của k cụm.
B2. Gỏn (hoặc gỏn lại) từng điểm vào cụm cú trọng tõm gần điểm đang xột nhất. Nếu khụng cú phộp gỏn nào thỡ dừng. Vỡ khụng cú phộp gỏn nào cú nghĩa là cỏc cụm đó ổn định và thuật toỏn khụng thể cải thiện làm giảm độ phõn biệt hơn được nữa.
B3. Tớnh lại trọng tõm cho từng cụm. B4. Quay lại bước 2.
Hỡnh 2.10: Vớ dụ về một số hỡnh dạng cụm dữ liệu được khỏm phỏ bởi K-means
Ƣu điểm của phƣơng phỏp gom cụm k-means
- Tương đổi nhanh .Độ phức tạp của thuật toỏn là O(tkn) với t là số lần lặp ( t khỏ nhỏ so với n), k là số cụm cần phõn hoạch, n là số điểm trong khụng gian dữ liệu.
- K-means phự hợp với cỏc cụm cú dạng hỡnh cầu.
Nhƣợc điểm của phƣơng phỏp k-mean
- Khụng đảm bảo đạt được tối ưu toàn cục và kết quả đầu ra phụ thuộc nhiều vào việc chọn k điểm khởi đầu. Do đú cú thể phải chạy lại thuật toỏn với nhiều bộ khởi đầu khỏc nhau để cú được kết quả đủ tốt. Trong thực tế cú thể ỏp dụng