Đõy là cỏch tiếp cận mà trong đú chỳng ta đó lượng húa dữ liệu khụng gian vào một số hữu hạn cỏc ụ để tạo thành cấu trỳc lưới và dựa trờn đú để hoàn thành việc phõn cụm [3][11][15].
Do đú, cú một vớ dụ được thừa nhận rằng, chỳng ta cú một tập cỏc bản ghi mà chỳng ta muốn phõn cụm với chi tiết là hai thuộc tớnh (lương, tuổi). Sau đú, chỳng ta chia thành những khụng gian cú liờn quan vào trong cấu trỳc lưới để tỡm ra cỏc cụm như hỡnh 3.33.
Hỡnh 3.33. Cấu trỳc lưới phõn cụm 3.5.1. Thuật toỏn STING
STING (a STatistical INformation Grid approach, Wang, Yang and Muntz, 1997) là kỹ thuật phõn cụm đa phõn giải dựa trờn lưới, trong đú vựng khụng gian dữ liệu được phõn ró thành số hữu hạn ụ hỡnh chữ nhật, điều này cú nghĩa là cỏc ụ lưới được hỡnh thành từ cỏc ụ lưới con để thực hiện phõn cụm. Cú nhiều mức của cỏc ụ chữ nhật tương ứng với cỏc mức khỏc nhau của phõn giải trong cấu trỳc lưới, cỏc ụ này hỡnh thành cấu trỳc phõn cấp. Mỗi ụ ở mức cao được phõn hoạch thành một số cỏc ụ ở mức thấp hơn tiếp theo trong cấu trỳc phõn cấp. Cỏc điểm dữ liệu được nạp từ CSDL, giỏ trị của cỏc tham số thống kờ ở cỏc ụ mức thấp hơn. Cỏc giỏ trị của cỏc tham số thống kờ là: số trung bỡnh-mean, số tối đa-max, số tối thiểu-min, số đếm - count, độ lệch chuẩn - s,…
Cỏc đối tượng dữ liệu lần lượt được chốn vào lưới và cỏc tham số thống kờ ở trờn được tớnh trực tiếp thụng qua cỏc đối tượng dữ liệu này. Cỏc truy vấn khụng gian được thực hiện bằng cỏch xột cỏc ụ thớch hợp tại mỗi mức của
phõn cấp. Một truy vấn khụng gian được xỏc định như là một thụng tin khụi phục lại của dữ liệu khụng gian và cỏc quan hệ của chỳng. STING cú khả năng mở rộng cao nhưng do được sử dụng phương phỏp đa phõn giải nờn nú phụ thuộc chặt chẽ vào trọng tõm của mức thấp nhất. Đa phõn giải là khả năng phõn ró tập dữ liệu thành cỏc mức chi tiết khỏc nhau. Khi hũa nhập cỏc ụ của cấu trỳc lưới để hỡnh thành cỏc cụm, nú khụng xột quan hệ khụng gian giữa cỏc nỳt của mức con khụng được hũa nhập phự hợp (do chỳng chỉ tương tỏc với cỏc cha của nú). Tất cả ranh giới của cỏc cụm cú biờn ngang và dọc, theo biờn của cỏc ụ và khụng cú đường biờn chộo được phỏt hiện ra.
Hỡnh 3.34. Cỏc mức ụ lưới khỏc nhau trong quỏ trỡnh truy vấn
ỉ Thuật toỏn STING gồm cỏc bước sau:
1. Xỏc định tầng để bắt đầu.
2. Với mỗi ụ của tầng này, tớnh toỏn khoảng tin cậy (hoặc ước lượng khoảng) của xỏc suất mà cỏc ụ này liờn quan tới truy vấn.
3. Từ khoảng tin cậy của tớnh toỏn trờn, gỏn nhón cho lỏ cú liờn quan hoặc khụng liờn quan.
4. Nếu lớp này là lớp cuối cựng, chuyển sang bước 6, nếu khụng phải thỡ chuyển sang bước 5.
5. Duyệt xuống dưới của cấu trỳc cõy phõn cấp một mức. Chuyển sang bước 2 cho tất cỏc ụ mà hỡnh thành cỏc ụ liờn quan của lớp cú mức cao hơn.
6. Nếu đặc tả được cõu truy vấn, chuyển sang bước 8, nếu khụng thỡ chuyến sang bước 7.
7. Truy lục dữ liệu trong cỏc ụ liờn quan và thực hiện xử lý. Trả lại kết quả phự hợp của yờu cầu truy vấn. Chuyển sang bước 9.
8. Tỡm thấy cỏc cú cỏc ụ liờn quan. Trả lại miền phự hợp với yờu cầu của truy vấn. Chuyển sang bước 9.
9. Dừng
ỉ Cỏc lợi thế của cỏch tiếp cận này so với cỏc phương phỏp phõn cụm khỏc
Tớnh toỏn dựa trờn lưới là truy vấn độc lập vỡ thụng tin thống kờ được bảo quản trong mỗi ụ đại diện nờn chỉ cần thụng tin túm tắt của dữ liệu trong ụ lưới chứ khụng phải là dữ liệu thực tế và khụng phụ thuộc vào cõu truy vấn.
Cấu trỳc dữ liệu lưới thuận tiện cho quỏ trỡnh xử lý song song và cập nhật liờn tục.
Duyệt toàn bộ CSDL một lần để tớnh toỏn cỏc đại lượng thống kờ cho mỗi ụ nờn nú rất hiệu quả và độ phức tạp thời gian để tạo cỏc cụm xấp xỉ O(n), trong đú n là số cỏc đối tượng. Sau khi xõy dựng cấu trỳc phõn cấp, thời gian xử lý cho cỏc truy vấn là O(g), trong đú g là tổng số cỏc ụ lưới ở mức thấp (g<<n) [3][7].
ỉ Cỏc hạn chế của thuật toỏn này
Trong khi sử dụng cỏch tiếp cận đa phõn giải để thực hiện phõn tớch cụm, chất lượng của phõn cụm STING hoàn toàn phụ thuộc vào tớnh chất hỗn hợp ở mức thấp của cấu trỳc lưới. Nếu tớnh chất hộp là mịn, dẫn đến chi phớ
thời gian xử lý tăng, tớnh toỏn trở nờn phức tạp và nếu mức dưới cựng là quỏ thụ thỡ nú cú thể làm giảm bớt chất lượng và độ chớnh xỏc của phõn tớch cụm.
3.5.2. Thuật toỏn CLIQUE
Trong khụng gian đa chiều, cỏc cụm cú thể tồn tại trong tập con của cỏc chiều, hay cũn gọi là khụng gian con. Thuật toỏn CLIQUE (CLustering In QUEst, Agrawal, et al. 1998) là thuật toỏn hữu ớch cho phõn cụm dữ liệu khụng gian đa chiều trong cỏc CSDL lớn thành khụng gian con. CLIQUE cú thể xem xột trờn cả hai kỹ thuật tiếp cận dựa trờn mật độ và dựa trờn lưới.
ỉ Thuật toỏn này gồm cỏc bước sau:
1. Cho n là tập lớn của cỏc điểm dữ liệu đa chiều, khụng gian dữ liệu thường là khụng giống nhau bởi cỏc điểm dữ liệu. Phương phỏp này xỏc định những vựng gần, thưa và đặc trong khụng gian dữ liệu nhất đớnh, bằng cỏch đú phỏt hiện ra toàn bộ mẫu của tập dữ liệu.
2. Một đơn vị là dày đặc nếu phần nhỏ của tất cả cỏc điểm dữ liệu chứa trong nú vượt quỏ tham số mẫu đưa vào. Trong thuật toỏn CLIQUE, cụm được định nghĩa là tối đa liờn thụng cỏc đơn vị dày đặc.
ỉ Cỏc đặc trưng của CLIQUE:
- Tự động tỡm kiếm khụng gian con của khụng gian đa chiều, sao cho mật độ đặc của cỏc cụm tồn tại trong khụng gian con.
- Mẫn cảm với thứ tự của dữ liệu vào và khụng phự hợp với bất kỳ quy tắc phõn bổ dữ liệu nào.
- Phương phỏp này tỷ lệ tuyến tớnh với kớch thước vào và cú tớnh biến đổi tốt khi số chiều của dữ liệu tăng.
Nú phõn hoạch tập dữ liệu thành cỏc hỡnh hộp chữ nhật và tỡm cỏc hộp hỡnh chữ nhật đặc, nghĩa là cỏc hộp này chứa một số cỏc đối tượng dữ liệu
trong số cỏc đối tượng lỏng giềng cho trước. Hợp cỏc hỡnh hộp này tạo thành cỏc cụm dữ liệu. Tuy nhiờn, CLIQUE được bắt đầu bằng cỏch tiếp cận đơn giản do đú độ chớnh xỏc của kết quả phõn cụm cú thể bị ảnh hưởng dẫn tới chất lượng cỏc cụm của phương phỏp này cú thể giảm.
Phương phỏp bắt đầu nhận dạng cỏc ụ đặc đơn chiều trong khụng gian dữ liệu và tỡm kiếm phõn bổ của dữ liệu, tiếp đến CLIQUE lần lượt tỡm cỏc hỡnh chữ nhật 2 chiều, 3 chiều,…, cho đến khi hỡnh hộp chữ nhật đặc k chiều được tỡm thấy, độ phức tạp của thuật toỏn CLIQUE là O(n).
Hỡnh 3.35. Quỏ trỡnh nhận dạng cỏc ụ của CLIQUE
Thực nghiệm thuật toỏn CLIQUE tại địa chỉ:
Hỡnh 3.36. Chương trỡnh thực nghiệm thuật toỏn CLIQUE
Kết quả thực nghiệm của thuật toỏn CLIQUE như hỡnh 3.37.
3.5.3. Thuật toỏn WAVECLUSTER
Thuật toỏn WaveCluster (a multi-resolution clustering approach using wavelet method, by Sheikholeslami 1998) là phương phỏp gần giống với STING, tuy nhiờn thuật toỏn sử dụng phộp biến đổi dạng súng để tỡm ụ đặc trong khụng gian. Đầu tiờn kỹ thuật này túm tắt dữ liệu bằng việc tận dụng cấu trỳc dạng lưới đa chiều trờn khụng gian dữ liệu. Tiếp theo nú sử dụng phộp biến đổi dạng súng để biến đổi khụng gian đặc trưng gốc, tỡm kiếm cỏc ụ đặc trong khụng gian đó được biến đổi. Phương phỏp này là phức tạp với cỏc phương thức khỏc chớnh là ở phộp biến đổi.
Ở đõy, mỗi ụ lưới túm tắt thụng tin cỏc điểm của một nhúm ỏnh xạ vào trong ụ. Đõy là thụng tin tiờu biểu thớch hợp đưa vào bộ nhớ chớnh để sử dụng phộp biến đổi dạng súng đa phõn giải và tiếp theo là phõn tớch cụm. Một phộp biến đổi dạng súng là kỹ thuật dựa trờn cơ sở xử lý tớn hiệu và xử lý ảnh bằng phõn tớch tớn hiệu với tần số xuất hiện trong bộ nhớ chớnh. Bằng việc thực hiện một loạt cỏc biến đổi ngược phức tạp cho nhúm này, nú cho phộp cỏc cụm tự nhiờn trong dữ liệu trở thành rừ ràng hơn. Cỏc cụm cú thể được xỏc định bằng cỏch tỡm kiếm ụ đặc trưng trong vựng mới.
ỉ Thuật toỏn này cú một số đặc điểm:
Cung cấp cụm khụng giỏm sỏt, khử nhiễu cỏc thụng tin bờn ngoài biờn của cụm. Theo cỏch đú, vựng đặc trong khụng gian đặc trưng gốc hỳt cỏc điểm ở gần và ngăn chặn cỏc điểm ở xa. Vỡ vậy, cỏc cụm tự động nổi bật và làm sạch khu vực xung quanh nú. Do đú, cỏc kết quả tự động loại bỏ cỏc phần tử ngoại lai.
Đa phõn giải là thuộc tớnh hỗ trợ dũ tỡm cỏc cụm cú cỏc mức biến đổi chớnh xỏc.
Thực hiện nhanh với độ phức tạp của thuật toỏn là O(n), trong đú n là số đối tượng trong CSDL. Thuật toỏn cú thể thớch hợp với xử lý song song.
Xử lý tập dữ liệu lớn cú hiệu quả, khỏm phỏ cỏc cụm cú hỡnh dạng bất kỳ, xử lý phần tử ngoại lai, mẫn cảm với thứ tự vào và khụng phụ thuộc cỏc tham số vào như số cỏc cụm hoặc bỏn kớnh lỏng giềng [15][17].
Thực nghiệm thuật toỏn WaveCluster tại địa chỉ:
http://www.cs.ualberta.ca/~yaling/Cluster/Project/Src/get_result.php
Hỡnh 3.38. Thực nghiệm thuật toỏn WAVECLUSTER
Hỡnh 3.39. Kết quả thực nghiệm WAVECLUSTER
3.6. CÁC THUẬT TOÁN PHÂN CỤM DỰA TRấN Mễ HèNH
3.6.1. Thuật toỏn EM
Thuật toỏn EM được xem như là thuật toỏn dựa trờn mụ hỡnh hoặc là mở rộng của thuật toỏn K-means. Cụ thể là EM phõn cụm dựa trờn sự phõn phối xỏc suất. Thật vậy, EM gỏn cỏc đối tượng cho cỏc cụm đó cho theo xỏc suất phõn phối thành phần của đối tượng đú. Phõn phối xỏc suất thường được sử dụng là phõn phối xỏc suất Gaussian với mục đớch là khỏm phỏ cỏc giỏ trị tốt nhất cho cỏc tham số của nú bằng hàm tiờu chuẩn là hàm logarit, đõy là hàm tốt để mụ hỡnh xỏc suất cho cỏc đối tượng dữ liệu. EM cú thể khỏm phỏ ra nhiều hỡnh dạng cụm khỏc nhau, tuy nhiờn do thời gian lặp của thuật toỏn khỏ nhiều nhằm xỏc định cỏc tham số tốt nờn chi phớ tớnh toỏn cho thuật toỏn
tương đối cao. Đó cú một số cải tiến được đề xuất cho EM dựa trờn cỏc tớnh toỏn của dữ liệu: cú thể nộn, sao lưu trong bộ nhớ, hủy bỏ. Trong cỏc cải tiến này, cỏc đối tượng bị hủy bỏ khi biết chắc chắn được nhón phõn cụm cho nú, chỳng được nộn khi khụng được loại bỏ và thuộc về một cụm quỏ lớn so với bộ nhớ và chỳng sẽ được lưu lại trong cỏc trường hợp cũn lại [11][15].
Sự phõn phối xỏc suất của EM được thể hiện như hỡnh 3.40.
Hỡnh 3.40. Phõn phối xỏc suất trong thuật toỏn EM
ỉ Thuật toỏn EM được phỏt biểu cụ thể như sau:
1. Đầu tiờn, tớnh toỏn xỏc suất phõn phối của cỏc cụm được thực hiện. 2. Tiếp theo, tớnh toỏn cỏc giỏ trị tham số phõn bổ, là những giỏ trị tốt
nhất cú thể cú của dữ liệu.
3. Theo mặc định, EM lựa chọn cụm tự động bằng giỏ trị tốt nhất của hàm tiờu chuẩn logarit khả năng của đối tượng dữ liệu, ước lượng sử dụng kiểm tra chộo. Bắt đầu với một cụm, rồi sau đú thờm vào cỏc cụm cho đến khi hàm logarit khả năng ước lượng được suy giảm.
3.6.2. Thuật toỏn COBWEB
COBWEB (Fisher, Douglas H. (1987)) là cỏch tiếp cận để biểu diễn cỏc đối tượng dữ liệu theo kiểu cặp thuộc tớnh-giỏ trị. COBWEB thực hiện bằng cỏch tạo cõy phõn lớp, tương tự như khỏi niệm của BIRCH, tuy nhiờn
cấu trỳc cõy khỏc nhau. Mỗi nỳt của cõy phõn lớp là đại diện cho khỏi niệm của đối tượng dữ liệu và tất cả cỏc điểm mà ở dưới lớp đú cựng thuộc một nỳt. COBWEB sử dụng cụng cụ phõn loại để quản lý cấu trỳc của cõy. Từ đú cỏc cụm hỡnh thành dựa trờn phộp đo độ tương tự mà phõn loại giữa tương tự và phi tương tự, cả hai cú thể mụ tả phõn chia giỏ trị thuộc tớnh giữa cỏc nỳt trong lớp. Cấu trỳc cõy cũng cú thể được hợp nhất hoặc phõn tỏch khi chốn một nỳt mới vào cõy. Cú hai phương phỏp cải tiến cho COBWEB là CLASSIT (COBWEB+NUMERICAL ATRIBUTES) và AUTO CLASS.
COBWEB xõy dựng một cõy phõn lớp theo thứ tự tăng dần bằng cỏch chốn vào cõy cỏc đối tượng từng bước một. Khi cú một đối tượng được chốn vào cõy phõn lớp, thuật toỏn COBWEB lại duyệt lại toàn bộ cõy từ trờn xuống dưới, bắt đầu từ gốc [10][15].
ỉ Thuật toỏn COBWEB cụ thể như sau:
1. Khởi tạo cõy bắt đầu là một nỳt trống.
2. Sau đú thờm vào từng nỳt một và cập nhập lại cõy cho phự hợp tại mỗi thời điểm.
3. Cập nhập cõy bắt đầu từ lỏ bờn phải trong mỗi trường hợp, sau đú cấu trỳc lại cõy.
4. Quyết định cập nhập dựa trờn sự phõn hoạch và cỏc hàm tiờu chuẩn phõn loại.
Tại mỗi nỳt, giải thuật COBWEB xem xột 4 khả năng cú thể xảy ra và lựa chọn một khả năng cú hàm giỏ trị CU đạt được tốt nhất của quỏ trỡnh (Insert, Create, Merge, Split).
Một nỳt mới được chốn vào một nỳt con đó tồn tại sẵn, giải thuật COBWEB trong mỗi trường hợp xỏc định hàm giỏ trị CU khi chốn đối tượng mới vào trong nỳt con đó tồn tại trước và lựa chọn ra trường hợp cú giỏ trị cao nhất.
Giải thuật COBWEB cũng xem xột việc tạo một nỳt con mới cụ thể cho mỗi đối tượng mới.
Giải thuật COBWEB cũng xem xột việc nối hai nỳt con đó cú với giỏ trị cao nhất và nhỡ như hỡnh 3.41.
Hỡnh 3.41. Quỏ trỡnh nối hai nỳt con
Giải thuật COBWEB cũng xem xột việc tỏch một nỳt con cú giỏ trị cao nhất như hỡnh 3.43.
CHƯƠNG 4. PHÂN CỤM DỮ LIỆU WEB
4.1. GIỚI THIỆU
Web chứa thụng tin bao gồm văn bản, hỡnh ảnh, õm thanh và thậm chớ cả video được kết hợp với nhau. Web là kho thụng tin khổng lồ, phong phỳ về nội dung, đa dạng về hỡnh thức, thường xuyờn được cập nhật, đổi mới và phỏt triển khụng ngừng. Do đú, việc xõy dựng và phỏt triển cỏc kỹ thuật phõn cụm cho lớp dữ liệu Web đang là một xu hướng tất yếu và được quan tõm nhiều trong lĩnh vực khai phỏ dữ liệu. Dữ liệu Web bao gồm một số loại như sau:
o Web pages
o Intra-page structures o Inter-page structures o Usage data
o Supplemental data (Profiles, Registration information, Cookies) Dữ liệu Web được phõn chia thành cỏc loại như sau như hỡnh 4.1.
Hỡnh 4.1. Phõn chia dữ liệu Web
Web Data
Content Data
Structure Data
Usage Data
User Profile Data
Free Texts HTML Files XML Files Dynamic Content Multimedia Static Link Dynamic Link
Dựa trờn cỏc loại dữ liệu Web như trờn mà người ta cú thể khỏi quỏt húa sự KPDL Web theo cỏc loại như hỡnh 4.2. [6][9]
Hỡnh 4.2. Phõn cụm dữ liệu Web
4.2. PHÂN CỤM THEO NỘI DUNG WEB
4.2.1. Cỏc lựa chọn đặc trưng
v Những đặc điểm tiềm năng:
o Body: Phần thõn o Meta: Phần biến đổi o Title: Phần tiờu đề
o Snippet: Đoạn trớch, là những dũng cú nghĩa gửi kốm theo địa chỉ URL mà nú sẽ xuất hiện trong cỏc kết quả tỡm kiếm.
o Anchor Window: Cửa sổ đỏnh dấu, là những ký tự đỏnh dấu của một đường siờu liờn kết đến cỏc trang web khỏc trong trang web nguồn.