Một số kỹ thuật Phân cụm Web điển hình

Một phần của tài liệu Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm (Trang 32 - 37)

Kỹ thuật phân cụm được chia thành 2 nhóm chính: Phân cụm theo thứ bậc và phân cụm bằng cách phân mảnh.

2.4.1. Phân cụm theo thứ bậc

Các kỹ thuật phân cụm theo thứ bậc đưa ra một chuỗi các phần chia lồng vào nhau với một phân cụm gốc ở trên cùng và các phân cụm đơn của các đối

tượng đơn lẻ ở phía dưới. Các phân cụm ở cấp độ trên chứa các phân cụm phía dưới chúng theo thứ bậc. Kết quả của thuật tốn phân cụm theo thứ bậc có thể xem như một cây, được gọi là một dendogram (Hình 3).

Hình 3: Một ví dụ dendogram của phân cụm sử dụng phân cụm có thứ bậc

Tùy thuộc vào định hướng của việc xây dựng thứ tự, chúng ta có thể chỉ ra các phương thức của phân cụm theo thứ bậc: tích tụ (Agglomerative) hay chia xẻ (Divisive). Phương thức tích tụ được sử dụng trong hầu hết các phân cụm

theo thứ bậc.

a, Phân cụm tích tụ theo thứ bậc (AHC)

Phương thức này bắt đầu với tập các đối tượng là các phân cụm đơn lẻ, tiếp đó, tại mỗi bước kết nối 2 phân cụm giống giau nhất với nhau. Quá trình này

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

được lặp lại cho đến khi số lượng phân cụm còn lại đạt đến một ngưỡng cho phép

hoặc là nếu cần phải hồn thành tồn bộ thứ bậc thì q trình này sẽ tiếp tục cho

đến khi chỉ cịn 1 phân cụm. Phân cụm tích tụ làm việc theo mơ hình tham ăn

(greedy), trong đó cặp nhóm tài liệu được chọn cho việc tích tụ là cặp mà được coi là giống nhau nhất theo một số tiêu chuẩn nào đó.

Phương thức này tương đối đơn giản nhưng cần phải định nghĩa rõ việc tính khoảng cách giữa 2 phân cụm. Có 3 phương thức hay được dùng nhất để tính tốn khoảng cách này được liệt kê ở phía dưới.

Phương thức kết nối đơn (Single Linkage Method): Độ tương tự giữa 2

phân cụm S và T được tính tốn dựa trên khoảng cách ngắn nhất (minimal)

giữa các thành phần nằm trong các phân cụm tương ứng. Phương thức này

còn được gọi là phương pháp phân cụm “láng giềng gần nhất” (“nearest

neighbour). y x S T yT x − = − ∈ ∈ S min

Phương thức kết nối toàn bộ (Complete Linkage Method): Độ tương tự

giữa 2 phân cụm S và T được tính tốn dựa trên khoảng cách lớn nhất (maximal) giữa các thành phần thuộc vào các phân cụm tương ứng. Phương thức này còn được gọi là phương pháp phân cụm “láng giềng xa nhất” (“furthest neighbour”). y x S T yT x − = − ∈ ∈ S max

Phương thức kết nối trung bình (Average Linkage Method): Độ tương tự

giữa 2 phân cụm S và T được tính tốn dựa trên khoảng cách trung bình

(average) giữa các thành phần của các phân cụm tương ứng. Phương thức này

xét tất cả các cặp khoảng cách các đối tượng trong các 2 phân cụm. Phương thức này còn được gọi là UPGMA (Unweighter Pair-Group Method using Arithmetic averages ) T S y x S T yx T . S ∑∈∈ − = −

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

Karypis [13] đã phản đối các phương thức trên vì cho rằng chúng sử

dụng một mơ hình tĩnh của các liên kết và gần gũi của dữ liệu, và đã đưa ra một

mơ hình động để tránh được những vấn đề trên. Hệ thống đó được gọi là

CHAMELEON, chỉ gộp 2 phân cụm nếu sự liên kết và gần gũi của các phân cụm là có quan hệ mật thiết với sự liên kết và gần gũi bên trong các phân cụm.

Các kỹ thuật chất đống thường sử dụng thời gian cỡ Ω(n2) vì đặc trưng của nó là xem xét tất cả các cặp phân cụm có thể. Hệ thống Phân tán/Tập hợp (Scatter/Gather) được giới thiệu trong cuốn Cutting [15], đã sử dụng một nhóm tích tụ trung bình để tìm kiếm các phân cụm hạt nhân (seed) để sử dụng cho

thuật toán chia phân cụm. Tuy nhiên, để tránh thời gian chạy bình phương, họ chỉ sử dụng nó với một ví dụ nhỏ của các tài liệu để phân cụm. Ngồi ra, phương thức trung bình nhóm đã được giới thiệu trong Steinbach [4] được coi là tốt hơn hầu hết các phương thức đo độ tương tự khác do tính ổn định của nó.

b, Phương pháp phân cụm chia xẻ cấp bậc

Những phương thức này làm việc từ trên xuống dưới, bắt đầu với việc

coi toàn bộ các tập dữ liệu là một phân cụm và tại mỗi bước lại phân chia một phân cụm cho đến khi chỉ còn những phân cụm đơn của các đối tượng riêng lẻ

còn lại. Chúng thường khác nhau bởi 2 điểm: (1) phân cụm nào được phân chia kế tiếp và (2) làm thể nào để phân chia. Thường thì một tìm kiếm tồn diện được thực hiện để tìm ra phân cụm để phân tách dựa trên một vài tiêu chuẩn khác

nhau. Một cách đơn giản hơn có thể được sử dụng đó là chọn phân cụm lớn nhất

để chia tách, phân cụm có độ tương tự trung bình ít nhất hoặc sử dụng một tiêu

chuẩn dựa trên cả kích cỡ và độ tương tự trung bình. Trong Steinbach [4] đã làm một thí nghiệm dựa trên những chiến thuật này và phát hiện ra rằng sự khác nhau giữa chúng là rất nhỏ, do đó họ đã sắp xếp lại bằng việc chia nhỏ phân cụm lớn nhất còn lại.

Chi nhỏ một phân cụm cần đưa ra quyết định xem những đối tượng nào

được đưa vào phân cụm con. Một phương pháp được dùng để tìm 2 phân cụm

con sử dụng k-means trả lại kết quả là một kỹ thuật lai ghép được gọi là kỹ thuật chia cắt k-means (bisecting k-means) [4]. Cũng có một cách khác dựa trên thống kê được sử dụng bằng thuật tốn ITERATE [18], tuy nhiên, khơng cần thiết phải

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

chia một phân cụm thành 2 phân cụm con, chúng ta có thể chia nó thành nhiều phân cụm con, tùy theo kết cấu của các đối tượng.

2.4.2. Phân cụm bằng cách phân mảnh

Lớp thuật toán phân cụm này làm việc bằng cách nhận ra các phân cụm tiềm năng cùng một lúc trong khi lặp lại việc cập nhật các phân cụm để làm tối

ưu một vài chức năng. Lớp các thuật toán nổi tiếng của nó là thuật tốn K-means

và các biến thể của nó. K-means bắt đầu bằng việc chọn lựa ngẫu nhiên k phân cụm hạt nhân, sau đó đưa các đối tượng vào phân cụm có ý nghĩa gần nó nhất. Thuật tốn lặp lại việc tính tốn ý nghĩa của các phân cụm và cấp độ thành viên của các đối tượng mới. Quá trình xử lý tiếp tục cho đến một số lần lặp nhất định hoặc khi khơng cịn sự thay đổi nào được phát hiện trong ý nghĩa của các phân cụm [17]. Các thuật toán K-means có kích cỡ O(nkT) trong đó T là số lượng vịng lặp. Dù sao, một nhược điểm chính của K-means là nó giả định một cấu trúc phân cụm cầu và không thể được áp dụng với các miền dữ liệu mà các cấu trúc phân cụm không phải là hình cầu.

Một biến thể của K-means cho phép sự chồng lặp của các phân cụm đó là C-means mờ (FCM: Fuzzy C-means). Thay vì có các quan hệ thành viên kiểu nhị phân giữa các đối tượng và các phân cụm tiêu biểu, FCM cho phép các cấp độ

khác nhau của cấp độ thành viên [17]. Krishnapuram [8] đã đưa ra một phiên bản

đã chỉnh sửa của FCM được coi là Fuzzy C-Medoids (FCMdd) trong đó các ý

nghĩa được thay bằng các ngữ cảnh. Thuật toán này tương đối nhanh và có cỡ là

O(n2) và có cường độ hoạt động nhanh hơn FCM.

Do sự lựa chọn ngẫu nhiên của các phân cụm hạt nhân những thuật toán này, chúng đối lập với phân cụm có thứ bậc. Do đó kết quả của các lần chạy của thuật tốn là khơng thực sự ổn định. Một vài phương pháp đã được cải tiến bằng cách tìm ra các phân cụm hạt nhân ban đầu “tốt” sau đó mới sử dụng các thuật tốn này. Có một ví dụ rất hay trong hệ thống Phân chia/Thu thập [15].

Có một cách tiếp cận gộp cả việc phân cụm phân mảnh và phân cụm lai ghép đó là thuật tốn chia cách K-means (Bisecting K-means) đã nói ở phần

trước. Thuật tốn này là một thuật tốn phân chia trong đó việc phân chia phân cụm sử dụng K-means để tìm kiếm 2 phân cụm con. Trong Steinbach đã chỉ ra

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

rằng hiệu suất của thuật toán Bisecting K-means là tuyệt vời so với K-means bình thường cũng như UPGMA [4]

Cần phải chú ý rằng một đặc trưng quan trọng của các thuật tốn có thứ bậc là hầu hết đều có cập nhật theo tính tăng và các đối tượng mới có thể được

đưa vào các phân cụm liên quan rất dễ dàng bằng việc lần theo một đường dẫn

nào đó tới vị trí thích hợp. STC [5] và DC- tree [24] là hai ví dụ về các thuật tốn này. Nói theo cách khác các thuật tốn phân chia đồng loạt thường yêu cầu việc cập nhật đồng loạt về ý nghĩa của các phân cụm và thậm chí là các đối tượng

thành viên. Việc cập nhật có tính tăng là rất cần thiết với các ứng dụng hoạt động on-line.

Một phương pháp nhằm thi hành thuật toán phân cụm là phân hoạch tập tài liệu vào k tập con hoặc các cụm D1, …, Dk để làm cực tiểu khoảng cách bên

trong cụm ∑ ∑i d dD d d

i ( , 2)

, 2 1

1 δ hoặc làm cực đại sự tương tự bên trong

cụm ∑ ∑i d dD d d

i ( , 2)

, 2 1

1 ρ .

Nếu một biểu diễn bên trong của các tài liệu là có giá trị thì biểu diễn này cũng được dùng để xác định một biểu diễn của các cụm liên quan đến cùng mơ hình. Chẳng hạn, nếu các tài liệu được biểu diễn sử dụng mơ hình khơng gian vector, một cụm của các tài liệu có thể được biểu diễn bởi trọng tâm (trung bình) của các tài liệu vector. Khi một biểu diễn cụm là có giá trị, một mục tiêu có thể phân hoạch D thành D1, …,Dk để cực tiểu hóa i d D (d, Di)

i G ∑ ∑ ∈ δ hoặc cực đại hóa i d D (d, Di) i G

∑ ∑ ∈ ρ trong đó Di là biểu diễn vector của cụm i. Có thể

xem xét tới việc gán tài liệu d cho cụm i như việc đặt một giá trị Boolean zd,i là 1.

Điều này có thể phát sinh ra việc phân cụm mềm tại đó zd,i là một số thực từ 0 đến 1. Trong bối cảnh như vậy, ta có thể muốn tìm zd,i để cực tiểu hóa

) , ( i i d D d D i G

∑ ∑∈ δ hoặc cực đại hóa i d D (d, Di)

i

G

∑ ∑ ∈ ρ .

Việc phân hoạch có thể thực hiện theo hai cách. Bắt đầu với mỗi tài liệu trong một nhóm của nó và kết hợp các nhóm tài liệu lại với nhau cho đến khi số các phân hoạch là phù hợp; cách này gọi là phân cụm bottom-up. Cách khác là có

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

thể khai báo số các phân hoạch mong muốn và gán các tài liệu vào các phân hoạch; cách này gọi là phân cụm top-down.

Có thể xem xét một kỹ thuật phân cụm bottom-up dựa vào quá trình lặp lại việc trộn các nhóm của các tài liệu tương tự nhau cho đến khi đạt được số

cụm mong muốn, và một kỹ thuật top-down sẽ làm mịn dần bằng cách gắn các tài liệu vào các cụm được thiết đặt trước. Kỹ thuật bottom-up thường chậm hơn, nhưng có thể được sử dụng trên một tập nhỏ các mẫu để khởi tạo các cụm ban

đầu trước khi thuật toán top-down tiến hành

Một phần của tài liệu Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm (Trang 32 - 37)

Tải bản đầy đủ (PDF)

(74 trang)