Mô tả bài toán và thuật toán 29

a.Mô tả bài toán

Phương pháp phân cụm ở đây là chuyển từ bài toán phân cụm không giám sát

sang bài toán xếp hạng có giám sát [10]. Chính xác hơn là đưa ra danh sách được xếp

hạng gốc của kết quả tìm kiếm R={r(di|q)}. Trong đó: + q là truy vấn hiện tại

+ di là một tài liệu

+ r là một hàm tính độ liên quan giữa di và q

Kỹ thuật phân cụm truyền thống cố gắng tìm ra một tập các cụm topic-coherent C (các tài liệu trong cụm cùng hướng về một chủđề) theo truy vấn q. Mỗi cụm được kết hợp với một danh sách tài liệu mới, theo xác suất di có liên quan tới cả q và cụm hiện tại:

C={Rj}, với Rj={r(di|q,Rj)} (1)

Trái lại, phương pháp phân cụm tài liệu dựa vào xếp hạng cụm từ [10] nhằm vào tìm một danh sách đã xếp hạng của các cụm C’, với mỗi cụm kết hợp với một tên cụm và còn thêm một danh sách đã xếp hạng mới của các tài liệu:

C’={r’(ck,Rk|q)} với Rk={r(di|q, ck)} (2)

Như trong (1) và (2), định nghĩa của các cụm được thay đổi bằng việc thêm các tên cụm ck, và nhấn mạnh hạng của chúng bằng hàm r’, để cải tiến việc có thể đọc

được của các cụm. Phương pháp phân cụm ở đây loại ra yêu cầu về topic-coherence

của các cụm, độ phức tạp của thuật toán giảm xuống. Tính chất không mạch lạc chủđề

(non-topic-coherence) không được coi là một mặt hạn chế của phương pháp này bởi vì nó không ảnh hưởng đến hiệu quả của việc duyệt của người dùng [10].

b. Mô tả thuật toán

Phương pháp phân cụm không yêu cầu xác định trước các mục chủ đề

(categories) như phương pháp phân lớp. Do đó, chúng thích hợp hơn với các câu truy

vấn về nhiều nội dung khác nhau. Tuy nhiên, phương thức phân cụm thử thách hơn

phương thức phân lớp bởi vì chúng được hướng dẫn theo cách không giám sát. Hơn

nữa, hầu hết các thuật toán phân cụm truyền thống nhất không thể trực tiếp sử dụng cho phân cụm kết quả tìm kiếm. Ví dụ, thuật toán phải đưa ra các tóm tắt tài liệu thay cho các tài liệu đưa vào, vì việc tải các tài liệu gốc tốn nhiều thời gian; thuật toán phân

cụm phải đủ nhanh cho tính toán online; và các cụm được tạo ra phải có mô tả dễđọc

để người dùng có thể duyệt nhanh chóng, vv… Đây cũng là các yêu cầu trong thiết kế

thuật toán.

Phương pháp phân cụm dựa vào xếp hạng các cụm từ quan trọng [10] đã đưa bài toán phân cụm kết quả tìm kiếm sang bài toán xếp hạng các cụm từ quan trọng. Theo

đó, bài toán phân cụm không giám sát sẽ được chuyển sang bài toán học có giám sát.

Mặc dù phương thức học có giám sát yêu cầu thêm dữ liệu huấn luyện, nhưng nó làm cho việc thực hiện nhóm kết quả tìm kiếm cải tiến đáng kể, và chúng ta có thểđánh giá thuật toán một cách chính xác hơn. Đưa ra một truy vấn và lấy về danh sách được xếp hạng các kết quả trả về của một máy tìm kiếm, trước tiên là phân tích cú pháp toàn bộ

danh sách tài liệu gồm tiêu đề và nội dung tóm tắt (snippet), trích ra tất cả các cụm từ

có thể (n-grams) từ nội dung, và tính một vài đặc trưng cho mỗi cụm từ như là tần suất cụm từ, tần suất tài liệu, độ dài cụm từ, vv… Một mô hình hồi quy đã học từ dữ liệu huấn luyện được áp dụng để kết hợp các thuộc tính này trong điểm quan trọng riêng. Các cụm từđược xếp hạng tăng dần theo điểm quan trọng, và các cụm từ có hạng top

được lấy như là các cụm từ quan trọng. Các cụm từ quan trọng là tên các cụm ban đầu, các cụm được hợp lại theo các tài liệu phù hợp của chúng.

Phương pháp phân cụm ở đây phù hợp hơn với phân cụm kết quả tìm kiếm web vì nó nhấn mạnh hiệu quả của việc nhận ra những cụm thích hợp cho người dùng web. Nó tạo ra tên cụm ngắn (và vì vậy hi vọng rằng dễ đọc hơn), các tên cụm ngắn cho

phép người dùng xác định nhanh hơn các chủ đề của một cụm. Hơn nữa, các cụm

được xếp hạng theo điểm quan trọng của chúng, do đó các cụm thích hợp hơn với yêu cầu của người sử dụng được xếp hạng cao hơn.

Thuật toán phân cụm theo cụm từ quan trọng bao gồm 4 bước[10]: (1)Lấy về kết quả tìm kiếm từ máy tìm kiếm

(2)Phân tích cú pháp tài liệu và tính toán các đặc trưng của cụm từ

(3)Xếp hạng cụm từ quan trọng (4)Xử lý tiếp theo để tạo ra các cụm

Bước đầu tiên lấy trang web của các kết quả đã kiếm trả về bởi một máy tìm

kiếm web. Các trang web này được phân tích bởi bộ phân tích cú pháp HTML và kết

quả trả vềđược trích ra. Thông thường, chỉ các tiêu đề và các đoạn tóm tắt (snippet) có thể sử dụng trong mỗi mục kết quả. Giả sử là các nội dung này cung cấp đủ tin tức cần

thiết vì hầu hết các máy tìm kiếm được thiết kếđể người dùng dễ dàng tìm các tài liệu liên quan chỉ bằng tiêu đề và đoạn tóm tắt (snippet), do đó nó có thể biểu thị hầu hết các nội dung liên quan cho câu truy vấn đưa ra. Mỗi cụm từđược trích là tên của cụm ban đầu, phù hợp với một tập các tài liệu có chứa cụm từ. Trong lúc đó, một vài đặc

trưng của mỗi cụm từ được tính trong quá trình phân tích cú pháp. Các đặc trưng này

được mô tả trong phần sau của khóa luận.

Trong bước thứ hai, các tiêu đề và đoạn tóm tắt (snippet) được phân tích cú pháp

để loại bỏ các thẻ HTML và hệ thống dấu chấm câu, tách thành các n-grams với n có giá trị từ 1 đến 3. Trong quá trình sinh n-gram vẫn tồn tại các từ dừng, vì vậy chúng có thểở ngay sát với các từ khóa có ý nghĩa trong các tên cụm. Trong bước xử lý sau, các từ dừng này sẽ được loại bỏ. Cũng với lý do như vậy, các từ truy vấn cũng tồn tại trong bước phân tích cú pháp và sẽđược lọc ra ở bước xử lý sau. Tiến hành tính 5 đặc

trưng với mỗi cụm từ bao gồm: Phrase Frequency/Inverted Document Frequency,

Phrase Leng, Intra-cluster, Cluster Entropy, Phrase Independence

Với các đặc trưng được nêu ở trên, một mô hình hồi qui được sử dụng, mô hình này được học từ dữ liệu huấn luyện trước, để kết hợp các đặc trưng này thành một

điểm quan trọng . Các cụm từ quan trọng được xếp hạng bằng điểm ở trên theo sắp xếp giảm dần. Như vậy, các cụm ở trên sẽ có hạng cao hơn. Sau khi các cụm từ quan trọng

được xếp hạng, các tài liệu tương ứng được kết hợp tạo thành các cụm ban đầu, các cụm từ quan trọng chính là tên của cụm.

Trong bước xử lý sau, các cụm từ chỉ chứa các từ dừng hoặc các từ truy vấn được lọc ra. Tiếp theo tiến hành ghép các cụm từ, để làm giảm các cụm từ giống nhau. Đặc biệt, nếu phần chung của hai cụm vượt quá một ngưỡng nào đó (trong thực nghiệm của

[10] ngưỡng được chọn là 75%), chúng được ghép vào thành một cụm. Cùng lúc đó,

các tên cụm được điều chỉnh theo cụm mới tạo ra từ việc ghép các cụm. Cuối cùng,

top các cụm được đưa ra cho người dùng. Khi một người dùng lựa chọn một cụm,

danh sách tài liệu liên quan được đưa ra cho người dùng. Danh sách tài liệu này có thể

như trong thứ tự gốc hoặc sẽ xếp hạng lại theo sự kết hợp cụm từ quan trọng.

Đánh giá các thuật toán phân cụm 18

Đặc trưng của tiếng Việ t 19