Nhu cầu về phân cụm các kết quả tìm kiếm 5 se

Một phần của tài liệu dh - su dung phuong phap xep hang trong bai toan phan cum tieng viet (Trang 35 - 55)

Tài nguyên trên internet rất phong phú và đa dạng, có thể nói, người sử dụng có thể tìm kiếm thông tin về mọi lĩnh vực trên internet. Các máy tìm kiếm là công cụ tìm kiếm hỗ trợ rất tốt cho người sử dụng. Tuy nhiên, với các máy tìm kiếm khá phổ biến như Google [14], Yahoo [16], MSN [17] thì khi nhận một truy vẫn từ người dùng, các máy tìm kiếm này thường trả về một danh sách dài các kết quả tìm kiếm. Các kết quả được xếp hạng theo sự phù hợp với truy vấn của người dùng dựa vào một số yếu tố

như các từ khóa trong tài liệu, mức tương tự với truy vấn, dựa theo link liên kêt,... Tuy

nhiên, đanh sách kết quả trả về thường rất lớn. Thêm vào đó, đối với các truy vẫn

“nhập nhăng”, có nhiều chủ đề liên quan thì người dùng rất khó khăn và tốn nhiều thời

gian xem xét các tiêu đề và đoạn tóm lược của tài liệu để tìm ra kết quả mong muốn. Ví dụ với truy vẫn “việt nam” trên máy tìm kiếm google. Số kết quả trả về là rất lớn, vào khoảng 78 000 000.

Google xiỆÍ nam [ TimkiEm | Tớ Hng cao

Tim kiểm ty Šl wsah Cl những trang xiể* bằng kiểng VjML CC rhững ánh Eữ Việt Mam

WWsbh kếi quả † - 5ữ lrdni kháäng 71 t00ñữÊ ca việt nam: [l.Tố ñiẫy:

it ham = #⁄ikimedie tt} Việt „ Em kñl ưa Tã 1+

: : s. N 1 1

Hế Frn hiếu cá2 chính te Irrie dữy, rim xem TP am ¿lprh hướng|, fle len hiếu vệ quộc cả hoschibinh đeert “

hiệu Việt Naim, xesn bát Quốc hiệu Vựt Nam . CD TP TC GHI

z|izgEdiã ircw&i Việt Nai - 2B£k - bhu dai nghiệp vn xả mir# D VH dn YWnril Bank cung rÑp

EI I ¬

Lịch sử Việt P]am — #Mikiaedia liềrg Vật „ NHI. DEDERIDLET-BUE

tắt: nhậ khãp có đã li thẫy EắP đã tà: chữ nạ mình lũải ñgj: đã !tửñg ¡ sảng Hải Việt Nam tứ

thôi h‡ Đủ đi cũ. Văn thêi kỹ Đề đã mới, các nên vẫn hãa Hòa Bình...

M.wditgcrta.cefJf44hli|Lech z7 VbgE Nnmi - 1H:

Hình 6: Ví dụ với truy vấn “Việt Nam” trên máy tìm kiếm google[14] Từ vân đê được nêu ra ở trên, một giải pháp đưa ra là phân cụm các kêt quả trả vê của máy tìm kiêm thành các nhóm khác nhau. Người sử dụng dựa vào mô tả của

các nhóm đê chọn ra chủ đê mà họ cân tìm. Với môi chủ đề, các tài liệu có độ quan trọng cao sẽ được đặt ở trên.

Vivisimo là tiêu biểu của phân cụm các kết quả tìm kiếm dựa theo cụm tử quan trọng. Lấy ví dụ với truy vấn là “Việt Nam” trên máy tìm kiếm Vivisimo thu được 264

kêt quả tìm kiêm, chia thành các cụm với mô tả các cụm rât trực quan.

Chim l/tei Nang rurieas 7Ì 1ELrr prịy ki rx

#ủl! Huanllia ¡:ca IaiMSAC Ị T/+z3Ƀ: điển [ù Elí THỊ yên Ír7: VIÊN EJamn f5, £

l vớ lLain Ĩm lựt terrär Š rửi, prxa Íø ¡ Errc Ieyfn, rắc rienmag Hư Dị ren mí đều g ä Ir Heẩn: £ sẽ Đại Truyrẩn lính Mật Haan BS mñ th [ra =ra [Ãxk¿I#

B gia z. Misl hJam { sãlrred IAajle: 'VER 72) KH,

Chư trri linh gizt _. " h cm En BC tr I1, kiậi Nam, He F3), # phongrn1 zi c;1ng đỶ nại

lũ Hihi;p 1 màÀi 00B ÌÂYs#s)ƒ UY:

TH a Viet NBim lễ F: 4, #

lạ Bên dan:: \miragn krwr - ïhạFtrg nhi rxraÌ Erai rt Lararmg" ng... Hạ Chị Rệph |ismhi s3 phang Largvợ mm ý llin Siai Hagg y rraz3qEari Ís .mị

lFrale ::¡ lPBũ p4+ 1C 0zrrdfes2 phải rReab 14L sp8: The Lên nhai 1À St TẾT, : vn nhe đề

Õ Tú piibu ¡ # VII H-¿B-L ' BI TIETHWMMET : Hazg iš rếs] tái TLF 10+:

Ø Thịn] đắm ; H2] 2225yàA: ũ 1 R t TIEE | gửi E14 HE 2

% liac tz Yêgt ham Ð 'ï

_ rkIIEslz(s=2063|.. Ar+:fia!| 1 57 ZSasä: dị Fapjsinäwprzdari cứ: F ri EM

EBàH t3 lR1Bƒ f4 KIPL]E4PE * EEi = |£ bế hạ] + &* Eñi Leerefy, [4184m3

IPIn| "re Hạm ‹: * &

+% . h nh;zmyin - lhg ly DHTNE pdliä ETEIE NHÍ EETÍS[Í TIEERESETTSTE 39901: LP+:EHG 'wlei Nara. 1e 24, Läă5g BI, Tin Hn Lai; Elrggi, Pìg ia

win: £: ôi T724 JEN1 Fan: goi |4| 1736 2808 : vv//š lí TINRÌö PT] TT R,

Hình 7: Ví dụ với truy vẫn “Việt Nam” trên máy tìm kiếm Vivistno[15j

3.1.2. Mô tả bài toán và thuật toán a.Mô tả bài toán

Phương pháp phân cụm ở đây là chuyên từ bài toán phân cụm không giám sát sang bài toán xếp hạng có giám sát [10]. Chính xác hơn là đưa ra danh sách được xếp hạng gốc của kết quả tìm kiếm R={r(d:|q)}. Trong đó:

+ q là truy vấn hiện tại + đ; là một tài liệu

+r là một hàm tính độ liên quan giữa d; và q

Kỹ thuật phân cụm truyền thống cỗ gắng tìm ra một tập các cụm topic-coherent C (các tài liệu trong cụm cùng hướng về một chủ đề) theo truy vẫn q. Mỗi cụm được

kết hợp với một danh sách tài liệu mới, theo xác suất di có liên quan tới cả q và cụm hiện tại:

C={R¿;}, với R= tr(diq,R,)) Œ)

Trái lại, phương pháp phân cụm tài liệu dựa vào xếp hạng cụm từ [10] nhằm vào

tìm một danh sách đã xếp hạng của các cụm C?, với mỗi cụm kết hợp với một tên cụm và còn thêm một danh sách đã xếp hạng mới của các tài liệu:

C`={fr'(cœ,R¿|q)} với R.={r(dj|q, cá)} (2)

Như trong (1) và (2), định nghĩa của các cụm được thay đổi bằng việc thêm các

tên cụm c¿, và nhắn mạnh hạng của chúng bằng hàm r°, để cải tiễn việc có thể đọc

được của các cụm. Phương pháp phân cụm ở đây loại ra yêu cầu về topic-coherence

của các cụm, độ phức tạp của thuật toán giảm xuống. Tính chất không mạch lạc chủ đề

(non-topic-coherence) không được coi là một mặt hạn chế của phương pháp này bởi vì nó không ảnh hưởng đến hiệu quả của việc đuyệt của người dùng [10].

b. Mô tả thuật toán

Phương pháp phân cụm không yêu cầu xác định trước các mục chủ đề (categorIes) như phương pháp phân lớp. Do đó, chúng thích hợp hơn với các câu truy vẫn về nhiều nội dung khác nhau. Tuy nhiên, phương thức phân cụm thử thách hơn phương thức phân lớp bởi vì chúng được hướng dẫn theo cách không giám sát. Hơn nữa, hầu hết các thuật toán phân cụm truyền thống nhất không thể trực tiếp sử dụng

cho phân cụm kết quả tìm kiếm. Ví dụ, thuật toán phải đưa ra các tóm tắt tài liệu thay cho các tài liệu đưa vào, vì việc tải các tài liệu gốc tốn nhiều thời gian; thuật toán phần

cụm phải đủ nhanh cho tính toán online; và các cụm được tạo ra phải có mô tả dễ đọc

để người đùng có thể duyệt nhanh chóng, vv... Đây cũng là các yêu cầu trong thiết kế

thuật toán.

Phương pháp phân cụm đựa vào xếp hạng các cụm tử quan trọng [10] đã đưa bài toán phân cụm kết quả tìm kiếm sang bài toán xếp hạng các cụm từ quan trọng. Theo đó, bài toán phân cụm không giám sát sẽ được chuyển sang bài toán học có giám sát. Mặc dù phương thức học có giám sát yêu cầu thêm dữ liệu huấn luyện, nhưng nó làm cho việc thực hiện nhóm kết quả tìm kiếm cải tiến đáng kể, và chúng ta có thể đánh giá

thuật toán một cách chính xác hơn. Đưa ra một truy vẫn và lấy về danh sách được xếp

hạng các kết quả trả về của một máy tìm kiếm, trước tiên là phân tích cú pháp toàn bộ danh sách tài liệu gồm tiêu đề và nội đung tóm tắt (snippet), trích ra tất cả các cụm từ có thể (n-prams) tử nội dung, và tính một vài đặc trưng cho mỗi cụm từ như là tần suất

cụm từ, tần suất tài liệu, độ dài cụm từ, vv... Một mô hình hồi quy đã học từ dữ liệu

huấn luyện được áp dụng để kết hợp các thuộc tính này trong điểm quan trọng riêng. Các cụm từ được xếp hạng tăng dần theo điểm quan trọng, và các cụm từ có hạng top

được lấy như là các cụm từ quan trọng. Các cụm từ quan trọng là tên các cụm ban đầu,

các cụm được hợp lại theo các tài liệu phù hợp của chúng.

Phương pháp phân cụm ở đây phù hợp hơn với phân cụm kết quả tìm kiếm web vì nó nhẫn mạnh hiệu quả của việc nhận ra những cụm thích hợp cho người dùng web. Nó tạo ra tên cụm ngắn (và vì vậy hi vọng rằng đễ đọc hơn), các tên cụm ngắn cho phép người dùng xác định nhanh hơn các chủ đề của một cụm. Hơn nữa, các cụm được xếp hạng theo điểm quan trọng của chúng, do đó các cụm thích hợp hơn với yêu cầu của người sử đụng được xếp hạng cao hơn.

Thuật toán phân cụm theo cụm từ quan trọng bao gồm 4 bước[{ 10]: (1) Lẫy về kết quả tìm kiếm từ máy tìm kiếm

(2) Phân tích cú pháp tài liệu và tính toán các đặc trưng của cụm từ (3) Xếp hạng cụm từ quan trọng

(4) Xử lý tiếp theo để tạo ra các cụm

Bước đầu tiên lẫy trang web của các kết quả đã kiếm trả về bởi một máy tìm kiếm web. Các trang web này được phân tích bởi bộ phân tích cú pháp HTML và kết quả trả về được trích ra. Thông thường, chỉ các tiêu đề và các đoạn tóm tắt (snippet) có thê sử dụng trong môi mục kêt quả. Giả sử là các nội dung này cung câp đủ tin tức cân

thiết vì hầu hết các máy tìm kiếm được thiết kế để người đùng đễ dàng tìm các tài liệu

liên quan chỉ bằng tiêu đề và đoạn tóm tắt (snippet), đo đó nó có thể biểu thị hầu hết các nội dung liên quan cho câu truy vẫn đưa ra. Mỗi cụm từ được trích là tên của cụm

ban đầu, phù hợp với một tập các tài liệu có chứa cụm từ. Trong lúc đó, một vài đặc

trưng của mỗi cụm từ được tính trong quá trình phân tích cú pháp. Các đặc trưng này được mô tả trong phân sau của khóa luận.

Trong bước thứ hai, các tiêu đề và đoạn tóm tắt (snippet) được phân tích cú pháp

để loại bỏ các thẻ HTML và hệ thống dấu chấm câu, tách thành các n-prams với n có

giá trị từ 1 đến 3. Trong quá trình sinh n-gram vẫn tồn tại các từ dừng, vì vậy chúng có thể ở ngay sát với các từ khóa có ý nghĩa trong các tên cụm. Trong bước xử lý sau, các từ đừng này sẽ được loại bỏ. Cũng với lý do như vậy, các từ truy vấn cũng tồn tại trong bước phân tích cú pháp và sẽ được lọc ra ở bước xử lý sau. Tiến hành tính 5 đặc trưng với mỗi cụm từ bao gồm: Phrase Frequency/Inverted Document Frequency, Phrase Leng, Intra-cluster, Cluster Entropy, Phrase Independence

Với các đặc trưng được nêu ở trên, một mô hình hồi qui được sử dụng, mô hình này được học từ đữ liệu huấn luyện trước, để kết hợp các đặc trưng này thành một

điểm quan trọng . Các cụm từ quan trọng được xếp hạng bằng điểm ở trên theo sắp xếp

giảm dần. Như vậy, các cụm ở trên sẽ có hạng cao hơn. Sau khi các cụm từ quan trọng được xếp hạng, các tài liệu tương ứng được kết hợp tạo thành các cụm ban đầu, các

cụm từ quan trọng chính là tên của cụm.

Trong bước xử lý sau, các cụm từ chỉ chứa các từ dừng hoặc các từ truy vẫn được lọc ra. Tiếp theo tiến hành ghép các cụm từ, để làm giảm các cụm từ giống nhau. Đặc biệt, nếu phần chung của hai cụm vượt quá một ngưỡng nào đó (trong thực nghiệm của [10] ngưỡng được chọn là 75%), chúng được ghép vào thành một cụm. Cùng lúc đó,

các tên cụm được điều chỉnh theo cụm mới tạo ra từ việc chép các cụm. Cuối cùng, top các cụm được đưa ra cho người dùng. Khi một người dùng lựa chọn một cụm,

danh sách tài liệu liên quan được đưa ra cho người dùng. Danh sách tài liệu này có thể như trong thứ tự gốc hoặc sẽ xếp hạng lại theo sự kết hợp cụm từ quan trọng.

3.2. Trích các cụm từ quan trọng

Việc trích các cụm từ từ các tài liệu và tính toán các đặc trưng là vần đê quan

trọng của phương pháp phân cụm này. Đặc biệt là đối với các tài liệu tiếng việt bởi đặc

điểm của tiếng việt như đã nêu trong chương 2. Mỗi cụm từ được thể hiện bởi 5 đặc

trưng [10]. Các đặc trưng được tính toán ở đây là TEDF (Phrase Frequency/Inverted Document Frequency), độ dài (Phrase leng LEN), Tương tự nội tại (Intra-cluster simlarty - ICS), entropy cụm (Cluster enfropy -CE), độc lập cụm từ (Phrase Independence - IND). Những đặc trưng này là cơ sở để xác định độ quan trọng của

cụm từ.

Trong phần mô tả các đặc trưng dưới đây, w biểu diễn một cụm từ đang xét

(một n-gram), D(w) biểu điễn tập các tài liệu có chứa cụm tử w. 3.2.1. Đặc trưng TFIDE

Đặc trưng này được tính như ý nghĩa của IFIDF. TFIDF là kết hợp của tần số từ khóa (TF: Term Frequency) và nghịch đảo số văn bản chứa từ khóa (IDE: Inverted

Document Frequency).

Tần số từ khóa (TF: Term Frequeney) là tần suất xuất hiện của từ khóa đó trong

tài liệu. Một cách trực quan thì một từ là quan trọng cho một tài liệu nếu từ đó xuất

hiện nhiều lần trong tài liệu đó.

Nghịch đảo số văn bản (IDF: Inverted Document Frequency): Theo [6] thì IDF là nghịch đảo số văn bản chứa từ khóa. Không phải tất cả các từ khóa có độ quan trọng như nhau và vì vậy giá trị trọng số tương ứng với các từ không quan trọng phải nhỏ. Ví dụ, tần số của các từ chức năng như “và”, “hoặc”, “cũng” thường rất lớn và sẽ gây nhiễu đến nội dung của tài liệu. IDF tìm cách co lại trọng số tương ứng với các từ khóa xuất hiện trong nhiều văn bản.

IDF=log(N/JD(w))

Với N là tổng số tài liệu.

Trọng số từ (TFIDEF) là tích của tần suất từ khóa TF và nghịch đảo số văn bản chứa từ khóa đó và được xác định bằng công thức:

TRFIDE = f{w).log(N/|D(w))) Trong đó f(w) là hàm tính tần số của cụm từ w.

TFEIDF là một phương pháp chuẩn thường được sử dụng để biểu diễn độ quan

trọng của từ khóa trong tài liệu. TEIDF của một cụm từ sẽ giảm nếu như cụm từ đó xuất hiện trong hầu hết các tài liệu. Vì vậy , một từ xuất hiện quá ít hoặc quá nhiều

được đánh giá ít quan trọng hơn so với các từ xuât hiện cân băng.

3.2.2. Đặc trưng độ dài

Đặc trưng này là số lượng các từ trong một cụm từ. Ví dụ: LEN(“nhà”) = l1

LEN( “việt nam”) = 2

Trong quá trình sinh các n-gram từ tiêu đề và đoạn tóm tắt, giá trị của n nằm trong khoảng từ 1 đến 3. Như vậy đối với từ tiếng Việt thì số lượng từ trong một cụm từ thường có giá trị từ 1 đến 6. Đối với người sử dụng, thường thì những cụm từ dài sẽ mang ý nghĩa rõ ràng hơn, và nó sẽ thuận lợi hơn cho người sử dụng trong quá trình

tìm kiếm cụm liên quan đến vẫn đề cần tìm. Do đó, các cụm từ có giá trị LEN lớn sẽ có độ quan trọng lớn hơn.

LEN =n 3.2.3. Đặc trưng tương tự nội tại cụm

Một trong những yêu cầu đối với phần cụm là các tài liệu trong cùng một cụm phải có độ tương tự lớn hơn so với tài liệu ở các cụm khác. Nếu một cụm từ là một mô tả tốt cho một chủ đề riêng thì các tài liệu có chứa cụm từ đó sẽ có độ tương tự với

nhau. Đặc trưng này dùng để đo độ chặt (compaccnes) của các tài liệu chứa cụm từ với

cụm từ đó. Đầu tiên, các tài liệu được chuyển thành các vector trong không gian

vector:

d —= (Xi, ÄXj2;.. .)

Mỗi thành phần của vector mô tả một unigram riêng và có giá trị là TFIDF của unigram này. Số chiều của vecto là tổng số unigram của toàn bộ đữ liệu. Khi biểu điễn

một tài liệu, nếu một unipram không có trong tài liệu đó thì giá trị của nó là 0. Với mỗi cụm ban đầu, trọng tâm của nó được tính theo công thức:

Ï = NẺ , ID(w}) : ị đe EM}

Với đi là tài liệu có chứa cụm từ w.

ICS là độ lệch giữa các tài liệu với trọng tâm của cụm. ñuWc. —. % cos(đ,.ø)

|D(9| „4 " J7 | w ï

Một phần của tài liệu dh - su dung phuong phap xep hang trong bai toan phan cum tieng viet (Trang 35 - 55)

Tải bản đầy đủ (PDF)

(55 trang)