Phương thức hỗ trợ tìm kiếm thông tin

Một phần của tài liệu Hệ thống trợ giúp tìm kiếm thông tin (Trang 94 - 99)

Chương 3 74 HỆ THỐNG TRỢ GIÚP TÌM KIẾM THÔNG TIN

3.4 Các kỹ thuật trợ giúp người dùng

3.4.1 Gợi ý thuật ngữ tới người dùng

3.4.1.1 Phương thức hỗ trợ tìm kiếm thông tin

Bước 1: Người dùng nhập câu truy vấn và hệ thống sẽ sử dụng câu truy vấn để tìm kiếm tài liệu. Nếu tìm thấy tài liệu thích hợp, quá trình kết thúc. Ngược lại sang tiếp bước 2.

Bước 2: H ệ thống gợi cho người d ng những thuật ngữý ù rút ra từ cá àc t i liệu được gán x p hạng cao trong sốế các k t quả ả ềế tr v .

Bước 3: Người d ng lựa chọn thuật ngữ th ch hợù í p liên quan đ n thông tin ế mình cần từ các thuật ngữ ợi g ý.

Bước 4: ệ thống mở ộng câu truy vấn bằng việc thêm c c thuật ngữ đ ựa H r á ã l chọn và thực hiện tìm kiếm với câu truy vấn mở ộ r ng đó.

Bước Quay lạ5: i bư c ớ 2

Phương pháp ítr ch r t thuú t ng

Phương pháp ítr ch r t thuật ngữ ựa trên hai giả thuyết sau: ú d

Giả thuy t 1: ế Thuật ngữ xuất hiện nhi u lề ầ trong tài liện u có liên quan tới câu truy vấn.

Giả thuy t 2: ế Thuật ngữ ữ h u ích loạ á àđể i c c t i liệu không liên quan đ n nhu ế cầu ngư i d ng từờ ù cá à ic t i l ệu t m được trong tập i liệu.ì tà

Phương pháp tr ch r t thut ngí ú như sau:

• H ệ thống t m kiếm t i liệu bằng việc sử ụng câu truy vấì à d n do ngư i d ng ờ ù nhập và o.

• H ệ thống tr ch r t c c thuật ngữ ừ ập t i liệí ú á t t à u S đư c g n xếp hạng cao ợ á trong số các k t quả trả ềế v . Ở đây, các ký t ự được sử ụ d ng là

KATAKANA; các thuật ngữ phức hợp, tên địa danh và tên tổ chức thì được coi là thu t ngữ. ậ

• Giá trị trọng số ủa thuật ngữ w trong t i liệu s đượ c à c tính theo công th c ứ sau:

(S df( )w) (dt( ) ( )w tf ws) (S n)

s w tf s w

W( , ) = ( , )×log / ×log / , ×log −

tf(w,s): t n su t xu t hiầ ấ ấ ện của thuật ngữ w trong tài liệu s df(w): tần su t cấ ủa tà ệu chứi li a thu t ngậ ữ w trong t p tậ ài liệu S dt(w): tần su t xu t hiấ ấ ện của thuật ngữ w trong t p tậ ài liệu S n: hạng của tà ệu s i li

Công thức này thay đ i phương phổ áp tf.idf để làm tăng giá trị trọng số ủ c a thuật ngữ xuất hiện nhi u l n trong tề ầ à ệi li u đư c gáợ n thứ ạ h ng cao trong số các kết quả trả ề v và được phân t n trong tập t i liệu.á à

• Giá trị trọng số ủa thuật ngữ w l max c à s S∈ W(w,s).

• H ệ thống so s nh tần suất xuất hiện của thuật ngữ KATAKANA với c c á á thuật ngữ phức trong t p tậ à ệu. i li

 Khi tần su t c a KATAKANA l n hơn t n su t c a các thu t ng ph c ấ ủ ớ ầ ấ ủ ậ ữ ứ trong t p tậ ài liệu, giá trị trọng số ủa mỗ thuật ngữ KATAKANA l c i à tích của c c gi trị được t nh to n bởi công thức:á á í á

Tần suất của thuật ngữ KATAKANA Tần suất của thuật ngữ phức

 Ngượ ạc l i, tr ng s c a m i thu t ng ph c là tích c a cáọ ố ủ ỗ ậ ữ ứ ủ c gi tr đư c á ị ợ tính bởi công thức

Tần suất của thuật ngữ phức Tần suất của thuật ngữ KATAKANA

• H ệ thống gợi người d ng c c thuật ngữý ù á có á gi trị trọng số liên quan với chúng trong việc làm giảm thứ ự ừ t t cái lớn nhất.

3.4.1.2 Kỹ thuật mở ộ r ng truy vn

Một câu truy vấn do ngư i d ng nhập v o được mở ộng bằng c ch ờ ù à r á thêm các thuật ngữ được lựa chọn bởi ngư i d ng từờ ù các thuật ngữ ợi . Câu g ý truy v n mấ ở ộ r ng như sau:

(W W Wn)

Q∧ 1 ∨ 2 ∨...∨

Q: câu truy vấn ngư i dùng nhờ ập vào

W1, W2,…,Wn: các thuật ngữ đư c ngư i dùợ ờ ng chọn từ những thuật ngữ ợ g i ý của hệ thống.

Câu truy vấn mở ộ r ng có thể m kiếm c c t i liệu có tì á à chứa t nhất một í thuật ngữ đ ã đư c chọn bởợ i người dùng trong các tài liệu tìm kiếm bằng việc s dử ụng câu truy vấn do ngư i d ng nhập v o. Trong sốờ ù à cá àc t i liệu trả ề đ v ó thì những t i lià ệu có chứa nhi u thuề ật ngữ đ ã đư c lựa chọn bởợ i người dùng có xếp hạng cao khi qu tr nh xếá ì p hạng p dụng với c c t i liệu. Qu tr nh đá á à á ì ó được mô t trong ph n ti p theo. Nếả ầ ế u người dùng c th l a ch n nhiều thuật ó ể ự ọ

ngữ liên quan tới thông tin mình cần thì kết quả ủ c a quá trình tìm kiếm, c c á tài liệu chứa nhiều thuật ngữ liên quan sẽ được hệ thống g n thứ ạng cao.á h 3.4.1.3 Quá tr nh x p hì ế ng các tài liu t m kiếì m

Quá ìtr nh xếp hạng đư c thực hiện bằng việc t nh độ tương tự ữợ í gi a tài liệu v câu truy và ấn.

Vector truy vấn: trọng số ủ c a thuật ngữ xuất hiện trong truy v n lấ à 1;

ngượ ạc l i là 0.

Vector tài liệu: trọng số ủa thuật ngữ xuất hiệ c n trong tài liệu đư c t nh ợ í theo công thức:

(S df( )w)

s w tf s w

W( , )= ( , )×log /

Các th nghim đ đ ánh giá

D ễ thấy, sẽ không th ch ợp khi đ nh gií h á á h ệ trợ gi p t m kiếm n y bằng ú ì à độ ích nh x c ho c đ g i l i. Lý á ặ ộ ọ ạ do là vì mục đích c a h th ng là tìm ki m ủ ệ ố ế cá àc t i liệu th ch hợí p cho ngư i d ng sau v i lần tương t c vớờ ù à á i ngư i d ng. ờ ù Do đó không nhất thiết ngư i d ng phải c đượờ ù ó c tài li u thích h p sau lần ệ ợ nhập câu truy vấn đ u tiên. ầ

• Phương pháp thử nghiệm

Ta đưa cho người d ng chủ đềù và áđ nh giá h ệ thống bằng c ch cho á người dùng tr l i b ng câu hỏả ờ ả i sau khi tìm đ c cá àượ c t i li u liên quan tớệ i ch ủ đề. Ta c ng hy v ng th i gian tìm ki m đư c rút ng n n u h th ng th c s ũ ọ ờ ế ợ ắ ế ệ ố ự ự hiệu quả. Do đó, so sánh thời gian tìm kiếm bằng cách sử ụ d ng chức năng gợi ý thuật ngữ liên quan đến chủ đề ới thời gian t m kiếm không sử ụng chức v ì d năng nà y.

Thực hiện đ nh giá á bằng c ch cho c c người d ng trả ời bảng câu hỏi á á ù l sau khi tìm kiếm xong. Với bốn ngư i dờ ùng tham gia vào các th nghií ệm đánh giá ó mđ , ỗi người xem xét 6 ch . Ngư i dùng l a 7 ~ 10 tủ đề ờ ự ài liệu liên quan

với mỗi chủ đề ằng c ch thực hiện t m kiếm trong NTCIR Test collection b á ì - - 1(được xây dựng từ khoảng 330000 tóm tắt của c c b i b o)á à á

• Kết quả ủa th nghi c í m

Người dùng s áẽ đ nh giá hệ th ng b ng cách ch n m t trong b n ố ằ ọ ộ ố phương án, “1. ệ thống n y rất hữu íH à ch”, “2. ệ thống n y hH à ữu ích”, “3. ệH thống nà íy t hữu ích”, “4. ệ ống này không có ích”. Kết quH th ả là tất cả người dùng đều chọn phương n 2. o s nh thời gian trung b nh khi đốá S á ì i tư ng c thểợ ó lựa chọn đư c t i liệợ à u liên quan đ n chủ đề ằng c ch sử ụng chứế b á d c năng g i ợ ý thuật ngữ ới thời gian trung b nh khi không sử ụng chức năng n y. Kết v ì d à quả được th ệ ở hình sau: ể hi n

Thi gian s dng (giây)

S ố lượng c c t i liá à u đưc la chn

Trường h p không s d ng ch c năng g i ý thu t ngợ ử ụ ứ ợ ậ ữ

Một phần của tài liệu Hệ thống trợ giúp tìm kiếm thông tin (Trang 94 - 99)

Tải bản đầy đủ (PDF)

(112 trang)