Chương 3 74 HỆ THỐNG TRỢ GIÚP TÌM KIẾM THÔNG TIN
3.4 Các kỹ thuật trợ giúp người dùng
3.4.1 Gợi ý thuật ngữ tới người dùng
3.4.1.1 Phương thức hỗ trợ tìm kiếm thông tin
Bước 1: Người dùng nhập câu truy vấn và hệ thống sẽ sử dụng câu truy vấn để tìm kiếm tài liệu. Nếu tìm thấy tài liệu thích hợp, quá trình kết thúc. Ngược lại sang tiếp bước 2.
Bước 2: H ệ thống gợi cho người d ng những thuật ngữý ù rút ra từ cá àc t i liệu được gán x p hạng cao trong sốế các k t quả ả ềế tr v .
Bước 3: Người d ng lựa chọn thuật ngữ th ch hợù í p liên quan đ n thông tin ế mình cần từ các thuật ngữ ợi g ý.
Bước 4: ệ thống mở ộng câu truy vấn bằng việc thêm c c thuật ngữ đ ựa H r á ã l chọn và thực hiện tìm kiếm với câu truy vấn mở ộ r ng đó.
Bước Quay lạ5: i bư c ớ 2
Phương pháp ítr ch r t thuậú t ng ữ
Phương pháp ítr ch r t thuật ngữ ựa trên hai giả thuyết sau: ú d
Giả thuy t 1: ế Thuật ngữ xuất hiện nhi u lề ầ trong tài liện u có liên quan tới câu truy vấn.
Giả thuy t 2: ế Thuật ngữ ữ h u ích loạ á àđể i c c t i liệu không liên quan đ n nhu ế cầu ngư i d ng từờ ù cá à ic t i l ệu t m được trong tập i liệu.ì tà
Phương pháp tr ch r t thuật ngữí ú như sau:
• H ệ thống t m kiếm t i liệu bằng việc sử ụng câu truy vấì à d n do ngư i d ng ờ ù nhập và o.
• H ệ thống tr ch r t c c thuật ngữ ừ ập t i liệí ú á t t à u S đư c g n xếp hạng cao ợ á trong số các k t quả trả ềế v . Ở đây, các ký t ự được sử ụ d ng là
KATAKANA; các thuật ngữ phức hợp, tên địa danh và tên tổ chức thì được coi là thu t ngữ. ậ
• Giá trị trọng số ủa thuật ngữ w trong t i liệu s đượ c à c tính theo công th c ứ sau:
(S df( )w) (dt( ) ( )w tf ws) (S n)
s w tf s w
W( , ) = ( , )×log / ×log / , ×log −
tf(w,s): t n su t xu t hiầ ấ ấ ện của thuật ngữ w trong tài liệu s df(w): tần su t cấ ủa tà ệu chứi li a thu t ngậ ữ w trong t p tậ ài liệu S dt(w): tần su t xu t hiấ ấ ện của thuật ngữ w trong t p tậ ài liệu S n: hạng của tà ệu s i li
Công thức này thay đ i phương phổ áp tf.idf để làm tăng giá trị trọng số ủ c a thuật ngữ xuất hiện nhi u l n trong tề ầ à ệi li u đư c gáợ n thứ ạ h ng cao trong số các kết quả trả ề v và được phân t n trong tập t i liệu.á à
• Giá trị trọng số ủa thuật ngữ w l max c à s S∈ W(w,s).
• H ệ thống so s nh tần suất xuất hiện của thuật ngữ KATAKANA với c c á á thuật ngữ phức trong t p tậ à ệu. i li
Khi tần su t c a KATAKANA l n hơn t n su t c a các thu t ng ph c ấ ủ ớ ầ ấ ủ ậ ữ ứ trong t p tậ ài liệu, giá trị trọng số ủa mỗ thuật ngữ KATAKANA l c i à tích của c c gi trị được t nh to n bởi công thức:á á í á
Tần suất của thuật ngữ KATAKANA Tần suất của thuật ngữ phức
Ngượ ạc l i, tr ng s c a m i thu t ng ph c là tích c a cáọ ố ủ ỗ ậ ữ ứ ủ c gi tr đư c á ị ợ tính bởi công thức
Tần suất của thuật ngữ phức Tần suất của thuật ngữ KATAKANA
• H ệ thống gợi người d ng c c thuật ngữý ù á có á gi trị trọng số liên quan với chúng trong việc làm giảm thứ ự ừ t t cái lớn nhất.
3.4.1.2 Kỹ thuật mở ộ r ng truy vấn
Một câu truy vấn do ngư i d ng nhập v o được mở ộng bằng c ch ờ ù à r á thêm các thuật ngữ được lựa chọn bởi ngư i d ng từờ ù các thuật ngữ ợi . Câu g ý truy v n mấ ở ộ r ng như sau:
(W W Wn)
Q∧ 1 ∨ 2 ∨...∨
Q: câu truy vấn ngư i dùng nhờ ập vào
W1, W2,…,Wn: các thuật ngữ đư c ngư i dùợ ờ ng chọn từ những thuật ngữ ợ g i ý của hệ thống.
Câu truy vấn mở ộ r ng có thể m kiếm c c t i liệu có tì á à chứa t nhất một í thuật ngữ đ ã đư c chọn bởợ i người dùng trong các tài liệu tìm kiếm bằng việc s dử ụng câu truy vấn do ngư i d ng nhập v o. Trong sốờ ù à cá àc t i liệu trả ề đ v ó thì những t i lià ệu có chứa nhi u thuề ật ngữ đ ã đư c lựa chọn bởợ i người dùng có xếp hạng cao khi qu tr nh xếá ì p hạng p dụng với c c t i liệu. Qu tr nh đá á à á ì ó được mô t trong ph n ti p theo. Nếả ầ ế u người dùng c th l a ch n nhiều thuật ó ể ự ọ
ngữ liên quan tới thông tin mình cần thì kết quả ủ c a quá trình tìm kiếm, c c á tài liệu chứa nhiều thuật ngữ liên quan sẽ được hệ thống g n thứ ạng cao.á h 3.4.1.3 Quá tr nh x p hì ế ạng các tài liệu t m kiếì m
Quá ìtr nh xếp hạng đư c thực hiện bằng việc t nh độ tương tự ữợ í gi a tài liệu v câu truy và ấn.
Vector truy vấn: trọng số ủ c a thuật ngữ xuất hiện trong truy v n lấ à 1;
ngượ ạc l i là 0.
Vector tài liệu: trọng số ủa thuật ngữ xuất hiệ c n trong tài liệu đư c t nh ợ í theo công thức:
(S df( )w)
s w tf s w
W( , )= ( , )×log /
Các thử nghiệm đ để ánh giá
D ễ thấy, sẽ không th ch ợp khi đ nh gií h á á h ệ trợ gi p t m kiếm n y bằng ú ì à độ ích nh x c ho c đ g i l i. Lý á ặ ộ ọ ạ do là vì mục đích c a h th ng là tìm ki m ủ ệ ố ế cá àc t i liệu th ch hợí p cho ngư i d ng sau v i lần tương t c vớờ ù à á i ngư i d ng. ờ ù Do đó không nhất thiết ngư i d ng phải c đượờ ù ó c tài li u thích h p sau lần ệ ợ nhập câu truy vấn đ u tiên. ầ
• Phương pháp thử nghiệm
Ta đưa cho người d ng chủ đềù và áđ nh giá h ệ thống bằng c ch cho á người dùng tr l i b ng câu hỏả ờ ả i sau khi tìm đ c cá àượ c t i li u liên quan tớệ i ch ủ đề. Ta c ng hy v ng th i gian tìm ki m đư c rút ng n n u h th ng th c s ũ ọ ờ ế ợ ắ ế ệ ố ự ự hiệu quả. Do đó, so sánh thời gian tìm kiếm bằng cách sử ụ d ng chức năng gợi ý thuật ngữ liên quan đến chủ đề ới thời gian t m kiếm không sử ụng chức v ì d năng nà y.
Thực hiện đ nh giá á bằng c ch cho c c người d ng trả ời bảng câu hỏi á á ù l sau khi tìm kiếm xong. Với bốn ngư i dờ ùng tham gia vào các th nghií ệm đánh giá ó mđ , ỗi người xem xét 6 ch . Ngư i dùng l a 7 ~ 10 tủ đề ờ ự ài liệu liên quan
với mỗi chủ đề ằng c ch thực hiện t m kiếm trong NTCIR Test collection b á ì - - 1(được xây dựng từ khoảng 330000 tóm tắt của c c b i b o)á à á
• Kết quả ủa th nghiệ c í m
Người dùng s áẽ đ nh giá hệ th ng b ng cách ch n m t trong b n ố ằ ọ ộ ố phương án, “1. ệ thống n y rất hữu íH à ch”, “2. ệ thống n y hH à ữu ích”, “3. ệH thống nà íy t hữu ích”, “4. ệ ống này không có ích”. Kết quH th ả là tất cả người dùng đều chọn phương n 2. o s nh thời gian trung b nh khi đốá S á ì i tư ng c thểợ ó lựa chọn đư c t i liệợ à u liên quan đ n chủ đề ằng c ch sử ụng chứế b á d c năng g i ợ ý thuật ngữ ới thời gian trung b nh khi không sử ụng chức năng n y. Kết v ì d à quả được th ệ ở hình sau: ể hi n
Thời gian sử dng (giây)
S ố lượng c c t i liệá à u được lựa chọn
Trường h p không s d ng ch c năng g i ý thu t ngợ ử ụ ứ ợ ậ ữ