Trong chương 2, luận văn trình bày các phương pháp tính độ tương tự truy vấn hiện nay, cụ thể các phương pháp này là: Phương pháp thống kê, Phương pháp sử dụng xử lý ngôn ngữ tự nhiên, phương pháp sử dụng lưu vết truy vấn của máy tìm
kiếm. Từ các tìm hiểu đó, luận văn lựa chọn một phương pháp phù hợp để đề xuất mô hình ở chương 3.
Chương 3. Mô hình đề xuất và thực nghiệm 3.1 Cơ sở thực tiễn
Như đã trình bày ở các chương trước, tính độ tương tự cho truy vấn là một trong những bài toán khó. Do đặc trưng của truy vấn thường ngắn và mang ý chủ quan của con người nên việc tính toán độ tương tự giữa các câu truy vấn chưa đạt được kết quả cao khi sử dụng các phương pháp tính độ tương tự văn bản truyền thống.
Userlog là những dữ liệu về lịch sử truy vấn của người dùng. Nó là những ví dụ thực tiễn nhất của quá trình người dùng thực hiện đưa truy vấn vào máy tìm kiếm và lựa chọn các tài liệu mà người dùng thấy phù hợp nhất. Vì vậy, userlog chính là nguồn dữ liệu rất có giá trị để so sánh, tính toán sự tương tự nhau giữa các truy vấn mà người dùng đưa vào dựa vào kết quả lựa chọn văn bản của người dùng. Tất nhiên, ta khó có thể tin vào kết quả thống kê của một lượng nhỏ dữ liệu lịch sử truy vấn nhưng với một lượng lớn userlog được sưu tập từ một máy tìm kiếm có uy tín như Google hay Yahoo, ... thì đây sẽ là khối dữ liệu mang lại kết quả tính độ tương tự truy vấn rất có hiệu quả. Thực tế, đã có rất nhiều bài báo sử dụng lưu vết truy vấn của máy tìm kiếm – userlog để tính toán độ tương tự giữa các câu truy vấn [12] [15] [17].
Từ bộ userlog được thu thập từ máy chủ của máy tìm kiếm Google, luận văn sẽ trình bày một phương pháp tính độ tương tự giữa các câu truy vấn dựa vào phương pháp sử dụng lưu vết truy vấn của máy tìm kiếm [12] và đề xuất mô hình tính toán như trình bày ở mục sau.
3.2 Mô hình đề xuất
Như luận văn đã trình bày ở mục 2.3, cấu trúc của userlog gồm 3 phần chính là:
lượt truy vấn, câu truy vấn, liên kết được người dùng chọn mở. Mô hình chú ý sử dụng hai thành phần có ý nghĩa là câu truy vấn và các liên kết được người dùng chọn mở để sử dụng, tính độ tương tự giữa các câu truy vấn. Mô hình được thể hiện như sau:
Hình 4: Mô hình đề xuất
Các bước thực hiện mô hình:
Bước 1: Tách câu truy vấn và liên kết được chọn mở.
Bước 2: Tiền xử lý câu truy vấn. Câu truy vấn đầu vào được tiền xử lý
o Xử lý tiếng Việt, định dạng từ mã code thành dấu tiếng Việt
o Liệt kê các liên kết tương ứng với cùng một câu truy vấn
Bước 3: Đánh trọng số cho liên kết tương ứng với từng truy vấn
o Đặt {x1, x2, x3, ..., xn} là tập trọng số.
Trong đó, xilà trọng số của liên kết thứ i mà người dùng lựa chọn mở cho truy vấn.
{x1, x2, x3, ..., xn} là bộ trọng số chung cho các link của tất cả các truy vấn trong bộ dữ liệu.
Bước 4: Tính độ tương tự
o So sánh các liên kết được lựa chọn, sử dụng nguyên lý: Những truy vấn
nào được người dùng chọn mở cùng liên kết thì các truy vấn ấy tương tự nhau.
o Sử dụng công thức Qj U N Q U N Max x x Q Q result sim i j i j i , ) ( , _ ( 19) Trong đó:
Qi và Qj là hai câu truy vấn
Sim-result(Qi,Qj): độ tương tự truy vấn giữa hai câu truy vấn Qivà
Qj
xi, xjtrọng số của các link chung tương ứng thuộc hai câu truy vấn
Qivà Qj
N(U(Qi)): Số lượng liên kết được lựa chọn tương ứng với câu truy vấn Qi
N(U(Qj)): Số lượng liên kết được lựa chọn tương ứng với câu truy vấn Qj
Từ cơ sở lý thuyết đã trình bày ở các chương trước, luận văn tiến hành thực nghiệm tính độ tương tự của các câu truy vấn dựa trên phương pháp sử dụng lưu vết truy vấn của máy tìm kiếm đồng thời cũng đề xuất một số cải tiến trên phương pháp đã chọn.
Luận văn sử dụng dữ liệu lưu vết truy vấn tìm kiếm trên máy tìm kiếm Google, tiến hành cài đặt chương trình tính độ tương tự giữa các câu truy vấn theo mô hình đã đề xuất ở chương 3, gồm các chức năng chính: xử lý dữ liệu, tính độ tương tự truy vấn theo công thức (19) với cải tiến về việc đưa thêm giá trị trọng số cho các liên kết web, sau đó lựa chọn các một số truy vấn điển hình để tiến hành đánh giá. Nội dung thực nghiệm được trình bày dưới đây.
3.3. Thực nghiệm
3.3.1. Môi trường thực nghiệm
Cấu hình phần cứng
CPU: Intel core 2 Duo T8300
Cache: 2.4Ghz Ram: 3G Hệ điều hành: Window XP2 Bộ nhớ ngoài: 250Gb Công cụ phần mềm sử dụng Netbean 7.0.1 Môi trường JDK 1.6.0
Luận văn tiến hành cài đặt chương trình xử lý và tính toán độ tương tự giữa các câu truy vấn: Similarity
3.3.2. Quá trình thực nghiệm
Dữ liệu: Sử dụng bộ userlog được [21] thu thập từ năm 2009, gồm 3.870.286
lượt truy vấn của người dùng tại một số trường đại học ở Vệt Nam.
Tiền xử lý:
o Lược bỏ các câu truy vấn với lựa chọn liên kết trùng nhau
o Định dạng lại dữ liệu về dạng: “truy vấn” link1 link2 …
--> kết quả: Có 500 câu truy vấn với liên kết được lựa chọn tương ứng.
Tính độ tương tự
Sử dụng mô hình tính độ tương tự đã trình bày ở trên, tính độ tương tự dựa vào lưu vết truy vấn của máy tìm kiếm. Kết quả đạt được như sau
Sau quá trình thực nghiệm, luận văn thực hiện tính toán với những bộ trọng số {x1, x2, …, xn} khác nhau thấy bộ trọng số {0.9, 0.95, 1, 1.05, 1, ..., 1} đạt kết quả tốt nhất. Kết quả thu được khi lấy ra 10 kết quả đầu tiên với ngưỡng đưa ra là 0.45.
STT Truy vấn | | truy vấn Độ tương tự
1 Clb MU | | Manchester united vn 0.9
2 báo| |tin nhanh 0.9
3 trò chơi việt miễn phí | | chơi game miễn phí 0.9
4 thi thiết kế phần mềm microsoft || cuộc thi imagine
cup
0.9
5 nghe nhạc online| |mp3 trực tuyến 0.6166666
6 baby einstein| |nhạc cho bà bầu 0.46249998
7 báo gia đình| |nuôi dạy con 0.46249998
8 tro choi trang diem| |game vui thoi trang 0.46249998
9 tro choi trang diem| |tro choi mien phi 0.46249998
10 tin tức online | |tin nhanh 0.45
3.3.3. Đánh giá
Do việc tính toán định lượng để đánh giá tính chính xác của việc tính độ tương tự câu hỏi là khó khăn, nên người ta sử dụng phương pháp đánh giá định tính dựa vào con người/ chuyên gia để đánh giá [7] [12].
Luận văn cũng sử dụng phương pháp đánh giá dựa vào con người để đánh giá việc tính toán độ tương tự giữa các câu truy vấn đã thực nghiệm.
Sử dụng bảng đánh giá phân loại như sau [7]:
Phân loại Mô tả Ví dụ
Rất tốt Hai câu truy vấn có tương đương về ngữ nghĩa Clb MU và
Manchester united
Tốt Hai câu truy vấn đều có chung một mục đích
truy vấn, mặc dù ngữ nghĩa không giống nhau. Người sử dụng muốn nói đến cùng một ý khi đưa vào truy vấn
thi thiết kế phần mềm microsoft và
cuộc thi imagine cup
Khá tốt Hai câu truy vấn có cùng mục đích truy vấn,
nhưng sự liên quan là không rõ ràng
tro choi trang diem
và game vui thoi trang
Không tốt Hai câu truy vấn không liên quan đến nhau Máy đếm tiền và
đếm số lần truy cập web
Bảng 3: Bảng phân loại đánh giá
Bảng đánh giá được liệt kê ở dưới đây:
STT Truy vấn | | truy vấn Phân loại Mô tả
1 Clb MU | | Manchester
united vn
0.9 Rất tốt – Câu lạc bộ MU chính là
Câu lạc bộ Manchester United
2 báo| |tin nhanh 0.9 Tốt – báo và tin nhanh đều thuộc về
3 trò chơi việt miễn phí | | chơi game miễn phí
0.9 Rất tốt – đều là chơi trò chơi miễn
phí, cùng với việc tìm kiếm bằng máy tìm kiếm tiếng Việt nên ý nghĩa là tương đồng
4 thi thiết kế phần mềm
microsoft || cuộc thi imagine cup
0.9 Tốt – cuộc thi imagine cup là cuộc
thi thiết kế phần mềm do Microsoft tổ chức
5 nghe nhạc online| |mp3 trực
tuyến
0.6166666 Khá tốt – người dùng cùng có ý
muốn được nghe nhạc trực tuyến.
6 baby Einstein | | nhạc cho
bà bầu
0.46249998 Khá tốt. Baby Einstein là thể loại nhạc dành riêng cho phụ nữ bầu cho em bé nghe để thông minh. Mục đích của người dùng đều là tìm các bản nhạc cho em bé trong bụng mẹ nghe
7 báo gia đình || nuôi dạy con 0.46249998 Khá tốt – nuôi dạy con là một phạm
trù rất được quan tâm trong gia đình và là một khía cạnh không thể thiếu để các tờ báo gia đình khai thác
8 tro choi trang diem || game
vui thoi trang
0.46249998 Khá tốt – trò chơi trang điểm hay game vui thời trang đều là các trò chơi online phổ biến dành cho nữ
9 tro choi trang diem || tro
choi mien phi
0.46249998 Khá tốt – Trò chơi trang điểm là một trong các trò chơi trực tuyến miễn phí
10 tin tức online || tin nhanh 0.45 Tốt – tin tức online và tin nhanh đều
thuộc về phạm trù đưa tin của báo chí.
Bảng 4: Bảng đánh giá kết quả theo phân loại
Ngoài ra, luận văn cũng đưa các truy vấn vào tìm kiếm với Google tiếng Việt
[23] với các câu truy vấn: Clb MU, Manchester united vn, Manchester united vn Clb
phần mềm microsoftcuộc thi imagine cup thu được các kết quả như liệt kê ở phần phụ lục.
Nhận xét:
Kết quả máy tìm kiếm trả về khi đưa vào lần lượt hai truy vấn: Clb MU,
Manchester united vn
o Với 5 trang web đầu tiên được máy tìm kiếm trả về, có ba kết quả chung được liệt kê đó là: redcafe.vn, mufc.vn/vn, manutd.com.vn.
o Với 10 trang web đầu tiên được máy tìm kiếm trả về, có 5 kết quả chung được liệt kê
o Với 20 trang web đầu tiên được máy tìm kiếm trả về, có 6 kết quả chung được liệt kê.
o Ngoài ra, các trang web khác đều là những trang web tiếng việt, có nội
dung nói về câu lạc bộ bóng đá Anh Manchester United.
o Từ các kết quả trên, chứng tỏ, hai câu truy vấn đưa vào là Clb MU và
Manchester united vn có sự tương đồng khi đưa vào máy tìm kiếm.
Trên thực tế, dựa vào ngữ nghĩa của hai câu truy vấn này, Clb MU là
viết tắt của cụm Câu lạc bộ Manchester United – tương đương với
truy vấn Manchester United vn.
Với câu truy vấn Clb MU Manchester united vn là câu truy vấn tổng hợp –
ghép hai câu truy vấn trên khi truy vấn với máy tìm kiếm Google đã đạt được các kết quả:
o Tính mở rộng: máy tìm kiếm trả về 8.540.000 kết quả với truy vấn tổng hợp, trong đó chỉ trả về lần lượt 1.260.000 và 6.620.000 kết quả với hai câu truy vấn riêng lẻ.
o Tính chuyên sâu: Không thể hiện tính chuyên sâu
o Tính bao gói: 5 trang đầu tiên bao gói các trang đầu tiên của hai câu
truy vấn cũ. Cụ thể là khi đưa vào truy vấn tổng hợp thì máy tìm kiếm trả đã trả về 4 các trang web: redcafe.vn, mufc.vn/vn, manutd.com.vn, vi.wikipedia.org/wiki/Manchester_United đều là 4 trang web xuất hiện khi truy vấn cả hai câu truy vấn riêng lẻ Clb MU và Manchester United vn.
o Tính chính xác: Các trang web đầu tiên được trả về khi đưa vào câu
Manchester United hoặc nói về câu lạc bộ các cổ động viên hâm mộ đội bóng đá này. Cụ thể.
Với 20 trang web đầu tiên được máy tìm kiếm trả về: Có 19 trang
web nói về các thông tin của câu lạc bộ bóng đá MU và 1 trang web nói về bài hát chính thức của câu lạc bộ bóng đá MU.
Với 10 trang web đầu tiên được máy tìm kiếm trả về: Có 5 kết quả về diễn đàn của cổ động viên đội tuyển bóng đá Manchester United và 5 trang web nói về các tin tức của đội bóng đá.
Với 5 trang web đầu tiên được máy tìm kiếm trả về: Cả năm trang
web đều là diễn đàn hội cổ động viên của đội tuyển MU.
Như vậy, truy vấn tổng hợp của hai câu truy vấn Clb MU và Manchester United đạt độ chính xác cao khi đưa vào truy vấn tại máy tìm kiếm.
Kết quả máy tìm kiếm trả về khi đưa vào lần lượt hai truy vấn: thi thiết kế
phần mềm microsoft, cuộc thi imagine cup
o Với 5 trang web đầu tiên được máy tìm kiếm trả về, có bốn kết quả
chung được liệt kê đó là: www.microsoft.com/vietnam/imaginecup/,
www.microsoft.com/vietnam/imaginecup/schedulte.aspx,
www.microsoft.com/vietnam/imaginecup/introduction.aspx,
www.cusc.ctu.edu.vn/forum/index.php?PHPSESSID...topic...new.
o Với 10 trang web đầu tiên được máy tìm kiếm trả về, có 7 kết quả chung
o Với 20 trang web đầu tiên được máy tìm kiếm trả về có 8 kết quả chung.
o Từ các kết quả trên, chứng tỏ hai truy vấn thi thiết kế phần mềm microsoft, cuộc thi imagine cup cũng có tính tương đồng cao – độ tương tự giữa hai câu truy vấn là cao.
Với câu truy vấn thi thiết kế phần mềm microsoft cuộc thi imagine cup là
câu truy vấn tổng hợp – ghép hai câu truy vấn trên khi truy vấn với máy tìm kiếm Google đã đạt được các kết quả:
o Tính mở rộng: Không thể hiện tính mở rộng
o Tính chuyên sâu: hai câu truy vấn riêng lẻ trả về lần lượt 48600 và 6280000 kết quả, trong đó câu truy vấn tổng hợp trả về 15800 kết quả,
máy tìm kiếm trả về các kết quả chuyên sâu của cuộc thi imagine cup do microsoft tổ chức.
o Tính bao gói: 5 trang đầu tiên bao gói bốn trang web đầu tiên của hai
câu truy vấn cũ. Cụ thể là khi đưa vào truy vấn tổng hợp thì máy tìm kiếm trả đã trả về 4 các trang web: liệt kê đó là:
www.microsoft.com/vietnam/imaginecup/,
www.microsoft.com/vietnam/imaginecup/schedulte.aspx,
www.microsoft.com/vietnam/imaginecup/introduction.aspx,
www.cusc.ctu.edu.vn/forum/index.php?PHPSESSID...topic...new.
o Tính chính xác: Các trang web đầu tiên được trả về khi đưa vào câu
truy vấn tổng hợp đều nói về các thông tin của cuộc thi imagine cup Từ bảng đánh giá 4 cùng các ví dụ truy vấn trên máy tìm kiếm google, ta thấy rằng các kết quả tính độ tương tự giữa các câu truy vấn lấy ngưỡng từ 0.4 đến 1 có độ tương đồng về ngữ nghĩa hay mục đích người sử dụng là khá cao chứng tỏ việc tính độ tương tự câu truy vấn dựa vào userlog theo mô hình đề xuất đạt kết quả tốt.
KẾT LUẬN
Luận văn đã tìm hiểu và trình bày các vấn đề về bài toán tính độ tương tự các câu truy vấn, các phương pháp tính độ tương tự truy vấn. Từ đó đưa ra các đánh giá giữa các phương pháp và đề xuất mô hình tính toán phù hợp với tính toán độ tương tự truy vấn tiếng Việt.
Kết quả chính của luận văn là:
- Trình bày các vấn đề khái quát, tổng quan về độ tương tự câu truy vấn,
- Nghiên cứu các hướng tiếp cận khác nhau, nhằm giải quyết bài toán tính độ tương tự câu truy vấn trong máy tìm kiếm, đó là các phương pháp: phương pháp thống kê, phương pháp sử dụng xử lý ngôn ngữ tự nhiên, phương pháp sử dụng lưu vết truy