Tóm tắt chương 2

Một phần của tài liệu Nghiên cứu, phát triển phương pháp tính độ tương tự câu truy vấn trong hệ tìm kiếm và ứng dụng thử nghiệm vào một hệ tìm kiếm thực thể tiếng Việt (Trang 28)

Trong chương 2, luận văn trình bày các phương pháp tính độ tương tự truy vấn hiện nay, cụ thể các phương pháp này là: Phương pháp thống kê, Phương pháp sử dụng xử lý ngôn ngữ tự nhiên, phương pháp sử dụng lưu vết truy vấn của máy tìm

kiếm. Từ các tìm hiểu đó, luận văn lựa chọn một phương pháp phù hợp để đề xuất mô hình ở chương 3.

Chương 3. Mô hình đề xuất và thực nghiệm 3.1 Cơ sở thực tiễn

Như đã trình bày ở các chương trước, tính độ tương tự cho truy vấn là một trong những bài toán khó. Do đặc trưng của truy vấn thường ngắn và mang ý chủ quan của con người nên việc tính toán độ tương tự giữa các câu truy vấn chưa đạt được kết quả cao khi sử dụng các phương pháp tính độ tương tự văn bản truyền thống.

Userlog là những dữ liệu về lịch sử truy vấn của người dùng. Nó là những ví dụ thực tiễn nhất của quá trình người dùng thực hiện đưa truy vấn vào máy tìm kiếm và lựa chọn các tài liệu mà người dùng thấy phù hợp nhất. Vì vậy, userlog chính là nguồn dữ liệu rất có giá trị để so sánh, tính toán sự tương tự nhau giữa các truy vấn mà người dùng đưa vào dựa vào kết quả lựa chọn văn bản của người dùng. Tất nhiên, ta khó có thể tin vào kết quả thống kê của một lượng nhỏ dữ liệu lịch sử truy vấn nhưng với một lượng lớn userlog được sưu tập từ một máy tìm kiếm có uy tín như Google hay Yahoo, ... thì đây sẽ là khối dữ liệu mang lại kết quả tính độ tương tự truy vấn rất có hiệu quả. Thực tế, đã có rất nhiều bài báo sử dụng lưu vết truy vấn của máy tìm kiếm – userlog để tính toán độ tương tự giữa các câu truy vấn [12] [15] [17].

Từ bộ userlog được thu thập từ máy chủ của máy tìm kiếm Google, luận văn sẽ trình bày một phương pháp tính độ tương tự giữa các câu truy vấn dựa vào phương pháp sử dụng lưu vết truy vấn của máy tìm kiếm [12] và đề xuất mô hình tính toán như trình bày ở mục sau.

3.2 Mô hình đề xuất

Như luận văn đã trình bày ở mục 2.3, cấu trúc của userlog gồm 3 phần chính là:

lượt truy vấn, câu truy vấn, liên kết được người dùng chọn mở. Mô hình chú ý sử dụng hai thành phần có ý nghĩa là câu truy vấn các liên kết được người dùng chọn mở để sử dụng, tính độ tương tự giữa các câu truy vấn. Mô hình được thể hiện như sau:

Hình 4: Mô hình đề xuất

Các bước thực hiện mô hình:

Bước 1: Tách câu truy vấn và liên kết được chọn mở.

Bước 2: Tiền xử lý câu truy vấn. Câu truy vấn đầu vào được tiền xử lý

o Xử lý tiếng Việt, định dạng từ mã code thành dấu tiếng Việt

o Liệt kê các liên kết tương ứng với cùng một câu truy vấn

Bước 3: Đánh trọng số cho liên kết tương ứng với từng truy vấn

o Đặt {x1, x2, x3, ..., xn} là tập trọng số.

 Trong đó, xilà trọng số của liên kết thứ i mà người dùng lựa chọn mở cho truy vấn.

{x1, x2, x3, ..., xn} là bộ trọng số chung cho các link của tất cả các truy vấn trong bộ dữ liệu.

Bước 4: Tính độ tương tự

o So sánh các liên kết được lựa chọn, sử dụng nguyên lý: Những truy vấn

nào được người dùng chọn mở cùng liên kết thì các truy vấn ấy tương tự nhau.

o Sử dụng công thức          Qj U N Q U N Max x x Q Q result sim i j i j i , ) ( , _    ( 19) Trong đó:

QiQj là hai câu truy vấn

Sim-result(Qi,Qj): độ tương tự truy vấn giữa hai câu truy vấn Qi

Qj

xi, xjtrọng số của các link chung tương ứng thuộc hai câu truy vấn

QiQj

N(U(Qi)): Số lượng liên kết được lựa chọn tương ứng với câu truy vấn Qi

N(U(Qj)): Số lượng liên kết được lựa chọn tương ứng với câu truy vấn Qj

Từ cơ sở lý thuyết đã trình bày ở các chương trước, luận văn tiến hành thực nghiệm tính độ tương tự của các câu truy vấn dựa trên phương pháp sử dụng lưu vết truy vấn của máy tìm kiếm đồng thời cũng đề xuất một số cải tiến trên phương pháp đã chọn.

Luận văn sử dụng dữ liệu lưu vết truy vấn tìm kiếm trên máy tìm kiếm Google, tiến hành cài đặt chương trình tính độ tương tự giữa các câu truy vấn theo mô hình đã đề xuất ở chương 3, gồm các chức năng chính: xử lý dữ liệu, tính độ tương tự truy vấn theo công thức (19) với cải tiến về việc đưa thêm giá trị trọng số cho các liên kết web, sau đó lựa chọn các một số truy vấn điển hình để tiến hành đánh giá. Nội dung thực nghiệm được trình bày dưới đây.

3.3. Thực nghiệm

3.3.1. Môi trường thực nghiệm

Cấu hình phần cứng

 CPU: Intel core 2 Duo T8300

 Cache: 2.4Ghz  Ram: 3G  Hệ điều hành: Window XP2  Bộ nhớ ngoài: 250Gb Công cụ phần mềm sử dụng  Netbean 7.0.1  Môi trường JDK 1.6.0

Luận văn tiến hành cài đặt chương trình xử lý và tính toán độ tương tự giữa các câu truy vấn: Similarity

3.3.2. Quá trình thực nghiệm

 Dữ liệu: Sử dụng bộ userlog được [21] thu thập từ năm 2009, gồm 3.870.286

lượt truy vấn của người dùng tại một số trường đại học ở Vệt Nam.

 Tiền xử lý:

o Lược bỏ các câu truy vấn với lựa chọn liên kết trùng nhau

o Định dạng lại dữ liệu về dạng: “truy vấn” link1 link2 …

--> kết quả: Có 500 câu truy vấn với liên kết được lựa chọn tương ứng.

 Tính độ tương tự

Sử dụng mô hình tính độ tương tự đã trình bày ở trên, tính độ tương tự dựa vào lưu vết truy vấn của máy tìm kiếm. Kết quả đạt được như sau

Sau quá trình thực nghiệm, luận văn thực hiện tính toán với những bộ trọng số {x1, x2, …, xn} khác nhau thấy bộ trọng số {0.9, 0.95, 1, 1.05, 1, ..., 1} đạt kết quả tốt nhất. Kết quả thu được khi lấy ra 10 kết quả đầu tiên với ngưỡng đưa ra là 0.45.

STT Truy vấn | | truy vấn Độ tương tự

1 Clb MU | | Manchester united vn 0.9

2 báo| |tin nhanh 0.9

3 trò chơi việt miễn phí | | chơi game miễn phí 0.9

4 thi thiết kế phần mềm microsoft || cuộc thi imagine

cup

0.9

5 nghe nhạc online| |mp3 trực tuyến 0.6166666

6 baby einstein| |nhạc cho bà bầu 0.46249998

7 báo gia đình| |nuôi dạy con 0.46249998

8 tro choi trang diem| |game vui thoi trang 0.46249998

9 tro choi trang diem| |tro choi mien phi 0.46249998

10 tin tức online | |tin nhanh 0.45

3.3.3. Đánh giá

Do việc tính toán định lượng để đánh giá tính chính xác của việc tính độ tương tự câu hỏi là khó khăn, nên người ta sử dụng phương pháp đánh giá định tính dựa vào con người/ chuyên gia để đánh giá [7] [12].

Luận văn cũng sử dụng phương pháp đánh giá dựa vào con người để đánh giá việc tính toán độ tương tự giữa các câu truy vấn đã thực nghiệm.

Sử dụng bảng đánh giá phân loại như sau [7]:

Phân loại Mô tả Ví dụ

Rất tốt Hai câu truy vấn có tương đương về ngữ nghĩa Clb MU

Manchester united

Tốt Hai câu truy vấn đều có chung một mục đích

truy vấn, mặc dù ngữ nghĩa không giống nhau. Người sử dụng muốn nói đến cùng một ý khi đưa vào truy vấn

thi thiết kế phần mềm microsoft

cuộc thi imagine cup

Khá tốt Hai câu truy vấn có cùng mục đích truy vấn,

nhưng sự liên quan là không rõ ràng

tro choi trang diem

game vui thoi trang

Không tốt Hai câu truy vấn không liên quan đến nhau Máy đếm tiền

đếm số lần truy cập web

Bảng 3: Bảng phân loại đánh giá

Bảng đánh giá được liệt kê ở dưới đây:

STT Truy vấn | | truy vấn Phân loại Mô tả

1 Clb MU | | Manchester

united vn

0.9 Rất tốt – Câu lạc bộ MU chính là

Câu lạc bộ Manchester United

2 báo| |tin nhanh 0.9 Tốt – báo và tin nhanh đều thuộc về

3 trò chơi việt miễn phí | | chơi game miễn phí

0.9 Rất tốt – đều là chơi trò chơi miễn

phí, cùng với việc tìm kiếm bằng máy tìm kiếm tiếng Việt nên ý nghĩa là tương đồng

4 thi thiết kế phần mềm

microsoft || cuộc thi imagine cup

0.9 Tốt – cuộc thi imagine cup là cuộc

thi thiết kế phần mềm do Microsoft tổ chức

5 nghe nhạc online| |mp3 trực

tuyến

0.6166666 Khá tốt – người dùng cùng có ý

muốn được nghe nhạc trực tuyến.

6 baby Einstein | | nhạc cho

bà bầu

0.46249998 Khá tốt. Baby Einstein là thể loại nhạc dành riêng cho phụ nữ bầu cho em bé nghe để thông minh. Mục đích của người dùng đều là tìm các bản nhạc cho em bé trong bụng mẹ nghe

7 báo gia đình || nuôi dạy con 0.46249998 Khá tốt – nuôi dạy con là một phạm

trù rất được quan tâm trong gia đình và là một khía cạnh không thể thiếu để các tờ báo gia đình khai thác

8 tro choi trang diem || game

vui thoi trang

0.46249998 Khá tốt – trò chơi trang điểm hay game vui thời trang đều là các trò chơi online phổ biến dành cho nữ

9 tro choi trang diem || tro

choi mien phi

0.46249998 Khá tốt – Trò chơi trang điểm là một trong các trò chơi trực tuyến miễn phí

10 tin tức online || tin nhanh 0.45 Tốt – tin tức online và tin nhanh đều

thuộc về phạm trù đưa tin của báo chí.

Bảng 4: Bảng đánh giá kết quả theo phân loại

Ngoài ra, luận văn cũng đưa các truy vấn vào tìm kiếm với Google tiếng Việt

[23] với các câu truy vấn: Clb MU, Manchester united vn, Manchester united vn Clb

phần mềm microsoftcuộc thi imagine cup thu được các kết quả như liệt kê ở phần phụ lục.

Nhận xét:

 Kết quả máy tìm kiếm trả về khi đưa vào lần lượt hai truy vấn: Clb MU,

Manchester united vn

o Với 5 trang web đầu tiên được máy tìm kiếm trả về, có ba kết quả chung được liệt kê đó là: redcafe.vn, mufc.vn/vn, manutd.com.vn.

o Với 10 trang web đầu tiên được máy tìm kiếm trả về, có 5 kết quả chung được liệt kê

o Với 20 trang web đầu tiên được máy tìm kiếm trả về, có 6 kết quả chung được liệt kê.

o Ngoài ra, các trang web khác đều là những trang web tiếng việt, có nội

dung nói về câu lạc bộ bóng đá Anh Manchester United.

o Từ các kết quả trên, chứng tỏ, hai câu truy vấn đưa vào là Clb MU và

Manchester united vn có sự tương đồng khi đưa vào máy tìm kiếm.

Trên thực tế, dựa vào ngữ nghĩa của hai câu truy vấn này, Clb MU

viết tắt của cụm Câu lạc bộ Manchester United – tương đương với

truy vấn Manchester United vn.

 Với câu truy vấn Clb MU Manchester united vn là câu truy vấn tổng hợp –

ghép hai câu truy vấn trên khi truy vấn với máy tìm kiếm Google đã đạt được các kết quả:

o Tính mở rộng: máy tìm kiếm trả về 8.540.000 kết quả với truy vấn tổng hợp, trong đó chỉ trả về lần lượt 1.260.0006.620.000 kết quả với hai câu truy vấn riêng lẻ.

o Tính chuyên sâu: Không thể hiện tính chuyên sâu

o Tính bao gói: 5 trang đầu tiên bao gói các trang đầu tiên của hai câu

truy vấn cũ. Cụ thể là khi đưa vào truy vấn tổng hợp thì máy tìm kiếm trả đã trả về 4 các trang web: redcafe.vn, mufc.vn/vn, manutd.com.vn, vi.wikipedia.org/wiki/Manchester_United đều là 4 trang web xuất hiện khi truy vấn cả hai câu truy vấn riêng lẻ Clb MU và Manchester United vn.

o Tính chính xác: Các trang web đầu tiên được trả về khi đưa vào câu

Manchester United hoặc nói về câu lạc bộ các cổ động viên hâm mộ đội bóng đá này. Cụ thể.

 Với 20 trang web đầu tiên được máy tìm kiếm trả về: Có 19 trang

web nói về các thông tin của câu lạc bộ bóng đá MU và 1 trang web nói về bài hát chính thức của câu lạc bộ bóng đá MU.

 Với 10 trang web đầu tiên được máy tìm kiếm trả về: Có 5 kết quả về diễn đàn của cổ động viên đội tuyển bóng đá Manchester United và 5 trang web nói về các tin tức của đội bóng đá.

 Với 5 trang web đầu tiên được máy tìm kiếm trả về: Cả năm trang

web đều là diễn đàn hội cổ động viên của đội tuyển MU.

Như vậy, truy vấn tổng hợp của hai câu truy vấn Clb MU và Manchester United đạt độ chính xác cao khi đưa vào truy vấn tại máy tìm kiếm.

 Kết quả máy tìm kiếm trả về khi đưa vào lần lượt hai truy vấn: thi thiết kế

phần mềm microsoft, cuộc thi imagine cup

o Với 5 trang web đầu tiên được máy tìm kiếm trả về, có bốn kết quả

chung được liệt kê đó là: www.microsoft.com/vietnam/imaginecup/,

www.microsoft.com/vietnam/imaginecup/schedulte.aspx,

www.microsoft.com/vietnam/imaginecup/introduction.aspx,

www.cusc.ctu.edu.vn/forum/index.php?PHPSESSID...topic...new.

o Với 10 trang web đầu tiên được máy tìm kiếm trả về, có 7 kết quả chung

o Với 20 trang web đầu tiên được máy tìm kiếm trả về có 8 kết quả chung.

o Từ các kết quả trên, chứng tỏ hai truy vấn thi thiết kế phần mềm microsoft, cuộc thi imagine cup cũng có tính tương đồng cao – độ tương tự giữa hai câu truy vấn là cao.

 Với câu truy vấn thi thiết kế phần mềm microsoft cuộc thi imagine cup

câu truy vấn tổng hợp – ghép hai câu truy vấn trên khi truy vấn với máy tìm kiếm Google đã đạt được các kết quả:

o Tính mở rộng: Không thể hiện tính mở rộng

o Tính chuyên sâu: hai câu truy vấn riêng lẻ trả về lần lượt 48600 và 6280000 kết quả, trong đó câu truy vấn tổng hợp trả về 15800 kết quả,

máy tìm kiếm trả về các kết quả chuyên sâu của cuộc thi imagine cup do microsoft tổ chức.

o Tính bao gói: 5 trang đầu tiên bao gói bốn trang web đầu tiên của hai

câu truy vấn cũ. Cụ thể là khi đưa vào truy vấn tổng hợp thì máy tìm kiếm trả đã trả về 4 các trang web: liệt kê đó là:

www.microsoft.com/vietnam/imaginecup/,

www.microsoft.com/vietnam/imaginecup/schedulte.aspx,

www.microsoft.com/vietnam/imaginecup/introduction.aspx,

www.cusc.ctu.edu.vn/forum/index.php?PHPSESSID...topic...new.

o Tính chính xác: Các trang web đầu tiên được trả về khi đưa vào câu

truy vấn tổng hợp đều nói về các thông tin của cuộc thi imagine cup Từ bảng đánh giá 4 cùng các ví dụ truy vấn trên máy tìm kiếm google, ta thấy rằng các kết quả tính độ tương tự giữa các câu truy vấn lấy ngưỡng từ 0.4 đến 1 có độ tương đồng về ngữ nghĩa hay mục đích người sử dụng là khá cao chứng tỏ việc tính độ tương tự câu truy vấn dựa vào userlog theo mô hình đề xuất đạt kết quả tốt.

KẾT LUẬN

Luận văn đã tìm hiểu và trình bày các vấn đề về bài toán tính độ tương tự các câu truy vấn, các phương pháp tính độ tương tự truy vấn. Từ đó đưa ra các đánh giá giữa các phương pháp và đề xuất mô hình tính toán phù hợp với tính toán độ tương tự truy vấn tiếng Việt.

Kết quả chính của luận văn là:

- Trình bày các vấn đề khái quát, tổng quan về độ tương tự câu truy vấn,

- Nghiên cứu các hướng tiếp cận khác nhau, nhằm giải quyết bài toán tính độ tương tự câu truy vấn trong máy tìm kiếm, đó là các phương pháp: phương pháp thống kê, phương pháp sử dụng xử lý ngôn ngữ tự nhiên, phương pháp sử dụng lưu vết truy

Một phần của tài liệu Nghiên cứu, phát triển phương pháp tính độ tương tự câu truy vấn trong hệ tìm kiếm và ứng dụng thử nghiệm vào một hệ tìm kiếm thực thể tiếng Việt (Trang 28)