Mô hình đề xuất

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu, phát triển phương pháp tính độ tương tự câu truy vấn trong hệ tìm kiếm và ứng dụng thử nghiệm vào một hệ tìm kiếm thực thể tiếng Việt (Trang 31 - 43)

Các bước thực hiện mô hình:

Bước 1: Tách câu truy vấn và liên kết được chọn mở.

Bước 2: Tiền xử lý câu truy vấn. Câu truy vấn đầu vào được tiền xử lý

o Xử lý tiếng Việt, định dạng từ mã code thành dấu tiếng Việt

o Liệt kê các liên kết tương ứng với cùng một câu truy vấn

Bước 3: Đánh trọng số cho liên kết tương ứng với từng truy vấn

o Đặt {x1, x2, x3, ..., xn} là tập trọng số.

 Trong đó, xilà trọng số của liên kết thứ i mà người dùng lựa chọn mở cho truy vấn.

{x1, x2, x3, ..., xn} là bộ trọng số chung cho các link của tất cả các truy vấn trong bộ dữ liệu.

Bước 4: Tính độ tương tự

o So sánh các liên kết được lựa chọn, sử dụng nguyên lý: Những truy vấn

o Sử dụng công thức          Qj U N Q U N Max x x Q Q result sim i j i j i , ) ( , _    ( 19) Trong đó:

QiQj là hai câu truy vấn

Sim-result(Qi,Qj): độ tương tự truy vấn giữa hai câu truy vấn Qi

Qj

xi, xjtrọng số của các link chung tương ứng thuộc hai câu truy vấn

QiQj

N(U(Qi)): Số lượng liên kết được lựa chọn tương ứng với câu truy vấn Qi

N(U(Qj)): Số lượng liên kết được lựa chọn tương ứng với câu truy vấn Qj

Từ cơ sở lý thuyết đã trình bày ở các chương trước, luận văn tiến hành thực nghiệm tính độ tương tự của các câu truy vấn dựa trên phương pháp sử dụng lưu vết truy vấn của máy tìm kiếm đồng thời cũng đề xuất một số cải tiến trên phương pháp đã chọn.

Luận văn sử dụng dữ liệu lưu vết truy vấn tìm kiếm trên máy tìm kiếm Google, tiến hành cài đặt chương trình tính độ tương tự giữa các câu truy vấn theo mô hình đã đề xuất ở chương 3, gồm các chức năng chính: xử lý dữ liệu, tính độ tương tự truy vấn theo công thức (19) với cải tiến về việc đưa thêm giá trị trọng số cho các liên kết web, sau đó lựa chọn các một số truy vấn điển hình để tiến hành đánh giá. Nội dung thực nghiệm được trình bày dưới đây.

3.3. Thực nghiệm

3.3.1. Môi trường thực nghiệm

Cấu hình phần cứng

 CPU: Intel core 2 Duo T8300

 Cache: 2.4Ghz  Ram: 3G  Hệ điều hành: Window XP2  Bộ nhớ ngoài: 250Gb Công cụ phần mềm sử dụng  Netbean 7.0.1  Môi trường JDK 1.6.0

Luận văn tiến hành cài đặt chương trình xử lý và tính toán độ tương tự giữa các câu truy vấn: Similarity

3.3.2. Quá trình thực nghiệm

 Dữ liệu: Sử dụng bộ userlog được [21] thu thập từ năm 2009, gồm 3.870.286

lượt truy vấn của người dùng tại một số trường đại học ở Vệt Nam.

 Tiền xử lý:

o Lược bỏ các câu truy vấn với lựa chọn liên kết trùng nhau

o Định dạng lại dữ liệu về dạng: “truy vấn” link1 link2 …

--> kết quả: Có 500 câu truy vấn với liên kết được lựa chọn tương ứng.

 Tính độ tương tự

Sử dụng mô hình tính độ tương tự đã trình bày ở trên, tính độ tương tự dựa vào lưu vết truy vấn của máy tìm kiếm. Kết quả đạt được như sau

Sau quá trình thực nghiệm, luận văn thực hiện tính toán với những bộ trọng số {x1, x2, …, xn} khác nhau thấy bộ trọng số {0.9, 0.95, 1, 1.05, 1, ..., 1} đạt kết quả tốt nhất. Kết quả thu được khi lấy ra 10 kết quả đầu tiên với ngưỡng đưa ra là 0.45.

STT Truy vấn | | truy vấn Độ tương tự

1 Clb MU | | Manchester united vn 0.9

2 báo| |tin nhanh 0.9

3 trò chơi việt miễn phí | | chơi game miễn phí 0.9

4 thi thiết kế phần mềm microsoft || cuộc thi imagine

cup

0.9

5 nghe nhạc online| |mp3 trực tuyến 0.6166666

6 baby einstein| |nhạc cho bà bầu 0.46249998

7 báo gia đình| |nuôi dạy con 0.46249998

8 tro choi trang diem| |game vui thoi trang 0.46249998

9 tro choi trang diem| |tro choi mien phi 0.46249998

10 tin tức online | |tin nhanh 0.45

3.3.3. Đánh giá

Do việc tính toán định lượng để đánh giá tính chính xác của việc tính độ tương tự câu hỏi là khó khăn, nên người ta sử dụng phương pháp đánh giá định tính dựa vào con người/ chuyên gia để đánh giá [7] [12].

Luận văn cũng sử dụng phương pháp đánh giá dựa vào con người để đánh giá việc tính toán độ tương tự giữa các câu truy vấn đã thực nghiệm.

Sử dụng bảng đánh giá phân loại như sau [7]:

Phân loại Mô tả Ví dụ

Rất tốt Hai câu truy vấn có tương đương về ngữ nghĩa Clb MU

Manchester united

Tốt Hai câu truy vấn đều có chung một mục đích

truy vấn, mặc dù ngữ nghĩa không giống nhau. Người sử dụng muốn nói đến cùng một ý khi đưa vào truy vấn

thi thiết kế phần mềm microsoft

cuộc thi imagine cup

Khá tốt Hai câu truy vấn có cùng mục đích truy vấn,

nhưng sự liên quan là không rõ ràng

tro choi trang diem

game vui thoi trang

Không tốt Hai câu truy vấn không liên quan đến nhau Máy đếm tiền

đếm số lần truy cập web

Bảng 3: Bảng phân loại đánh giá

Bảng đánh giá được liệt kê ở dưới đây:

STT Truy vấn | | truy vấn Phân loại Mô tả

1 Clb MU | | Manchester

united vn

0.9 Rất tốt – Câu lạc bộ MU chính là

Câu lạc bộ Manchester United

2 báo| |tin nhanh 0.9 Tốt – báo và tin nhanh đều thuộc về

3 trò chơi việt miễn phí | | chơi game miễn phí

0.9 Rất tốt – đều là chơi trò chơi miễn

phí, cùng với việc tìm kiếm bằng máy tìm kiếm tiếng Việt nên ý nghĩa là tương đồng

4 thi thiết kế phần mềm

microsoft || cuộc thi imagine cup

0.9 Tốt – cuộc thi imagine cup là cuộc

thi thiết kế phần mềm do Microsoft tổ chức

5 nghe nhạc online| |mp3 trực

tuyến

0.6166666 Khá tốt – người dùng cùng có ý

muốn được nghe nhạc trực tuyến.

6 baby Einstein | | nhạc cho

bà bầu

0.46249998 Khá tốt. Baby Einstein là thể loại nhạc dành riêng cho phụ nữ bầu cho em bé nghe để thông minh. Mục đích của người dùng đều là tìm các bản nhạc cho em bé trong bụng mẹ nghe

7 báo gia đình || nuôi dạy con 0.46249998 Khá tốt – nuôi dạy con là một phạm

trù rất được quan tâm trong gia đình và là một khía cạnh không thể thiếu để các tờ báo gia đình khai thác

8 tro choi trang diem || game

vui thoi trang

0.46249998 Khá tốt – trò chơi trang điểm hay game vui thời trang đều là các trò chơi online phổ biến dành cho nữ

9 tro choi trang diem || tro

choi mien phi

0.46249998 Khá tốt – Trò chơi trang điểm là một trong các trò chơi trực tuyến miễn phí

10 tin tức online || tin nhanh 0.45 Tốt – tin tức online và tin nhanh đều

thuộc về phạm trù đưa tin của báo chí.

Bảng 4: Bảng đánh giá kết quả theo phân loại

Ngoài ra, luận văn cũng đưa các truy vấn vào tìm kiếm với Google tiếng Việt

[23] với các câu truy vấn: Clb MU, Manchester united vn, Manchester united vn Clb

phần mềm microsoftcuộc thi imagine cup thu được các kết quả như liệt kê ở phần phụ lục.

Nhận xét:

 Kết quả máy tìm kiếm trả về khi đưa vào lần lượt hai truy vấn: Clb MU,

Manchester united vn

o Với 5 trang web đầu tiên được máy tìm kiếm trả về, có ba kết quả chung được liệt kê đó là: redcafe.vn, mufc.vn/vn, manutd.com.vn.

o Với 10 trang web đầu tiên được máy tìm kiếm trả về, có 5 kết quả chung được liệt kê

o Với 20 trang web đầu tiên được máy tìm kiếm trả về, có 6 kết quả chung được liệt kê.

o Ngoài ra, các trang web khác đều là những trang web tiếng việt, có nội

dung nói về câu lạc bộ bóng đá Anh Manchester United.

o Từ các kết quả trên, chứng tỏ, hai câu truy vấn đưa vào là Clb MU và

Manchester united vn có sự tương đồng khi đưa vào máy tìm kiếm.

Trên thực tế, dựa vào ngữ nghĩa của hai câu truy vấn này, Clb MU

viết tắt của cụm Câu lạc bộ Manchester United – tương đương với

truy vấn Manchester United vn.

 Với câu truy vấn Clb MU Manchester united vn là câu truy vấn tổng hợp –

ghép hai câu truy vấn trên khi truy vấn với máy tìm kiếm Google đã đạt được các kết quả:

o Tính mở rộng: máy tìm kiếm trả về 8.540.000 kết quả với truy vấn tổng hợp, trong đó chỉ trả về lần lượt 1.260.0006.620.000 kết quả với hai câu truy vấn riêng lẻ.

o Tính chuyên sâu: Không thể hiện tính chuyên sâu

o Tính bao gói: 5 trang đầu tiên bao gói các trang đầu tiên của hai câu

truy vấn cũ. Cụ thể là khi đưa vào truy vấn tổng hợp thì máy tìm kiếm trả đã trả về 4 các trang web: redcafe.vn, mufc.vn/vn, manutd.com.vn, vi.wikipedia.org/wiki/Manchester_United đều là 4 trang web xuất hiện khi truy vấn cả hai câu truy vấn riêng lẻ Clb MU và Manchester United vn.

Manchester United hoặc nói về câu lạc bộ các cổ động viên hâm mộ đội bóng đá này. Cụ thể.

 Với 20 trang web đầu tiên được máy tìm kiếm trả về: Có 19 trang

web nói về các thông tin của câu lạc bộ bóng đá MU và 1 trang web nói về bài hát chính thức của câu lạc bộ bóng đá MU.

 Với 10 trang web đầu tiên được máy tìm kiếm trả về: Có 5 kết quả về diễn đàn của cổ động viên đội tuyển bóng đá Manchester United và 5 trang web nói về các tin tức của đội bóng đá.

 Với 5 trang web đầu tiên được máy tìm kiếm trả về: Cả năm trang

web đều là diễn đàn hội cổ động viên của đội tuyển MU.

Như vậy, truy vấn tổng hợp của hai câu truy vấn Clb MU và Manchester United đạt độ chính xác cao khi đưa vào truy vấn tại máy tìm kiếm.

 Kết quả máy tìm kiếm trả về khi đưa vào lần lượt hai truy vấn: thi thiết kế

phần mềm microsoft, cuộc thi imagine cup

o Với 5 trang web đầu tiên được máy tìm kiếm trả về, có bốn kết quả

chung được liệt kê đó là: www.microsoft.com/vietnam/imaginecup/,

www.microsoft.com/vietnam/imaginecup/schedulte.aspx,

www.microsoft.com/vietnam/imaginecup/introduction.aspx,

www.cusc.ctu.edu.vn/forum/index.php?PHPSESSID...topic...new.

o Với 10 trang web đầu tiên được máy tìm kiếm trả về, có 7 kết quả chung

o Với 20 trang web đầu tiên được máy tìm kiếm trả về có 8 kết quả chung.

o Từ các kết quả trên, chứng tỏ hai truy vấn thi thiết kế phần mềm microsoft, cuộc thi imagine cup cũng có tính tương đồng cao – độ tương tự giữa hai câu truy vấn là cao.

 Với câu truy vấn thi thiết kế phần mềm microsoft cuộc thi imagine cup

câu truy vấn tổng hợp – ghép hai câu truy vấn trên khi truy vấn với máy tìm kiếm Google đã đạt được các kết quả:

o Tính mở rộng: Không thể hiện tính mở rộng

máy tìm kiếm trả về các kết quả chuyên sâu của cuộc thi imagine cup do microsoft tổ chức.

o Tính bao gói: 5 trang đầu tiên bao gói bốn trang web đầu tiên của hai

câu truy vấn cũ. Cụ thể là khi đưa vào truy vấn tổng hợp thì máy tìm kiếm trả đã trả về 4 các trang web: liệt kê đó là:

www.microsoft.com/vietnam/imaginecup/,

www.microsoft.com/vietnam/imaginecup/schedulte.aspx,

www.microsoft.com/vietnam/imaginecup/introduction.aspx,

www.cusc.ctu.edu.vn/forum/index.php?PHPSESSID...topic...new.

o Tính chính xác: Các trang web đầu tiên được trả về khi đưa vào câu

truy vấn tổng hợp đều nói về các thông tin của cuộc thi imagine cup Từ bảng đánh giá 4 cùng các ví dụ truy vấn trên máy tìm kiếm google, ta thấy rằng các kết quả tính độ tương tự giữa các câu truy vấn lấy ngưỡng từ 0.4 đến 1 có độ tương đồng về ngữ nghĩa hay mục đích người sử dụng là khá cao chứng tỏ việc tính độ tương tự câu truy vấn dựa vào userlog theo mô hình đề xuất đạt kết quả tốt.

KẾT LUẬN

Luận văn đã tìm hiểu và trình bày các vấn đề về bài toán tính độ tương tự các câu truy vấn, các phương pháp tính độ tương tự truy vấn. Từ đó đưa ra các đánh giá giữa các phương pháp và đề xuất mô hình tính toán phù hợp với tính toán độ tương tự truy vấn tiếng Việt.

Kết quả chính của luận văn là:

- Trình bày các vấn đề khái quát, tổng quan về độ tương tự câu truy vấn,

- Nghiên cứu các hướng tiếp cận khác nhau, nhằm giải quyết bài toán tính độ tương tự câu truy vấn trong máy tìm kiếm, đó là các phương pháp: phương pháp thống kê, phương pháp sử dụng xử lý ngôn ngữ tự nhiên, phương pháp sử dụng lưu vết truy vấn của máy tìm kiếm.

- Trên cơ sở lý thuyết đã tìm hiểu, luận văn lựa chọn một phương pháp làm cơ sở để đề xuất một mô hình tính độ tương tự cho các câu truy vấn dựa trên phương pháp sử dụng lưu vết truy vấn của máy tìm kiếm. Đã đề xuất một cải tiến về việc đưa thêm giá trị trọng số cho các liên kết web để nâng cao độ chính xác của kết quả trả về.

- Luận văn đồng thời xây dựng phần mềm thực nghiệm thi hành mô hình đề xuất, thực thi việc tạo thành truy vấn mới và kết quả bước đầu thu được khá khả quan.

- Phần đánh giá thực nghiệm, luận văn sử dụng cách đánh giá định tính, lấy 10 cặp câu truy vấn tương tự nhau đầu tiên trong khối dữ liệu đưa vào thực nghiệm để đánh giá đồng thời tạo ra câu truy vấn tổng hợp để cùng đưa vào truy vấn tại máy tìm kiếm Google tiếng Việt, thấy kết quả trả về là phù hợp với kết quả tính độ tương tự của các truy vấn tương ứng.

Do hạn chế về trình độ và thời gian, luận văn chưa tiến hành các phân tích công phu độ đo tương tự đối với truy vấn tìm kiếm. Đấy là hướng nghiên cứu tiếp theo của luận văn.

TÀI LIỆU THAM KHẢO

Tài liệu tiếng Việt

[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu

Trang, Nguyễn Cẩm Tú (2009). Giáo trình khai phá dữ liệu Web, Nhà xuất bản

giáo dục Việt Nam.

[2] Nguyễn Thị Thu Chung (2009). Xây dựng danh bạ web Tiếng Việt với phương pháp phân cụm phân cấp văn bản, Khóa luận đại học, Trường Đại học Công nghệ, ĐHQGHN.

[3] Nguyễn Thị Thu Chung, Nguyễn Thu Trang, Hà Quang Thụy (2009). Xây dựng

danh bạ web tiếng Việt với phân cụm phân cấp văn bản, Hội thảo Quốc gia Một

số vấn đề chọn lọc về Công nghệ thông tin và Truyền thông lần thứ XII, Đồng Nai, 5-7/8/2009.

Tài liệu tiếng Anh

[4] Amac Herdagdelen, Massimiliano Ciaramita, Daniel Mahler, Maria Holmqvist, Keith Hall, Stefan Riezler, Enrique Alfonseca (2010). Generalized syntactic and

semantic models of query reformulation, SIGIR 2010: 283-290.

[5] Bodo Billerbeck (2005). Efficient Query Expansion, PhD Thesis, RMIT

University, Australia.

[6] Caroline Gherbaoui (2008). Similarity Measures for Query Expansion in TopX,

Master Thesis, Universität des Saarlandes.

[7] Donald Metzler, Susan T. Dumais, Christopher Meek (2007). Similarity Measures for Short Segments of Text, ECIR 2007: 16-27.

[8] Eui-Kyu Park, Seong-In Moon, Dong-Yul Ra, Myung-Gil Jang (2002). Web

Document Retrieval Using Sentence-Query Similarity, TREC 2002.

[9] Fan Yang, Bin An, Xizhao Wang (2009), Co – clustering for queries and corresponding advertisement, Machine Learning and Cybernetics, International Conference on 2009.

[10] Francisco J. Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro(2005), Semantic

Similarity Between Sentences Through Approximate Tree Matching. IbPRIA (2)

[11] Fu, L., Goh, H. L., Foo, S. B., & Na, J. C. (2003). Collaborative querying through a hybrid query clustering approach. Conference on Asian Digital Libraries (6th:2003:Malaysia).

[12] Ji-Rong Wen, Jian – Yun Nie, Hong-Jiang Zhang (2002), Query Clustering Using

User Logs, ACM Transactions on Information Systems, Vol. 20, No. 1, January

2002.

[13] Jose R. Perez-Aguera, Lourdes Araujo (2008). Comparing and Combining

Methods for Automatic Query Expansion, Advances in Natural Language

Processing and Applications Research in Computing Science, 33: 177-188.

[14] Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh (2008). Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu, phát triển phương pháp tính độ tương tự câu truy vấn trong hệ tìm kiếm và ứng dụng thử nghiệm vào một hệ tìm kiếm thực thể tiếng Việt (Trang 31 - 43)

Tải bản đầy đủ (PDF)

(48 trang)