Mô hình hệ thống tìm kiếm thực thể áp dụng cho tiếng Việt

Một phần của tài liệu Nghiên cứu, cải tiến phương pháp mở rộng câu hỏi và tích hợp vào hệ thống tìm kiếm thực thể tiếng Việt (Trang 32)

1. 3 Tóm tắt chương

3.3 Mô hình hệ thống tìm kiếm thực thể áp dụng cho tiếng Việt

Từ những nghiên cứu liên quan được nêu ở các mục trên, luận văn đưa ra mô hình cho Hệ thống tìm kiếm tiếng Việt, trong đó Module xử lý truy vấn đầu vào được áp dụng phương pháp Mở rộng truy vấn được trình bày ở mục 3.2. Dưới đây là mô hình của hệ thống:

Hình 9. Mô hình chung của hệ thống tìm kiếm

Truy vấn

Module Mở rộng truy vấn

Truy vấn mở rộng

Tìm kiếm dữ liệu Tập tài liệu kết quả

Dựa vào mô hình, Hệ thống tìm kiếm trên được thực hiện giải quyết bài toán qua 2 bước chính:

Bƣớc 1: Thực hiện mở rộng truy vấn

- Đầu vào:Câu truy vấn người dùng nhập vào khi sử dụng máy tìm kiếm - Đầu ra: Tập các câu truy vấn mở rộng hỗ trợ cho người dùng, thứ tự các câu

truy vấn mở rộng được sắp xếp theo trọng số tương ứng

- Phƣơng pháp thực hiện: Theo như mô hình được trình bày ở mục 4.1  Bƣớc 2: Thực hiện tìm kiếm dữ liệu

- Đầu vào: Câu truy vấn mở rộng đã được người dùng lựa chọn - Đầu ra: Tập các tài liệu liên quan được trả về từ máy tìm kiếm - Phƣơng pháp thực hiện:

o Sử dụng máy tìm kiếm Google để thực hiện tìm kiếm và trả về một tập các tài liệu có liên quan tới câu truy vấn mới.

o Đồng thời, sử dụng kết quả trả về của câu truy vấn ban đầu và câu truy vấn mở rộng để đánh giá hiệu quả của việc mở rộng truy vấn.

3.4 Tóm tắt chƣơng 3

Trong chương ba, luận văn đã thực hiện đánh giá các phương pháp đã nghiên cứu và tìm hiểu được, từ đó giới thiệu chi tiết mô hình đề xuất cho bài toán Mở rộng truy vấn cho ngôn ngữ tiếng Việt bằng phương pháp sử dụng query log. Đồng thời, áp dụng kết quả mở rộng truy vấn để áp dụng vào bài toán cho Hệ thống tìm kiếm tiếng Việt. Trong chương tiếp theo, luận văn sẽ tiến hành làm thực nghiệm dựa trên mô hình đã xây dựng dựa vào query log từ Google và sử dụng máy tìm kiếm Google.

Chƣơng 4. Thực nghiệm và đánh giá

Dựa vào cơ sở lý thuyết và mô hình đề xuất ở chương 3, luận văn tiến hành thực nghiệm. Quá trình thực nghiệm bao gồm thực nghiệm cho phần mở rộng truy vấn và thực nghiệm việc áp dụng mở rộng truy vấn cho hệ thống tìm kiếm tiếng Việt

4.1. Môi trƣờng thực hiện

Cấu hình phần cứng

Bảng 3. Cấu hình phần cứng sử dụng trong thực nghiệm

Thành phần Chỉ số

CPU 2.2 GHz Core Duo Intel

RAM 2 GB

OS WindowsXP Service Pack 2, Windows 7

Bộ nhớ ngoài 160GB

Công cụ phần mềm sử dụng:

Bảng 4. Một số phần mềm sử dụng

STT Tên phần mềm Nguồn

1 Mysql http://www.mysql.com

2 Microsoft Visual Studio 2010 http://www.microsoft.com/visualstudio/en-us

Ngoài ra các công cụ trên, chúng tôi tiến hành cài đặt các module xử lý dựa trên ngôn ngữ Visual C++, bao gồm package chính là Querylog.jar, thực hiện các công việc sau:

- Xác định tập các truy vấn tương ưng với các session của người dùng dựa vào query log.

- Thực hiện tìm các luật liên kết thể hiện mối quan hệ giữa các câu truy vấn có liên quan.

- Thực hiện nhập câu truy vấn, xác định các câu truy vấn có liên quan và các luật liên kết giữa chúng

- Xác định các khái niệm có liên quan thông qua tập truy vấn đã xác định và trọng số tương ứng.

4.2. Quá trình thực nghiệm

4.2.1. Nội dung, kịch bản thực nghiệm

Dựa vào mô hình được đề xuất ở mục 3.2, luận văn tiến hành thực nghiệm, cụ thể hơn về việc thực nghiệm như sau:

Dữ liệu thực nghiệm

- Câu truy vấn q của người dùng

- Tập querylog của người dùng khi sử dụng Google. Tập query log được từ một nguồn5 đã thu thập query log từ Google vào ngày 11/04/2009 (có khoảng trên 3,8 triệu câu truy vấn)

Quá trình thực hiện gồm hai công việc chính

- Mở rộng truy vấn sử dụng query log người dùng

o Thông qua tập query log, xác định được các mối quan hệ giữa các câu truy vấn, mối quan hệ này được thể hiện thông qua tập liên kết.

o Thực hiện xây dựng đồ thị thể hiện mối quan hệ giữa các câu truy vấn o Xác định các khái niệm có chứa trong đồ thị

o Mở rộng truy vấn dựa vào các khái niệm đã được xác định - Áp dụng kết quả mở rộng truy vấn vào hệ thống tìm kiếm tiếng việt

o Thực hiện tìm kiếm sử dụng hệ thống tìm kiếm tiếng Việt Google với đầu vào là câu truy vấn mở rộng. Để đánh giá được hiệu quả của phương pháp, thực hiện lựa chọn các khái niệm không quá phổ dụng.

4.2.2. Thực nghiệm mở rộng truy vấn

4.2.2.1. Xác định mối quan hệ giữa các câu truy vấn

Để xác định được mối quan hệ giữa các truy vấn thông qua tập luật, ta thực hiện 2 bước sau:

Tìm tập các câu truy vấn có trong một phiên giao dịch (session)

Với một câu truy vấn, theo như trình bày ở Định nghĩa 1 trong mục 3.2a, ta cần quan tâm tới các tham số sau:

- Thời gian hệ thống nhận câu truy vấn của người dùng, t - Địa chỉ IP của người dùng, id

- Câu truy vấn nhập vào hệ thống, q - Link kết quả trả về, l

5

Trong đó, để xác định được các truy vấn nào của người dùng nằm trong một session, ta xác định như sau: Dựa vào IP của người dùng và thời gian nhập câu truy vấn vào hệ thống, ta xác định được một tập các câu truy vấn người dùng thực hiện tìm kiếm một phiên giao dịch trong khoảng thời gian T = 10 phút (T: thời gian tối đa cho phép tìm kiếm giữa hai truy vấn liên tiếp trong cùng một phiên giao dịch)

Ví dụ: Câu truy vấn của người dùng được lưu lại trong log có dạng như sau: /logbak1/cacheftp/CE178/celog_203.160.1.72_20090411_050000.txt.gz:12:00:11: 222.254.11.106 74.220.215.224 "GET http://tivitructuyen.net/ HTTP/1.1" 304 "http://www.google.com.vn/search?hl=vi&q=tivitructuyen.net&meta=&aq=0&oq=tivi tructuyen"

Trong đó:

- Thời gian người dùng nhập câu truy vấn vào hệ thống: 12:00:11 - Địa chỉ IP của người dùng: 222.254.11.106

- Câu truy vấn của người dùng: tử vi trực tuyến - Link kết quả trả về: http://tivitructuyen.net  Tìm luật liên kết giữa các câu truy vấn

Như đã trình bày ở mục 3.2 a, các câu truy vấn có mối quan hệ với nhau thì sẽ có luật liên kết giữa chúng. Luận văn xác định các câu truy vấn được sắp xếp kề nhau trong cùng 1 phiên giao dịch được xuất hiện lớn hơn hoặc bằng lần trong các phiên giao dịch thì sẽ có mối quan hệ với nhau.

Bảng 5. Tập 10 câu truy vấn đầu tiên trong một phiên giao dịch của ngƣời dùng STT IP của ngƣời dùng Thời gian thực hiện truy vấn Tập câu truy vấn

Link chứa kết quả trả về

1 222.254.10.187 12:03:24 trang báo gia đình http://afamily.channelvn.net

2 222.254.10.187 12:04:25 trang báo gia đình http://giadinh.net.vn/

3 222.254.10.187 12:05:07 trang báo gia đình http://www.thegioiphunu- pnvn.com.vn/ 4 222.254.10.187 12:06:30 đời sống vợ chồng http://afamily.channelvn.net/ 5 222.254.10.187 12:07:36 đời sống vợ chồng http://www.thegioiphunu- pnvn.com.vn/ 6 222.254.10.187 12:08:49 đời sống vợ chồng http://hanhphucgiadinh.vn/

7 222.254.10.187 12:09:18 nuôi dạy con http://afamily.channelvn.net/

8 222.254.10.187 12:09:48 nuôi dạy con http://giadinh.net.vn/

9 222.254.10.187 12:10:22 gia đình trẻ http://www.thegioiphunu- pnvn.com.vn/

Ví dụ: Ta có một số phiên giao dịch được mô tả như bảng 5 bên dưới như sau:

Bảng 6. Một số câu truy vấn và link kết quả các phiên giao dịch của ngƣời dùng

Phiên giao dịch Câu truy vấn Link kết quả

SS1 …

sửa chữa máy tính siêu thị máy tính cửa hàng máy tính .. … http://cuumaytinh.com/ http://www.dangkhoa.vn http://www.phucanh.vn SS2 .. siêu thị máy tính cửa hàng máy tính máy tính xách tay .. … http://www.trananh.vn/ http://www.ankhang.vn/ http://www.maytinhxachtay.com SS3 ..

Linh kiện máy tính ..

http://www.dangkhoa.vn ..

Dựa vào 3 phiên giao dịch trên của người dùng ta có thể thấy 2 câu truy vấn “siêu thị máy tính” và “cửa hàng máy tính” có thứ tự xuất hiện liền kề nhau qua 2 phiên giao dịch của người dùng, vì vậy giữa chúng có mối quan hệ với nhau hay có luật:

siêu thị máy tính”“cửa hàng máy tính”, và “cửa hàng máy tính”“siêu thị máy tính

Đồng thời, dựa vào bảng 6 trên, ta có thể thấy hai câu truy vấn “siêu thị máy tính” và “linh kiện máy tính” đều có link kết quả là http://www.dangkhoa.vn . Vì vậy, ta có thể đánh giá 2 câu truy vấn trên có mối quan hệ với nhau  giữa chúng có luật liên kết:

Bảng 7. Thống kê số truy vấn, phiên giao dịch và tập luật liên kết dựa vào tập query log ngày 11/04/2009

Ngày 11/04/2009

Query log

Số lượng câu truy vấn 3092113

Số lượng session 437910

Số lượng luật liên kết giữa các câu truy vấn

3513636

4.2.2.2. Xây dựng đồ thị thể hiện mối quan hệ giữa các câu truy vấn

Luận văn thực nghiệm với câu truy vấn của người dùng đưa vào là “Máy tính”. Thông qua tập query log, ta tìm được một tập các câu truy vấn có chứa từ “máy tính”

Bảng 8. Tập 20 câu truy vấn đầu tiên chứa từ “máy tính”

STT Câu truy vấn chứa từ “máy tính STT Câu truy vấn chứa từ “máy tính 1 Siêu thị máy tính 11 Sửa máy tính xách tay

2 Siêu thị điện máy máy tính 12 Máy tính để bàn

3 Cửa hàng máy tính 13 Máy tính Sony

4 Máy tính trần anh 14 Báo giá máy tính

5 Máy tính linh kiện 15 Những thủ thuật máy tính

6 Máy tính xách tay mini 16 Hình nền đẹp máy tính

7 Máy tính xách tay 17 pc suite có kết nối mạng với máy tính được không

8 Loa máy tính 18 Download phần mềm máy tính

9 Máy tính giá rẻ 19 sửa mainboard máy tính

Bảng 9. Một số luật liên kết giữa các câu truy vấn có chứa từ “máy tính”

STT Luật liên kết STT Luật liên kết thông qua link kết quả 1 Máy tính xách tay mini  Máy tính

bảng

1 Máy tính bảng  điện thoại Link http://www.samsung.com/

2 Báo giá máy tính  máy tính giá rẻ 2 Linh liện máy tính  siêu thị máy tính

Link: http://www.trananh.vn/

3 Máy tính xách tay  notebook 3 Máy tính xách tay  notebook Link

http://www.maytinhxachtay.com/

4 Siêu thị máy tính  cửa hàng máy tính

4 Máy tính để bàn  desktop pc http://www.vatgia.com/1256/may- tinh-desktop.html

5 Sửa chữa máy tính  sửa máy tính xách tay

5 Báo giá máy tính  máy vi tính http://www.sieuthicomputer.com.vn/

Bảng 10. Thống kê số câu truy vấn chứa từ “máy tính” và tập luật liên kết

Số câu truy vấn chứa từ “máy tính” 1183

Số câu truy vấn chứa từ “máy tính” riêng biệt 154

Số luật liên kết giữa các câu truy vấn 571

Số khái niệm riêng biệt 195

Dựa vào các tập luật liên kết thể hiện mối quan hệ giữa các câu truy vấn trên, ta xây dựng đồ thị thể hiện mối quan hệ giữa chúng. Hình 10 thể hiện một phần của đồ thị G cho câu truy vấn “máy tính”

ô

Hình 10. Đồ thị mối quan hệ giữa các câu truy vấn chứa từ “máy tính”

Máy tính

giá rẻ Máy tính xách tay giá rẻ An Khang Báo giá máy tính Máy vi tính Máy tính bảng Sam Sung F250 Máy tính xách tay mini Màn hình LCD Máy ảnh Điện thoại

Notebook Laptop Máy tính SONY Máy tính xách tay Desktop pc Máy tính để bàn Máy tính bộ Máy tính trần anh Siêu thị máy tính Cửa hàng máy tính Linh kiện máy tính Siêu thị điện máy máy tính Sửa máy tính xách tay Sửa chữa máy tính

Các lỗi thường gặp khi sử dụng máy tính Những thủ thuật

4.2.2.3. Xác định các khái niệm

Thực hiện xác định các khái niệm có liên quan, các khái niệm được lấy ra là những khái niệm kết hợp với câu truy vấn “máy tính” (sau khi đã loại bỏ từ dừng) có chứa trong tập các câu truy vấn và các khái niệm này là riêng biệt. Dựa vào đồ thị hình 10, một số khái niệm được liệt kê ra như sau:

Khái niệm1 = {báo giá, giá rẻ, xách tay} Khái niệm2 = {máy vi tính}

Khái niệm3 = {xách tay, bàn, desktop pc, máy tính bộ} Khái niệm4 = {an khang}

Khái niệm5 = {samsung F250} Khái niệm6 = {điện thoại}

Khái niệm7 = {siêu thị, cửa hàng, linh kiện} Khái niệm8 = {linh kiện}

Bảng 11. Tập 20 khái niệm liên quan câu truy vấn “máy tính” trọng số cao nhất

STT Khái niệm Trọng số STT Khái niệm Trọng số

1 xách tay 95 11 Sửa 51

2 Laptop 84 12 Sửa chữa 51

3 Lỗi 75 13 Linh kiện 48

4 Sử dụng 75 14 Phần mềm 48

5 Thủ thuật 64 15 Download 45

6 Báo giá 62 16 Hệ thống 45

7 Giá rẻ 62 17 Game online 39

8 Cửa hàng 51 18 Kiến trúc 39

9 Siêu thị 51 19 Máy vi tính 31

Nhận xét: Dựa vào tập 20 khái niệm có trọng số cao nhất theo như bảng trên, ta có thể nhận thấy các khái niệm trên có liên quan tới câu truy vấn và cũng mang nhiều thông tin khác nhau khi kết hợp với câu truy vấn ban đầu. Vì thế, hệ thống có thể hỗ trợ người dùng trong việc lựa chọn câu truy vấn ban đầu nhằm làm rõ ý nghĩa, mục đích cũng như ngữ cảnh của việc tìm kiếm của người sử dụng.

4.2.2.4. Mở rộng truy vấn

Dựa vào các khái niệm đã được xác định ở bước 3, sử dụng tập khái niệm để mở rộng cho câu truy vấn ban đầu. Như đã trình bày ở mục 3.3a cần xác định mối quan hệ giữa câu truy vấn ban đầu và câu truy vấn mở rộng sau khi thêm khái niệm. Dựa vào việc định nghĩa 4 loại khái niệm theo như đã trình bày, ta có tập truy vấn mở rộng cho truy vấn “máy tính” theo như bảng dưới

Bảng 12. Một số các câu truy vấn mở rộng cho truy vấn “máy tính” STT Loại mở rộng Câu truy vấn mở rộng Số kết quả trả về từ

Google 1 Từ đồng nghĩa Máy tính OR (laptop OR notebook)

Máy tính OR desktop PC ..

128.000.000 31.600.000

2 Từ cụ thể Máy tính AND trần anh ..

17.000.000

3 Từ khái quát Máy tính OR Máy vi tính …

27.500.000

4 Từ kết hợp Máy tính AND phần mềm Máy tính AND (lỗi OR sử dụng) Máy tính AND (sửa OR sửa chữa) ..

95.200.000 114.000.000

82.900.000

Nhận xét: Dựa theo bảng 12, ta có thể nhận thấy đối với việc mở rộng truy vấn dùng loại mở rộng là “từ đồng nghĩa” và “từ kết hợp” thì số lượng kết quả trả về của Google nhiều hơn so với “từ cụ thể” và “từ khái quát”. Vì vậy, chúng tôi lựa chọn phương án sử dụng các “Từ đồng nghĩa” và “Từ kết hợp” cho việc mở rộng truy vấn.

Ngoài ra, luận văn thực hiện thực nghiệm tương tự cho một số câu truy vấn khác, kết quả đạt được theo như bảng 13 bên dưới.

Bảng 13. Kết quả mở rộng truy vấn của một số câu truy vấn

STT Câu truy vấn Câu truy vấn mở rộng

1 Trạng lường “Trạng lường” OR “Lương Thế Vinh” “Trạng Lường” AND “Đền thờ” “Trạng Lường” AND “Giai thoại” “Trạng lường” AND “Chuyện đời” …

2 Chung cư “Chung cư” OR “liền kề” “Chung cư” OR “nhà” “Chung cư” AND “giá cả” “Chung cư” AND “mua bán” ..

4.2.3. Thực nghiệm và đánh giá kết quả tìm kiếm trả về thông qua việc mở rộng truy vấn việc mở rộng truy vấn

Để thực hiện đánh giá kết quả của việc mở rộng truy vấn, luận văn thực hiện so sánh kết quả và số lượng trả về của hệ thống giữa câu truy vấn ban đầu và câu truy vấn mở rộng. Nhằm thấy được hiệu quả của phương pháp trên, chúng tôi thực hiện lựa

Một phần của tài liệu Nghiên cứu, cải tiến phương pháp mở rộng câu hỏi và tích hợp vào hệ thống tìm kiếm thực thể tiếng Việt (Trang 32)

Tải bản đầy đủ (PDF)

(50 trang)