Thực nghiệm mở rộng truy vấn

Một phần của tài liệu Nghiên cứu, cải tiến phương pháp mở rộng câu hỏi và tích hợp vào hệ thống tìm kiếm thực thể tiếng Việt (Trang 35 - 44)

1. 3 Tóm tắt chương

4.2.2. Thực nghiệm mở rộng truy vấn

4.2.2.1. Xác định mối quan hệ giữa các câu truy vấn

Để xác định được mối quan hệ giữa các truy vấn thông qua tập luật, ta thực hiện 2 bước sau:

Tìm tập các câu truy vấn có trong một phiên giao dịch (session)

Với một câu truy vấn, theo như trình bày ở Định nghĩa 1 trong mục 3.2a, ta cần quan tâm tới các tham số sau:

- Thời gian hệ thống nhận câu truy vấn của người dùng, t - Địa chỉ IP của người dùng, id

- Câu truy vấn nhập vào hệ thống, q - Link kết quả trả về, l

5

Trong đó, để xác định được các truy vấn nào của người dùng nằm trong một session, ta xác định như sau: Dựa vào IP của người dùng và thời gian nhập câu truy vấn vào hệ thống, ta xác định được một tập các câu truy vấn người dùng thực hiện tìm kiếm một phiên giao dịch trong khoảng thời gian T = 10 phút (T: thời gian tối đa cho phép tìm kiếm giữa hai truy vấn liên tiếp trong cùng một phiên giao dịch)

Ví dụ: Câu truy vấn của người dùng được lưu lại trong log có dạng như sau: /logbak1/cacheftp/CE178/celog_203.160.1.72_20090411_050000.txt.gz:12:00:11: 222.254.11.106 74.220.215.224 "GET http://tivitructuyen.net/ HTTP/1.1" 304 "http://www.google.com.vn/search?hl=vi&q=tivitructuyen.net&meta=&aq=0&oq=tivi tructuyen"

Trong đó:

- Thời gian người dùng nhập câu truy vấn vào hệ thống: 12:00:11 - Địa chỉ IP của người dùng: 222.254.11.106

- Câu truy vấn của người dùng: tử vi trực tuyến - Link kết quả trả về: http://tivitructuyen.net  Tìm luật liên kết giữa các câu truy vấn

Như đã trình bày ở mục 3.2 a, các câu truy vấn có mối quan hệ với nhau thì sẽ có luật liên kết giữa chúng. Luận văn xác định các câu truy vấn được sắp xếp kề nhau trong cùng 1 phiên giao dịch được xuất hiện lớn hơn hoặc bằng lần trong các phiên giao dịch thì sẽ có mối quan hệ với nhau.

Bảng 5. Tập 10 câu truy vấn đầu tiên trong một phiên giao dịch của ngƣời dùng STT IP của ngƣời dùng Thời gian thực hiện truy vấn Tập câu truy vấn

Link chứa kết quả trả về

1 222.254.10.187 12:03:24 trang báo gia đình http://afamily.channelvn.net

2 222.254.10.187 12:04:25 trang báo gia đình http://giadinh.net.vn/

3 222.254.10.187 12:05:07 trang báo gia đình http://www.thegioiphunu- pnvn.com.vn/ 4 222.254.10.187 12:06:30 đời sống vợ chồng http://afamily.channelvn.net/ 5 222.254.10.187 12:07:36 đời sống vợ chồng http://www.thegioiphunu- pnvn.com.vn/ 6 222.254.10.187 12:08:49 đời sống vợ chồng http://hanhphucgiadinh.vn/

7 222.254.10.187 12:09:18 nuôi dạy con http://afamily.channelvn.net/

8 222.254.10.187 12:09:48 nuôi dạy con http://giadinh.net.vn/

9 222.254.10.187 12:10:22 gia đình trẻ http://www.thegioiphunu- pnvn.com.vn/

Ví dụ: Ta có một số phiên giao dịch được mô tả như bảng 5 bên dưới như sau:

Bảng 6. Một số câu truy vấn và link kết quả các phiên giao dịch của ngƣời dùng

Phiên giao dịch Câu truy vấn Link kết quả

SS1 …

sửa chữa máy tính siêu thị máy tính cửa hàng máy tính .. … http://cuumaytinh.com/ http://www.dangkhoa.vn http://www.phucanh.vn SS2 .. siêu thị máy tính cửa hàng máy tính máy tính xách tay .. … http://www.trananh.vn/ http://www.ankhang.vn/ http://www.maytinhxachtay.com SS3 ..

Linh kiện máy tính ..

http://www.dangkhoa.vn ..

Dựa vào 3 phiên giao dịch trên của người dùng ta có thể thấy 2 câu truy vấn “siêu thị máy tính” và “cửa hàng máy tính” có thứ tự xuất hiện liền kề nhau qua 2 phiên giao dịch của người dùng, vì vậy giữa chúng có mối quan hệ với nhau hay có luật:

siêu thị máy tính”“cửa hàng máy tính”, và “cửa hàng máy tính”“siêu thị máy tính

Đồng thời, dựa vào bảng 6 trên, ta có thể thấy hai câu truy vấn “siêu thị máy tính” và “linh kiện máy tính” đều có link kết quả là http://www.dangkhoa.vn . Vì vậy, ta có thể đánh giá 2 câu truy vấn trên có mối quan hệ với nhau  giữa chúng có luật liên kết:

Bảng 7. Thống kê số truy vấn, phiên giao dịch và tập luật liên kết dựa vào tập query log ngày 11/04/2009

Ngày 11/04/2009

Query log

Số lượng câu truy vấn 3092113

Số lượng session 437910

Số lượng luật liên kết giữa các câu truy vấn

3513636

4.2.2.2. Xây dựng đồ thị thể hiện mối quan hệ giữa các câu truy vấn

Luận văn thực nghiệm với câu truy vấn của người dùng đưa vào là “Máy tính”. Thông qua tập query log, ta tìm được một tập các câu truy vấn có chứa từ “máy tính”

Bảng 8. Tập 20 câu truy vấn đầu tiên chứa từ “máy tính”

STT Câu truy vấn chứa từ “máy tính STT Câu truy vấn chứa từ “máy tính 1 Siêu thị máy tính 11 Sửa máy tính xách tay

2 Siêu thị điện máy máy tính 12 Máy tính để bàn

3 Cửa hàng máy tính 13 Máy tính Sony

4 Máy tính trần anh 14 Báo giá máy tính

5 Máy tính linh kiện 15 Những thủ thuật máy tính

6 Máy tính xách tay mini 16 Hình nền đẹp máy tính

7 Máy tính xách tay 17 pc suite có kết nối mạng với máy tính được không

8 Loa máy tính 18 Download phần mềm máy tính

9 Máy tính giá rẻ 19 sửa mainboard máy tính

Bảng 9. Một số luật liên kết giữa các câu truy vấn có chứa từ “máy tính”

STT Luật liên kết STT Luật liên kết thông qua link kết quả 1 Máy tính xách tay mini  Máy tính

bảng

1 Máy tính bảng  điện thoại Link http://www.samsung.com/

2 Báo giá máy tính  máy tính giá rẻ 2 Linh liện máy tính  siêu thị máy tính

Link: http://www.trananh.vn/

3 Máy tính xách tay  notebook 3 Máy tính xách tay  notebook Link

http://www.maytinhxachtay.com/

4 Siêu thị máy tính  cửa hàng máy tính

4 Máy tính để bàn  desktop pc http://www.vatgia.com/1256/may- tinh-desktop.html

5 Sửa chữa máy tính  sửa máy tính xách tay

5 Báo giá máy tính  máy vi tính http://www.sieuthicomputer.com.vn/

Bảng 10. Thống kê số câu truy vấn chứa từ “máy tính” và tập luật liên kết

Số câu truy vấn chứa từ “máy tính” 1183

Số câu truy vấn chứa từ “máy tính” riêng biệt 154

Số luật liên kết giữa các câu truy vấn 571

Số khái niệm riêng biệt 195

Dựa vào các tập luật liên kết thể hiện mối quan hệ giữa các câu truy vấn trên, ta xây dựng đồ thị thể hiện mối quan hệ giữa chúng. Hình 10 thể hiện một phần của đồ thị G cho câu truy vấn “máy tính”

ô

Hình 10. Đồ thị mối quan hệ giữa các câu truy vấn chứa từ “máy tính”

Máy tính

giá rẻ Máy tính xách tay giá rẻ An Khang Báo giá máy tính Máy vi tính Máy tính bảng Sam Sung F250 Máy tính xách tay mini Màn hình LCD Máy ảnh Điện thoại

Notebook Laptop Máy tính SONY Máy tính xách tay Desktop pc Máy tính để bàn Máy tính bộ Máy tính trần anh Siêu thị máy tính Cửa hàng máy tính Linh kiện máy tính Siêu thị điện máy máy tính Sửa máy tính xách tay Sửa chữa máy tính

Các lỗi thường gặp khi sử dụng máy tính Những thủ thuật

4.2.2.3. Xác định các khái niệm

Thực hiện xác định các khái niệm có liên quan, các khái niệm được lấy ra là những khái niệm kết hợp với câu truy vấn “máy tính” (sau khi đã loại bỏ từ dừng) có chứa trong tập các câu truy vấn và các khái niệm này là riêng biệt. Dựa vào đồ thị hình 10, một số khái niệm được liệt kê ra như sau:

Khái niệm1 = {báo giá, giá rẻ, xách tay} Khái niệm2 = {máy vi tính}

Khái niệm3 = {xách tay, bàn, desktop pc, máy tính bộ} Khái niệm4 = {an khang}

Khái niệm5 = {samsung F250} Khái niệm6 = {điện thoại}

Khái niệm7 = {siêu thị, cửa hàng, linh kiện} Khái niệm8 = {linh kiện}

Bảng 11. Tập 20 khái niệm liên quan câu truy vấn “máy tính” trọng số cao nhất

STT Khái niệm Trọng số STT Khái niệm Trọng số

1 xách tay 95 11 Sửa 51

2 Laptop 84 12 Sửa chữa 51

3 Lỗi 75 13 Linh kiện 48

4 Sử dụng 75 14 Phần mềm 48

5 Thủ thuật 64 15 Download 45

6 Báo giá 62 16 Hệ thống 45

7 Giá rẻ 62 17 Game online 39

8 Cửa hàng 51 18 Kiến trúc 39

9 Siêu thị 51 19 Máy vi tính 31

Nhận xét: Dựa vào tập 20 khái niệm có trọng số cao nhất theo như bảng trên, ta có thể nhận thấy các khái niệm trên có liên quan tới câu truy vấn và cũng mang nhiều thông tin khác nhau khi kết hợp với câu truy vấn ban đầu. Vì thế, hệ thống có thể hỗ trợ người dùng trong việc lựa chọn câu truy vấn ban đầu nhằm làm rõ ý nghĩa, mục đích cũng như ngữ cảnh của việc tìm kiếm của người sử dụng.

4.2.2.4. Mở rộng truy vấn

Dựa vào các khái niệm đã được xác định ở bước 3, sử dụng tập khái niệm để mở rộng cho câu truy vấn ban đầu. Như đã trình bày ở mục 3.3a cần xác định mối quan hệ giữa câu truy vấn ban đầu và câu truy vấn mở rộng sau khi thêm khái niệm. Dựa vào việc định nghĩa 4 loại khái niệm theo như đã trình bày, ta có tập truy vấn mở rộng cho truy vấn “máy tính” theo như bảng dưới

Bảng 12. Một số các câu truy vấn mở rộng cho truy vấn “máy tính” STT Loại mở rộng Câu truy vấn mở rộng Số kết quả trả về từ

Google 1 Từ đồng nghĩa Máy tính OR (laptop OR notebook)

Máy tính OR desktop PC ..

128.000.000 31.600.000

2 Từ cụ thể Máy tính AND trần anh ..

17.000.000

3 Từ khái quát Máy tính OR Máy vi tính …

27.500.000

4 Từ kết hợp Máy tính AND phần mềm Máy tính AND (lỗi OR sử dụng) Máy tính AND (sửa OR sửa chữa) ..

95.200.000 114.000.000

82.900.000

Nhận xét: Dựa theo bảng 12, ta có thể nhận thấy đối với việc mở rộng truy vấn dùng loại mở rộng là “từ đồng nghĩa” và “từ kết hợp” thì số lượng kết quả trả về của Google nhiều hơn so với “từ cụ thể” và “từ khái quát”. Vì vậy, chúng tôi lựa chọn phương án sử dụng các “Từ đồng nghĩa” và “Từ kết hợp” cho việc mở rộng truy vấn.

Ngoài ra, luận văn thực hiện thực nghiệm tương tự cho một số câu truy vấn khác, kết quả đạt được theo như bảng 13 bên dưới.

Bảng 13. Kết quả mở rộng truy vấn của một số câu truy vấn

STT Câu truy vấn Câu truy vấn mở rộng

1 Trạng lường “Trạng lường” OR “Lương Thế Vinh” “Trạng Lường” AND “Đền thờ” “Trạng Lường” AND “Giai thoại” “Trạng lường” AND “Chuyện đời” …

2 Chung cư “Chung cư” OR “liền kề” “Chung cư” OR “nhà” “Chung cư” AND “giá cả” “Chung cư” AND “mua bán” ..

Một phần của tài liệu Nghiên cứu, cải tiến phương pháp mở rộng câu hỏi và tích hợp vào hệ thống tìm kiếm thực thể tiếng Việt (Trang 35 - 44)

Tải bản đầy đủ (PDF)

(50 trang)