1. 3 Tóm tắt chương
3.2 Mở rộng truy vấn
Qua quá trình khảo sát các phương pháp mở rộng truy vấn và dựa trên điều kiện thực tế về kĩ thuật xử lý ngôn ngữ, tài nguyên ngôn ngữ học cũng như các kĩ thuật học máy phục vụ cho quá trình xử lý ngôn ngữ tiếng Việt, luận văn đề xuất phương pháp mở rộng truy vấn bằng phương pháp khai phá query log của người dùng dựa trên nghiên cứu của Bruno và cộng sự [4]. Dưới đây là nội dung của phương pháp:
Đầu vào:
- Tập câu truy vấn lấy từ tập log truy vấn tiếng Việt (bao gồm hơn 3 triệu truy vấn) của người sử dụng được thu thập bởi Google vào ngày
11/04/2009
- Câu truy vấn q của người dùng
Đầu ra: Tập các câu truy vấn mở rộng cho truy vấn ban đầu.
Phƣơng pháp thực hiện: Theo như mô hình bên dưới
Hình 8. Mô hình Mở rộng truy vấn Query log Xác định mối quan hệ giữa các truy vấn Tập luật quan hệ Xây dựng đồ thị quan hệ truy vấn Câu truy vấn Q Đồ thị mối quan hệ Xác định khái niệm Tập các khái niệm Mở rộng truy vấn Truy vấn mở rộng Cải tiến
a. Bƣớc 1: Xác định các mối quan hệ giữa các câu truy vấn
Đầu vào: Tập các truy vấn được lấy từ query log của người dùng
Đầu ra: Tập các luật giữa các câu truy vấn thể hiện mối quan hệ giữa chúng Phƣơng pháp thực hiện: Đây là bước xử lý offline, gồm 2 bước:
- Thực hiện tìm tập các truy vấn có trong 1 phiên giao dịch (session) của một ngƣời dùng dựa vào lịch sử giao dịch của ngƣời dùng.
Để xác định được các câu truy vấn có trong một phiên giao dịch, dựa vào một số định nghĩa do Bronu và cộng sự, ta định nghĩa như sau [4]:
Định nghĩa1: Một câu truy vấn trong dữ liệu query log ta quan tâm tới những
thông tin sau <qi, idi, ti, li>, trong đó:
o idi là địa chỉ IP của người sử dụng
o ti là thời gian mà câu truy vấn được người dùng gửi lên hệ thống
o qi là tập các câu truy vấn
o li là link liên kết trả về từ hệ thống
Định nghĩa2: Một phiên giao dịch của người dùng là một tập gồm các thành phần {<q1, id1, t1, l1>, <q2, id2, t2 , l2>,…., <qn, idn, tn, ln>}, trong đó id1 = id2 = … = idn và (t2 - t1) < T; (t3 – t2) < T; …; tn – tn-1 < T. Trong đó, tham số T định nghĩa là thời gian tối đa cho phép tìm kiếm giữa hai truy vấn liên tiếp trong cùng một phiên giao dịch.
- Thực hiện tìm các luật liên kết giữa các câu truy vấn
o Thông qua các phiên giao dịch tìm được ở bước 1, ta xác định được một tập các câu truy vấn có mối quan hệ với nhau nếu như chúng sắp xếp liền kề nhau và cùng xuất hiện nhiều lần trong nhiều phiên giao dịch. Tập các câu truy vấn này có mối quan hệ với nhau thì giữa chúng có các luật liên kết
o Ngoài ra, một số luật được sử dụng để xác định mối quan hệ giữa các câu truy vấn
Nếu có 2 luật được xác định như sau: Qb Qa, Qc Qa. Câu truy vấn Qb, Qc đều được sử dụng để mở rộng truy vấn cho Qa Khi có luật Qb Qa thì luật Qa Qb cũng được định nghĩa. Một câu truy vấn Qi bất kì thì cũng có luật Qi Qi
o Dựa vào một tập log các truy vấn của người dùng, ta sẽ thực hiện tìm một tập các luật liên kết giữa một số cặp câu truy vấn. Đầu ra của việc
này sẽ là một tập Ri các câu truy vấn có liên quan tới câu truy vấn Qi có trong log.
Ví dụ: Ta có log các phiên giao dịch của 3 người SS1, SS2, SS3 và tập các câu truy vấn tương ứng như bảng 2
Tương ứng với mỗi session của một người, ta có T1 = {Qa, Qb, Qc}, T2 = {Qa, Qb, Qd}, T3 = {Qa, Qb, Qe}
Ta có một tập gồm 5 câu truy vấn I = {Qa, Qb, Qc, Qd, Qe}, trongđó: Qa thường xuyên xuất hiện nhiều lần liên tiếp trong câu truy vấn Qb. trong nhiều phiên giao dịch của người dùng. Ta sẽ có luật: Qb Qa , hay Qb có liên quan tới Qa hay Qa
được mở rộng truy vấn nhờ vào Qb
Bảng 2. Tập câu truy vấn và session
b. Bƣớc 2: Xây dựng đồ thị thể hiện mối quan hệ giữa các câu truy vấn
Đầu vào:
- Các luật liên kết thể hiện mối quan hệ giữa các truy vấn được xác định ở bước 1
- Câu truy vấn q của người dùng
Đầu ra: Đồ thị thể hiện mối quan hệ giữa câu truy vấn Qa và các câu truy vấn có liên quan
Phƣơng pháp thực hiện:
- Với câu truy vấn q ban đầu của người dùng, ta thực hiện tìm một câu truy vấn Qa trong tập query log có chứa chính xác các từ có trong với câu truy vấn hiện tại của người dùng nhập vào hệ thống
- Với câu truy vấn Qa được xác định, thực hiện tìm tất cả các câu truy vấn có liên quan thông qua các luật đã được xây dựng ở bước 1, ta thu được một tập Ra chứa các câu truy vấn có liên quan tới Qa
o Ngoài những câu truy vấn có liên quan trực tiếp thông qua các luật liên kết đã được xác định, các câu truy vấn gián tiếp cũng được lấy, cụ thể:
Query log SS1 Qa Qb Qc SS2 Qa Qb Qd SS3 Qa Qb Qe
Khi ta có tập luật được xác định như sau: Qc Qb, Qb Qa thì Qc cũng được xem là một câu truy vấn có liên quan tới câu truy vấn Qa
o Thông qua các mối quan hệ giữa Qi, Qj hay tập luật Qi Qj (Với mọi Qi, Qj thuộc Ra) đã được xác định, thực hiện xây dựng đồ thị khái niệm cho câu truy vấn Qa, đồ thị được xây dựng như sau:
Qi, Qj là các đỉnh kề trong đồ thị Ga
Mối quan hệ Qi Qj là cạnh của đồ thị trong Ga
c. Bƣớc 3: Xác định các khái niệm
Đầu vào: Đồ thị mối quan hệ giữa câu truy vấn Qa.
Đầu ra: Các khái niệm có trong đồ thị quan hệ truy vấn được xác định ở bước 2
Phƣơng pháp thực hiện:
Dựa vào đồ thị quan hệ truy vấn Ga cho câu truy vấn Qa đã được xây dựng, thực hiện xác định các khái niệm liên quan tới câu truy vấn ban đầu.
Định nghĩa 3: Một tập các khái niệm Cj là tập hợp các nút của Ga, bắt đầu từ nút Qi Cj, thực hiện tìm tất cả các nút trong Cj và quay về Qi (không thực hiện thăm lần hai). Lưu ý, sẽ không có tập khái niệm C’ mà C C’
Các khái niệm có đặc điểm như sau:
o Các khái niệm được lấy ra là những khái niệm (sau khi đã loại bỏ từ dừng) kết hợp với câu truy vấn Qa có chứa trong tập các câu truy vấn o Các khái niệm này là riêng biệt.
o Các khái niệm có trọng số tương ứng. Trọng số này là tần số xuất hiện của các khái niệm hay của câu truy vấn chứa nó có trong query log. o Một khái niệm chỉ ra một nhóm các câu truy vấn có liên quan khi xuất
hiện nhiều lần cùng nhau
d. Bƣớc 4: Mở rộng truy vấn
Đầu vào: Các khái niệm có liên quan tới câu truy vấn đã xác định ở bước 3 Đầu ra: Các câu truy vấn mở rộng
Phƣơng pháp thực hiện:
- Sau khi xác định được một tập các khái niệm có liên quan tới câu truy vấn của người dùng, chúng ta cần xác định các khái niệm nào là tốt nhất để thực hiện hỗ trợ mở rộng truy vấn nhằm đem lại kết quả tốt nhất cho người dùng. Để thực hiện việc này, ta thực hiện đánh trọng số cho các khái niệm.
o Trọng số của các khái niệm được xác định chính bằng tần suất xuất hiện của các câu truy vấn có mối quan hệ với nhau trong query log.
- Khi thực hiện lựa chọn một khái niệm để thêm vào câu truy vấn ban đầu nhằm xây dựng câu truy vấn mở rộng, ta cần xác định được khái niệm mới thêm vào sẽ ảnh hưởng tới mối quan hệ giữa câu truy vấn ban đầu và câu truy vấn mở rộng như thế nào. Để phân loại các khái niệm được sử dụng cho việc mở rộng, dựa theo nghiên cứu của Bruno và các cộng sự thì các khái niệm được phân thành 4 loại là: Từ đồng nghĩa, Từ mang nghĩa cụ thể, Từ mang nghĩa khái quát và Từ kết hợp.
o Từ đồng nghĩa: Các khái niệm mô tả về mối quan hệ đồng nghĩa. Ví dụ: Câu truy vấn “máy tính”, khái niệm mới là “máy tính xách tay”. Trong trường hợp này, câu truy vấn mở rộng có dạng:
“máy tính” OR “laptop”
o Từ mang nghĩa cụ thể: Các khái niệm mô tả cụ thể về mặt ngữ nghĩa cho một câu truy vấn thông thường
Ví dụ: Câu truy vấn là “Chủ tịch Hồ Chí Minh” và khái niệm “Nguyễn Ái Quốc” thì câu truy vấn mở rộng phải là :
“Chủ tịch Hồ Chí Minh” AND “Nguyễn Ái Quốc”
o Từ mang nghĩa khái quát: Một khái niệm mô tả mang nghĩa chung chung cho một câu truy vấn thông thường.
Ví dụ: Câu truy vấn Jaguar và khái niệm “Formula One”. Câu truy vấn mở rộng: “chung cƣ” OR “bất động sản”.
o Từ mang nghĩa kết hợp: Khái niệm mô tả việc kết hợp về ngữ nghĩa cho một câu truy vấn thông thường
Ví dụ: câu truy vấn “tour du lịch” và khái niệm “biển, núi”, câu truy vấn mở rộng là: “tour du lịch AND (biển OR núi)”
e. Bƣớc 5: Cải tiến
Đầu vào: Tập query log của người dùng
Đầu ra: Mối quan hệ giữa các câu truy vấn được thể hiện thông qua luật liên kết
Phƣơng pháp thực hiện:
- Dựa vào tập query log ta thấy cấu trúc của một câu query bao gồm nhiều thành phần, luận văn thực hiện khai thác một thành phần có chứa trong log của tập truy vấn là link liên kết tới kết quả khi tìm kiếm một câu truy vấn
Định nghĩa 4: Hai câu truy vấn cùng trỏ tới một đường link kết quả thì hai
câu này có mối quan hệ với nhau hay nói cách khái giữa hai câu này có một luật liên kết được sinh ra
Ví dụ: Ta có 2 câu truy vấn:
Q1: \"siêu thị máy tính\" http://www.trananh.vn/ Q2: \"máy tính trần anh\” http://www.trananh.vn/
Hai câu truy vấn trên đều có một liên kết với link http://www.trananh.vn/, suy ra hai câu trên có mối quan hệ với nhau hay có luật Q1 Q2 (nếu Q2 là câu truy vấn có trong đồ thị, Q1 là câu truy vấn cùng link kết quả hoặc ngược lại)