Trong [6], chúng tôi xây dựng một hệ thống hỏi đáp dựa trên việc trích rút các mẫu quan hệ ngữ nghĩa, áp dụng cho lĩnh vực du lịch. Mục tiêu của hệ thống là trả lời các câu hỏi dạng đơn giản, liên quan đến quan hệ ngữ nghĩa hai ngôi, ví dụ như “Hội lim tổ chức
ở đâu?” (quan hệ LỄ HỘI – tổ chức ở - ĐỊA ĐIỂM), “Hà tây có chùa gì ?” (quan hệ
CHÙA- ở - ĐỊA ĐIỂM),…. Dựa vào việc khảo sát dữ liệu thực tế, chúng tôi liệt kê 85 mối quan hệ được quan tâm nhiều nhất trong ngành du lịch, ví dụ: lễ hội – địa điểm, bãi biển – địa điểm, đặc sản – địa điểm, núi – chiều cao,… Bước đầu chúng tôi tiến hành thực
Hình 11. Mô hình hệ thống hỏi đáp tiếng Việt sử dụng trích xuất mẫu quan hệ
Hệ thống gồm hai pha chính:
Trích rút mẫu tổng quát và sinh seed mới:
Pha này được tiến hành offline, mục đích là tạo ra cơ sở dữ liệu về mẫu và seed phục vụ cho pha phân tích câu hỏi và trích xuất câu trả lời sau này. Phương pháp được sử
dụng là Snowball kết hợp với việc sử dụng máy tìm kiếm Google để khai thác thông tin sẵn có trên Internet (xem chi tiết trong [6])
Pha phân tích câu hỏi và trích xuất câu trả lời (Hình 12):
Pha này sử dụng cơ sở dữ liệu mẫu và seed được sinh ra trong pha trước để phân tích câu hỏi và trích xuất câu trả lời. Bước phân tích câu hỏi có nhiệm vụ xác định tên thực thể và quan hệ mà câu hỏi đang hướng tới. Bước trích xuất câu trả lời chỉ đơn giản là truy vấn cơ sở dữ liệu (dựa trên đầu ra của bước phân tích câu hỏi).
Câu
hỏi Phân tích câu hxuất câu trỏải và trích lời Câu trlời ả
Trích xuất mẫu tổng quát và seed
Hình 12. Mô hình xử lý cho pha phân tích câu hỏi và trích xuất câu trả lời
Pha phân tích câu hỏi bao gồm các bước chính sau đây:
Ví dụ với câu hỏi: Nam Định có những bãi biển gì?
Bước 1: Nhận dạng thực thể trong câu hỏi dựa trên cơ sở dữ liệu.
Sử dụng phương pháp so khớp tất cả các chuỗi con của câu hỏi với các thành phần trong tập seed (tập dữ liệu quan hệ) để tìm ra tập S các seed có chứa thực thể của câu hỏi. Dựa vào các seed này, xác định tập R các quan hệ tương ứng và tập P các mẫu trả lời tiềm năng. Ví dụ với câu hỏi trên, thực thể nhận dạng được là Nam Định với nhãn TỈNH- THANH PHỐ.
Từđó hệ thống xác định được một tập seed S có chứa một thành phần là Nam Định
(Bảng 8).
Bảng 8. Tập seed tìm được cùng với mối quan hệ tương ứng
Mối quan hệ Thành phần thứ nhất
của seed
Thành phần thứ hai của seed
Bãi biển – Địa điểm Quất Lâm Nam Định
Bãi biển – Địa điểm Hải Thịnh Nam Định Câu
trả lời Câu
hỏi Phân tích câu hỏi Trích rút câu trả lời Cơ sở dữ liệu mẫu và seed
Tên thực thể
Tập các mối quan hệ có thể là {Bãi biển-Địa điểm, Lễ hội-Địa điểm} (Bảng 9).
Bảng 9. Tập quan hệ cùng các mẫu tương ứng
Mối quan hệ Mẫu tổng quát
Bãi biển – Địa điểm <BÃI BIỂN> bãi_biển thuộc <ĐỊA ĐIỂM>
Bãi biển – Địa điểm <ĐỊA ĐIỂM> có bãi_biển <BÃI BIỂN>
Bãi biển – Địa điểm … Lễ hội – Địa điểm <LỄ HỘI> khai_mạc tại <ĐỊA ĐIỂM> Lễ hội – Địa điểm Hằng năm <ĐỊA ĐIỂM> tổ_chức lễ_hội <LỄ HỘI> Lễ hội – Địa điểm … … ….
Bước 2: Biểu diễn câu hỏi (đã loại bỏ từ dừng và tách từ bằng công cụ JVnTextPro) dưới dạng vector từ có trọng số. Vector câu hỏi có dạng: <có 1, những 1, bãi_biển 1>
Bước 3: Tính độ tương đồng giữa vector câu hỏi với các mẫu tiềm năng trong P sử dụng
độ đo Cosin. Chọn mẫu p có độ tương đồng Simp cao nhất với câu hỏi. Hệ thống sử dụng một ngưỡng µ- độ tương đồng thấp nhất giữa câu hỏi và mẫu. Nếu Simp < µ thì hệ thống không đưa ra câu trả lời (do độ tin cậy quá thấp). Nếu Simp > µ thì quan hệ r mà mẫu p
thuộc vào là quan hệ mà câu hỏi đang hướng tới.
Độđo cosin giữa hai vector s1và s2 là:
Trong ví dụ trên mẫu có độ tương đồng cao nhất với vector câu hỏi là:
<ĐỊA ĐIỂM> có bãi_biển <BÃI BIỂN>
Như vậy, qua ba bước trên, pha phân tích câu hỏi tìm ra được tên thực thểTỈNH-THÀNH PHỐ là Nam Định trong mối quan hệ Lễ hội-Địa điểm. Từ hai thông tin này cũng biết
được rằng câu hỏi đang hỏi vềLễ hội.
Việc còn lại của pha trích xuất câu trả lời là truy vấn cơ sở dữ liệu để đưa ra các Lễ hội
|| || . || || . 2 1 2 1 s s s s Ss =