Mô hình thực nghiệm phân tích câu hỏi sử dụng mẫu- 123docz.net

Trong [6], chúng tôi xây dựng một hệ thống hỏi đáp dựa trên việc trích rút các mẫu quan hệ ngữ nghĩa, áp dụng cho lĩnh vực du lịch. Mục tiêu của hệ thống là trả lời các câu hỏi dạng đơn giản, liên quan đến quan hệ ngữ nghĩa hai ngôi, ví dụ như “Hội lim tổ chức

ở đâu?” (quan hệ LỄ HỘI – tổ chức ở - ĐỊA ĐIỂM), “Hà tây có chùa gì ?” (quan hệ

CHÙA- ở - ĐỊA ĐIỂM),…. Dựa vào việc khảo sát dữ liệu thực tế, chúng tôi liệt kê 85 mối quan hệ được quan tâm nhiều nhất trong ngành du lịch, ví dụ: lễ hội – địa điểm, bãi biển – địa điểm, đặc sản – địa điểm, núi – chiều cao,… Bước đầu chúng tôi tiến hành thực

Hình 11. Mô hình hệ thống hỏi đáp tiếng Việt sử dụng trích xuất mẫu quan hệ

Hệ thống gồm hai pha chính:

Trích rút mẫu tổng quát và sinh seed mới:

Pha này được tiến hành offline, mục đích là tạo ra cơ sở dữ liệu về mẫu và seed phục vụ cho pha phân tích câu hỏi và trích xuất câu trả lời sau này. Phương pháp được sử

dụng là Snowball kết hợp với việc sử dụng máy tìm kiếm Google để khai thác thông tin sẵn có trên Internet (xem chi tiết trong [6])

Pha phân tích câu hỏi và trích xuất câu trả lời (Hình 12):

Pha này sử dụng cơ sở dữ liệu mẫu và seed được sinh ra trong pha trước để phân tích câu hỏi và trích xuất câu trả lời. Bước phân tích câu hỏi có nhiệm vụ xác định tên thực thể và quan hệ mà câu hỏi đang hướng tới. Bước trích xuất câu trả lời chỉ đơn giản là truy vấn cơ sở dữ liệu (dựa trên đầu ra của bước phân tích câu hỏi).

Câu

hỏi Phân tích câu hxuất câu trỏải và trích lời Câu trlời ả

Trích xuất mẫu tổng quát và seed

Hình 12. Mô hình xử lý cho pha phân tích câu hỏi và trích xuất câu trả lời

Pha phân tích câu hỏi bao gồm các bước chính sau đây:

Ví dụ với câu hỏi: Nam Định có những bãi biển gì?

Bước 1: Nhận dạng thực thể trong câu hỏi dựa trên cơ sở dữ liệu.

Sử dụng phương pháp so khớp tất cả các chuỗi con của câu hỏi với các thành phần trong tập seed (tập dữ liệu quan hệ) để tìm ra tập S các seed có chứa thực thể của câu hỏi. Dựa vào các seed này, xác định tập R các quan hệ tương ứng và tập P các mẫu trả lời tiềm năng. Ví dụ với câu hỏi trên, thực thể nhận dạng được là Nam Định với nhãn TỈNH- THANH PHỐ.

Từđó hệ thống xác định được một tập seed S có chứa một thành phần là Nam Định

(Bảng 8).

Bảng 8. Tập seed tìm được cùng với mối quan hệ tương ứng

Mối quan hệ Thành phần thứ nhất

của seed

Thành phần thứ hai của seed

Bãi biển – Địa điểm Quất Lâm Nam Định

Bãi biển – Địa điểm Hải Thịnh Nam Định Câu

trả lời Câu

hỏi Phân tích câu hỏi Trích rút câu trả lời Cơ sở dữ liệu mẫu và seed

Tên thực thể

Tập các mối quan hệ có thể là {Bãi biển-Địa điểm, Lễ hội-Địa điểm} (Bảng 9).

Bảng 9. Tập quan hệ cùng các mẫu tương ứng

Mối quan hệ Mẫu tổng quát

Bãi biển – Địa điểm <BÃI BIỂN> bãi_biển thuộc <ĐỊA ĐIỂM>

Bãi biển – Địa điểm <ĐỊA ĐIỂM> có bãi_biển <BÃI BIỂN>

Bãi biển – Địa điểm … Lễ hội – Địa điểm <LỄ HỘI> khai_mạc tại <ĐỊA ĐIỂM> Lễ hội – Địa điểm Hằng năm <ĐỊA ĐIỂM> tổ_chức lễ_hội <LỄ HỘI> Lễ hội – Địa điểm … … ….

Bước 2: Biểu diễn câu hỏi (đã loại bỏ từ dừng và tách từ bằng công cụ JVnTextPro) dưới dạng vector từ có trọng số. Vector câu hỏi có dạng: <có 1, những 1, bãi_biển 1>

Bước 3: Tính độ tương đồng giữa vector câu hỏi với các mẫu tiềm năng trong P sử dụng

độđo Cosin. Chọn mẫu p có độ tương đồng Simp cao nhất với câu hỏi. Hệ thống sử dụng một ngưỡng µ- độ tương đồng thấp nhất giữa câu hỏi và mẫu. Nếu Simp < µ thì hệ thống không đưa ra câu trả lời (do độ tin cậy quá thấp). Nếu Simp > µ thì quan hệ r mà mẫu p

thuộc vào là quan hệ mà câu hỏi đang hướng tới.

Độđo cosin giữa hai vector s1và s2 là:

Trong ví dụ trên mẫu có độ tương đồng cao nhất với vector câu hỏi là:

<ĐỊA ĐIỂM> có bãi_biển <BÃI BIỂN>

Như vậy, qua ba bước trên, pha phân tích câu hỏi tìm ra được tên thực thểTỈNH-THÀNH PHỐ là Nam Định trong mối quan hệ Lễ hội-Địa điểm. Từ hai thông tin này cũng biết

được rằng câu hỏi đang hỏi vềLễ hội.

Việc còn lại của pha trích xuất câu trả lời là truy vấn cơ sở dữ liệu để đưa ra các Lễ hội

|| || . || || . 2 1 2 1 s s s s Ss =

Mô hình thực nghiệm phân tích câu hỏi sử dụng mẫu quan hệ

Câu hỏi đơn giản (factual-base)