Một phương pháp khác hay được sử dụng để xác định loại câu hỏi là dựa trên tập mẫu. Yếu tố quyết định hiệu quả của phương pháp này là cần có một tập mẫu tốt, có khả
năng bao quát được các trường hợp đa dạng của câu hỏi.
Ý tưởng chính của hướng tiếp cận này là “ Trong nhiều trường hợp, câu trả lời và câu hỏi thường có sự tương đồng khá lớn, nhiều khi câu trả lời là sự sắp xếp lại các từ
khóa trong câu hỏi”. Ví dụ như câu hỏi “ X là gì” thì câu trả lời thường có dạng “X là Y”. Một thông tin trong ngôn ngữ tự nhiên có thể được diễn đạt theo nhiều cách khác nhau. Vì vậy nếu chúng ta có thể sử dụng nguồn dữ liệu phong phú, đa dạng, dư thừa và nhiều trùng lặp trên Web để học ra các mẫu trả lời của một loại câu hỏi thì khả năng tập mẫu này bao phủđược các trường hợp của câu hỏi là cao. Khó khăn của phương pháp này là cần có một cơ chếđánh giá độ tin cậy của các mẫu sinh ra một cách hợp lý, tuy nhiên việc cài đặt là khá dễ dàng và chỉ tốn ít công sức làm dữ liệu mồi cho quá trình học boostraping.
Phương pháp Snowball [7] là một phương pháp học boostraping dựa trên ý tưởng của phương pháp DIPRE [11] dùng để trích ra các mẫu quan hệ và tập dữ liệu cho một quan hệ từ một tập hạt giống nhỏ ban đầu. Bài toán mà Snowball giải quết được phát biểu ngắn gọn như sau: Cho một mối quan hệ (ví dụ <ORGANIZATION, LOCATION> - “tổ
chức A có trụ sở tại địa điểm B” ) và một số thể hiện của quan hệđó, gọi là tập hạt giống – seed.
Ví dụ:
Nhiệm vụđặt ra là: Tìm các mẫu quan hệ biểu diễn mỗi quan hệ này, sau đó sử dụng các mẫu này để tựđộng tìm ra các thể hiện khác của quan hệ. Kết quả là một cơ sở dữ liệu lớn các thể hiện của quan hệđược sinh ra từ tập hạt giống nhỏ ban đầu.
MICROSOFT REDMOND
IBM ARMONK BOEING SEATTLE INTEL SANTA CLARA
Hình 10. Mô hình Snowball
Hình 10 mô tả vòng lặp hoạt động của Snowball, trong đó hai bước sinh mẫu và sinh seed mới là quan trọng nhất. Vòng lặp này kết thúc khi lượng seed sinh ra đủ lớn hoặc không tìm thêm được seed mới. Snowball biểu diễn các mẫu quan hệ dưới dạng các vector từ có trọng số. Vì vậy mẫu sẽ có khả năng khái quát cao, dễ dàng nhận bắt được các biến thể đa dạng của mẫu. Đồng thời Snowball cũng đưa ra phương pháp tìm kiếm, trích chọn và đánh giá độ tin cậy của seed mới và mẫu mới được sinh ra. Từ đó có thể
trích rút ra được một bảng dữ liệu lớn với độ tin cậy từ tập seed mồi ban đầu rất nhỏ. Trong chương 4, chúng tôi có tiến hành thực nghiệm việc phân tích câu hỏi dựa trên tập mẫu (được học bằng phương pháp Snowball) và tích hợp vào hệ thống hỏi đáp tiếng Việt, bước đầu cho kết quả khá tốt.
Tag Entities Seed Tuples Find Occurrences of Seed Tuples
Generate New Seed Tuples
Generate Extraction Patterns Augment Tables
Chương 4. Thực nghiệm phân tích câu hỏi tiếng Việt
Chương này tiến hành thực nghiệm phân tích câu hỏi trên hai loại hệ thống hỏi đáp khác nhau. Với hệ thống hỏi đáp miền mở, chúng tôi xây dựng bộ phân lớp câu hỏi sử
dụng học máy thống kê. Chúng tôi thử nghiệm với hai thuật toán SVM và MEM, đồng thời thử nghiệm với các đặc trưng khác nhau của câu hỏi để tìm ra phương án lựa chọn phù hợp nhất cho phân lớp câu hỏi tiếng Việt. Với hệ thống hỏi đáp miền đóng (miền du lịch), chúng tôi thực nghiệm việc phân tích câu hỏi dựa trên việc trích rút các mẫu quan hệ ngữ nghĩa.