4.1. Phương pháp phân lớp sử dụng học máy thống kê
Có hai hƣớng tiếp cận đƣợc sử dụng rộng rãi trong việc phân lớp câu hỏi đó là hƣớng tiếp cận dựa trên luật (rule-base approach) và hƣớng tiếp cận dựa trên xác suất thống kê.
Hƣớng tiếp cận dựa trên luật:
Hƣớng tiếp cận này yêu cầu phải có các chuyên gia ngôn ngữ cung cấp các luật, các biểu thức chính quy (regural expression), các từ khóa cho từng lớp câu hỏi… để hệ thống hoạt động.
Các hạn chế của hƣớng tiếp cận này :
Xây dựng mô hình cho phƣơng pháp này rất tốn thời gian và công sức, cần có sự cộng tác của những chuyên gia trong lĩnh vực ngôn ngữ học khi xây dựng các mẫu câu hỏi và văn phạm cho từng loại câu hỏi đó.
Các luật ngữ pháp viết tay và văn phạm của từng loại câu hỏi rất cứng nhắc, không linh động. Khi một dạng câu hỏi mới xuất hiện, mô hình theo hƣớng này không thể xử lý. Muốn xử lý đƣợc mô hình cần phải đƣợc cung cấp những luật mới.
Vấn đề nhập nhằng của các văn phạm ngữ pháp rất khó xử lý, kiểm soát và phụ thuộc vào đặc điểm của từng ngôn ngữ.
Khi tập câu trả lời đƣợc mở rộng hoặc thay đổi kéo theo việc phải viết lại hoàn toàn các luật trƣớc đó nên hệ thống rất khó mở rộng.
Hƣớng tiếp cận dựa trên xác suất thống kê:
Phương pháp học máy: Sử dụng một tập đủ lớn các câu hỏi đã đƣợc gán nhãn lớp để huấn luyện một mô hình có thể tự động nắm bắt đƣợc các mẫu có ích trong việc phân lớp câu hỏi. Cụ thể hơn, các thuật toán của hƣớng tiếp cận này sẽ tính toán xác suất phân lớp cho câu hỏi dựa trên những đặc trƣng hay những mối quan hệ của các từ trong câu hỏi đƣa vào. Các thuật toán thƣờng đƣợc sử dụng là
26
Support Vector Machines (SVM), láng giềng gần nhất (Near Neighbors – kNN), Naive Bayes (NB), Entropy cực đại, …
Phương pháp sử dụng mô hình ngôn ngữ: Xây dựng một mô hình ngôn ngữ thống kê để ƣớc lƣợng đƣợc phân phối của ngôn ngữ tự nhiên chính xác nhất có thể. Cụ thể với bài toán phân lớp câu hỏi là việc ƣớc lƣợng xác suất có điều kiện p(a|b) của “loại câu hỏi” a xuất hiện trong “ngữ cảnh” câu hỏi tự nhiên b. Bài toán đặt ra là chúng ta phải tìm một phƣơng pháp ƣớc lƣợng (có thể tin tƣởng đƣợc) mô hình xác suất có điều kiện p(a|b).
4.2. Phương pháp phân tích câu hỏi bằng cách xử lí ngôn ngữ tự nhiên
Các bƣớc tiến hành:
Câu hỏi đƣợc phân tích ngữ pháp và biểu diễn dƣới dạng cây cú pháp.
Các nút lá của cây đƣợc gán nhãn là các từ tƣơng ứng và đƣợc chia làm hai loại: non-skip và skip. Các lá non-skip là lá mà nhãn là danh từ, động từ, tính từ, trạng từ. Các lá còn lại thuộc loại skip.
Duyệt cây theo thứ tự bottom-up, gán nhãn cho các nút cha theo nhãn của các nút con non-skip dựa theo các luật xác định. Một luật căn cứ vào nhãn ngữ pháp của nút cha để chọn ra một nút con thích hợp và lan truyền nhãn của nút con này lên mức kế tiếp của cây. Nút con đƣợc chọn đƣợc coi là nút có mối liên hệ với các nút anh em nonskip khác. Quá trình lan truyền đƣợc thực hiện cho đến khi gốc của cây cú pháp đƣợc gán nhãn. Một đồ thị ngữ nghĩa cũng đƣợc tạo ra trong khi quá trình lan truyền nhãn và từ có số lƣợng mối liên hệ nhiều nhất với các từ khác đƣợc xem là từ trọng tâm (focus word).
Để xác định loại câu hỏi, ngƣời ta sử dụng một cây phân cấp các loại câu hỏi dựa trên Wordnet. Loại câu hỏi là các nút cha (hypermym) của từ trọng tâm trong WordNet.
27
Hình 4. Xác định loại câu hỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên
Ƣu điểm:
-Rất mạnh mẽ, có thể xử lý đƣợc nhiều loại câu hỏi khác nhau. Dễ dàng mở rộng các lớp do chỉ cần thêm các nhãn lớp vào trong tập synset của WordNet.
Nhƣợc điểm:
-Việc ánh xạ từ loại câu hỏi vào các tập từ của WordNet phải làm hoàn toàn bằng tay.
- Không có cơ chế khử nhập nhằng ngữ nghĩa của từ, nếu từ trọng tâm có nhiều nghĩa trong WordNet thì sẽ chọn tập synset nào đại diện cho loại câu hỏi ?
- Chƣa xử lý với trƣờng hợp từ trọng tâm không có trong WordNet. - Phải cần tới các công cụ xử lý và các nguồn tài nguyên ngôn ngữ.
28
4.3. Phương pháp xác định loại câu hỏi sử dụng mẫu quan hệ
Một phƣơng pháp khác hay đƣợc sử dụng để xác định loại câu hỏi là dựa trên tập mẫu. Yếu tố quyết định hiệu quả của phƣơng pháp này là cần có một tập mẫu tốt, có khả năng bao quát đƣợc các trƣờng hợp đa dạng của câu hỏi.
Ý tƣởng chính của hƣớng tiếp cận này là “Trong nhiều trƣờng hợp, câu trả lời và câu hỏi thƣờng có sự tƣơng đồng khá lớn, nhiều khi câu trả lời là sự sắp xếp lại các từ khóa trong câu hỏi”. Ví dụ nhƣ câu hỏi “ X là gì” thì câu trả lời thƣờng có dạng “X là Y”.
Một thông tin trong ngôn ngữ tự nhiên có thể đƣợc diễn đạt theo nhiều cách khác nhau. Vì vậy nếu chúng ta có thể sử dụng nguồn dữ liệu phong phú, đa dạng, dƣ thừa và nhiều trùng lặp trên Web để học ra các mẫu trả lời của một loại câu hỏi thì khả năng tập mẫu này bao phủ đƣợc các trƣờng hợp của câu hỏi là cao. Khó khăn của phƣơng pháp này là cần có một cơ chế đánh giá độ tin cậy của các mẫu sinh ra một cách hợp lý, tuy nhiên việc cài đặt là khá dễ dàng và chỉ tốn ít công sức làm dữ liệu mồi cho quá trình học boostraping.
Phƣơng pháp Snowball là một phƣơng pháp học boostraping dựa trên ý tƣởng của phƣơng pháp DIPRE dùng để trích ra các mẫu quan hệ và tập dữ liệu cho một quan hệ từ một tập hạt giống nhỏ ban đầu. Bài toán mà Snowball giải quết được phát biểu ngắn gọn như sau: Cho một mối quan hệ (ví dụ <ORGANIZATION, LOCATION> - “tổ chức A có trụ sở tại địa điểm B” ) và một số thể hiện của quan hệ đó, gọi là tập hạt giống– seed.
Ví dụ:
MICROSOFT REDMOND
IBM ARMONK
BOEING SEATTLE
29
Nhiệm vụ đặt ra là: Tìm các mẫu quan hệ biểu diễn mối quan hệ này, sau đó sử dụng các mẫu này để tự động tìm ra các thể hiện khác của quan hệ. Kết quả là một cơ sở dữ liệu lớn các thể hiện của quan hệ được sinh ra từ tập hạt giống nhỏ ban đầu.
30
CHƢƠNG 3. NGHIÊN CỨU CÁC KỸ THUẬT TRÍCH RÚT THÔNG TIN DỰA TRÊN QUAN HỆ NGỮ NGHĨA