Phân loại câu hỏi sử dụng các thuật toán học máy

Một phần của tài liệu phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt (Trang 27 - 29)

Sử dụng các thuật toán học máy [24] như SVM (Support Vector Machine) [37], hoặc

nguyên lý Entropy cực đại [16][41],… thuận lợi hơn các phương pháp thủ công vì

nhiều nguyên nhân. Xây dưng bộ phân loại thủ công cho các câu hỏi là một nhiệm vụ thiếu hấp dẫn vì yêu cầu phân tích một số lượng rất lớn các câu hỏi. Hơn nữa ánh xạ các câu hỏi tới các lớp yêu cầu sử dụng các phần tử từ vựng (các từ đặc biệt) vì thế một mô hình hóa của ánh xạ có thể sẽ rất lớn.

Trong khi đó, phương pháp sử dụng các thuật toán học có thể chỉ cần một số lượng nhỏ các loại đặc trưng sau đó được mở rộng theo phương pháp hướng dữ liệu để có khả năng thực hiện trên một lượng lớn các đặc trưng. Ngoài ra, một hệ thống phân lớp sử dụng thuật toán học máy thì mềm dẻo và dễ tái sử dụng lại hơn một bộ phân lớp thủ công bởi vì nó có thể được huấn luyện theo một nguyên tắc phân loại mới chỉ trong thời gian ngắn.

Sự khó khăn trong một bộ phân lớp thủ công là xem xét các biểu diễn khác nhau của cùng một câu hỏi. Ví dụ:

Ai là sinh viên của lớp khoa học máy tính? Lớp khoa học máy tính có những sinh viên nào? Những sinh viên của lớp khoa học máy tính là ai? Ai học lớp khoa học máy tính?

Các từ khác nhau, các cấu trúc cú pháp khác nhau có thể tạo khó khăn cho một bộ phân lớp thủ công dựa trên một tập nhỏ các luật để sinh ra tất cả các ánh xạ cho cùng một loại câu trả lời.

Mặc dù cần dữ liệu huấn luyện và cách chọn đặc trưng, nhưng với các thuật toán học tốt và các đặc trưng thích hợp, có thể không bị ảnh hưởng bởi số lượng lớn các đặc trưng ẩn, sẽ phân lớp chính xác các ví dụ nêu trên.

17

Các đặc trưng từ vựng biểu diễn các từ của một câu hỏi được xem như là một đặc trưng. Các đặc trưng từ vựng bao gồm: các từ thô, các từ viết thường, các từ gốc (trong tiến Anh là các từ được loại bỏ hậu tố) và từ được bổ ngữ.

Sử dụng n-gram bên trong một đặc trưng.

Hai từ đầu tiên hoặc cụm danh từ đầu tiên của câu hỏi được biểu diễn như là một đặc trưng.

Các đặc trưng cú pháp biểu diễn các khía cạnh cú pháp của một câu hỏi gồm có: các nhãn từ loại, hoặc cấu trúc cụm cú pháp không đệ quy (non-recursive

grammatical phrase structure).

Các thực thể có tên (Named Entity).

Danh sách các từ liên quan đến nhau về mặt ngữ nghĩa (Sematically Related Words

hay SRW) [18][19].

Hệ thống phân loại áp dụng thuật toán học sử dụng (một hoặc nhiều trong) các đặc trưng nêu trên để tạo ra một mô hình phân loại dựa trên các câu hỏi mẫu dùng để huấn luyện. Sau đó, sử dụng mô hình phân loại để đưa ra lớp tương ứng của một câu hỏi mới.

18

Một phần của tài liệu phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt (Trang 27 - 29)