Phân lớp câu hỏi sử dụng học máy thống kê hiện đang nhận đƣợc sự chú ý của nhiều nhà nghiên cứu [2,1]. Li và Roth xây dựng một bộ phân lớp câu hỏi phân cấp dựa trên một taxonomy câu hỏi 2 cấp thể hiện sự phân lớp ngữ nghĩa tự nhiên của câu trả lời [1]. Cấu trúc phân cấp bao gồm 6 lớp câu hỏi thô (coarse class) là ABBREVIATION (viết tắt), ENTITY (thực thể), DESCRIPTION (mô tả), HUMAN (con ngƣời), LOCATION (địa điểm) và NUMERIC VALUE (giá trị số). Mỗi lớp câu hỏi thô lại đƣợc phân chia thành các lớp mịn (fine class). Taxonomy câu hỏi của Li và Roth đã đƣợc trình bày chi tiết ở phần 1.2.2 trong Bảng 1.1.
Theo Li và Roth thì phân lớp câu hỏi có tính nhập nhằng, tức là một câu hỏi có thể đƣợc phân vào nhiều lớp do không có một ranh giới rõ ràng nào giữa các lớp. Ví dụ câu hỏi “Sử tử ăn gì ?” có thể đƣợc phân vào lớp food (thức ăn), animal (động vật)
hay câu hỏi “Đại học Công Nghệ ở đâu ?” có thể đƣợc phân vào lớp country (đất
nước), state (tỉnh)…Vì vậy bộ phân lớp thô sẽ cho đầu ra là một số nhãn lớp thô (phân
lớp đa nhãn). Câu hỏi lần lƣợt đƣợc cho qua hai bộ phân lớp Coarse_Classifier và
Hình 2.3. Mô hình bộ phân lớp đa cấp của Li và Roth
Theo Hình 2.3, câu hỏi ban đầu đƣợc phân lớp bởi bộ phân lớp thô
Coarse_Classifier cho ra một tập các lớp thô.
C1 = Coarse_Classifier(C) = { c1,c2,…cn}
với |C1| <= 5, |C| = 6,
C = {abbreviation, entity, description, human, location, numeric value}
Sau đó các nhãn của lớp thô c1,..cn đƣợc mở rộng bởi các nhãn lớp mịn (lớp con) tƣơng ứng. Cụ thể hơn, mỗi nhãn thô ci đƣợc ánh xạ vào một tập nhãn lớp mịn theo taxonomy phân cấp, Fci = { fi1,fi2,….fin} và đƣợc tổng hợp lại thành C2= U Fci
Bộ phân lớp mịn Fine_Classifier sẽ xác định tập các nhãn lớp mịn
C3 = Fine_Classifier(C2) với |C3| <= 5.
Kết quả đầu ra là hợp của C1và C3 đƣợc sử dụng cho quá trình tìm câu trả lời.