Bài tốn phân lớp câu hỏi cũng cĩ thể coi là bài tốn phân lớp văn bản, trong đĩ mỗi câu hỏi được xem là một văn bản. Tuy nhiên phân lớp câu hỏi cĩ một số đặc trưng riêng so với phân lớp văn bản:
- Số lượng từ trong một câu hỏi ít hơn nhiều trong một văn bản, do đĩ dữ liệu câu hỏi là rất rời rạc. Việc biểu diễn câu hỏi theo tần suất từ (TF, IDF) hầu như khơng tăng hiệu quả phân lớp vì các từ thường chỉ xuất hiện một lần trong câu hỏi.
- Các từ dừng trong phân lớp văn bản là quan trọng với phân lớp câu hỏi.
- Số lượng nhãn lớp thường rất lớn. Đối với các thuật tốn phân lớp, khi số lượng lớp tăng thì hiệu quả sẽ giảm [36]. Nhiều hệ thống Q&A đã áp dụng phân lớp đa cấp nhằm giảm số lượng lớp tại mỗi bộ phân lớp ở từng cấp.
3.1.3.1. Mơ hình phân lớp câu hỏi
Phân lớp câu hỏi sử dụng học máy thống kê hiện đang nhận được sự chú ý của nhiều nhà nghiên cứu [20,25,36,41]. Li và Roth [25] xây dựng một bộ phân lớp câu hỏi phân cấp dựa trên một taxonomy câu hỏi 2 cấp thể hiện sự phân lớp ngữ nghĩa tự nhiên của câu trả lời. Cấu trúc phân cấp bao gồm 6 lớp câu hỏi thơ (coarse class) là ABBREVIATION (viết tắt), ENTITY (thực thể), DESCRIPTION (mơ tả), HUMAN (con người), LOCATION (địa điểm) và NUMERIC VALUE (giá trị số). Mỗi lớp câu hỏi thơ lại được phân chia thành các lớp con (fine class). Taxonomy câu hỏi của Li và Roth được trình bày chi tiết trong bảng 1 (Mục 2.4).
Theo Li và Roth thì phân lớp câu hỏi cĩ tính nhập nhằng, tức là một câu hỏi cĩ thể được phân vào nhiều lớp do khơng cĩ một ranh giới rõ ràng nào giữa các lớp. Ví dụ câu hỏi “Sử tửăn gì ?” cĩ thể được phân vào lớp food (thức ăn), animal (động vật) hay câu hỏi “Đại học Cơng Nghệ ở đâu ?” cĩ thể được phân vào lớp country (đất nước), state (tỉnh)… Vì vậy bộ phân lớp thơ sẽ cho đầu ra là một số nhãn lớp thơ (phân lớp đa nhãn). Câu hỏi lần lượt được cho qua hai bộ phân lớp Coarse_Classifier và Fine_Classifier.
Theo hình 7, câu hỏi ban đầu được phân lớp bởi bộ phân lớp thơ Coarse_Classifier
cho ra một tập các lớp thơ.
C1 = Coarse_Classifier(C) = { c1,c2,…cn}
với |C1| <= 5, |C| = 6,
C = {abbreviation, entity, description, human, location, numeric value}
Sau đĩ các nhãn của lớp thơ c1,..cnđược mở rộng bởi các nhãn lớp con tương ứng. Cụ thể
hơn, mỗi nhãn thơ ciđược ánh xạ vào một tập nhãn lớp con theo taxonomy phân cấp, Fci
= { fi1,fi2,….fim} và được tổng hợp lại thành C2 = U Fci.
Bộ phân lớp tinh Fine_Classifier sẽ xác định tập các nhãn lớp con
C3 = Fine_Classifier(C2) với |C3| <=5.
Hình 7. Mơ hình bộ phân lớp đa cấp của Li và Roth
Kết quả mà Li và Roth đạt được khá tốt, độ chính xác là 84.2% cho 50 lớp con và 91% cho 6 lớp cha với thuật tốn SnoW.
Sử dụng taxonomy câu hỏi của Li và Roth, tiến sĩ Nguyễn Trí Thành [36] đã áp dụng học bán giám sát để tận dụng dữ liệu câu hỏi chưa gán nhãn nhằm tăng độ chính xác cho phân lớp câu hỏi và đề xuất hai cách thay đổi thuật tốn Tri-training để phù hợp với dữ liệu câu hỏi.
3.1.3.2. Trích chọn đặc trưng cho phân lớp câu hỏi
Trích chọn đặc trưng cĩ ý nghĩa quan trọng, ảnh hưởng trực tiếp đến kết quả phân lớp. Các loại đặc trưng chính thường được sử dụng là tập từ(bag-of-word) và tập các cặp từ/nhãn từ loại (bag-of-word/POS tag). Việc phân loại câu hỏi cĩ điểm khác với phân loại văn bản đĩ là câu hỏi chỉ chứa một số ít từ trong khi văn bản cĩ số lượng từ rất lớn. Trọng số từ (TF – term frequency) gĩp phần quan trọng trong nâng cao độ chính xác của phân lớp văn bản, trong khi với câu hỏi các từ hầu như chỉ xuất hiện một lần duy nhất, do đĩ việc biểu diễn câu hỏi theo trọng số từ khơng cĩ ý nghĩa mấy trong phân lớp câu hỏi.
Trong phân lớp văn bản các từ như “nào”, “gì”, “sao” thường được coi là từ dừng
mà vẫn giảm được số chiều của khơng gian biểu diễn dữ liệu, trong tiếng Anh kĩ thuật stemming thường được áp dụng. Ví dụ trong tiếng Anh, các động từđược chuyển về dạng nguyên thể (“was”, “were”, “is”, “are”, “am” được chuyển hết thành “be”), các danh từ số
nhiều chuyển về dạng danh từ số ít (“children” thành “child”, “girls” thành “girl” …), các số từđều được chuyển về cùng một giá trị (“2004”, “1.5”, “5” đều chuyển thành “100”) [36].
Ví dụ:
“Thủ tướng Việt Nam năm 2007 là ai”
Được chuyển thành:
“Thủ tướng Việt Nam năm 100 là ai”
Sau bước tiền xử lý này, một tập V các từ khác nhau xuất hiện trong tập câu hỏi ví dụ sẽ được trích ra (gọi là từđiển – dictionary). Gọi N là kích thước của từđiển, N chính là số
chiều của khơng gian biểu diễn câu hỏi. Các câu hỏi sẽ được biểu diễn dưới dạng vector gồm N thành phần: qi= (w1,w2,…..,wN)
trong đĩ
wi = 1 nếu từ thứ i trong từđiển xuất hiện trong câu hỏi qi.
0 nếu từ thứ i trong từđiển khơng xuất hiện trong câu hỏi qi
Các vector này là đầu vào cho bộ phân lớp.
Với loại đặc trưng là tập các cặp từ/nhãn từ loại thì tập từ điển V sẽ khác một chút. Các cặp từ/nhãn từ loại là thành phần của từđiển. Một từ cĩ thể cĩ nhiều chức năng ngữ
pháp, cĩ lúc đĩng vai trị là danh từ, cĩ lúc lại là động từ (ví dụ từ “đá”, “bị” …). Những từ này sẽ được chuyển thành “đá”- danh từ và “đá”-động từ và được tính là hai thành phần khác nhau của từ điển. Việc biểu diễn đặc trưng dưới dạng từ/nhãn từ loại sẽ giúp phân biệt được các từ này theo các nghĩa khác nhau.
Trong tiếng Anh việc biểu diễn câu hỏi dưới dạng bag-of-word là khá đơn giản bởi
đặc trưng của tiếng Anh là các từ phân cách nhau bởi khoảng trắng. Do đĩ việc sử dụng
unigram cũng chính là bag-of-word. Trong khi với tiếng Việt, một từ cĩ thểđược ghép lại từ nhiều âm tiết, do đĩ khơng thể dùng khoảng trắng làm ranh giới phân cách các từ. Cần
Việc biểu diễn câu hỏi theo bag-of-word và bag-of-word/POS tag khơng giữ được các thơng tin về trật tự từ trong câu, do đĩ người ta sử dụng n-gram làm đặc trưng. Bag- of-ngrams là một kỹ thuật biểu diễn văn bản độc lập với ngơn ngữ. Nĩ chuyển đổi các văn bản/câu hỏi thành các vectơ đặc trưng đa chiều với mỗi đặc trưng tương đương với một chuỗi con liền kề nhau.
Để nâng cao độ chính xác của bộ phân lớp, các đặc trưng ngữ nghĩa khác được xem xét. Li và Roth đã xây dựng bộ phân lớp câu hỏi sử dụng thuật tốn Sparse Network of Winnows – SnoW với các đặc trưng được sử dụng là: từ vựng (bag-of-word), nhãn từ loại
(POS tag), cụm từ (các cụm khơng giao nhau - non-overlapping), cụm danh từ đầu tiên trong câu hỏi (head chunks) và tên thực thể(named entity). Bộ dữ liệu học bao gồm 5500 câu hỏi được thu thập từ các nguồn: 4.500 câu hỏi tiếng Anh cơng bố bởi USC1, 500 câu hỏi tự tạo cho một số lớp cĩ ít câu hỏi, 894 câu hỏi thu thập từ tập câu hỏi của TREC 8 và TREC 9 và 500 câu hỏi của TREC 10 cho dữ liệu kiểm tra. Độ chính xác mơ hình đạt
được là 78,8% với 50 lớp con (phân lớp đa cấp với 6 lớp cha và 50 lớp con). Khi sử dụng danh sách các từ (được xây dựng bằng tay) liên quan đến một lớp câu hỏi thì độ chính xác
đạt 84.2 %. Mỗi lớp câu hỏi cĩ một danh sách các từ liên quan, là các từ thường xuyên xuất hiện trong lớp câu hỏi đĩ. Ví dụ lớp câu hỏi về nguyên nhân cĩ danh sách các từ
{“nguyên nhân” , “lí do”, “tại sao”, “vì sao”…}.
Bộ dữ liệu do Li và Roth sử dụng đã được cơng bố và được nhiều nhĩm nghiên cứu sử dụng để so sánh kết quả khi thực nghiệm với các thuật tốn hoặc các đặc trưng mới để
nâng cao kết quảđạt được của phân lớp câu hỏi. Hacioglu và Ward [14] sử dụng máy hỗ
trợ vector (support vector machines - SVM) với đặc trưng là bigram và mã sửa lỗi đầu ra (error-correcting output code-ECOC ) đã đạt kết quả 80.2% và 82.0%. Zhang và Lee [41] sử dụng SVMs tuyến tính với đặc trưng là bag-of-word và bag-of-ngram đạt độ chính xác 79.2%. Năm 2006, Li và Roth đã sử dụng thêm các đặc trưng ngữ nghĩa gồm: tên thực thể, nghĩa của từ trong WordNet, danh sách từ liên quan đến lớp câu hỏi (xây dựng bằng tay), các từ cĩ độ tương đồng về mặt ngữ nghĩa (sinh tựđộng). Việc kết hợp các đặc trưng về ngữ nghĩa này với các đặc trưng về ngữ pháp (POS tag, cụm từ ..) họ đã đạt được độ
chính xác 89.3% cho 50 lớp con khi huấn luyện mơ hình với 21.500 câu hỏi và kiểm thử
đặc trưng và đạt được độ chính xác 86.2% cho 50 lớp con khi tiến hành huấn luyện trên bộ dữ liệu 5500 câu hỏi do UIUC cơng bố và được ghi nhận là kết quả tốt nhất trên tập dữ
liệu này. Theo Krishnan thì chỉ cần dựa vào một chuỗi ngắn các từ liên tục trong câu hỏi (gọi là informer span) đã cĩ thể nhận diện được câu hỏi thuộc lớp nào. Vì vậy họ đã sử
dụng Conditional Random Field (CRF) để xác định informer span với độ chính xác 85%, sau đĩ xây dựng bộ phân lớp meta-classifier sử dụng SVM tuyến tính trên kết quảđầu ra của CRF.
Hình thức của từ cũng được coi là một loại đặc trưng hữu ích. Đặc trưng hình thức từ bao gồm 5 đặc trưng: Viết hoa tất cả các kí tự trong từ, viết thường tất cả, dạng hỗn hợp (cĩ cả chữ thường lẫn chữ viết hoa), tất cả các kí tự là chữ số (0-9) và các hình thức khác. Các đặc trưng này rất cĩ ích, ví dụ nếu tất cả các kí tự của từ viết hoa thì thường thường đĩ là tên thực thể, hoặc một dạng viết tắt .., nếu tất cả các kí tự của từ là chữ số thì rất cĩ thể đĩ là con số, ngày tháng, mã số, điện thoại ….Các đặc trưng hình thức từ này gĩp phần làm tăng độ chính xác của phân lớp [20].