Thực nghiệm khi tiến hành phân lớp câu hỏi- 123docz.net

Với sự phong phú của các thuật tốn trong học máy dẫn đến việc phải cân nhắc khi lựa chọn thuật giải nào đại diện cho hướng học máy áp dụng vào bài tốn phân lớp câu hỏi trong tiếng Việt. Zhang [42] đã tiến hành thử nghiệm năm thuật tốn khác nhau trong hướng học máy khi xây dựng bộ phân lớp câu hỏi. Dựa trên kết thực nghiệm này, sẽ quyết định thuật tốn sử dụng trong hướng học máy.

Thực nghiệm của Zhang như sau: a. Taxonomy của lớp câu hỏi

Lớp cha Các lớp con

ABBR Tĩm tắt, sự khai triển DESC Định nghĩa, mơ tả, lý do

ENTY Động vật, cơ thể, màu sắc, sang tác, tiền tệ, ngơn ngữ, chữ viết, loại khác, thực vật, bệnh /thuốc, sự kiện, thực phẩm, ngơn ngữ, cơng cụ - phương tiện, sản phẩm, tơn giáo, thể thao, vật chất, ký hiệu, kỹ thuật, thuật ngữ, xe cộ, từ.

HUM Nhĩm, cá thể, tên, tư cách

LOC Thành phố, đất nước, núi, bang, loại khác

NUM Mã, đếm, ngày, khoảng cách, tiền, thứ tự, khác, phần trăm-tỉ lệ, thời kỳ, tốc độ, nhiệt độ, kích cỡ, cân nặng

Bảng 1. Taxonomy của tập lớp câu hỏi thử nghiệm của Zhang

Bảng trên mơ tả tầng cao nhất của taxonomy câu hỏi, mỗi một lớp thuộc cột “chi tiết” mơ tả một loại câu hỏi riêng biệt.

b. Tập câu hỏi cho taxonomy trên bao gồm các câu hỏi đã được gán nhãn được cung cấp bởi USC [11], UIUC [42] và TREC [14][13] [12]. Tập dữ liệu này được gán nhãn thủ cơng. Mỗi một câu hỏi chỉ thuộc một lớp nhất định.

Tập đặc trưng lựa chọn bao gồm hai loại đặc trưng:

(1)bag-of-words: biểu diễn văn bản/câu hỏi độc lập với ngơn ngữ và ngữ pháp. Mỗi một văn bản/câu hỏi được biểu diễn bẳng một tập các từ, tập từ này khơng xếp thứ tự.

(2)bag-of-ngrams: là một kỹ thuật biểu diễn văn bản độc lập với ngơn ngữ. Nĩ chuyển đổi các văn bản/câu hỏi thành các vectơ đặc trưng đa chiều với mỗi đặc trưng tương đương với một chuỗi con liền kề nhau. n-grams là các ký tự liền kề nhau (chuỗi con) bắt đầu từ mẫu tự A. Vì vậy, khoảng cách n-grams trong văn bản ít hơn hoặc bằng |A|n. Đều này cho thấy số chiều của vectơ đặc trưng n- grams cĩ thể rất lớn thậm chí khi n cĩ giá trị vừa phải.

Vector đặc trưng trích trọn được với mỗi câu hỏi thường là vector cĩ giạ trị nhị phân (các chiều thường mang giá trị 0 hoặc 1 – xuất hiện hoặc khơng xuất hiện) khi sử dụng hai kiểu đặc trưng trên.

c. Kết quả của thí nghiệm

Sau năm lần thí nghiệm với 5 tập dữ liệu cĩ số lượng câu hỏi khác nhau : 1.000, 2.000, 3.000, 4.000 và 5.500 câu. Kết quả thực nghiệm như sau (về độ chính xác):

• Thí nghiệm trên tập lớp cha (năm lớp cha như ở bảng 1.0)

o Khi chọn vector đặc trưng là bag-of-words

Bảng 2. Độ chính xác trên năm phân lớp cha với các giải thuật khác nhau trong học máy, sử dụng vector đặc trưng bag-of-words.

Thuật tốn 1000 2000 3000 4000 5000 Láng giềng gần nhất 70.0% 73.6% 74.8% 74.8% 75.6% Nạve Bayes 53.8% 60.4% 74.2% 76.0% 77.4% Cây quyết định 78.8% 79.8% 82.0% 83.4% 84.2% SNoW 71.8% 73.4% 74.2% 78.2% 66.8% SVM 76.8% 83.4% 87.2% 87.4% 85.8%

o Khi sử dụng vertor đặc trưng là bag-of-Ngrams

Bảng 3. Độ chính xác trên năm phân lớp Cha với các giải thuật khác nhau trong học máy, sử dụng vector đặc trưng bag-of-Ngrams

• Thí nghiệm trên tập lớp chi tiết (trong bảng 1.0)

o Khi chọn vector đặc trưng là bag-of-words

Bảng 4. Độ chính xác trên các phân lớp con với các giải thuật khác nhau trong học máy, sử dụng vector đặc trưng bag-of-words.

Thuật tốn 1000 2000 3000 4000 5000 Láng giềng gần nhất 72.0% 81.0% 79.8% 80.8% 79.8% Nạve Bayes 73.0% 79.2% 80.0% 81.8% 83.2% Cây quyết định 73.8% 82.6% 83.0% 84.6% 84.2% SNoW 59.8% 85.2% 80.6% 87.0% 86.6% SVM 77.6% 82.6% 84.8% 84.8% 87.4% Thuật tốn 1000 2000 3000 4000 5000 Láng giềng gần nhất 57.4% 62.8% 65.2% 67.2% 68.4% Nạve Bayes 48.8% 52.8% 56.6% 56.2% 58.4% Cây quyết định 67.0% 70.0% 73.6% 75.4% 77.0% SNoW 42.2% 66.2% 69.0% 66.6% 74.0% SVM 68.0% 75.0% 77.2% 77.4% 80.2%

o Khi sử dụng vertor đặc trưng là bag-of-Ngrams

Bảng 5. Độ chính xác trên các phân lớp con với các giải thuật khác nhau trong học máy, sử dụng vector đặc trưng bag-of-Ngrams

Từ kết quả thực nghiệm trên, nhận thấy rằng:

•Độ chính xác của phân lớp tỉ lệ với tập dữ liệu học

•SVM mang lại độ chính xác cao hơn so với các phương pháp cịn lại. Đối với SVM độ chênh lệnh khi sử dụng tập đặc trưng là bag-of-words và tập đặc trưng bag-of-ngrams là khơng lớn.

Như vậy, dựa trên kết quả thực nghiêm trên và một số thực nghiệm khác của Hacioglu [16] và Li [19]cĩ thể kết luận rằng đối với phân lớp câu hỏi theo phương pháp SVM là lựa chọn khá tốt so với các thuật tốn khác trong học máy.

Phần thực nghiệm sử dụng SVM cho tập dữ liệu tiếng Việt sẽ được tình bày cụ thể ở Chương 4.

Thực nghiệm khi tiến hành phân lớp câu hỏi

Hướng tiếp cận dựa trên xác suất

Một số phương pháp khác