Trích chọn đặc trƣng cho phân lớp câu hỏi

Một phần của tài liệu (Luận văn thạc sĩ) làm giàu các đặc trưng cho bài toán phân lớp câu hỏi (Trang 26 - 28)

Trích chọn đặc trƣng có ý nghĩa quan trọng, ảnh hƣởng trực tiếp đến kết quả phân lớp. Các loại đặc trƣng chính thƣờng đƣợc sử dụng là tập từ (bag-of-word) và tập các cặp từ/nhãn từ loại (bag-of-word/POS tag). Việc phân loại câu hỏi có điểm khác với phân loại văn bản đó là câu hỏi chỉ chứa một số ít từ trong khi văn bản có số lƣợng từ rất lớn. Trọng số từ (TF – term frequency) góp phần quan trọng trong nâng cao độ chính xác của phân lớp văn bản, trong khi với câu hỏi các từ hầu nhƣ chỉ xuất hiện một

lần duy nhất, do đó việc biểu diễn câu hỏi theo trọng số từ không có ý nghĩa mấy trong phân lớp câu hỏi.

Trong phân lớp văn bản các từ nhƣ“nào”, “gì”, “sao” thƣờng đƣợc coi là từ dừng (stop word) và bị loại bỏ ở bƣớc trích chọn đặc trƣng. Việc này là rất quan trọng trong nâng cao hiệu quả của bộ phân lớp và đã đƣợc chứng minh trong [20]. Tuy nhiên những từ này lại có ý nghĩa rất quan trọng trong phân lớp câu hỏi. Để có thể giữ lại các từ này mà vẫn giảm đƣợc số chiều của không gian biểu diễn dữ liệu, trong tiếng Anh kĩ thuật stemming thƣờng đƣợc áp dụng. Ví dụ trong tiếng Anh, các động từ đƣợc chuyển về dạng nguyên thể (“was”, “were”, “is”, “are”, “am” đƣợc chuyển hết thành “be”), các danh từ số nhiều chuyển về dạng danh từ số ít (“children” thành “child”,“girls” thành “girl” …), các số từ đều đƣợc chuyển về cùng một giá trị (“2004”, “1.5”, “5” đều chuyển thành “100”) [19].

Ví dụ:

“Thủ tƣớng Việt Nam năm 2012 là ai” Đƣợc chuyển thành:

“Thủ tƣớng Việt Nam năm 100 là ai”

Sau bƣớc tiền xử lý này, một tập V các từ khác nhau xuất hiện trong tập câu hỏi ví dụ sẽ đƣợc trích ra (gọi là từ điển – dictionary). Gọi N là kích thƣớc của từ điển, N chính là số chiều của không gian biểu diễn câu hỏi. Các câu hỏi sẽ đƣợc biểu diễn dƣới dạng véc-tơ gồm N thành phần: qi= (w1,w2,…..,wN)

trong đó:

- wi = 1 nếu từ thứ i trong từ điển xuất hiện trong câu hỏi qi - wi = 0 nếu từ thứ i trong từ điển không xuất hiện trong câu hỏi qi Các véc-tơ này là đầu vào cho bộ phân lớp.

Với loại đặc trƣng là tập các cặp từ/nhãn từ loại thì tập từ điển V sẽ khác một chút. Các cặp từ/nhãn từ loại là thành phần của từ điển. Một từ có thể có nhiều chức năng ngữ pháp, có lúc đóng vai trò là danh từ, có lúc lại là động từ (ví dụ từ “đá”, “bò” …). Những từ này sẽ đƣợc chuyển thành “đá”- danh từ và “đá”-động từ và đƣợc tính là hai thành phần khác nhau của từ điển. Việc biểu diễn đặc trƣng dƣới dạng từ/nhãn từ loại sẽgiúp phân biệt đƣợc các từ này theo các nghĩa khác nhau.

Trong tiếng Anh việc biểu diễn câu hỏi dƣới dạng bag-of-word là khá đơn giản bởi đặc trƣng của tiếng Anh là các từ phân cách nhau bởi khoảng trắng. Do đó việc sử dụng unigram cũng chính là bag-of-word. Việc biểu diễn câu hỏi theo bag-of-word

bag-of-word/POS tag không giữ đƣợc các thông tin về trật tự từ trong câu, do đó ngƣời ta sử dụng n-gram làm đặc trƣng. Bag-of-ngrams là một kỹ thuật biểu diễn văn

bản độc lập với ngôn ngữ. Nó chuyển đổi các văn bản/câu hỏi thành các véc-tơ đặc trƣng đa chiều với mỗi đặc trƣng tƣơng đƣơng với một chuỗi con liền kề nhau.

Một phần của tài liệu (Luận văn thạc sĩ) làm giàu các đặc trưng cho bài toán phân lớp câu hỏi (Trang 26 - 28)

Tải bản đầy đủ (PDF)

(49 trang)