Lựa chọn thuộc tính

Một phần của tài liệu (Luận văn thạc sĩ) phân loại câu tiếng việt và ứng dụng trong vấn đề hỏi đáp 04 (Trang 31 - 32)

Phân loại câu được xem như vấn đề nhận dạng chữ cho dữ liệu dạng chuỗi. Với ngơn ngữ tiếng Việt, vị trí của từ trong câu là một yếu tố quan trọng và cần phải được xác định. Chính điều này làm giàu đặc tính cho mơ hình và giúp phân loại câu đạt hiệu suất cao hơn. Giai đoạn tách từ được coi là khâu tiền xử lý dữ liệu trong luận văn này.

Thuộc tính là thành phần quan trọng trong mơ hình phân loại câu. Chúng tơi đã cố gắng kết hợp vào mơ hình hàng loạt các thuộc tính cĩ độ phân loại cao như n-grams, từ điển (Dictionary) và n-grams + Dictionary.

Bảng 3.1 Một số thuộc tính mẫu huấn luyện mơ hình phân loại câu

N-grams Ví dụ

1-grams [cập_nhật], [trạng_thái], [pin], [điện_thoại]

2-grams [cập_nhật:trạng thái], [trạng_thái:pin], [pin:điện_thoại]

Từ điển Ví dụ

Int-first Bây_giờ, bao_nhiêu, mấy Int-mid Bao_nhiêu, mấy, nào, gì

Int-last Khơng, bao_nhiêu, mấy, đâu, chưa, đâu_rồi, là_gì, bao_xa, nào, là_ai, ở_đâu, gì, nhỉ, thế_nào, rồi_chứ…

Imp-first Chuyển, cài, chụp, chia_sẻ, chèn, check, chat… Exc-first Đúng_là, khơng_thể, lại, ơi quá, quả_là… Exc-mid Quá, ơi_là, thật, bao_nhiêu_là, thật_là Exc-last Quá, thế, lắm, ơi, nhỉ, thật, ghê, đấy, nhé….

- Loại thuộc tính đầu tiên là n-grams: câu mẫu cập nhật trạng thái pin điện thoại. Sau giai đoạn tiền xử lý là tách từ, câu trên cĩ dạng cập_nhật trạng_thái pin điện_thoại. Chạy bộ dữ liệu qua module n-grams, ta cĩ:

1-gram: [cập_nhật], [trạng_thái], [pin], [điện_thoại]

2-gram: [cập_nhật:trạng thái], [trạng_thái:pin], [pin:điện_thoại]

- Loại thuộc tính thứ hai là từ điển tìm kiếm: Int-first (phù hợp với những câu bây giờ là mấy giờ); Int-mid (chạy ứng dụng này chiếm bao nhiêu bộ nhớ); Int-last (cĩ cây atm việt tin bank gần đây hay khơng); Imp-first (cài

30

đặt nhạc chuơng yêu thích); Exc-first (đúng là một người đáng ghét); Exc-

mid (lạnh ơi là lạnh); Exc-last (màn hình làm đau mắt quá).

- Chúng tơi cũng kết hợp giữa n-grams và từ điển để bắt mức độ quan trọng của từ trong câu. Ví dụ, từ “khơng” trong câu “cĩ cây atm việt tin bank gần đây hay khơng” cĩ giá trị phân lớp cao cho kiểu câu nghi vấn nhưng từ “khơng” trong câu “Khơng đi đâu nhé” lại khơng cĩ giá trị phân lớp cho loại câu này.

Một phần của tài liệu (Luận văn thạc sĩ) phân loại câu tiếng việt và ứng dụng trong vấn đề hỏi đáp 04 (Trang 31 - 32)