Nhƣ đã trình bày ở trên, việc lựa chọn đặc trƣng đóng một vai trò rất quan trọng đối với các mô hình phân lớp. Với cùng một mô hình phân lớp, việc lựa chọn các đặc trƣng tốt sẽ mang lại cho mô hình phân lớp độ chính xác cao hơn.
nghĩa có thể có của từ w có trong từ điển. Giả sử ngữ cảnh W của từ đa nghĩa w đƣợc trình bày nhƣ sau:
𝑊 = {… 𝑤−3, 𝑤−2, 𝑤−1, 𝑤0, 𝑤1, 𝑤2, 𝑤3… }
Theo cách biểu diễn nhƣ trên, W là ngữ cảnh của từ đa nghĩa w bên trong cửa số (-3, +3), trong đó 𝑤0 chính là từ đa nghĩa. Ứng với mỗi giá trị của i trong đoạn [-3, +3], 𝑤𝑖 chính là từ xuất hiện ở vị trí thứ i có liên quan đến từ 𝑤0. Dựa trên các nghiên cứu trƣớc đó và kinh nghiệm của chúng tôi, chúng tôi đề xuất sử dụng 2 loại đặc trƣng sau:
Loại 1: Bag-of-words
Đây là loại đặc trƣng có dạng sau: 𝐹1 𝑙, 𝑟 = {𝑤−𝑙, … , 𝑤+𝑟}. Nó là tập tất cả các từ trong một cửa sổ quanh từ nhập nhằng 𝑤0, từ vị trí -l đến vị trí +r.
Dựa vào đặc điểm là các từ càng nằm xa từ nhập nhằng cả về 2 phía thì càng ít ý nghĩa và ít có ảnh hƣởng đến từ nhập nhằng. Do đó, chúng tôi đề xuất chọn l = r = 3. Khi đó, chúng tôi thu đƣợc loại đặc trƣng thứ nhất 𝐹1 −3, +3 bao gồm 7 phần tử (đặc trƣng) nhƣ sau:
𝐹1 −3, +3 = {𝑤−3, 𝑤−2, 𝑤−1, 𝑤0, 𝑤1, 𝑤2,𝑤3} Loại 2: Collocation of words
Đây là loại đặc trƣng có dạng sau: 𝐹2 𝑙, 𝑟 = {𝑤−𝑙… 𝑤+𝑟}. Nó là tập hợp của
các cụm từ bao gồm cả từ nhập nhằng với độ dài của nó thỏa mãn: 𝑙 + 𝑟 + 1 ≤
𝜌. Cũng dựa vào đặc điểm là các từ nằm càng xa từ nhập nhằng càng ít có ý
nghĩa với từ nhập nhằng nên chúng tôi quyết trình chọn 𝜌 = 4. Khi đó, chúng
tôi thu đƣợc loại đặc trƣng thứ hai 𝐹2 𝑙, 𝑟 bao gồm 9 đặc trƣng nhƣ sau:
𝐹2 = {𝑤−1𝑤0, 𝑤0𝑤1, 𝑤−2𝑤−1𝑤0, 𝑤−1𝑤0𝑤1, 𝑤0𝑤1𝑤2, 𝑤−3𝑤−2𝑤−1𝑤0, 𝑤−2𝑤−1𝑤0𝑤1, 𝑤−1𝑤0𝑤1𝑤2, 𝑤−1𝑤0𝑤1𝑤2, 𝑤0𝑤1𝑤2𝑤3}
Nhƣ vậy, với hai loại đặc trƣng mà chúng tôi đề xuất ở trên, chúng tôi thu đƣợc 16 đặc trƣng và định nghĩa chúng nhƣ sau: 𝐹 = {𝑓1, 𝑓2, … , 𝑓16}. Chính những đặc trƣng này sẽ đƣợc chúng tôi sử dụng trong mô hình phân lớp Naive Bayes và trong việc đề xuất xây dựng tập luật mẫu trong mô hình học dựa trên luật ở phần sau.