Nhằm phát huy tác dụng hữu ích của phương pháp dựa trên hệ luật khi được sử
dụng bằng cách kết hợp bổ sung với các phương pháp khác, nhóm nghiên cứu gồm các tác giả Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ đã đề xuất một phương pháp gán nhãn từ loại cho Tiếng Việt dựa trên văn phong và tính toán xác suất [2]. Nhóm tác giả xây dựng một hệ thống kết hợp bộ gán nhãn tri-gram và bộ gán nhãn dựa trên văn phong. Phương pháp gán nhãn từ loại dựa trên văn phong thực chất là căn cứ
vào cách thể hiện của văn bản trong một ngữ cảnh cụ thể để xác định từ loại cho các từ, điều này bao hàm việc xác định phải đảm bảo các luật văn phạm của các từ trong câu. Để xây dựng hệ thống luật này, nhóm tác giả dựa vào JAPE (Java Annotation Patterns Engine), hệ thống luật gồm trên 270 luật để xác định cho 48 từ loại (danh từ
riêng, đại từ xưng hô, danh từ loại thể, ...) và các luật để xác định các kiểu ngày tháng năm (date). Phương pháp dựa trên văn phong áp dụng các luật xác định danh từ riêng, trên cơ sở các danh từ riêng được xác định, tiếp tục áp dụng các luật để xác định 48 nhãn từ loại còn lại.
22
Nhóm các tác giả tiến hành thử nghiệm trên một bộ dữ liệu khoảng hơn 70.000 từ
thuộc các văn bản về lĩnh vực văn học, báo chí... Nghiên cứu thực nghiệm sử dụng tập nhãn gồm 48 nhãn từ loại với 10 miền giới hạn.
Kết quả thử nghiệm tốt nhất với các tập mẫu đã xây dựng đạt tới độ chính xác ~80% nếu chỉ dùng phương pháp gán nhãn bằng xác suất (P1) và đạt ~90% nếu dùng phương pháp gán nhãn dựa trên văn phong kết hợp với phương pháp xác suất (P2). Bảng 5 cho ta kết quả gán nhãn cho các văn bản, văn phong khác nhau.