Chúng ta cĩ thể xem xét rất nhiều bài tốn trong lĩnh vực xử lý ngơn ngữ tự nhiên (Natural Language Processing - NLP) dưới dạng các bài tốn phân lớp với nhiệm vụ là ước lượng xác suất cĩ điều kiện p(a|b) của “lớp” a xuất hiện trong “ngữ cảnh” (context)
b, hay nĩi cách khác là, ước lượng xác suất xuất hiện của a với điều kiện b. Ngữ cảnh trong các bài tốn xử lý ngơn ngữ tự nhiên thường bao gồm các từ và việc chọn ra ngữ cảnh phụ thuộc theo bài tốn đặt ra. Đối với một số bài tốn thì ngữ cảnh b cĩ thể là một từ đơn lẻ nhưng đối với một số bài tốn khác thì ngữ cảnh b cĩ thể chứa một số từ xung
Thuật tốn 1000 2000 3000 4000 5000 Láng giềng gần nhất 59.4% 64.6% 67.2% 67.4% 68.6% Nạve Bayes 54.4% 58.4% 63.0% 65.0% 67.8% Cây quyết định 62.8% 72.2% 72.6% 73.0% 77.0% SNoW 44.0% 67.0% 75.0% 55.8% 75.8% SVM 65.0% 74.0% 74.8% 77.4% 79.2%
quanh hoặc các từ cùng với các nhãn cú pháp tương ứng. Bài tốn đặt ra là chúng ta phải tìm một phương pháp ước lượng (cĩ thể tin tưởng được) mơ hình xác suất cĩ điều kiện
p(a|b) . Hướng tiếp cận này là tiếp cận theo mơ hình ngơn ngữ LM.
Ý tưởng cơ bản nhất của LM là :
•Các phần của văn bản đều được sinh ra từ một mơ hình ngơn ngữ
•Giữa hai phần văn bản bất kỳ, cĩ một độ đo thể hiện xác suất chúng cùng được sinh ra bởi một mơ hình ngơn ngữ.
Trong phân lớp câu hỏi LM được sử dụng để tính xác suất của phân lớp câu hỏi C xuất hiện trong ngữ cảnh câu hỏi Q.
Giả sử truy vấn Q là tập hợp của n từ w1,w2, …,wn. Xác suất Q và lớp C được sinh ra bởi cùng một mơ hình ngơn ngữ được tính theo cơng thức:
( | ) ( 1| ) ( 2 | ) *...* ( n | )
P Q C =P w C ∗P w C P w C (*)
Một mơ hình ngơn ngữ sẽ được tạo ra cho mỗi một lớp câu hỏi Ci(i=1,…,n). Mơ hình này xây dựng từ tập hợp các câu hỏi thuộc lớp C. Khi một câu hỏi Q tới, xác suất P(Q|Ci) sẽ được tính với tất cả các lớp câu hỏi Ci, Q sẽ được phân vào lớp Ci cĩ xác suất P(Q|Ci) lớn nhất.
Thơng thường, để khi sử dụng mơ hình ngơn ngữ để tiến hành phân lớp các mẫu n-gram (chủ yếu là unigram và bigram) được sử dụng . Cơng thức (*) là dạng biểu diễn unigram. Bigram cĩ dạng biểu diễn như sau:
( | ) ( 1| ) ( 2 | , w ) *...* (1 n | , n 1)
P Q C =P w C ∗P w C P w C w− (**)
Để xác định được xác suất ở (*) hoặc (**) phải tính được giá trị của từng xác suất thành
phần ở vế phải: P(wi|C) (với i=1,…,n), một cách trực quan thì xác suất này phải tỉ lệ với số lần từ wixuất hiện trong C.
Ngồi ra, khi áp dụng LM phải cĩ biện pháp loại bỏ trường hợp xác suất P(Q|C) bằng khơng. Để loại bỏ tình trạng này cần áp dụng những kỹ thuật làm mịn các xác suất thành phần P(wi|C) sao cho minP(wi|C)>0. Các phương pháp làm mịn được tác giả Wei Li giới thiệu cụ thể trong tài liệu [36]. Sử dụng kỹ thuật LM cho phân lớp câu hỏi Wei Li[36] đạt được kết quả khá khả quan (độ chính xác khoảng 80%) khi sử dụng kết hợp hai mẫu unigram và bigram.
Một kỹ thuật để nâng cao hiệu suất của LM đĩ là các mơ hình khi xây dựng được tích hợp với bộ phận nhận dạng thực thể tên (Named entity recognition-NE), bộ phận này sẽ nhận diện các thực thể thuộc: tên người, địa danh, số … một từ wi nếu được NE nhận diện, nĩ sẽ bị thay thể bằng tên dại diện cho lớp thực thể đĩ. Ví dụ với câu hỏi “Ai là
Ronaldo?” nếu “Ronaldo” được nhận dạng thuộc lớp <Người> bởi NE, thì câu hỏi sẽ chuyển thành dạnh “ai là <Người>” theo đĩ, độ chính xác của LM sẽ được nâng cao .