Chương 2 PHƯƠNG PHÁP
2.2.5. Ước lượng xác suất
Để làm rõ quy tắc ước lượng xác suất cho mô hình ngôn ngữ, chúng ta đi vào xét một dạng đặc trưng của các mô hình ngôn ngữ là mô hình trigrams cho tập văn bản huấn luyện.
Xác suất xảy ra một từ 𝑤T thoả mãn điều kiện xuất hiện ngay sau chuỗi 𝑤E 𝑤F được ký hiệu là P(𝑤T| 𝑤E, 𝑤F), giá trị này được tính bằng thương của số
lần mà chuỗi 𝑤E𝑤F được theo sau bởi 𝑤T và số lần xuất hiện chuỗi 𝑤E𝑤F trong tập văn bản.
P(𝑤T| 𝑤E, 𝑤F) = UVWHX YO,YP,YZ
UVWHX YO,YP (2.2.4-3)
Xét thí dụ trên tập dữ liệu thực tế, cụ thể là trên bộ dữ liệu văn bản gồm tập các câu miêu tả hình ảnh trích xuất từ Microsoft COCO dataset phiên bản phát hành năm 2014, chúng ta ước lượng xác suất cho các từ xuất hiện sau các cho cụm từ “An empty”, “A man”:
An empty (count: 1225) A man (count: 41483)
Word Count Prob Word Count Prob
Bathroom 62 0.0506 Walking 567 0.0136
Kitchen 70 0.0571 Standing 2381 0.0573
And 9 0.0073 And 2617 0.063
Bảng 2.2-1. Ước lượng xác suất của từ xuất hiện sau cụm từ tương ứng trong tập văn bản.
Bảng 2.2-1 thống kê kết quả thí dụ về trị sốước lượng xác suất cho mô hình ngôn ngữ trên tập văn bản thu thập từ tập dữ liệu Microsoft COCO dataset, thống kê tập văn bản cho thấy cặp từ “An empty” xuất hiện cùng nhau 1225 lần trong
tập văn bản, và cụm từ “An empty bathroom” xuất hiện cùng nhau 62 lần, kết quả
thu được là [F
EFF\≃ 0.0506. Vậy xác suất xuất hiện từ “bathroom” trong điều kiện có cặp từ “An empty” đứng trước là P(bathroom|An empty) ≃ 0.0506, thực hiện tương tự với các word khác chúng ta có thể tính được giá trị cho mô hình trigram và các mô hình xác suất khác.