Ước lượng xác suất

Chương 2 PHƯƠNG PHÁP

2.2.5. Ước lượng xác suất

Để làm rõ quy tắc ước lượng xác suất cho mô hình ngôn ngữ, chúng ta đi vào xét một dạng đặc trưng của các mô hình ngôn ngữ là mô hình trigrams cho tập văn bản huấn luyện.

Xác suất xảy ra một từ 𝑤T thoả mãn điều kiện xuất hiện ngay sau chuỗi 𝑤E 𝑤F được ký hiệu là P(𝑤T| 𝑤E, 𝑤F), giá trị này được tính bằng thương của số

lần mà chuỗi 𝑤E𝑤F được theo sau bởi 𝑤T và số lần xuất hiện chuỗi 𝑤E𝑤F trong tập văn bản.

P(𝑤T| 𝑤E, 𝑤F) = UVWHX YO,YP,YZ

UVWHX YO,YP (2.2.4-3)

Xét thí dụ trên tập dữ liệu thực tế, cụ thể là trên bộ dữ liệu văn bản gồm tập các câu miêu tả hình ảnh trích xuất từ Microsoft COCO dataset phiên bản phát hành năm 2014, chúng ta ước lượng xác suất cho các từ xuất hiện sau các cho cụm từ “An empty”, “A man”:

An empty (count: 1225) A man (count: 41483)

Word Count Prob Word Count Prob

Bathroom 62 0.0506 Walking 567 0.0136

Kitchen 70 0.0571 Standing 2381 0.0573

And 9 0.0073 And 2617 0.063

Bảng 2.2-1. Ước lượng xác suất của từ xuất hiện sau cụm từ tương ứng trong tập văn bản.

Bảng 2.2-1 thống kê kết quả thí dụ về trị sốước lượng xác suất cho mô hình ngôn ngữ trên tập văn bản thu thập từ tập dữ liệu Microsoft COCO dataset, thống kê tập văn bản cho thấy cặp từ “An empty” xuất hiện cùng nhau 1225 lần trong

tập văn bản, và cụm từ “An empty bathroom” xuất hiện cùng nhau 62 lần, kết quả

thu được là [F

EFF\≃ 0.0506. Vậy xác suất xuất hiện từ “bathroom” trong điều kiện có cặp từ “An empty” đứng trước là P(bathroom|An empty) ≃ 0.0506, thực hiện tương tự với các word khác chúng ta có thể tính được giá trị cho mô hình trigram và các mô hình xác suất khác.

Thuật toán tìm kiếm theo chiều rộng

Thuật toán tìm kiếm theo chiều sâu