Bộ lọc dựa vào chuỗi con (sub-sequence filtering)- 123docz.net

4. Những nội dung nghiên cứu chính

2.4.2Bộ lọc dựa vào chuỗi con (sub-sequence filtering)

2.4 Mơ hình ngơn ngữ BloomFilter

2.4.2Bộ lọc dựa vào chuỗi con (sub-sequence filtering)

Xác suất điều kiện của n-gram trong một ngữ cảnh cụ thể được các mơ hình ngơn ngữ n-gram chuẩn lưu trữ. Phần lớn những mơ hình ngơn ngữ này sử dụng một số phương pháp nội suy để kết hợp xác suất điều kiện của n-

gram đang xét với xác suất n-gram bậc thấp hơn. Phụ thuộc vào phương pháp làm mịn được sử dụng, có thể chúng ta cịn cần đến các thơng số thống kê phụ cho từng n-gram như số lượng hậu tố (đối với làm mịn WittenBell, Kneser- Ney) hay tiền tố ngữ cảnh (đối với làm mịn Kneser-Ney, Stupid Backoff).

Chúng ta có thể sử dụng một BF duy nhất để lưu trữ những số liệu thống kê này nhưng cần chỉ rõ loại của chúng (tần suất xuất hiện thô, số tiền tố, số hậu tố, …), bằng cách sử dụng các tập k hàm băm khác nhau cho từng loại.

Cần thiết phải lưu trữ các dữ liệu thống kê này một cách trực tiếp vào BF, thay vì lưu các xác suất được tính tốn sẵn bởi vì sử dụng dữ liệu thống kê ngữ liệu trực tiếp, chúng ta có thể tiết kiệm cả không gian lưu trữ đồng thời giảm tỉ lệ lỗi nhờ sử dụng các thông tin trung gian khác được kết xuất từ ngữ liệu.

Khi phân tích tỉ lệ lỗi ở phần trên chỉ tập trung vào lỗi false positive của BF. Tuy nhiên trong thực tế, không giống như các cấu trúc dữ liệu thơng thường khác, độ chính xác của mơ hình BF cịn phụ thuộc vào các yếu tố khác trong hệ thống và cách thức mô hình được truy vấn.

Ta có thể tận dụng tính đơn điệu của khơng gian sự kiện n-gram trong ngữ liệu ngôn ngữ tự nhiên để thiết lập một cận trên cho tần suất của tất cả các n-gram này. Nhờ vậy mà có thể giảm bớt số lần thực hiện vịng lặp lớn trong thuật tốn kiểm tra (Thuật tốn 2). Cụ thể, khi đã lưu trữ các n-gram bậc thấp hơn trong BF, ta có thể nói rằng một n-gram khơng thể tồn tại nếu có bất kỳ chuỗi con nào của nó khơng tồn tại, ý tưởng này được gọi là bộ lọc dựa

vào chuỗi con. Do quy trình lưu trữ tần suất BF sử dụng khơng bao giờ đánh

giá thấp tần suất của một sự kiện nên tần suất của một n-gram không thể lớn hơn tần suất của chuỗi con ít xảy ra nhất của nó.

 1,..., n min  1,..., n 1 , 2,..., n

c w w  c w w  c w w

Với phương pháp làm mịn nội suy bộ lọc này giảm tỉ lệ lỗi của các mơ hình ngơn ngữ BF bằng cách sử dụng giá trị nhỏ nhất được trả lại bởi các mơ hình bậc thấp làm cận trên cho các mơ hình cấp cao hơn.

CHƯƠNG 3

ỨNG DỤNG BLOOM FILTER CHO HỆ DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ

Bộ lọc dựa vào chuỗi con (sub-sequence filtering)

Các cấu trúc dữ liệu xác suất (PDS)