Mô hình Source-Channel cải tiến

Mô hình này được đề nghị trong [GLH03].

Đặt S là một câu tiếng Trung Quốc, hay là một chuỗi các ký tự (tương đương chuỗi tiếng trong tiếng Việt). Với mỗi cách tách từ W có thể có, chọn cách tách từ tốt nhất W∗, tương ứng với xác suất điều kiện P(W|S):

W∗ = argmax

P(W|S)

Theo công thức Bayes, bỏ mẫu số là hằng số, ta được:

W∗ = argmax

P(W)P(S|W)

Ta định nghĩa lớp từ C như sau:

• Mỗi từ được định nghĩa như một lớp.

• Mỗi từ dẫn xuất hình thái được định nghĩa như một lớp.

• Mỗi loại ký hiệu khác nhau được định nghĩa như một lớp. Ví dụ, các biểu thức thời gian thuộc về lớp TIME.

23Weighted Finite State Transducer

KHOA CNTT –

ĐH KHTN

CHƯƠNG 3. CƠ SỞ TIN HỌC 3.6. TÁCH TỪ

• Mỗi loại tên riêng thuộc về một lớp. Ví dụ, tên người thuộc lớp PN. Ta chuyển công thức trên qua các lớp từ:

C∗ = argmax

P(C)P(S|C)

Công thức trên là công thức cơ bản của mô hình source-channel cho tách từ tiếng Trung Quốc. Mô hình giả định câu S được phát sinh như sau: Đầu tiên, một người chọn một chuỗi khái niệm (ví dụ, lớp từ C) để xuất ra, theo xác suất P(C). Sau đó người đó cố gắng thể hiện các khái niệm đó bằng chuỗi các ký tự, theo xác suấtP(S|C).

Mô hình source-channel có thể được hiểu theo một cách khác: P(C) là mô hình thống kê dự đoán xác suất của chuỗi lớp từ. Nó chỉ ra khả năng một lớp từ xuất hiện, dựa trên một ngữ cảnh cho trước. Vậy P(C) còn được hiểu như mô hình ngữ cảnh. P(S|C)là mô hình phát sinh, dự đoán khả năng một chuỗi ký tự được phát sinh dựa trên lớp từ cho trước. Vậy P(S|C) còn được hiểu như mô hình lớp.

Mặc dù mô hình ngữ cảnh và mô hình lớp có thể được kết hợp bằng một phép nhân đơn giản. Tuy nhiên nếu thêm trọng số thì kết quả tốt hơn. Lý do là có một số mô hình lớp dự đoán kết quả rất không chính xác. Hơn nữa, các mô hình lớp của các lớp từ khác nhau được xây dựng theo những cách khác nhau. Vì vậy xác suất mô hình lớp khác nhau nhiều giữa các mô hình lớp. Một cách để cân bằng những xác suất này là thêm vào một trọng sốCW cho mỗi mô hình lớp để điều chỉnh xác suất P(S|C) thành P(S|C)CW

Với mô hình đã có, thao tác tách từ bao gồm hai bước:

1. Cho chuỗi S, phát sinh mọi cách tách từ có thể có. Mỗi cách tách từ được đánh nhãn lớp từ và xác suất lớp P(S0|C) với S0 là bất kỳ chuỗi con nào của S.

KHOA CNTT –

ĐH KHTN

CHƯƠNG 3. CƠ SỞ TIN HỌC 3.6. TÁCH TỪ

2. Thuật toán tìm kiếm Viterbi được áp dụng để chọn cách tách từ có khả năng nhất theo công thức nêu trên.

Huấn luyện

Nếu có một dữ liệu được tách từ sẵn, công việc trở nên rất dễ dàng. Tuy nhiên, việc xây dựng một ngữ liệu tách từ sẵn đủ lớn sẽ tốn rất nhiều công sức (đặc biệt là các mô hình thống kê thường đòi hỏi lượng ngữ liệu cực kỳ lớn, lớn hơn rất nhiều so với các mô hình dựa trên luật). Để đơn giản vấn đề, ngữ liệu này được xây dựng tự động như sau:

1. Khởi đầu, sử dụng một bộ tách từ sẵn có (có thể áp dụng các thuật giải đơn giản, không cần huấn luyện, như Longest matching, Maximum matching . . . )

2. Sử dụng mô hình đề nghị để tách từ ngữ liệu huấn luyện.

3. Tái huấn luyện mô hình dựa trên kết quả tách từ có được ở bước 2. Bước 2–3 có thể được lặp lại nhiều lần cho đến khi hiệu suất của mô hình ngừng tăng.

Mô hình Bayes và Danh sách quyết định