Mụ hỡnh ngụn ngữ

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng chương trình dịch tự động Anh - Việt bằng phương pháp thống kê (Trang 47 - 50)

3.2.1. N-gram

Cỏch đơn giản nhất để ngắt một chuỗi kớ tự thành cỏc thành phần nhỏ hơn gọi là cỏc chuỗi con. Mỗi chuỗi con n-từ nhƣ vậy đƣợc gọi là n-gram.

Nếu n = 2 ta gọi là bigram Nếu n = 3 ta gọi là trigram

Nếu n = 1 ta gọi là unigram hay cũn gọi là từ.

Nếu một chuỗi kớ tự cú rất nhiều n-gram hợp lệ thỡ ta cú thể kết luận chuỗi kớ tự đú là chuỗi hợp lệ. Kớ hiệu b(y/x) là xỏc suất mà từ y theo sau từ x. Chỳng ta cú thể ƣớc lƣợng xỏc suất này dựa vào Corpus.

Xỏc suất bigram điều kiện là thƣơng số của phộp chia số lần xuất hiện cụm “xy” cho số lần xuật hiện từ “x” trong Corpus, đƣợc kớ hiệu là p(x|y).

Vớ dụ về xỏc suất bigram điều kiện:

P(oil | Arabian): ta cú thể hiểu là xỏc suất để từ oil xuất hiện sau từ Arabian. Về giỏ trị này, chỳng ta cú thể xỏc định trực tiếp và tự động từ corpus tiếng Anh. Giả sử trong corpus mà ta test, “Arabian” xuất hiện 471 lần, cũn “Arabian oil” xuất hiện 62 lần, thỡ P(oil|Arabian) = 62/471 = 0,13.

Tƣơng tự, ta cú định nghĩa tƣơng tự đối với xỏc suất trigram điều kiện.

Vớ dụ về xỏc suất trigram điều kiện:

P(minister| Arabian oil): ta cú thể hiểu là xỏc suất để từ minister xuất hiện sau dóy hai từ Arabian oil. Giả sử trong corpus mà ta test, “minister Arabian oil” xuất hiện 8 lần, cũn “Arabian oil” xuất hiện là 25 lần, nhƣ vậy P(minister| Arabian oil) = 8/25 = 0,32.

3.2.2. Mụ hỡnh ngụn ngữ

Đầu tiờn chỳng ta xem xột về trật tự từ. Trong cỏch dịch của chỳng ta, cú một tỳi cỏc từ và chỳng ta muồn lấy chỳng ra theo một thứ tự hợp lý. Nhƣng giả sử rằng chỳng ta cú vài tỳi khỏc nhau, tƣơng ứng là tập cỏc nghĩa của cỏch dịch cỏc từ ở tỳi trờn. Chỳng ta cú thể tỡm thứ tự từ tốt nhất của mỗi tỳi nhƣng làm thế nào để chỳng ta chọn cõu của ngụn ngữ đớch hợp lý nhất. Cõu trả lời là chỳng ta sử dụng mụ hỡnh n-gram, gỏn xỏc suất cho bất kỡ một dóy cỏc từ cú thể hiểu đƣợc. Sau đú chỳng ta chọn ra dóy cú thể nhất (xỏc suất cao nhất).

Vớ dụ: dóy cỏc từ “John saw Mary” và “that‟s enough already” là cú thể hiểu đƣợc (cú thể tồn tại) ngƣợc lại dóy “John Mary saw” và “radiate grouper engines” là khụng thể hiểu đƣợc (khụng tồn tại). Về ngụn ngữ học, theo truyền thống chỳng ta chia cỏc dóy cỏc từ này thành hai loại: đỳng ngữ phỏp và sai ngữ phỏp nhƣng trong dịch mỏy chỳng ta luụn luụn phải chọn giữa hai cõu đỳng ngữ phỏp.

Vớ dụ: Cỏch dịch nào là tốt hơn trong (A) và (B)

(A) John viewed Mary in the televison.

(B) John saw Mary on TV.

Mặt khỏc, trong nhận dạng tiếng núi ngƣời ta sử dụng khỏ nhiều xỏc suất theo kinh nghiệm gỏn cho dóy cỏc từ. Vớ dụ: “bears hibernate” đỳng hơn là “bare cyber Nate”. Phƣơng phỏp sử dụng ở đõy là dựa vào bigram hoặc trigram để chuyển chỳng thành xỏc suất để so sỏnh.

Để gỏn xỏc suất cho toàn bộ một cõu, ta nhõn xỏc suất điều kiện n-gram mà nú bao gồm. Vỡ vậy, một cõu tốt (càng đỳng ngữ phỏp) là cõu mà cú nhiều dóy n-gram. Vớ dụ trong bigram ta cú:

P(I found riches in my backyard) =

P(I | start of sentence) *

P(riches | found) *

P(in | riches) *

P(my | in) *

P(backyard | my)*

P(end of sentence | backyard)

Dễ dàng thấy rằng điều này cú ớch nhƣ thế nào đối với trật tự từ. Dựa vào cỏch tớnh xỏc suất nhƣ trờn ta thấy rằng cõu “I found riches in my backyard” tốt hơn “My I in riches backyard found”.

Nhƣ vậy, ta cú thể coi toàn bộ cỏc chủ đề về gỏn xỏc suất cho một cõu đƣợc gọi là

mụ hỡnh ngụn ngữ.

Mụ hỡnh ngụn ngữ khụng chỉ cú ớch cho thứ tự cỏc từ mà cũn cú ớch cho việc chọn nghĩa giữa cỏc cỏch dịch khỏc nhau.

Vớ dụ: Cho 2 cõu (A) và (B)

(A) I found riches in my backyard.

(B) I found riches on my backyard.

Quyết định này dịch từ tiếng Việt sang tiếng Anh, cả hai từ “in” hoặc “on” đều tƣơng ứng với từ “trong”. Nếu trong corpus của chỳng ta, giả sử trigram “in my backyard” xuất hiện 10 lần, trong khi “on my backyard” khụng xuất hiện (hoặc khỏ nhỏ so với “in my backyard”) thỡ (A) là cõu tốt hơn (đƣợc chọn). Điều đú cú nghĩa là ta cú thể giả quyết vấn đề nhập nhằng ngữ nghĩa chỉ dựa vào ngụn ngữ đớch.

3.2.3. Làm mịn (Smoothing)

Mụ hỡnh n-gram cú thể gỏn xỏc suất bằng 0 cho cõu mà bao gồm cỏc bigram và trigram chƣa bao giờ xuất hiện trƣớc đú. Hiện tƣợng này gọi là smoothing. Nếu “z” chƣa bao giờ theo sau “xy” trong văn bản, chỳng ta

b(z | x y) = number-of-occurrences(“xyz”) / number-of-occurrences(“xy”)

Chỳng ta cú thể viết:

b(z | x y) = 0.95 * number-of-occurrences(“xyz”) / number-of-occurrences(“xy”) + 0.04 * number-of-occurrences (“yz”) / number-of-occurrences (“z”) + 0.008 * number-of-occurrences(“z”) / total-words-seen +

0.002

Để dễ dàng sử dụng hệ số làm mịn khỏc nhau trong tỡnh huống khỏc nhau. Chỳng ta cú thể gỏn 0.95 cho xy(z) nhƣng 0.85 cho trƣờng hợp khỏc nhƣ ab(c).

Chỳ ý là chỳng ta phải cú 0.002 ở vế trỏi của biểu thức trờn. Điều này làm cho xỏc suất trigram điều kiện luụn luụn khỏc 0. Nhƣ vậy, chỳng ta luụn gỏn dƣơng xỏc suất cho bất kỡ một chuỗi từ bất kỡ cho dự chuỗi này cú đỳng ngữ phỏp hay khụng.

3.2.4. Phộp tớnh log xỏc suất (Log Probability Arithmetic)

Giả sử P(e) là xỏc suất của cõu e trong mụ hỡnh ngụn ngữ. Một vấn đề xảy ra là khi P quỏ nhỏ dẫn đến dễ bị tràn dấu chấm phẩy. Điều này thƣờng xẩy ra khi P(e) là tớch của nhiều thừa số f1, f2, …, fn, mà fi < 1 (i = 1,..., n). Cú một cỏch để giải quyết vấn đề này:

Log(P(e)) = Log (f1 * f2 * …* fn) = Log(f1) + Log(f2) + … + Log(fn).

Nếu chỳng ta lƣu trữ và thao tỏc với phộp tớnh Log thỡ chỳng ta trỏnh đƣợc tràn số.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng chương trình dịch tự động Anh - Việt bằng phương pháp thống kê (Trang 47 - 50)

Tải bản đầy đủ (PDF)

(92 trang)