Gán nhãn sử dụng kỹ thuật Cực đại hóa kỳ vọng

Một phần của tài liệu nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn (Trang 30 - 35)

Chương 3 MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN KHễNG Cể HƯỚNG DẪN CHO GÁN NHÃN TỪ LOẠI

3.1 Gán nhãn sử dụng kỹ thuật Cực đại hóa kỳ vọng

Bài toán gán nhãn từ loại đƣợc mô hình hóa sử dụng mô hình Markov ẩn (HMM) nhƣ sau: Các nhãn từ loại đƣợc coi là các trạng thái ẩn và các từ của văn bản nhƣ là đầu ra (trạng thái quan sát đƣợc).

Lúc này các từ và các nhãn trong mô hình Markov tương ứng với:

xi: 1 nhãn từ loại

aij = p(xj|xi): xác suất để nhãn xj xuất hiện sau nhãn xi (các xác suất chuyển tiếp)

bi(oj) = p(oj|i): xác suất quan sát đƣợc từ yj tại trạng thái nhãn i (các xác suất đầu ra)

oi: dữ liệu quan sát đƣợc (các từ)

Giải quyết bài toán gán nhãn từ loại sử dụng mô hình HMM chính là xác định chuỗi nhãn cho các từ trong văn bản sao cho xác suất chuỗi nhãn xuất hiện chuỗi từ đó là cao nhất. Lúc này để giải quyết bài toán gán nhãn là ta giải quyết bài toán thứ 2 của mô hình HMM

Chiến lƣợc EM chủ yếu sử dụng thuật toán tiến lùi dựa trên nguyên tắc sự ƣớc lƣợng khả năng cực đại để đánh giá các tham số (Các xác suất chuyển tiếp và xác suất đầu ra) cho mô hình. Một đặc trưng khác của phương pháp tiếp cận này là sử dụng một kho từ vựng hay một từ điển đã gán nhãn. Nhƣ vậy một kho từ vựng dễ dàng có thể đƣợc trích từ một từ điển chuẩn.

Để nghiên cứu hiệu quả của EM trên độ chính xác gán nhãn khi dữ liệu huấn luyện là một hỗn hợp của văn bản gán nhãn và chƣa gán nhãn [14]. Một HMM trigram đƣợc xác định sử dụng hai sự huấn luyện khác nhau, một là có hướng dẫn (việc đếm tần số quan hệ nội suy với sự phân phối đều) và một là không có hướng dẫn (khả năng cực đại). Một kho từ vựng đầy đủ gồm các từ từ cả tập văn huấn luyện và tập văn thử nghiệm đƣợc sử dụng để ƣớc lƣợng các xác suất đầu ra, có nghĩa là các cặp nhãn-từ không có trong kho từ vựng sẽ có xác suất 0.

3.1.1 Huấn luyện mô hình Trigram

Chúng ta xem xét hai loại huấn luyện khác nhau:

- Huấn luyện tần số quan hệ (Relative Frequency RF)

- Huấn luyện khả năng cực đại (Maximum Likelihood ML) bằng thuật toán tiến-lùi.

3.1.1.1 Huấn luyện tần số quan hệ

Nếu chúng ta có một lƣợng văn bản đã gán nhãn có sẵn, chúng ta có thể tính toán số lần N(w,t) một từ w đƣợc đƣa ra xuất hiện với nhãn t và số lần N(t1,t2,t3) chuỗi (t1,t2,t3) xuất hiện trong văn bản này. Chúng ta có thể ƣớc lƣợng các xác suất hk bằng cách tính toán tần số quan hệ của các sự kiện tương ứng trên dữ liệu này:

) , (

) , , ) (

, / ( ) , / (

2 1

3 2 1 2

1 3 2

1

3 N t t

t t t t N

t t f t t t

hrf  

) (

) , ) (

/ ( ) /

( N t

t w t N

w f t w

krf  

Những ƣớc lƣợng này gán một xác suất 0 cho bất kỳ chuỗi các nhãn mà không xuất hiện trong dữ liệu huấn luyện. Nhƣng các chuỗi nhƣ vậy có thể xuất hiện nếu chúng ta xem xét những văn bản khác. Một xác suất 0 cho một chuỗi tạo ra các vấn đề bởi vì bất kỳ liên kết nào mà chứa chuỗi này sẽ nhận đƣợc một xác suất 0. Bởi vậy, có thể xảy ra với vài chuỗi các từ, mọi liên kết sẽ nhận đƣợc một xác suất 0 và mô hình trở nên vô ích cho những câu nhƣ vậy.

Để tránh điều này, chúng ta nội suy những phân phối này với những phân phối đều, chúng ta xem xét mô hình đƣợc nội suy xác định bởi:

) , / ( ).

1 ( ) , / ( . ) , /

( 3 1 2 3 1 2 3 1 2

int t t t h t t t h t t t

h er  rf   unif

) / ( ).

1 ( ) / ( )

/

int (w t k w t k w t

k er  rf   unif

Trong đó:

T

unif t t t N

h 1

) , /

( 3 1 2 

T

unif w t W

k 1

) /

( 

WT: là số từ chứa nhãn T

Hệ số nội suy λ đƣợc tính toán nhờ thủ tục nội suy, cũng gọi là “Làm mịn”.

Làm mịn đƣợc thực hiện nhƣ sau:

- Một số văn bản đã gán nhãn trong tập dữ liệu huấn luyện không đƣợc sử dụng trong khi tính toán tần số quan hệ, đƣợc gọi là dữ liệu tách riêng.

- Hệ số λ đƣợc chọn để cực đại hoá xác suất đầu ra của dữ liệu tách riêng bằng mô hình đã nội suy.

- Sự cực đại hoá này có thể đƣợc thực hiện bằng thuật toán FB chuẩn trong đó λ và 1 – λ đƣợc xem nhƣ là các xác suất chuyển của mô hình Markov.

3.1.1.2 Huấn luyện khả năng cực đại (ML)

Sử dụng một mô hình trigram M, có thể tính toán xác suất của bất kỳ chuỗi các từ W theo mô hình này: p (W ) p (W ,T)

T M

M 

Trong đó, tổng đƣợc lấy trên tất cả các liên kết có thể. Huấn luyện ML tìm thấy mô hình M mà cực đại hoá xác suất của văn bản huấn luyện:

) (

max p W

W M

M

Trong đó, tích đƣợc lấy trên tất cả các câu W trong văn bản huấn luyện.

Đây là vấn đề của huấn luyện một mô hình Markov ẩn.

3.1.2 Kết quả thử nghiệm với tiếng Anh 3.1.2.1 Dữ liệu văn bản

[14] sử dụng dữ liệu Penn treebank gồm có 42186 đã đƣợc gán nhãn một cách thủ công (khoảng 1 triệu từ).

Sử dụng 159 các nhãn khác nhau để gán nhãn cho Penn treebank.

Xây dựng từ điển bằng cách đƣa tất cả các từ xuất hiện trong văn bản cùng với tất cả các nhãn đƣợc gán ở trong văn bản.

Chia dữ liệu thành hai phần:

- Một tập gồm 40186 câu đã gán nhãn, dữ liệu huấn luyện, đƣợc sử dụng để xây dựng mô hình.

- Một tập gồm 2000 câu đã gán nhãn, dữ liệu huấn luyện, đƣợc sử dụng để thử nghiệm chất lƣợng các mô hình.

3.1.3 Các thí nghiệm cơ bản

Thí nghiệm sử dụng thuật toán gán nhãn Viterbi và huấn luyện RF Trong thí nghiệm đã trích ra N câu từ dữ liệu huấn luyện. Ta tính các tần số quan hệ trên các câu này và xây dựng một mô hình đã đƣợc làm mịn bằng thủ tục làm mịn. Mô hình này đƣợc sử dụng để gán 2000 câu thử nghiệm.

Người ta đã thử nghiệm với các giá trị khác nhau của N và thấy rằng kích cỡ dữ liệu huấn luyện tăng thì hệ số nội suy tăng và chất lƣợng gán nhãn cũng đƣợc cải tiến.

Thí nghiệm sử dụng thuật toán gán nhãn Viterbi và huấn luyện ML Trong huấn luyện ML, người ta tận dụng tất cả các dữ liệu có sẵn nhưng chỉ sử dụng chuỗi các từ, không dùng đến các nhãn liên quan.

Người ta thực hiện mô hình được tạo ra bằng phân phối đều. Chỉ các ràng buộc trong mô hình đến từ các giá trị k(w/t) đƣợc đặt bằng 0 khi nhãn t là không thể cho từ w. Kết quả cho thấy huấn luyện ML vừa cải tiến sự phức tạp

của mô hình và giảm tỉ lệ lỗi của gán nhãn. Tuy nhiên, tỉ lệ lỗi này tương đối cao, cao hơn tỉ lệ lỗi thu đƣợc với huấn luyện RF trên 100 câu đã gán nhãn.

Người ta giữ mô hình đầu tiên và sử dụng huấn luyện ML để gán nhãn cho chuỗi từ. Các kết quả cho thấy, khi sử dụng ít dữ liệu đã gán nhãn, mô hình thu đƣợc bởi RF không tốt và huấn luyện ML có thể cải tiến. Tuy nhiên khi mà dữ liệu đã gán nhãn tăng thì các mô hình thu đƣợc từ RF chính xác hơn và huấn luyện ML có thể làm giảm sút độ chính xác gán nhãn nếu chúng ta sử dụng nhiều hơn 5000 câu đã gán nhãn.

Một phần của tài liệu nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn (Trang 30 - 35)

Tải bản đầy đủ (PDF)

(53 trang)