Như vậy, có khá nhiều phương pháp học máy đã được áp dụng để giải quyết bài toán gán nhãn từ loại tiếng Việt. Tuy bước đầu đạt được một số kết quả khả quan, nhưng hầu hết các nghiên cứu đều mang tính cá thể, sử dụng bộ dữ liệu học cũng như tập đặc trưng khác nhau. Trong khóa luận này, chúng tơi thực hiện so sánh một vài phương pháp học máy điển hình trên cùng một bộ dữ liệu và sử dụng cùng tập đặc trưng. Từ kết quả thu được, chúng tôi tiến hành đánh giá các phương pháp trên một vài yêu tố, cũng như xem xét độ phù hợp của tập đặc trưng đã sử dụng đối với tiếng Viêt.
Chương 3. BA MƠ HÌNH HỌC MÁY ÁP DỤNG CHO BÀI TỐN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT
Việc khảo sát các phương pháp học máy được áp dụng thành công cho nhiều ngôn ngữ (chủ yếu là khảo sát các phương pháp đã được sử dụng cho 3 ngôn ngữ tiêu biểu là tiếng Anh, tiếng Trung Quốc và tiếng Thái) cho thấy có khá nhiều phương pháp học máy có thể áp dụng cho bài tốn gán nhãn từ loại Tiếng Việt. Khóa luận lựa chọn ba phương pháp học máy điển hình đã cho kết quả khả quan ở nhiều ngơn ngữ và có khả năng đạt kết quả tốt đối với tiếng Việt, đó là MEM, CRF và SVM. Cơ sở lý thuyết ở chương này sẽ là nền tảng cho phần thực nghiệm để đưa ra đánh giá về độ chính xác cũng như phù hợp của các phương pháp này với Tiếng Việt. Trong các thực nghiệm thuộc phạm vi khóa luận, bài tốn gán nhãn từ loại được xem là bài toán phân lớp, với các lớp chính là các nhãn từ loại đã được xác định trước.
3.1. Mơ hình cực đại hóa Entropy
Mơ hình cực đại hóa Entropy (Maximum Entropy Model - MEM) [4, 15, 25] là một mơ hình dựa trên lý thuyết xác suất, được đề xuất lần đầu bởi Jaynes E.T. từ năm 1957. Theo [25], MEM giải quyết tốt ba yêu cầu chủ yếu của xử lý ngơn ngữ tự nhiên, đó là: Độ chính xác, đặc trưng thiếu tri thức và khả năng tái sử dụng. Phần này sẽ giới thiệu về bản chất lý thuyết, mơ hình xác suất và một số mặt còn hạn chế của MEM.
3.1.1. Khái niệm MEM
Tư tưởng chính của phương pháp cực đại hóa Entropy là “ngồi vệc thỏa mãn một số ràng buộc nào đó thì mơ hình càng đồng đều càng tốt” [25]. Để rõ hơn về vấn
đề này, thử xem xét trong trường hợp một bài tốn gán nhãn từ loại gồm có 8 nhãn từ loại. Giả sử chúng ta có một ràng buộc duy nhất: 80% các từ có ký tự đầu của các hình vị viết hoa là danh từ riêng (Np). Trực quan cho thấy, nếu có một từ mà tất cả ký tự đầu của các hình vị tạo nên nó là viết hoa thì chúng ta có thể nói có 80% khả năng từ này thuộc lớp danh từ riêng, và 20% khả năng được chia đều cho 7 lớp còn lại. Mặc dù MEM có thể được dùng để ước lượng bất kì một phân phối xác suất nào, khóa luận sẽ tập trung xem xét khả năng làm cực đại hóa entropy cho việc gán nhãn dữ liệu dạng chuỗi. Nói cách khác, ta tập trung vào việc học ra phân phối điều kiện của chuỗi nhãn tương ứng với chuỗi (xâu) đầu vào cho trước
Như vây, bản chất lý thuyết của MEM là chọn một phân bố xác suất p theo một đặc trưng ràng buộc nào đó. Phân bố được chọn là phân bố làm cực đại hóa độ hỗn loạn thơng tin trong một tập các thực thể được gán nhãn.
3.1.2. Nguyên lý cực đại hóa Entropy
Cực đại hóa Entropy là một nguyên lý cho phép đánh giá các phân phối xác suất từ một tập các dữ liệu huấn luyện.
Entropy là độ đo về tính đồng đều hay tính khơng chắc chắn của một phân phối xác suất. Độ đo Entropy điều kiện của một phân phối mơ hình trên “một chuỗi trạng thái với điều kiện biết một chuỗi dữ liệu quan sát” p(y|x) có dạng sau
H ( p) = −∑ ~p(x) * p(y | x) * log p(y | x)
x,y (3.1)
Tư tưởng chủ đạo của nguyên lý cực đại hóa Entropy là ta phải xác định một phân phối mơ hình sao cho “phân phối đó tuân theo mọi giả thiết đã biết từ thực nghiệm và ngồi ra khơng đưa thêm bất kì một giả thiết nào khác”. Điều này có nghĩa là phân phối mơ hình phải thỏa mãn mọi ràng buộc được rút ra từ thực nghiệm, và phải gần nhất với phân phối đều. Nói theo ngơn ngữ tốn học, ta phải tìm phân phối mơ hình p(y|x) thỏa mãn hai điều kiện, một là nó phải thuộc tập P’ và hai là nó phải làm cực đại Entropy điều kiện (3.1).
Với P là không gian của tất cả các phân phối xác suất điều kiện,và P’ là tập con của P, P’ được xác định như sau:
P'= {p ∈ P | E ( f ) = E~ ( f )∀i ∈{1,2,3...,n}} p i p i 3.1.3. Mơ hình xác suất
Theo [4, 15] mơ hình xác suất được định nghĩa theo khơng gian H x T, trong đó
H là tập từ có thể và ngữ cảnh từ loại, hoặc cịn gọi là “lịch sử”, và T là tập các nhãn
có thể có. Xác suất mơ hình của lịch sử h cùng với nhãn t được định nghĩa theo công
thức 3.2: p(h, t) = ∏ µ k ∏α f j ( h,t ) j =1 (3.2) j
Trong đó, ∏ là hằng số chuẩn hóa, {µ, α1, … αk} là các tham số mang giá trị dương của mơ hình và {f1, …, fk} chính là các đặc trưng, thỏa mãn fj (h,t)∈{0, 1}. Chú ý rằng mỗi tham số aj tương ứng với một đặc trưng fj.
Cho trước một tập các từ {w1, …, wn} và một chuỗi nhãn {t1, …, tn} được xem là dữ liệu huấn luyện, ta định nghĩa hi là lịch sử khi dự đoán nhãn ti. Các tham số {µ, α1,
… αk} được chọn sao cho làm cực đại likelihood dữ liệu huấn luyện sử dụng p theo công thức (3.3) n n k L( p) = ∏ p(h , t ) = ∏ Πµ∏α f j ( hi ,ti ) i=1 i i i=1 j j=1 (3.3)
Mơ hình này được xem xét dưới dạng Maximum Entropy, trong đó mục tiêu là cực đại entropy của một phân phối dưới những ràng buộc nhất định. Ở đây, entropy của phân phối p được định nghĩa theo công thức (3.4)
H ( p) = − h∈H ,t∑∈τ p(h, t)logp(h, t)
(3.4)
Và các ràng buộc được cho bởi công thức (3.5)
Efi = Ef , 1
≤ j ≤ k (3.5)
Trong đó kỳ vọng đặc trưng của mơ hình là (3.6)
Efi = ∑ p(h, t) f j (h, t) h∈H ,t∈τ (3.6) và kỳ vọng đặc trưng quan sát là (3.7) ~ Efi = ∑ ~p(h i , ti ) f j (hi , ti ) i=1 (3.7) Trong đó ~p(h , t )
i i là xác suất của (h , t ) trong dữ liệu huấn luyện. Vì thế, các
i i
ràng buộc này sẽ ép buộc mơ hình phải đáp ứng được u cầu phù hợp tương ứng giữa các kỳ vọng đặc trưng đó với kỳ vọng đặc trưng quan sát trong dữ liệu huấn luyện.
3.1.4. Hạn chế của mơ hình MEM
Mặc dùng mơ hình MEM có những ưu điểm về độ chính xác, đặc trưng thiếu tri thức và khả năng tái sử dụng, nhưng trong một số trường hợp đặc biệt, MEM cũng như các mơ hình định nghĩa một phân phối xác suất cho mỗi trạng thái có thể gặp phải vấn
j
đề “label bias” [10]. Vấn đề “label bias” là vấn đề do các trạng thái có phân phối chuyển với entropy thấp (ít đường đi ra) có xu hướng ít chú ý hơn đến quan sát hiện tại, mơ hình MEM gặp phải vấn đề này tức là không xác định được nhánh rẽ đúng, điều này sẽ có ảnh hưởng đến kết quả mà nó đạt được.
Năm 1991, Léon Bottou đưa ra hai giải pháp cho vấn đề “label bias”.Giải pháp thứ nhất là gộp các trạng thái và trì hỗn việc rẽ nhánh cho đến khi gặp một quan sát xác định. Đây chính là trường hợp đặc biệt của việc chuyển một ô-tô-mát không đơn định sang một automata đơn định. Nhưng vấn đề ở chỗ ngay cả khi có thể thực hiện việc chuyển đổi này thì cũng gặp phải sự bùng nổ tổ hợp các trạng thái của automata. Giải pháp thứ hai mà Bottou đưa ra là chúng ta sẽ bắt đầu mơ hình với một đồ thị đầy đủ của các trạng thái và để cho thủ tục huấn luyện tự quyết định một cấu trúc thích hợp cho mơ hình.Tiếc rằng giải pháp này sẽ làm mất đi tính có thứ tự của mơ hình, một tính chất rất có ích cho các bài tốn trích chọn thơng tin .
Một giái pháp đúng đắn hơn cho vấn đề này là xem xét toàn bộ chuỗi trạng thái như một tổng thể và cho phép một số các bước chuyển trong chuỗi trạng thái này đóng vai trị quyết định với việc chọn chuỗi trạng thái. Điều này có nghĩa là xác suất của tồn bộ chuỗi trạng thái sẽ khơng phải được bảo tồn trong q trình chuyển trạng thái mà có thể bị thay đổi tại một bước chuyển tùy thuộc vào quan sát tại đó .
3.2. Mơ hình trường ngẫu nhiên điều kiện
Mơ hình trường ngẫu nhiên điều kiện CRF (Conditional Random Fields) [4, 10, 19] được giới thiệu lần đầu vào năm 2001 bởi Lafferty và các đồng nghiệp. CRF là mơ hình dựa trên xác suất điều kiện, nó có thể tích hợp được các thuộc tính đa dạng của chuỗi dữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp. Tuy vậy, khác với các mơ hình xác suất khác, CRF là mơ hình đồ thị vơ hướng. Điều này cho phép CRF có thể định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó và quan sát hiện tại như trong các mơ hình đồ thị có hướng khác. Bản chất “phân phối điều kiện” và “phân phối tồn cục” của CRF cho phép mơ hình này khắc phục được những nhược điểm của các mơ hình trước đó trong việc gán nhãn và phân đoạn các dữ liệu dạng chuỗi mà tiêu biểu là vấn đề ‘label bias’.
Phần này sẽ đưa ra định nghĩa CRF, lựa chọn các “hàm tiềm năng” cho các mơ hình CRF, thuật tốn Viterbi cải tiến để tìm chuỗi trạng thái tốt nhất mơ tả một chuỗi dữ liệu quan sát cho trước và một số phương pháp để ước lượng các tham số cho mơ hình CRF.
3.2.1. Khái niệm CRF
Kí hiệu X là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn và Y là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứng. Mỗi thành phần Yi của Y là
một biến ngẫu nhiên nhận gía trị trong tập hữu hạn các trạng thái S. Trong bài toán gán nhãn từ loại, X có thể nhận giá trị là các câu trong ngơn ngữ tự nhiên (gồm các từ), Y là một chuỗi ngẫu nhiên các nhãn tương ứng với các từ tạo thành câu này và mỗi một thành phần Yi của Y có miền giá trị là tập tất cả các nhãn từ loại có thể (danh từ, động từ, tính từ,...).
Cho một đồ thị vơ hướng khơng có chu trình G = (V, E), ở đây V là tập các đỉnh của đồ thị và E là tập các cạnh vô hướng nối các đỉnh đồ thị. Các đỉnh V biểu diễn các thành phần của biến ngẫu nhiên Y sao cho tồn tại ánh xạ một- một giữa một đỉnh và
một thành phần Yv của Y. Ta nói (Y|X) là một trường ngẫu nhiên điều kiện (Conditional Random Field) khi với điều kiện X, các biến ngẫu nhiên Yv tuân theo tính chất Markov đối với đồ thị G [10]:
P(Yv | X,Yω ,ω ≠ v) = P(Yv |
X,Yω ,ω ∈ N(v)) (3.8)
Ở đây, N(v) là tập tất cả các đỉnh kề với v. Như vậy, một CRF là một trường ngẫu nhiên phụ thuộc toàn cục vào X. Trong các bài toán xử lý dữ liệu dạng chuỗi, G đơn
giản chỉ là dạng chuỗi G = (V={1,2,…m}, E={(i,i+1)}).
Kí hiệu X=(X1, X2,…, Xn), Y=(Y1,Y2,...,Yn). Mơ hình đồ thị cho CRF có dạng: X
Y1 Y2 Y3 Yn-1 Yn