Sơ đồ quá trình làm ngữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại (Trang 29 - 33)

Khi gán nhãn, người làm dữ liệu cần:

- Hiểu đúng câu trước khi phân tích, nếu cần thì biến đổi câu để hiểu đúng nĩ (thêm từ, bớt từ, thay thế từ, đổi thứ tự từ).

- Nhận dạng mẫu (đặc biệt là động từ): chẳng hạn nếu ta đã biết các mẫu động từ đi với danh từ, động từ đi với cụm giới từ, động từ đi với mệnh đề thì cũng là căn cứ ra quyết định.

Khi review, người làm dữ liệu cần chú ý kiểm tra các điểm sau: - Sai tách từ khơng?

- Sai từ loại khơng?

Ngữ liệu thơ Gán nhãn Ngữ liệu chưa review Review và sửa Treebank

Ghi chú cơng việc Sửa tài liệu hướng dẫn Tài liệu đã cập

nhật

Nhĩm ngữ liệu Nhĩm thiết kế Nhĩm gán nhãn

2.2. Một số phương pháp học máy

2.2.1. Mơ hình cực đại hĩa Entropy

Mơ hình cực đại hĩa Entropy (Maximum Entropy Model - MEM) [24] [51] là một mơ hình học máy dựa trên lý thuyết thơng tin, được giới thiệu lần đầu bởi Jaynes E.T. vào năm 1957. Theo A.Ratnaparkhi [51], MEM giải quyết tốt ba yêu cầu chủ yếu của xử lý ngơn ngữ tự nhiên, đĩ là: Độ chính xác, đặc trưng thiếu tri thức và khả năng tái sử dụng. Nội dung phần này sẽ giới thiệu về bản chất mơ hình thống kê cho bài tốn gán nhãn từ loại dựa trên MEM và một số mặt cịn hạn chế của MEM.

2.2.1.1. Khái niệm MEM

Tư tưởng chính của MEM là “ngồi vệc thỏa mãn một số ràng buộc nào đĩ thì mơ hình càng đồng đều càng tốt” [51]. Để rõ hơn về vấn đề này, thử xem xét trong trường hợp một bài tốn gán nhãn từ loại gồm cĩ 8 nhãn từ loại. Giả sử chúng ta cĩ một ràng buộc duy nhất: 85% các từ cĩ ký tự đầu của các hình vị viết hoa là danh từ riêng (Np). Trực quan cho thấy, nếu cĩ một từ mà tất cả ký tự đầu của các hình vị tạo nên nĩ là viết hoa thì chúng ta cĩ thể nĩi cĩ 85% khả năng từ này thuộc lớp danh từ riêng, và 15% khả năng được chia cho 7 lớp cịn lại. Mặc dù MEM cĩ thể được dùng để ước lượng bất kì một phân phối xác suất nào nhưng luận văn sẽ tập trung nghiên cứu khả năng áp dụng MEM cho việc gán nhãn dữ liệu dạng chuỗi. Nĩi cách khác, ta tập trung vào việc học ra phân phối điều kiện của chuỗi nhãn tương ứng với chuỗi (xâu) đầu vào cho trước.

Như vậy, bản chất lý thuyết của MEM là chọn một phân bố xác suất p theo một tập các đặc trưng ràng buộc nào đĩ. Phân bố được chọn là phân bố làm cực đại hĩa độ hỗn loạn thơng tin trong một tập các thực thể được gán nhãn.

2.2.1.2. Nguyên lý cực đại hĩa Entropy

Cực đại hĩa Entropy là một nguyên lý cho phép đánh giá các phân phối xác suất từ một tập các dữ liệu huấn luyện. Entropy là độ đo về tính đồng đều hay tính khơng chắc chắn của một phân phối xác suất. Độ đo Entropy điều kiện của một phân phối mơ hình trên “một chuỗi trạng thái với điều kiện biết một chuỗi dữ liệu quan sát” p(y|x) cĩ dạng sau:

,

( ) ( ) * ( | ) * log ( | )

x y

H p  p x p y x p y x (2-1)

Tư tưởng chủ đạo của nguyên lý cực đại hĩa Entropy là ta phải xác định một phân phối mơ hình sao cho “phân phối đĩ tuân theo mọi giả thiết đã biết từ thực nghiệm và ngồi ra khơng đưa thêm bất kì một giả thiết nào khác”. Điều này cĩ nghĩa là phân phối

mơ hình phải thỏa mãn mọi ràng buộc được rút ra từ thực nghiệm, và phải gần nhất với phân phối đều. Hiểu theo ngơn ngữ tốn học, ta phải tìm phân phối mơ hình p(y|x) thỏa mãn hai điều kiện, một là nĩ phải thuộc tập P’ và hai là nĩ phải làm cực đại Entropy điều kiện (2-1).

Với P là khơng gian của tất cả các phân phối xác suất điều kiện và P’ là tập con của P, P’ được xác định như sau:

 

p P E f E f i n

P'  | p( i) p~( i) 1,2,3..., (2-2)

2.2.1.3. Mơ hình xác suất

Theo [24] [52] mơ hình xác suất được định nghĩa theo khơng gian H x T, trong đĩ H

là tập từ cĩ thể và ngữ cảnh từ loại, hoặc cịn gọi là “lịch sử”, và T là tập các nhãn cĩ thể cĩ. Xác suất mơ hình của là sự kết hợp giữa lịch sử h cùng với nhãn t được định nghĩa theo cơng thức 2-3: ( , ) 1 ( , ) j k f h t j j p h t      (2-3) Trong đĩ: + 𝜋 là hằng số chuẩn hĩa;

+ {µ, α1, …, αk} là các tham số mang giá trị dương của mơ hình;

+ {f1, …, fk} chính là các đặc trưng, thỏa mãn fj (h,t){0, 1}. Chú ý rằng mỗi tham số

ajtương ứng với một đặc trưng fj.

Cho trước một tập các từ {w1, …, wn} và một chuỗi nhãn {t1,…, tn} được xem là dữ liệu huấn luyện, ta định nghĩa hilà lịch sử khi dự đốn nhãn ti. Các tham số {µ, α1, …, αk} được chọn sao cho làm cực đại likelihood dữ liệu huấn luyện sử dụng p theo cơng thức (2-4) ( , ) 1 1 1 ( ) ( , ) j i i n n k f h t i i j i i j L p p h t         (2-4)

Mơ hình này được xem xét dưới dạng cực đại hĩa Entropy, trong đĩ mục tiêu là cực đại entropy của một phân phối dưới những ràng buộc nhất định. Ở đây, Entropy của phân phối p được định nghĩa theo cơng thức:

, ( ) ( , )log ( , ) h H t H p p h t p h t       (2-5)

,

i j

EfEf 1 j k (2-6)

Trong đĩ kỳ vọng đặc trưng của mơ hình là:

, ( , ) ( , ) i j j h H t Ef p h t f h t K       (2-7) và kỳ vọng đặc trưng quan sát là:    n i i i j i i i p h t f h t f E 1 ) , ( ) , ( ~ ~ (2-8)

Trong đĩ p h t( , )i i là xác suất của (hi, ti) trong dữ liệu huấn luyện. Vì thế, các ràng buộc này sẽ ép buộc mơ hình phải đáp ứng được yêu cầu phù hợp tương ứng giữa các kỳ vọng đặc trưng đĩ với kỳ vọng đặc trưng quan sát trong dữ liệu huấn luyện. Trong thực tế h thường rất lớn và Efikhơng thể tính tốn trực tiếp do đĩ, giá trị xấp xỉ được tính như sau [53]: 1 ( ) ( | ) ( , ) n i i i i j i i i Ef p h p t h f h t   (2-9)

Trong đĩ p h( )i là xác suất giám sát của history h trong tập huấn luyện.

2.2.1.4. Hạn chế của mơ hình MEM

Mặc dù mơ hình MEM cĩ những ưu điểm về độ chính xác, giải quyết tốt các bài tốn cĩ đặc trưng thiếu tri thức và khả năng tái sử dụng, nhưng trong một số trường hợp đặc biệt, MEM cũng như các mơ hình định nghĩa một phân phối xác suất cho mỗi trạng thái cĩ thể gặp phải vấn đề “label bias” [25]. Vấn đề “label bias” là vấn đề do các trạng thái cĩ phân phối chuyển với entropy thấp (ít đường đi ra) cĩ xu hướng ít chú ý hơn đến quan sát hiện tại, mơ hình MEM gặp phải vấn đề này tức là khơng xác định được nhánh rẽ đúng, điều này sẽ cĩ ảnh hưởng đến kết quả mà nĩ đạt được.

Năm 1991, Léon Bottou đưa ra hai giải pháp cho vấn đề “label bias”.Giải pháp thứ nhất là gộp các trạng thái và trì hỗn việc rẽ nhánh cho đến khi gặp một quan sát xác định. Đây chính là trường hợp đặc biệt của việc chuyển một automata khơng đơn định sang một automata đơn định. Nhưng vấn đề ở chỗ ngay cả khi cĩ thể thực hiện việc chuyển đổi này thì cũng gặp phải sự bùng nổ tổ hợp các trạng thái của automata. Giải pháp thứ hai mà Bottou đưa ra là chúng ta sẽ bắt đầu mơ hình với một đồ thị đầy đủ của các trạng thái và để cho thủ tục huấn luyện tự quyết định một cấu trúc thích hợp cho mơ

hình. Tiếc rằng giải pháp này sẽ làm mất đi tính cĩ thứ tự của mơ hình, một tính chất rất cĩ ích cho các bài tốn trích chọn thơng tin .

Một giái pháp đúng đắn hơn cho vấn đề này là xem xét tồn bộ chuỗi trạng thái như một tổng thể và cho phép một số các bước chuyển trong chuỗi trạng thái này đĩng vai trị quyết định với việc chọn chuỗi trạng thái. Điều này cĩ nghĩa là xác suất của tồn bộ chuỗi trạng thái sẽ khơng phải được bảo tồn trong quá trình chuyển trạng thái mà cĩ thể bị thay đổi tại một bước chuyển tùy thuộc vào quan sát tại đĩ .

2.2.2. Mơ học học luật chuyển đổi

Giải thuật TBL là một giải thuật học giám sát được Eric Brill đưa ra trong luật văn tiến sĩ của ơng năm 1993. Giải thuật TBL được áp dụng rộng rãi trong xử lý ngơn ngữ tự nhiên và được đánh giá là một trong những giải thuật cho kết quả khả quan nhất đối với các bài tốn xử lý ngơn ngữ tự nhiên hàm chứa các yếu tố nhập nhằng như: tách từ, tách câu, gán nhãn từ loại, phân tích cú pháp khử nhập nhằng ngữ nghĩa…

Trong các bài tốn trên, kết quả nhận được khi sử dụng giải thuật TBL là khá cao, cĩ thể so sánh với nhiều giải thuật tiên tiến khác. Sở dĩ giải thuật TBL cĩ được những kết quả cao như vậy là do nĩ cĩ được những ưu điểm mà nhiều giải thuật khác khơng cĩ, đĩ là tính hướng lỗi, trực quan, dễ hiểu, dễ kiểm sốt. Chúng ta cĩ thể quan sát, theo dõi và can thiệp vào quá trình học cũng như quá trình thực thi của giải thuật. Một đặc điểm nỗi bật khác của giải thuật TBL là tính kế thừa, giải thuật khã năng phát triển lên từ kết quả trung gian, kết quả đầu ra của một giải thuật khác.

2.2.2.1. Sơ đồ của giải thuật TBL

Một phần của tài liệu (LUẬN văn THẠC sĩ) kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại (Trang 29 - 33)

Tải bản đầy đủ (PDF)

(72 trang)