Kết thúc giai đoạn huấn luyện chúng ta sẽ thu được một danh sách các luật tối ưu. Các luật tối ưu này sẽ được sử dụng vào quá trình thực thi của giải thuật theo thư tự các luật cĩ điểm cao được áp dụng trước các luật thấp được áp dụng sau.
Quá trình thực thi
Cũng tương tự như quá trình huấn luyện, dữ liệu muốn gán nhãn phải được gán nhãn cơ sở. Quá trình gán nhãn cơ sở này giống như quá trình gán nhãn cơ sở của quá trình học. Nhãn cơ sở này cĩ thể là nhãn ngây thơ cũng cĩ thể là nhãn chính xác hay đầu ra của một mơ hình gán nhãn khác.
Chúng ta lần lượt áp dụng các luật tối ưu mà chúng ta nhận được trong quá trình học vào ngữ liệu. Các luật cĩ số điểm cao trong quá trình huấn luyện sẽ được áp dụng trước các luật cĩ điểm thấp được áp dụng sau. Sau quá trình áp dụng tất cả các luật chúng ta sẽ nhận được một kết quả với nhãn chính xác hơn cho ngữ liệu.
Ngữ liệu ban đầu Số lỗi: 500 Ngữ liệu T1-1 Số lỗi: 250 Ngữ liệu T2-1 Số lỗi: 435 Ngữ liệu T3-1 Số lỗi: 350 Ngữ liệu T1-2 Số lỗi: 220 Ngữ liệu T1-2 Số lỗi: 60 Ngữ liệu T1-2 Số lỗi: 150
2.2.2.3. Trình bày giải thuật
Trong bài tốn gán nhãn từ loại chúng ta cĩ một số quy ước sau: + T: tập hợp các nhãn từ loại ví dụ T= {V,A,N,… }
+ μ: vị từ được định nghĩa trên khơng gian C+, C+ thường là một dãy các trạng thái, ví dụ (word_-1,V) ∧ (word_1,N) hay dãy các mẫu như: (word_-1=vào) V (word_-1=trong). Các vị từ là các thể hiện của mẫu luật.
Một luật L được định nghĩa như một cặp (μ , t) gồm một vị từ μ và một nhãn từ loại
t. Luật L sẽ được biểu diễn dưới dạng là μ => t nghĩa là luật L sẽ được áp dụng trên mẫu x nếu vị từ vị từ μ thoả mãn, khi đĩ mẫu x sẽ được gán nhãn mới t.
Cho một trạng thái c=(x,t) và luật L=(μ,t’), thì trạng thái kết quả của việc áp dụng luật L trên trạng thái c được định nghĩa:
( ) ( , ) c if (c)=False L c x t f (c)=True (2-10)
+ D: tập các mẫu huấn luyện đã được gán nhãn đúng.
Điểm được tính cho mỗi luật L chính là hiệu số khác biệt giữa kết quả thực hiện của luật l so với tình trạng ban đầu theo cơng thức :
( ) ( ( )) ( )
c D c D
Diem L diem L c diem c
(2-11) Trong đĩ: 1 ( ) (( , )) 0 ( ) if t True x diem x t if t True x (2-12)
2.2.2.4. Giải thuật TBL nguyên thuỷ
+ Bước 1: Khởi tạo mỗi mẫu x trong tập huấn luyện với một nhãn thích hợp nhất với mơ hình cơ sở. Chẳng hạn với từ “Tơi” thì xác suất xuất hiện cao nhất là N, ta gọi ngữ liệu ở bước này là D0 .
+ Bước 2:Xem xét tất cả các luật chuyển đổi L tác động trên dữ liệu Dk ở lượt thứ k và chọn luật nào cĩ diem(r) cao nhất và áp dụng luật L này trên dữ liệu Dk để nhận được dữ liệu mới Dk+1 ta cĩ Dk+1 = L(Dk) = {L(c)|c∈Dk} nếu khơng cịn một luật nào thoả diem(L) > β thì giải thuật dừng, trong trường hợp này tham số β là mức ngưỡng mà chúng ta chọn trước. Với mỗi bài tốn chúng ta cĩ thể chọn mức ngưỡng β khác nhau. Mức ngưỡng β được chọn dựa trên yêu cầu thực tế bài tốn.
k=k+1;
+ Bước 3: Lặp lại từ bước 2.
Khả năng dừng (hội tụ) của giải thuật: gọi Errk là số lỗi so với ngữ liệu chính xác của ngữ liệu hiện hành sau khi áp dụng luật L, ta cĩ Errk+1 = Errk - Diem(L) , do Diem(L) > 0, nên Errk+1 < Errk với mọi k và Errk ∈ N nên thuật tốn sẽ dừng sau một số bước.
Chi phí của thuật tốn: O(n*t*c) trong đĩ n là kích thước của tập huấn luyện (số lượt từ); t là kích thước của tập luật chuyển đổi khả dĩ ( số luật ứng viên ); c: là kích thước của ngữ liệu thoả mãn điều kiện áp dụng luật.
2.2.2.5. Kết luận
Mơ hình này là một phương pháp tương đối uyển chuyển trong các phương pháp gán nhãn từ loại. Ta cĩ thể thêm bớt thay đổi các đặc trưng của nĩ. Tuy nhiên hạn chế của mơ hình là địi hỏi một bộ dữ liệu tương đối lớn thì kết quả sẽ khả quan hơn.
CHƯƠNG 3. ĐỀ XUẤT MƠ HÌNH GÁN NHÃN TỪ LOẠI
Chương này chúng tơi trình bày đề xuất của chúng tơi trong việc kết hợp hai mơ hình đĩ MEM và TBL, đây được xem là hai trong số những mơ hình để giải quyết bài tốn gán nhãn từ loại cho kết quả khả quan nhất. Chúng tơi dựa trên đặc điểm hai mơ hình này để cĩ cách sử dụng ngữ cảnh khác nhau trong việc chọn từ loại cho từ để kết hợp. MEM chọn thơng tin ngữ cảnh là từ xung quanh từ hiện tại và nhãn của các từ xung quanh cịn phương pháp TBL thì chọn ngữ cảnh phục thuộc vào các tập luật mẫu và các trường hợp gán nhãn sai bởi MEM. Chính nhờ sự linh động này của phương pháp TBL mà chúng ta cĩ thể chọn các ngữ cảnh phù hợp sao cho cĩ thể sửa sai được các lỗi trong kết quả gán nhãn bởi MEM. Một đặc điểm khác đã khiến chúng tơi chọn phương pháp này là tính kế thừa của TBL. TBL cĩ thể kế thừa kết quả của các bộ gán nhãn khác. TBL cĩ thể gán nhãn cho một ngữ liệu khơng phải là ngữ liệu thơ mà đã được gán nhãn cơ sở bởi một mơ hình khác.Việc dùng TBL để gán nhãn cho ngữ liệu đã được gán nhãn từ trước bằng một bộ gán nhãn khác sẽ làm cho chất lượng của bộ gán nhãn tăng lên. Chúng ta cĩ thể thấy ngay việc gán nhãn cơ sở cao thì việc dùng các luật của TBL để chỉnh sẽ làm cho kết quả cao hơn. Như vậy việc kết hợp hai mơ hình này sẽ tạo ra một mơ hình mới cĩ tình khả thi và chất lượng cao hơn.
3.1. Đề xuất mơ hình
3.1.1. Mơ hình cơ sở
Mơ hình cơ sở sử dụng nguyên lý cực đại hĩa Entropy để xây dựng lên mơ hình xác suất thống kê của ngơn ngữ. Đối với bài tốn gãn nhãn từ loại được xem là bài tốn phân lớp với các lớp chính là các nhãn từ loại đã được xác định trước. Dữ liệu đã được gán nhãn được sử dụng để lấy ra tập các ràng buộc cho mơ hình mà nĩ mơ tả đặc điểm riêng cho từng lớp cụ thể cĩ thể được gán cho văn bản cần phân lớp. Thuật tốn GIS (Generalized Iterative Scaling) sẽ tìm ra phân phối mà nĩ thỏa mãn các ràng buộc đã đưa ra và thỏa mãn cực đại entropy với phân phối xác suất là đều nhất. Trong quá trình xây dựng mơ hình thực nghiệm chúng tơi sử dụng ngữ cảnh 5 từ xung quanh để trích chọn đặc trưng và kế thừa nghiên cứu VnTagger của nhĩm tác giả Lê Hồng Phương [54] (phiên bản 4.0.2) và phát triển mơ hình cơ sở cho Tiếng Việt và Stanford POS tagger (phiên bản 3.4) của nhĩm tác giả Kristina Toutanova and Christopher D. Manning [55] phát triển làm mơ hình cơ sở cho Tiếng Anh.
3.1.1.1. Huấn luyện hệ thống
Như đã đề cập ở phần trên, chúng tơi sẽ sử dụng mơ hình cực đại hĩa Entropy để tiến hành xây dựng bộ gán nhãn cơ sở. Mơ hình thống kê của ngơn ngữ sẽ được xây dựng dựa trên kho ngữ liệu đã được gán nhãn chuẩn. Hệ thống sử thuật tốn GIS (Generalized Iterative Scaling) cho phép tìm các tham số {αi} khi xây dựng mơ hình như sau:
Thuật tốn: 3-1. Thuật tốn Generalized Iterative Scaling [52]
Khi đĩ, thuật tốn huấn luyện được thể hiện như sau:
Thuật tốn: 3-2. Thuật tốn huấn luyện mơ hình cơ sở
3.1.1.2. Quá trình gán nhãn
Bài tốn gán nhãn từ loại cĩ thể được mơ hình hĩa như sau. Cho trước một chuỗi các từ cần gán nhãn w1… wn, chúng ta phải tìm chuỗi từ loại t1 … tn tương ứng trong tập từ loại T, sao cho thỏa mãn:
Đầu vào: Ngữ liệu đã được gán nhãn từ loại (ngữ liệu chuẩn).
Đầu ra: Mơ hình xác xuất tương ứng với từng cặp <h,t> và tập trọng số αi
Bước 1: Tách từ tố đối với từng câu trong ngữ liệu huấn luyện.
Bước 2: Tạo tệp lưu trữ các đặc trưng được đề cử bao gồm các thơng
tin về từ vựng được rút ra từ ngữ liệu huấn luyện.
Bước 3: Tạo tệp sự kiện lưu trữ tất cả các đặc trưng cĩ ảnh hưởng
tới tất cả các cặp <h,t> với với h∈C và t∈{T}
Bước 4: Tính các trọng số αi và p(h,t) cho tất cả các hàm đặc trưng fi theo thuật tốn 3.1.
Bước 1: Khởi tạo:
+ i(0) bởi giá trị ngẫu nhiên trong khoảng (0,1);
+ (0) (0) ( , ) 1 ( , ) i k f h t i i p h t
Bước 2: Lặp, trong mỗi vịng lặp j bao gồm các bước sau:
Bước 2.1. Tính kỳ vọng của tất cả các giá trị ước lượng hàm đặc trưng fi theo cơng thức: ( )
, ( , ) ( , ) j i i h H t K p h t f h t
Bước 2.2. Tính giá trị thực của ( )j i K và cập nhật giá trị (j1) i như sau: ( 1) ( ) ( ) . j j i i i j i K K
Bước 2.3. Cập nhật giá trị xác suất ( 1)
( , ) j p h t : ( 1) ( 1) ( , ) 1 ( , ) i k j f h t j i i p h t
1 1 1... ( ... | w ...w )n n ( | )i i i n P t t P t h (3-1)
Trong đĩ hi là lịch sử của từ wi. Thay vì phải tính tích các thừa số nhỏ ta logarit hai vế phương trình trên và đưa về phép tính tổng. Khi đĩ thuật tốn tìm kiếm Beam được sử dụng để tìm kiếm chuỗi từ loại phù hợp nhất với chuỗi từ cho trước như sau:
Thuật tốn: 3-3. Thuật tốn gán nhãn của mơ hình cực đại hĩa Entropy [51]
Trong quá trình thực nghiệm, chúng tơi chọn N = 3.
3.1.2. Mơ hình kết hợp
Hiện nay, cĩ khá nhiều mơ hình cĩ thể áp dụng cho việc gán nhãn từ loại như dùng học giám sát, xác suất thống kê, học hướng lỗi…Tuy nhiên độ chính xác của các phương pháp này đang dần tiến đến giới hạn. Bên cạnh đĩ, cũng đã cĩ khá nhiều phương pháp cải tiến được đưa ra nhằm làm tăng độ chính xác. Do mỗi mơ hình đều cĩ những ưu điểm riêng nên cĩ một cách tiếp cận được đưa ra đĩ là kết hợp các mơ hình lại với nhau. Mơ hình kết hợp sẽ tận dụng các ưu điểm của các mơ hình khác nhau. Trong quá trình gán nhãn từ loại, khả năng kế thừa giữa các mơ hình cĩ vai trị quan trọng ảnh hưởng đến hiệu quả của hệ thống.
Ví dụ như câu “Population drain ends”, kết quả gán nhãn từ loại của giải thuật ME thơng thường sẽ là: Population/NNP drain/NNP ends/NNS
Và kết quả gán nhãn từ loại dựa trên huớng tiếp cận học luật chuyển đổi như sau:
Đầu vào: Câu W = {w1...wn} bao gồm các từ chưa được gán nhãn.
Đầu ra: Chuỗi từ loại cĩ xác suất cao nhất sn1
Ký hiệu: sij là chỗi từ loại cĩ xác suất cao thứ j tính đến từ wi
Bước 1: Tính xác suất của mỗi từ loại trong tập {T} đối với từ w1,
tìm top N từ loại cĩ giá trị lớn nhất (N là kích thước của Beam) gán vào s1j với 1 ≤ j ≤ N; Gán i = 2;
Bước 2: Thực hiện vịng lặp 2.1. Khởi tạo j = 1;
2.2. Tính xác suất của mỗi từ loại trong tập {T} đối với từ
wi, với s(i-1)j là những từ loại trong ngữ cảnh phía trước của từ hiện tại và chèn thêm các từ loại tại bước hiện tại và chuỗi s(i-1)j
để được chuỗi mới.
2.3. j = j +1; lặp lại bước 2.2 nếu j ≤ N.
Bước 3: Tìm N chuỗi từ loại cĩ xác suất cao nhất từ bước 2 và gán
cho sij 1≤j≤N.
Bước 4: i = i + 1, lặp lại bước 2.1 nếu j ≤ N. Bước 5: Trả lại chuỗi các xác suất cao nhất sn1
Population/NN drain/NN ends/VBZ
Thì mơ hình chính cĩ nhiệm vụ quyết định chọn nhãn của từ “ends” là của mơ hình nào do ở đây trong hai mơ hình cĩ thể sẽ cĩ một nhãn đúng. Ở trường hợp này mơ hình luật chuyển đổi gán nhãn đúng. Do mỗi mơ hình cĩ một ưu điểm khác nhau mà ở mỗi trường hợp riêng, tỉ lệ chính xác của mỗi mơ hình là khác nhau. Chẳng hạn đối với mơ hình xác suất thống kê, nếu các câu được gán nhãn từ loại cĩ cùng phạm vi với dữ liệu được huấn luyện thì tỉ lệ chính xác sẽ cao. Nhưng đối với các trường hợp mà các câu khơng nằm trong dữ liệu huấn luyện hoặc đối với các từ chưa biết hoặc khơng cĩ trong dữ liệu huấn luyện thì mơ hình học luật chuyển đổi tỏ ra chính xác hơn. Chính vì vậy, mơ hình kết hợp phải cĩ khả năng kế thừa và phát huy được ưu điểm của từng mơ hình. Ở đây, mơ hình của chúng tơi đề xuất là mơ hình học máy thống kê dựa trên kho ngữ liệu đã được gán nhãn, vì vậy nĩ sẽ gồm 2 quá trình là quá trình huấn luyện và quá trình kiểm tra. Mơ hình tổng quát mà chúng tơi đề xuất như sau: