Phương pháp lai

Một phần của tài liệu So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng việt (Trang 28 - 30)

Đại diện tiêu biểu của phương pháp lai là phương pháp dựa trên học chuyển đổi (Transformation-Based learning TBL) [6], đây là một phương pháp học có giám sát,

đòi hỏi một tập ngữ liệu đã được gán nhãn. Phương pháp này sử dụng đặc tính của cả

hai kiến trúc gán nhãn nói trên. Giống như bộ gán nhãn dựa trên luật, nó dựa vào luật

để xác định khi một từ nhập nhằng thì nó có khả năng là một nhãn nào nhất. Giống như bộ gán nhãn xác suất, nó có một thành phần học máy để tạo ra các luật một cách tựđộng từ một bộ dữ liệu huấn luyện đã được gán nhãn trước.

Ý tưởng chính của thuật toán này là bắt đầu với một vài giải pháp đơn giản (hoặc tinh vi) cho vấn đề (gọi là “baseline tagging”) và từng bước áp dụng những luật biến

đổi (luật chuyển) tối ưu (tìm ra từ tập ngữ liệu huấn luyện đã được đánh dấu chính xác) để dần dần giải quyết vấn đề (tức là chuyển từ nhãn không chính xác sang nhãn chính xác). Quá trình này sẽ dừng lại khi không còn luật chuyển tối ưu nào được lựa chọn hoặc đã hết dữ liệu. Hình 5 cho ta mô hình tổng quát của phương pháp lai.

Hình 5. Mô hình tổng quát của phương pháp lai

Dữ liệu chưa gán nhãn Trạng thái bắt đầu Dữ liệu đã gán nhãn “Sự thật” Các luật Bộ học

20 Thuật toán bao gồm 5 bước [6]

 Bước 1: Gán nhãn cho từng từ bằng nhãn thông dụng nhất.

 Bước 2: Chọn một phép chuyển có tính quyết định thay thế nhãn đã gán bằng nhãn mới mà kết quảđem lại có hệ sốđánh giá lỗi thấp hơn (Đánh giá một phép chuyển bằng hệ sốđánh giá lỗi thực chất là so sánh nó với “sự thật”).

 Bước 3: Áp dụng phép chuyển này cho cả tập huấn luyện.

 Bước 4: Thực hiện lại các bước trên

 Bước 5: Đưa ra kết quả là một bộ gán nhãn mà nhãn đầu tiên sử dụng unigrams, sau đó áp dụng phép chuyển đã được “học” ở trên theo thứ tự.

Ví dụ về một số luật chuyển thường được áp dụng cho phương pháp lai được cho bởi bảng 4 [6].

Bảng 4. Ví dụ về một số luật chuyển của TBL cho tiếng Anh

Chuyển nhãn S TT Cũ Mới Điều kiện Ví dụ 1 2 3 4 5 NN VBP NN VB VBD VB VB VB NN VBN Nhãn trước đó là TO 1 trong 3 nhãn trước đó là MD 1 trong 2 nhãn trước đó là DT 1 trong 3 nhãn trước đó là VBZ To/TO race/NNVB Might/MD vanish/VBPVB Might/MD not reply/NNVB

Ví dụ: Xét từ“race” trong hai câu dưới đây - It is expected to race tomorrow.

- The race for outer space.

Thuật toán sẽ thực hiện như sau:

 Đầu tiên, gán nhãn tất cả các từ“race” là NN (nhãn thường gặp nhất trong tập ngữ liệu Brown corpus). Tức là:

“It is expected to race/NN tomorrow” “The race/NN for outer space”

21

 Sau đó, sử dụng luật biến đổi để thay thế các nhãn NN bằng VB cho tất cả các từ “race” mà đứng trước nó là từđược gán nhãn TO. Tức là:

“It is expected to race/VB tomorrow”

“The race/NN for outer space”

Đại diện tiêu biểu cho phương pháp này là bộ gán nhãn từ loại Brill’s (được xây dựng bởi Eric Brill) sử dụng cho tiếng Anh, đây là một bộ gán nhãn rất thông dụng vì các ưu điểm của nó như miễn phí, đem lại kết quả khá khả quan (Độ chính xác là 96.6% cho tập ngữ liệu Wall Street Journal).

Một phần của tài liệu So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng việt (Trang 28 - 30)

Tải bản đầy đủ (PDF)

(68 trang)