Mô hình học dựa trên luật

CHƢƠNG II KIẾN THỨC CƠ SỞ

2.2. Các mô hình học có giám sát

2.2.3. Mô hình học dựa trên luật

Học dựa trên luật (TBL) đƣợc biết đến nhƣ là một phƣơng pháp thành công nhất trong cách tiếp cận dựa trên luật để giải quyết các bài toán của xử lý ngôn ngữ tự nhiên bởi vì nó cung cấp một phƣơng pháp cho phép tự động học các luật.

Theo nghiên cứu của Brill[4], phƣơng pháp học dựa trên luật (TBL) đã cho thấy nó có thể giải quyết bài toán gán nhãn từ loại với độ chính xác khá cao. Cũng chính phƣơng pháp này có thể đƣợc áp dụng trong các bài toán khác của xử lý ngôn ngữ tự nhiên nhƣ text chunking, parsing, nhận dạng tên thực thể, và khử nhập nhằng nghĩa của từ. Ý tƣởng chính trong phƣơng pháp này là so sánh golden-corpus (kho ngữ liệu đã đƣợc gán nhãn bằng tay) với initial-corpus (kho ngữ liệu đƣợc tạo ra thông qua việc

khởi tạo một nhãn ban đầu bất kỳ), sau đó tự động tạo ra các luật để các sửa lỗi dựa trên một tập các mẫu luật đƣợc định nghĩa trƣớc.

Quá trình huấn luyện đƣợc mô tả theo từng bƣớc nhƣ sau:

Đầu vào: Kho ngữ liệu raw-corpus chứa đựng các thực thể text chƣa đƣợc gán

nhãn mà đƣợc trích rút từ kho ngữ liệu golden-corpus (kho ngữ liệu mà đã đƣợc

gán nhãn bằng tay)

• Bƣớc 1: Tạo kho ngữ liệu initial-corpus bằng cách khởi tạo một nhãn ban đầu với đầu vào là kho ngữ liệu raw-corpus.

• Bƣớc 2: So sánh kho ngữ liệu initial-corpus với kho ngữ liệu golden-corpus để xác định đƣợc những nhãn lỗi và từ đó sử dụng một tập mẫu luật định nghĩa trƣớc để tạo ra các luật tiềm năng.

• Bƣớc 3: Áp dụng từng luật trong tập luật tiềm năng (thu đƣợc ở bƣớc 2) với một

bản copy của kho ngữ liệu initial-corpus. Điểm số của mỗi luật sẽ đƣợc

tính toán dựa trên hiệu số của các nhãn sai chuyển thành nhãn đúng và số nhãn đúng chuyển thành nhãn sai. Luật có điểm số tốt nhất là đƣợc chọn.

• Bƣớc 4: Cập nhật lại kho ngữ liệu initial-corpus bằng cách áp dụng luật vừa đƣợc chọn ra ở bƣớc 3 và chuyển luật này vào danh sách các luật chuyển đƣợc lựa chọn.

• Bƣớc 5: Dừng giải thuật nếu nhƣ điểm số tốt nhất là nhỏ hơn một ngƣỡng T đƣợc định nghĩa trƣớc, ngƣợc lại quay trở lại bƣớc 2.

Đầu ra: Danh sách các luật chuyển đƣợc lựa chọn.

Quá trình huấn luyện trên đƣợc mô tả chi tiết trong Hình 2.5 nhƣ sau:

Quá trình kiểm tra

Đầu vào: Kho ngữ liệu test-corpusvà danh sách các luật chuyển (selected TBL rules)

 Bƣớc 1: Tạo ra kho ngữ liệu raw test-corpusbằng cách bỏ các nhãn từ kho ngữ liệu test-corpus.

 Bƣớc 2: Khởi tạo nhãn ngẫu nhiên đối với kho ngữ liệu test-corpus,thu đƣợc một kho ngữ liệu gọi là initial-corpus.

 Bƣớc 3: Áp dụng danh sách các luật chuyển (selected TBL rules) đối với kho

ngữ liệu initial-corpus thu đƣợc một kho ngữ liệu đã đƣợc gán nhãn gọi là

labeled corpus.

 Bƣớc 4: So sánh kho ngữ liệu labeled corpus với kho ngữ liệu test-corpus để đánh giá hệ thống (thu đƣợc độ chính xác của hệ thống)

Đầu ra: Độ chính xác của mô hình TBL.

Quá trình kiểm tra đƣợc mô tả chiết trong Hình 2.6 nhƣ sau:

Tập mẫu không phân hoạch tuyến tính

Kết quả thực nghiệm trên các mô hình