Học dựa trên luật (TBL) đƣợc biết đến nhƣ là một phƣơng pháp thành công nhất trong cách tiếp cận dựa trên luật để giải quyết các bài toán của xử lý ngôn ngữ tự nhiên bởi vì nó cung cấp một phƣơng pháp cho phép tự động học các luật.
Theo nghiên cứu của Brill[4], phƣơng pháp học dựa trên luật (TBL) đã cho thấy nó có thể giải quyết bài toán gán nhãn từ loại với độ chính xác khá cao. Cũng chính phƣơng pháp này có thể đƣợc áp dụng trong các bài toán khác của xử lý ngôn ngữ tự nhiên nhƣ text chunking, parsing, nhận dạng tên thực thể, và khử nhập nhằng nghĩa của từ. Ý tƣởng chính trong phƣơng pháp này là so sánh golden-corpus (kho ngữ liệu đã đƣợc gán nhãn bằng tay) với initial-corpus (kho ngữ liệu đƣợc tạo ra thông qua việc
khởi tạo một nhãn ban đầu bất kỳ), sau đó tự động tạo ra các luật để các sửa lỗi dựa trên một tập các mẫu luật đƣợc định nghĩa trƣớc.
Quá trình huấn luyện đƣợc mô tả theo từng bƣớc nhƣ sau:
Đầu vào: Kho ngữ liệu raw-corpus chứa đựng các thực thể text chƣa đƣợc gán
nhãn mà đƣợc trích rút từ kho ngữ liệu golden-corpus (kho ngữ liệu mà đã đƣợc
gán nhãn bằng tay)
• Bƣớc 1: Tạo kho ngữ liệu initial-corpus bằng cách khởi tạo một nhãn ban đầu với đầu vào là kho ngữ liệu raw-corpus.
• Bƣớc 2: So sánh kho ngữ liệu initial-corpus với kho ngữ liệu golden-corpus để xác định đƣợc những nhãn lỗi và từ đó sử dụng một tập mẫu luật định nghĩa trƣớc để tạo ra các luật tiềm năng.
• Bƣớc 3: Áp dụng từng luật trong tập luật tiềm năng (thu đƣợc ở bƣớc 2) với một
bản copy của kho ngữ liệu initial-corpus. Điểm số của mỗi luật sẽ đƣợc
tính toán dựa trên hiệu số của các nhãn sai chuyển thành nhãn đúng và số nhãn đúng chuyển thành nhãn sai. Luật có điểm số tốt nhất là đƣợc chọn.
• Bƣớc 4: Cập nhật lại kho ngữ liệu initial-corpus bằng cách áp dụng luật vừa đƣợc chọn ra ở bƣớc 3 và chuyển luật này vào danh sách các luật chuyển đƣợc lựa chọn.
• Bƣớc 5: Dừng giải thuật nếu nhƣ điểm số tốt nhất là nhỏ hơn một ngƣỡng T đƣợc định nghĩa trƣớc, ngƣợc lại quay trở lại bƣớc 2.
Đầu ra: Danh sách các luật chuyển đƣợc lựa chọn.
Quá trình huấn luyện trên đƣợc mô tả chi tiết trong Hình 2.5 nhƣ sau:
Quá trình kiểm tra
Đầu vào: Kho ngữ liệu test-corpusvà danh sách các luật chuyển (selected TBL rules)
Bƣớc 1: Tạo ra kho ngữ liệu raw test-corpusbằng cách bỏ các nhãn từ kho ngữ liệu test-corpus.
Bƣớc 2: Khởi tạo nhãn ngẫu nhiên đối với kho ngữ liệu test-corpus,thu đƣợc một kho ngữ liệu gọi là initial-corpus.
Bƣớc 3: Áp dụng danh sách các luật chuyển (selected TBL rules) đối với kho
ngữ liệu initial-corpus thu đƣợc một kho ngữ liệu đã đƣợc gán nhãn gọi là
labeled corpus.
Bƣớc 4: So sánh kho ngữ liệu labeled corpus với kho ngữ liệu test-corpus để đánh giá hệ thống (thu đƣợc độ chính xác của hệ thống)
Đầu ra: Độ chính xác của mô hình TBL.
Quá trình kiểm tra đƣợc mô tả chiết trong Hình 2.6 nhƣ sau:
CHƢƠNG III. ĐỀ XUẤT MÔ HÌNH KHỬ NHẬP NHẰNG NGHĨA CỦA TỪ
Trong chƣơng này, chúng tôi đề cập đến hai vấn đề chính. Thứ nhất, chúng tôi đề xuất mô hình mới mà nó đƣợc xây dựng dựa trên việc kết hợp của hai mô hình là mô hình học máy thống kê và mô hình học dựa trên luật. Ý tƣởng chính của chúng tôi là dùng phƣơng pháp học dựa trên luật chuyển (TBL) để sửa lỗi sai (những ngữ cảnh chứa từ nhập nhằng bị phân lớp sai) của phƣơng pháp học máy thống kê (phƣơng pháp học máy thống kê ở đây chúng tôi chọn là phƣơng pháp Naive Bayes). Thứ hai, chúng tôi trình bày về cách biểu diễn ngữ cảnh và đề xuất lựa chọn các đặc trƣng mà chúng tôi sử dụng trong các phƣơng pháp Naive Bayes, TBL và SVM. Bên cạnh đó, tập mẫu luật chuyển trong phƣơng pháp TBL cũng đƣợc đề xuất.