Phương pháp học dựa trên sự biến đổi (TBL) là cách tiếp cận dựa trên ngữ liệu đã đánh dấụ Theo cách tiếp cận này, để huấn luyện cho máy tính biết cách nhận diện ranh giới từ tiếng Việt ta có thể cho máy học trên ngữ liệu hàng vạn câu hỏi tiếng Việt đã được đánh dấu ranh giới từ đúng.
Ý tưởng chính của phương pháp là để giải quyết một vấn đề nào đó ta sẽ áp dụng phép biến đổi, tại mỗi bước, phép biến đổi nào cho kết quả tốt nhất sẽ được chọn và được áp dụng lại với vấn đề đã đưa rạ Thuật toán kết thúc khi không còn phép biến đổi nào được chọn.
Ưu điểm:
Đặc điểm của phương pháp này là khả năng tự rút ra quy luật của ngôn ngữ.
Nó có những ưu điểm của cách tiếp cận dựa trên luật (vì cuối cùng nó cũng dựa trên luật được rút ra) nhưng nó khắc phục được khuyết điểm của việc xây dựng các luật một cách thủ công bởi các chuyên giạ
Các luật thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu quả của luật (dựa trên ngữ liệu huấn luyện).
Có khả năng khử được một số nhập nhằng như “The singer sang a lot of ả?as ”, thì hệ có thể xác định được “ả?as” là “arias” (dân ca) thay vì “areas” (khu vực) của các mô hình ngôn ngữ theo kiểu thống kê.
36
Nhược điểm:
Phương pháp này “dùng ngữ liệu có gán nhãn ngôn ngữ để học tự động các qui luật đó” [Đinh Điền, 2004]. Đây là việc rất khó, tốn kém nhiều về thời gian và công sức.
Hệ phải trải qua một thời gian huấn luyến khá lâu để có thể rút ra các luật tương đối đầy đủ.
Cài đặt phức tạp.