Ph ươ ng pháp TBL (Transformation-Based Error-Driven Learning)

Một phần của tài liệu Gán nhãn phân tích cú pháp quan hệ cho song ngữ Anh-Việt thông qua liên kết ngữ (Trang 28 - 32)

L Ờ I NÓI ĐẦ U

2.1.2. Ph ươ ng pháp TBL (Transformation-Based Error-Driven Learning)

Learning)

Phương pháp TBL được giới thiệu lần đầu tiên bởi Eric Brill vào năm 1993. Đến năm 1995 thì nó được công bố rộng rãi. Đây là một phương pháp rất mạnh trong lĩnh vực ngôn ngữ học và được áp dụng để giải quyết nhiều bài toán ngôn ngữ khác nhau.

Ý tưởng cơ bản của phương pháp TBL là dựa vào một ngữ liệu đãđược đánh nhãn

đúng, nó cố gắng tự đi tìm những luật để sửa những lỗi sai theo nguyên lí tham lam. Những luật được rút ra bởi TBL không giống với những luật phi ngữ cảnh ở các phương pháp trước. Nó là những luật tương tác.

Giải thuật TBL có 2 giai đoạn riêng biệt là giai đoạn học và giai đoạn chạy.

Trong giai đoạn học, dựa vào ngữ liệu đãđược đánh nhãn, hệ thống sẽ cố tìm ra các luật tương tác để có thểđánh nhãn càng giống càng tốt.

Ngược lại, trong giai đoạn chạy, dựa vào bộ luật đã được rút ra để đánh nhãn cho một tập văn bản chưa được đánh nhãn.

Quá trình học:

Đầu tiền, ngữ liệu đã được đánh nhãn đúng sẽ được bỏ nhãnđi tạo thành một văn bản không có nhãn.

Kếđó, văn bản không có nhãn này sẽ được đánh nhãn banđầu gọi là nhãn ngây thơ

hay nhãn cơ sở. Nhãn ngây thơ có thể là sai rất nhiều theo cách đánh nhãn ngẫu nhiên hay cũng có khi khá chính xác nếu sử dụng một chương trìnhđánh nhãn nàođó. Trong lĩnh vực phân tích cú pháp, nhãn cơ sở có thểđược đánh một cách đơn giản theo cách phân câu thành những ngữ theo nguyên tắc nhị phân.

Có 2 điều cần lưu ý khi đánh nhãn cơ sở:

Không nên sửdụng những đặc trưng của ngôn ngữ, điều này làm giảm tính cơđộng của chương trình.

Hãy để cho chương trình tự học ra những luật hữu ích, không nên tốn quá nhiều thời gian đểtựxửlí.

Dựa vào các mẫu luật đãđược tạo sẵn, các luật ứng viên sẽđược hình thành vàđược áp dụng vào văn bản đã được đánh nhãn cơ sở. Khác với các luật CFG đã được trình bày trong các chương trước, luật TBL là các luật chuyển đổi dùng để thay đổi nhãn của từ. Quá trìnhđánh nhãn cú pháp sẽ là quá trình thêm và xoá các nhãn này.

Từng luật ứng viên, khi đưa vào áp dụng thử trên văn bản đãđược đánh nhãn cơ sở

theo từng câu một. Điểm sẽđược chấm cho mỗi luật làm căn cứ cho việc chọn lựa luật tốt nhất. Quy tắc chấm điểm như sau:

Nếu luật không làm thay đổi gì thì không thayđổi điểm. Nếu luật sửa đúng thành sai thì cộng một điểm.

Nếu luật sửa sai thành đúng thì trừmột điểm. Nếu luật sửa sai thành sai thì không thayđổi điểm.

Sau khi tất cả các luật đã được áp dụng cho tất cả các câu trong văn bản, chọn ra một luật có điểm lớn nhất để giữ lại nếu điểm nó vượt một ngưỡng cho trước. Dùng luật này để sửa nhãn cho văn bản đã được đánh nhãn cơ sở. Bỡi vì điềm cua luật này luôn dương (bởi ngưỡng là số dương) nên độ chính xác của văn bản bây giờ đã được tăng lên.

Quá trình trên lại được lặp lại: từng luật sẽđược áp dụng thử trên văn bản đánh nhãn cơ sởđãđược sữa lại bởi luật được chọn. Luật tốt nhất lại được chọn ra…

Quá trình học sẽ ngừng khi tại một bước, sốđiểm của luật tốt nhất không vượt quá một ngưỡng cho phép. Nếu ngưỡng này được chọn quá lớn, số luật rút ra sẽ không

được nhiều và độ chính xác không được cao. Ngược lại nếu ngưỡng được chọn quá nhỏ sẽ dẫn đến tình trạng quá luyện.

Hình 2.4. Sơđồ học của TBL Quá trình chạy ( đánh nhãn): Kết quả của quá trình học là một bộ luật tương tác. Đó là một bộ luật mà sức mạnh Á p d ụ ng Bộđánh nhãn cơ sở Bỏ nhãn Văn bản không nhãn Ngữ liệu đúng Mẫu luật Thêm vào Đúng Luật tốt nhất Văn bản có nhãn cơ sở Sử dụng luật và tính điểm Các luật ứng viên Bộ luật Điểm lớn hơn ngưỡng ? Sai Kết thúc

của các luật là thứ tự được rút ra trong quá trình học. Mỗi luật được rút ra trong một hoàn cảnh đặc biệt là: các luật trước nó đã được đánh nhãn rồi và đó là luật sữa được tốt nhất. Như vậy, độ chính xác sẽ giảm đi rất nhiều nếu một trong số các luật trước nó bị bỏđi và sẽ không còn ý nghĩa nếu trật tự kết hợp các luật không còn nữa.

Đây chỉ là một tiến trình nhỏ trong quá trình học của TBL trong đó các luật đựơc áp dụng theo trật tựđãđược rút ra.

Một phần của tài liệu Gán nhãn phân tích cú pháp quan hệ cho song ngữ Anh-Việt thông qua liên kết ngữ (Trang 28 - 32)

Tải bản đầy đủ (PDF)

(164 trang)