Thuật tốn học TBL của Eric Brill

Một phần của tài liệu Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt (Trang 68 - 71)

Phần này sẽ giới thiệu tổng quan về phương pháp học hướng lỗi dựa trên sự

chuyển trạng thái TBL. Trước hết để giải một bài tốn bằng phương pháp này, chúng ta cần quy bài tốn về dạng bài tốn gán nhãn. Ý tưởng của cách tiếp cận là: học từ ngữ liệu một bộ luật cĩ thứ tự. Một luật khi áp dụng lên một thực thể sẽ làm thay đổi nhãn của nĩ làm cho thực thể chuyển từ trạng thái cũ sang trạng thái mới. Và sau khi áp dụng tồn bộ các luật trong bộ luật lên một thực thể, thì thực thểđĩ sẽ

cĩ trạng thái gần với trạng thái đúng nhất.

Phương pháp học dựa trên sự chuyển trạng thái là một phương pháp học cĩ giám sát. Trước khi đi vào quá trình học của TBL, cĩ một số thuật ngữ mà chúng ta cần hiểu rõ:

™ Đầu vào

- Ngữ liệu huấn luyện : Là ngữ liệu chứa các mẫu huấn luyện chưa được gán nhãn.

- Ngữ liệu vàng : Là ngữ liệu bao gồm các mẫu huấn luyện đã được gán nhãn đúng. Ngữ liệu vàng do người tạo ra theo cách thủ cơng hồn tồn hoặc bán tự động, phải chính xác và đủ lớn. Cĩ thể nĩi ngữ liệu huấn luyện chính là ngữ liệu vàng đã được gỡ bỏ nhãn.

- Các khung luật chuyển đổi: thể hiện tất cả các dạng chuyển đổi trạng thái nhãn cĩ thể cĩ. Khung luật là sự tổng quát hố các luật. Mỗi khung luật cĩ 2 phần. Phần đầu là các vị từ cĩ ý nghĩa do ta qui định, phần sau là hành động thay đổi nhãn (trạng thái). Vị từ chứa các biến, chúng cĩ giá trị sẽđược xác định trong quá trình học.

Ví d : Khung luật

Nếu nhãn trước là Z thì chuyển đổi nhãn từ X thành Y.

X, Y, Z là các biến

Nhãn trước là Z là một vị từ chứa biến Z

Khi tất cả các biến trong khung luật đã nhận giá trị thực thì ta cĩ một luật cụ thể. Số lượng khung luật thường nhỏ. Tuy nhiên, phải đảm bảo cĩ khung luật “rộng” (ít điều kiện), cĩ khung luật “hẹp” (điều kiện áp dụng chặt hơn) để cĩ thể rút ra được các luật cĩ độ mịn khác nhau, luật “rộng” cĩ thể sửa được nhiều lỗi và luật “hẹp” cĩ thể sửa các lỗi gây ra bởi việc áp dụng luật “rộng”.

™ Đầu ra

- Danh sách luật cĩ thứ tự

Quá trình học diễn ra như sau :

- Bước 0: Ngữ liệu chưa gán nhãn được đưa vào hệ thống.

- Bước 1: Hệ thống sử dụng tri thức về trạng thái khởi đầu đã cĩ sẵn để gán nhãn cho ngữ liệu luyện. Trạng thái ban đầu này cĩ thể rất đơn giản, chẳng hạn như gán nhãn ngẫu nhiên, nhưng cũng cĩ thể rất kỳ cơng như được con người gán nhãn bằng tay.

- Bước 2: Ngữ liệu huấn luyện sẽđược so sánh nhãn với ngữ liệu vàng. Từ

những sai khác giữa ngữ liệu huấn luyện và ngữ liệu vàng mà ta cĩ thể

gọi là lỗi, hệ thống sẽ tự động rút ra luật sửa lỗi cĩ dạng thức theo các khung luật đã được cung cấp. Đồng thời, tính điểm cho các luật được rút ra.

Điểm luật = số lỗi của ngữ liệu hiện hành được sửa bởi luật - số lỗi gây ra bởi áp dụng luật lên trạng thái ngữ liệu hiện hành.

- Bước 3: Chọn luật cĩ điểm cao nhất và so sánh điểm với ngưỡng.

o Nếu (điểm cao nhất > ngưỡng) thì thực hiện bước 4.

o Ngược lại, (điểm cao nhất <= ngưỡng), dừng quá trình học.

- Bước 4: Đưa luật cĩ điểm cao nhất vào tập luật. Áp dụng luật vừa chọn

Hình 16: Sơđồ phương pháp học TBL tổng quát

3.1.3 Nhn xét

3.1.3.1 Ưu đim

™ Bộ học dựa trên sự chuyển trạng thái cĩ tính dễ mở rộng cao. Chúng ta cĩ thể thêm khung luật chuyển đổi nếu nhận thấy bộ học cần rút ra luật theo một dạng luật mới. Nếu một khung luật khơng hữu dụng thì khơng cĩ luật nào được rút ra theo khung luật đĩ, vì thế khung luật thừa cũng khơng làm chất lượng học bị giảm mà chỉ cĩ thể làm tăng thời gian học.

™ Bộ học dựa trên sự chuyển trạng thái cĩ thểđược sử dụng như một bộ phận hậu xử lý cho kết quả gán nhãn bởi con người hoặc một bộ gán nhãn tự động khác. Điều này được thực hiện rất đơn giản bằng cách sử dụng kết quả gán nhãn từ nguồn khác làm kết quả của bộ gán nhãn cơ sở. Thay vì sử dụng một cách gán nhãn cơ sở đơn giản, ta cĩ thể sử dụng một cách gán nhãn phức tạp hơn và nhiệm vụ của bộ học lúc này chỉ là rút ra những luật sửa sai làm hồn chỉnh thêm kết xuất. Ngữ liệu được gán nhãn Bộ gán nhãn cơ sở Bộ học (rút luật, đánh giá và chọn luật) Bộ luật Ngữ liệu vàng Các khung luật Ngữ liệu huấn luyện chưa cĩ nhãn

™ Tri thức ngơn ngữ và tri thức riêng của ngữ liệu khơng được lập trình “cứng” trong mã nguồn, do đĩ bộ học cĩ tính uyển chuyển cao. Tri thức

được học ra dưới dạng luật theo khung luật dưới dạng ký hiệu, do đĩ rất dễ

hiểu đối với các chuyên gia về ngơn ngữ.

™ Một khi cĩ danh sách luật chuyển đổi, khi áp dụng lên một thực thể mới, những việc cần làm chỉ đơn giản là đưa thực thểđĩ qua bộ gán nhãn cơ sở

rồi áp dụng từng luật theo thứ tự lên thực thể đĩ. Ở bước áp dụng, khơng cĩ sự lựa chọn luật, thời gian gán nhãn dựa trên sự chuyển trạng thái tỉ lệ

tuyến tính với chiều dài của thực thểđầu vào.

3.1.3.2 Nhược đim

™ Thời gian huấn luyện khá lâu đối với khối lượng ngữ liệu lớn

™ Các luật rút ra cĩ thể là luật tối ưu cục bộ, do đĩ cĩ thể làm giảm kết quả

thực thi tổng thể. Tuy nhiên những luật như thế khơng nhiều, rất dễ phát hiện và được loại bỏ khỏi tập luật.

Một phần của tài liệu Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt (Trang 68 - 71)

Tải bản đầy đủ (PDF)

(159 trang)