Quá trình huấn luyện sử dụng kho ngữ liệu corpus-1 để xây dựng tập luật chuyển. Kho ngữ liệu này đƣợc chia ngẫu nhiên N lần thành 2 kho ngữ liệu là
training-corpus-i và developing-corpus-i với i = 1, 𝑁 theo tỉ lệ 3:1. Kho ngữ liệu
training-corpus-i dùng để xây dựng lên mô hình phân lớp Naive Bayes, còn kho ngữ
liệu developing-corpus-i dùng để học các luật chuyển theo giải thuật TBL.
Quá trình huấn luyện bao gồm ba giai đoạn. Giai đoạn thứ nhất, danh sách các lỗi đƣợc xác định sau quá trình phân lớp của mô hình Naive Bayes. Gia đoạn thứ hai, xác định đƣợc các luật chuyển tƣơng ứng để sửa các lỗi sai ở giai đoạn 1. Giai đoạn thứ ba, thực hiện N lần giai đoạn 1 và giai đoạn 2 tƣơng ứng với N bộ kho ngữ liệu
training-corpus-i và developing-corpus-i với i = 1, 𝑁 đã đƣợc chia ngẫu nhiên, sau đó tổng hợp N tập luật chuyển này với nhau để thu đƣợc một danh sách các luật chuyển duy nhất cho quá trình huấn luyện. Số N đƣợc xác định dựa vào thực nghiệm. Từng giai đoạn trong quá trình huấn luyện đƣợc mô tả chi tiết nhƣ sau:
Hình 3.1. Sơ đồ mô tả quá trình huấn luyện ở giải đoạn thứ nhất
Đầu vào: Hai kho ngữ liệu training-corpus và developing-corpus chứa các ngữ cảnh của từ đa nghĩa đã đƣợc gán nhãn bằng tay.
Bƣớc 1: Tạo kho ngữ liệu chƣa gán nhãn raw developing-corpusbằng cách loại
bỏ các nhãn của kho ngữ liệu developing-corpus
Bƣớc 2: Sử dụng kho ngữ liệu training-corpusđể huấn luyện lên mô hình phân lớp Naive Bayes. Chính mô hình này sau đó đƣợc sử dụng để phân lớp cho kho
ngữ liệu raw-developing-corpus (mà đã thu đƣợc ở bƣớc 1). Kết quả thu đƣợc
kho ngữ liệu gọi là initial-corpus.
Bƣớc 3: So sánh kho ngữ liệu initial-corpus với kho ngữ liệu developing- corpus để xác định danh sách tất cả các nhãn bị lỗi từ mô hình phân lớp Naive Bayes.
Đầu ra: Danh sách các ngữ cảnh chứa từ nhập nhằng cùng với nhãn lỗi (gọi đó là danh sách lỗi list error nhƣ trong hình 3.1)
Trong giai đoạn thứ hai của giải thuật huấn luyện, tập tất cả các luật chuyển
(TBL rules) đƣợc xác định dựa trên việc áp dụng giải thuật TBL trên danh sách lỗi list
error mà đã thu đƣợc ở giai đoạn 1. Trong giai đoạn này, chúng tôi có sử dụng một mẫu luật chuyển đƣợc định nghĩa từ trƣớc cho việc sinh ra các luật (TBL rules). Chi tiết các mẫu luật này chúng tôi sẽ đề cập trong chƣơng 3. Giai đoạn này đƣợc mô tả chi tiết trong hình 3.2)
Hình 3.2. Sơ đồ mô tả quá trình huấn luyện ở giải đoạn thứ hai
Đầu vào: Hai kho ngữ liệu developing-corpus và initial-corpus cùng với danh sách các lỗi list error.
Bƣớc 1: Áp dụng mẫu luật rule templates cho danh sách các lỗi để tạo ra một danh sách các luật chuyển tiềm năng (gọi là list potential-rules)
Bƣớc 2: Áp dụng mỗi luật chuyển có trong danh sách list potential-rules với một kho ngữ liệu là bản copy của kho ngữ liệu initial-corpus. Điểm của mỗi luật đƣợc tính toán theo công thức 𝑠2 − 𝑠1. Trong đó, 𝑠1 là các trƣờng hợp mà
nhãn đúng chuyển thành nhãn sai và 𝑠2 là các trƣờng hợp mà nhãn sai chuyển
thành nhãn đúng. Luật có số điểm cao nhất sẽ đƣợc chọn.
Bƣớc 3: Cập nhật lại kho ngữ liệu initial-corpus bằng cách áp dụng luật có số điểm cao nhất vừa chọn đƣợc ở bƣớc 2 và thêm luật này vào danh sách luật chuyển đƣợc chọn (selected TBL rules). Danh sách các lỗi (list error) đƣợc cập nhật lại bằng cách so sánh hai kho ngữ liệu initial-corpus với developing- corpus.
Bƣớc 4: Dừng giải thuật nếu điểm số cao nhất của luật nhỏ hơn một ngƣỡng T định nghĩa trƣớc. Ngƣợc lại thì quay lại bƣớc 1.
Đầu ra: Danh sách các luật chuyển (selected TBL rules)
Trong giai đoạn thứ ba của thuật toán huấn luyện, sẽ áp dụng giai đoạn 1và giai đoạn 2 N lần cho N cặp kho ngữ liệu (training-corpus-i, developing-corpus-i) với i =
1, 𝑁. Ta thu đƣợc N danh sách các luật chuyển tƣơng ứng (list rules-i với i =1, 𝑁). Sau đó, kết hợp N danh sách các luật chuyển này lại với nhau ta thu đƣợc 1 danh sách luật chuyển cuối cùng (gọi là list rules). Chi tiết quá trình này đƣợc mô tả trong hình 3.3.
Hình 3.3. Sơ đồ mô tả quá trình huấn luyện ở giải đoạn thứ ba
Đầu vào: N bộ kho ngữ liệu training-copus-i và developing-corpus-ivới i = 1, 𝑁.
Bƣớc 1: Thực hiện giai đoạn 1 và giai đoạn 2 của giải thuật huấn luyện tƣơng
ứng với N bộ dữ liệu đầu vào. Thu đƣợc N danh sách các luật chuyển (list-rule-
i) với i = 1, 𝑁.
Bƣớc 2: Thực hiện kết hợp N danh sách các luật chuyển (list-rule-i) với i = 1, 𝑁
lại với nhau. Thu đƣợc bộ danh sách các luật chuyển cuối cùng (list rules).
Đầu ra: Danh sách các luật chuyển (list rules)