Xuất mô hình

Một phần của tài liệu (LUẬN văn THẠC sĩ) kết hợp mô hình học máy thống kê với mô hình học dựa trên luật đề khử nhập nhằng nghĩa từ tiếng việt (Trang 33 - 37)

CHƢƠNG III ĐỀ XUẤT MÔ HÌNH KHỬ NHẬP NHẰNG NGHĨA

3.1. xuất mô hình

Mô hình của chúng tôi đề xuất là mô hình học máy thống kế dựa trên kho ngữ liệu, vì vậy nó sẽ gồm 2 quá trình là quá trình huấn luyện và quá trình kiểm tra. Quá trình huấn luyện là quá trình xây dựng lên mô hình phân lớp dựa vào kho ngữ liệu đầu vào chứa các tập mẫu đã đƣợc gán nhãn, thực tế quá trình này sẽ xây dựng lên một danh sách các luật chuyển. Quá trình kiểm tra sẽ áp dụng các luật chuyển thu đƣợc ở quá trình huấn luyện với một kho ngữ liệu chứa các tập mẫu chƣa đƣợc gán nhãn trƣớc để thu đƣợc các nhãn, qua đó đánh giá độ chính xác của mô hình. Chi tiết từng quá trình huấn luyện và kiểm tra của mô hình mà chúng tôi đề xuất nhƣ sau:

3.1.1. Quá trình huấn luyện

Quá trình huấn luyện sử dụng kho ngữ liệu corpus-1 để xây dựng tập luật chuyển. Kho ngữ liệu này đƣợc chia ngẫu nhiên N lần thành 2 kho ngữ liệu là

training-corpus-ideveloping-corpus-i với i = 1, 𝑁 theo tỉ lệ 3:1. Kho ngữ liệu

training-corpus-i dùng để xây dựng lên mô hình phân lớp Naive Bayes, còn kho ngữ

liệu developing-corpus-i dùng để học các luật chuyển theo giải thuật TBL.

Quá trình huấn luyện bao gồm ba giai đoạn. Giai đoạn thứ nhất, danh sách các lỗi đƣợc xác định sau quá trình phân lớp của mô hình Naive Bayes. Gia đoạn thứ hai, xác định đƣợc các luật chuyển tƣơng ứng để sửa các lỗi sai ở giai đoạn 1. Giai đoạn thứ ba, thực hiện N lần giai đoạn 1 và giai đoạn 2 tƣơng ứng với N bộ kho ngữ liệu

training-corpus-i và developing-corpus-i với i = 1, 𝑁 đã đƣợc chia ngẫu nhiên, sau đó tổng hợp N tập luật chuyển này với nhau để thu đƣợc một danh sách các luật chuyển duy nhất cho quá trình huấn luyện. Số N đƣợc xác định dựa vào thực nghiệm. Từng giai đoạn trong quá trình huấn luyện đƣợc mô tả chi tiết nhƣ sau:

Hình 3.1. Sơ đồ mô tả quá trình huấn luyện ở giải đoạn thứ nhất

Đầu vào: Hai kho ngữ liệu training-corpusdeveloping-corpus chứa các ngữ cảnh của từ đa nghĩa đã đƣợc gán nhãn bằng tay.

Bƣớc 1: Tạo kho ngữ liệu chƣa gán nhãn raw developing-corpusbằng cách loại

bỏ các nhãn của kho ngữ liệu developing-corpus

Bƣớc 2: Sử dụng kho ngữ liệu training-corpusđể huấn luyện lên mô hình phân lớp Naive Bayes. Chính mô hình này sau đó đƣợc sử dụng để phân lớp cho kho

ngữ liệu raw-developing-corpus (mà đã thu đƣợc ở bƣớc 1). Kết quả thu đƣợc

kho ngữ liệu gọi là initial-corpus.

Bƣớc 3: So sánh kho ngữ liệu initial-corpus với kho ngữ liệu developing- corpus để xác định danh sách tất cả các nhãn bị lỗi từ mô hình phân lớp Naive Bayes.

Đầu ra: Danh sách các ngữ cảnh chứa từ nhập nhằng cùng với nhãn lỗi (gọi đó là danh sách lỗi list error nhƣ trong hình 3.1)

Trong giai đoạn thứ hai của giải thuật huấn luyện, tập tất cả các luật chuyển

(TBL rules) đƣợc xác định dựa trên việc áp dụng giải thuật TBL trên danh sách lỗi list

error mà đã thu đƣợc ở giai đoạn 1. Trong giai đoạn này, chúng tôi có sử dụng một mẫu luật chuyển đƣợc định nghĩa từ trƣớc cho việc sinh ra các luật (TBL rules). Chi tiết các mẫu luật này chúng tôi sẽ đề cập trong chƣơng 3. Giai đoạn này đƣợc mô tả chi tiết trong hình 3.2)

Hình 3.2. Sơ đồ mô tả quá trình huấn luyện ở giải đoạn thứ hai

Đầu vào: Hai kho ngữ liệu developing-corpusinitial-corpus cùng với danh sách các lỗi list error.

Bƣớc 1: Áp dụng mẫu luật rule templates cho danh sách các lỗi để tạo ra một danh sách các luật chuyển tiềm năng (gọi là list potential-rules)

Bƣớc 2: Áp dụng mỗi luật chuyển có trong danh sách list potential-rules với một kho ngữ liệu là bản copy của kho ngữ liệu initial-corpus. Điểm của mỗi luật đƣợc tính toán theo công thức 𝑠2 − 𝑠1. Trong đó, 𝑠1 là các trƣờng hợp mà

nhãn đúng chuyển thành nhãn sai và 𝑠2 là các trƣờng hợp mà nhãn sai chuyển

thành nhãn đúng. Luật có số điểm cao nhất sẽ đƣợc chọn.

Bƣớc 3: Cập nhật lại kho ngữ liệu initial-corpus bằng cách áp dụng luật có số điểm cao nhất vừa chọn đƣợc ở bƣớc 2 và thêm luật này vào danh sách luật chuyển đƣợc chọn (selected TBL rules). Danh sách các lỗi (list error) đƣợc cập nhật lại bằng cách so sánh hai kho ngữ liệu initial-corpus với developing- corpus.

Bƣớc 4: Dừng giải thuật nếu điểm số cao nhất của luật nhỏ hơn một ngƣỡng T định nghĩa trƣớc. Ngƣợc lại thì quay lại bƣớc 1.

Đầu ra: Danh sách các luật chuyển (selected TBL rules)

Trong giai đoạn thứ ba của thuật toán huấn luyện, sẽ áp dụng giai đoạn 1và giai đoạn 2 N lần cho N cặp kho ngữ liệu (training-corpus-i, developing-corpus-i) với i =

1, 𝑁. Ta thu đƣợc N danh sách các luật chuyển tƣơng ứng (list rules-i với i =1, 𝑁). Sau đó, kết hợp N danh sách các luật chuyển này lại với nhau ta thu đƣợc 1 danh sách luật chuyển cuối cùng (gọi là list rules). Chi tiết quá trình này đƣợc mô tả trong hình 3.3.

Hình 3.3. Sơ đồ mô tả quá trình huấn luyện ở giải đoạn thứ ba

Đầu vào: N bộ kho ngữ liệu training-copus-ideveloping-corpus-ivới i = 1, 𝑁.

Bƣớc 1: Thực hiện giai đoạn 1 và giai đoạn 2 của giải thuật huấn luyện tƣơng

ứng với N bộ dữ liệu đầu vào. Thu đƣợc N danh sách các luật chuyển (list-rule-

i) với i = 1, 𝑁.

Bƣớc 2: Thực hiện kết hợp N danh sách các luật chuyển (list-rule-i) với i = 1, 𝑁

lại với nhau. Thu đƣợc bộ danh sách các luật chuyển cuối cùng (list rules).

Đầu ra: Danh sách các luật chuyển (list rules)

3.1.2. Quá trình kiểm tra

Trong giai đoạn này, chúng tôi sử dụng danh sách luật chuyển (list rules) thu

đƣợc trong giai đoạn 3 của quá trình huấn luyện ở trên. Chi tiết quá trình này đƣợc mô tả trong hình 3.4 nhƣ sau:

Hình 3.4. Sơ đồ mô tả quá trình kiểm tra

Đầu vào: Kho ngữ liệu test-corpusvà danh sách các luật chuyển (list rules) thu đƣợc ở giai đoạn 3 của quá trình huấn luyện.

Bƣớc 1: Tạo ra kho ngữ liệu raw test-corpusbằng cách bỏ các nhãn từ kho ngữ liệu test-corpus.

Bƣớc 2: Sử dụng mô hình phân lớp Naive Bayes đối với kho ngữ liệu raw test- corpus,thu đƣợc một kho ngữ liệu gọi là initial-corpus.

Bƣớc 3: Áp dụng danh sách các luật chuyển (list rules) đối với kho ngữ liệu

initial-corpus thu đƣợc một kho ngữ liệu gọi là labeled-corpus.

Bƣớc 4: So sánh kho ngữ liệu labeled-corpus với kho ngữ liệu test-corpus để đánh giá hệ thống (thu đƣợc độ chính xác của hệ thống)

Đầu ra: Độ chính xác của mô hình đã đề xuất.

Một phần của tài liệu (LUẬN văn THẠC sĩ) kết hợp mô hình học máy thống kê với mô hình học dựa trên luật đề khử nhập nhằng nghĩa từ tiếng việt (Trang 33 - 37)

Tải bản đầy đủ (PDF)

(52 trang)