Cấu hình để thực hiện

Chúng tôi kế thừa mã nguồn trong [58] [54] để cài đặt mô hình kết hợp đã đề xuất. Trong [58] [54] tất cả các thuộc tính cần thiết lập giá trị cho từng ngôn ngữ được lưu trong các tệp tin có phần mở rộng là .props trong thư mục model (gọi chung là các tệp thuộc tính). Các tệp tin này chứa các giá trị của các thuộc tính mặc định của bộ gán nhãn từ loại. Để sử dụng cho các ngôn ngữ khác tiếng Anh thì cần phải thay đổi một số giá trị trên một số thuộc tính trong tệp thuộc tính này. Với sự thay đổi một số thuộc tính có thể làm thay đổi mô hình xác suất thống kê có được sau khi huấn luyện. Lớp TaggerConfig trên bộ gán nhãn Stanford nhận thông tin đầu vào từ tệp thuộc tính để tạo ra sự độc lập tương đối cho quá trình thiết lập và cài đặt hệ thống. Thuộc tính được chi thành các loại sau:

STT THUỘC TÍNH GIÁ TRỊ Ý NGHĨA

1. model *.tagger Tên tệp lưu mô hình

2. arch left3words Kiến trúc mô hình ngôn ngữ. 3. trainFile vtb-train.pos Tệp chứa ngữ liệu huấn luyện 4. curWordMinFeatureThresh 2 Gưỡng sinh đặc trưng cho từ 5. tagSeparator / Ký hiệu phân cách từ và từ loại

Đầu vào: Từ tố.

Đầu ra: Từ loại.

Bước 1: String temp = "";

Bước 2: i = Từ tố.độ rộng()-1;

Bước 3: Lặp khi i>=0 và Từ tố.Ký tự tại vị trí(i)!=’/’)

Bước 3.1. temp = Từ tố.Ký tự tại vị trí(i) + temp ; Bước 3.2. i = i - 1;

STT THUỘC TÍNH GIÁ TRỊ Ý NGHĨA

6. encoding UTF-8 Mã hóa

7. iterations 100 Số vòng lặp

8. lang Vietnamese Ngôn ngữ

9. minFeatureThresh 2 Ngưỡng loại bỏ ngữ cảnh (history) 10. rareWordMinFeatureThresh 10 Ngưỡng loại bỏ ngữ cảnh từ hiếm 11. rareWordThresh 5 Ngưỡng phân loại từ hiếm

12. search owlqn Phương pháp tối ưu (L1 reg)

13. sigmaSquared 0.0 Tham số làm mịnh mô hình 14. tokenize true Có ký hiệu phân tách từ tố 15. outputFormat slashTags Định dạng tệp kết quả

Bảng 3-6: Một số thuộc tính cho mô hình cực đại hóa Entropy

- Lớp edu.stanford.nlp.tagger.maxent.Extractor sử dụng các kiến trúc mô hình ngôn ngữ được chỉ ra trong tham số arch để làm tham số trích chọn từng thành phần của đặc trưng. - Lớp edu.stanford.nlp.tagger.maxent.AmbiguityClass để lưu trữ các từ tố có hiện tượng nhập nhằng từ loại.

- Lớp edu.stanford.nlp.tagger.maxent.ExtractorFrames bản chất là một mảng các Extractor được ghép lại với nhau tạo thành đặc trưng cho mô hình. Các đặc trưng này là các đặc trưng cho mọi từ trong ngữ liệu huấn luyện.

- Lớp edu.stanford.nlp.tagger.maxent. ExtractorFramesRare tương tự chức năng của ExtractorFrames nhưng lớp này chỉ tạo ra các đặc trưng cho từ hiếm.

Mô tả các giải thuật trong mô hình

Quá trình huấn luyện mô hình kết hợp