Tham số Giá trị Ý nghĩa
cpRareThreshold 0 Chỉ có các mẫu vị từ ngữ cảnh có tần số xuất hiện lớn hơn giá trị này mới được tích hợp vào mô hình MaxEnt
fRareThreshold 0 Chỉ có các thuộc tính có tần số xuất hiện lớn hơn giá trị này thì mới được tích hợp vào mô hình MaxEnt
numIterations 200 Số bước lặp huấn luyện
evaluateDuringTraining true Vừa huấn luyện mô hình vừa kiểm thử mô hình song song
saveBestModel true Lưu lại mô hình tốt nhất trong quá trình huấn luyện
3.4.3. Các tham số huấn luyện khi sử dụng mô hình CRFs
Một số tùy chọn trong quá trình huấn luyện mô hình bằng CRFs
Bảng 3.15: Các tham số trong quá trình huấn luyện bằng CRFs Tham số Giá trị Ý nghĩa Tham số Giá trị Ý nghĩa
cp_rare_threshold 0 Chỉ có các mẫu vị từ ngữ cảnh có tần số xuất hiện lớn hơn giá trị này mới được tích hợp vào mô hình CRFs
f_rare_threshold 0 Chỉ có các thuộc tính có tần số xuất hiện lớn hơn giá trị này thì mới được tích hợp vào mô hình CRFs
num_iterations 200 Số bước lặp huấn luyện
evaluate_during_training 1 Vừa huấn luyện mô hình vừa kiểm thử mô hình song song chunk_evaluate_during_training 1 Đánh giá theo chunk trong quá
trình huấn luyện
order 1
init_lambda_val 0.05 Giá trị khởi tạo cho các tham số trong mô hình
chunktype IOB2 Đánh giá theo chunk dạng IOB2
chunk b-datetime:i-
datetime:datetime Đánh giá chunk kiểu ngày tháng
chunk b-location:i-
location:location
chunk b-aname:i-
aname:aname Đánh giá chunk kiểu tên ứng dụng
chunk b-email:i-
email:email Đánh giá chunk kiểu địa chỉ email
chunk b-number:i-
number:number
Đánh giá chunk kiểu biểu thức số học
chunk b-cname:i-
cname:cname Đánh giá chunk kiểu tên liên lạc trong danh bạ
chunk b-cnumber:i-
cnumber:cnumber
Đánh giá chunk kiểu số liên lạc chunk b-url:i-url:url Đánh giá chunk kiểu tên địa chỉ
website
Chƣơng 4. Thực nghiệm và đánh giá mô hình nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt
4.1. Dữ liệu thực nghiệm và cài đặt
Để đánh giá mô hình của mình xây dựng tôi đã tạo ra một tập dữ liệu có kích thước trung bình, gồm 4409 câu văn nói tiếng Việt có nội dung giao tiếp giữa người dùng và ĐTTM cho tất cả 16 tính năng tương tác với điện thoại. Trong tập dữ liệu này được sử dụng gán nhãn dữ liệu theo 8 kiểu thực thể tên như tôi đã định nghĩa ở bảng 3.2. Tất cả các câu dữ liệu đầu vào khi có thực thể tên thì được chú thích theo định dạng của XML. Những câu dữ liệu này được tôi sử dụng Google Now để thực hiện ra lệnh (các câu ví dụ đã được biểu diễn ở bảng 3.2) cho ĐTTM để có được văn bản các câu lệnh đầu ra từ dịch vụ nhận dạng tiếng nói tự động - ASR này. Sau khi có các câu dữ liệu mẫu đầu ra này, được tôi chỉnh sửa lại cho chuẩn với văn nói tiếng Việt. Bước tiếp theo tôi sử dụng hai phương pháp gồm: MaxEnt để thực thi, đây cũng là một thành phần được viết bằng Java và sử dụng trong công cụ xử lý văn bản (Text Processing Toolkit - JtextPro17) và CRFs được viết bằng C/C++ có tên FlexCRFs18, đây là một công cụ phân đoạn và gán nhãn dữ liệu chuỗi được viết dựa trên lý thuyết của Conditional Random Fields (do Lafferty cùng các cộng sự giới thiệu lần đầu tiên vào năm 2001) để huấn luyện và thử nghiệm. Sử dụng kỹ thuật đánh giá chéo, tôi chia dữ liệu thành 4 tệp tin (4 folds) để kiểm tra đánh giá và huấn luyện được 4 mô hình
17 JTextPro: http://jtextpro.sourceforge.net 18 FlexCRFs: http://flexcrfs.sourceforge.net/
MaxEnt, với mỗi lần đánh giá tôi sử dụng 200 lần lặp L–BFGS [14] để tìm ra lần có kết quả tốt nhất và lưu lại làm kết quả mô hình nhận dạng thực thể tên.
4.2. Kết quả thực nghiệm và phân tích 4.2.1 Kết quả thực nghiệm sử dụng MaxEnt 4.2.1 Kết quả thực nghiệm sử dụng MaxEnt
Ở bảng 4.1 dưới đây biểu diễn kết quả của 4 tệp tin (4 folds). Trong đó cột Human thể hiện nội dung là số lượng thực thể tên mà do tôi đã chú thích thực tế trên tập dữ liệu thử nghiệm. Cột Model số lượng thực thể tên được dự đoán mới mô hình MaxEnt. Cột Match là số lượng thực thể tên được nhận đúng bởi mô hình MaxEnt. Ba cột còn lại lần lượt thể hiện độ chính xác, độ hồi tưởng và giá trị độ đo F1 dựa trên các giá trị của các cột Human, Model và Match. Với 4 lần thực nghiệm đánh giá chéo thì tôi nhận