4 Mô hình tích hợp tách từ và gán nhãn từ loại tiếng Việt
2.3 Ví dụ một câu được tách từ
Thị trường chứng khoán đang đi xuống B_W I_W B_W I_W B_W B_W B_W The market stock being go down
Inf o(N −gram) = (1−|mi+|max_N −gram||
|min_N−gram| ). (2.3) Theo thống kê từ corpus thô( 14M-syllable Wiki), ta có:
• P(2-gram) : min_2-gram ≈ −41, max_2-gram ≈ −8.00
• P(3-gram) : min_3-gram ≈ −41, max_3-gram ≈ −10.00
2.4 Kết quả thực nghiệm
Mô hình được sử dụng là mô hình maximum entropy [1] với giải thuật tối ưu BLMVM [2] có hỗ trợ giá trị là số thực. Khi sử dụng mô hình này, bài toán phân đoạn từ tiếng Việt được chuyển về bài toán phân lớp trong đó mỗi âm tiết sẽ được phân về một trong hai lớp là B_W (Begin of word) hoặc I_W (inner of word). Một ví dụ câu phân đoạn được cho trong bảng 2.3: Công cụ MEM được dùng trong các thực nghiệm được lấy từ http://www- tsujii.is.s.u-tokyo.ac.jp/ tsuruoka/maxent/. Về corpus, chúng tôi thực nghiệm trên corpus được công bố trong bài báo [3] tại địa chỉ http://www.jaist.ac.jp/ hieuxuan/vnwordseg/data. Corpus dùng để thống kê thông tin N-gram được lấy từ trang wikipedia.
2.4.1 Đánh giá các đặc trưng FS1 và FS2 so với các mô hìnhtrước đó trước đó
Các nghiên cứu trước cũng thiết kế các đặc trưng dựa trên từ điển và mô hình NER, tuy nhiên các đặc trưng được thiết kế ở đây khác so với các đề xuất trong [8][9]. Kết quả thực nghiệm dưới đây sẽ so sánh và đánh giá tính phù hợp của cách chọn đặc trưng này. Đối với các xét thông tin dựa vào từ điển, chúng tôi đã tiến hành thực nghiệm và kết quả cho thấy cách tiếp cận của mô hình này cho kết quả cao hơn cách tiếp cận trước đó (xem bảng 2.4):
Với các đặc trưng dựa vào NER, thay vì kiểm tra từng âm tiết có trong danh sách tên đệm, tên họ, tên hay không (như tiếp cận trình bày trong [3]), chúng tôi sẽ kiểm tra từng