Nghiên cứu phát triển kỹ thuật tách từ tiếng Việt phục vụ xử lý ngôn ngữ tự nhiên

MỤC LỤC

Tínhcấpthiết củaluậnán

Xử lý ngôn ngữ tự nhiên (hay ngôn ngữ học tính toán) là lĩnh vực được nhiềuchuyên gia trên thế giới cũng như trong nước quan tâm nghiên cứu, nhằm tạo ra. Trong các bài toán xử lý ngôn ngữ tự nhiên thì bài toán tách từ là một trongnhững bài toán cơ bản vì nó là nền tảng cho các nghiên cứu để hiểu ngôn ngữ và ứngdụng vào thực tiễn như: kiểm lỗi chính tả, tóm tắt văn bản trả lời câu hỏi tự động,dịch máy,. Ta có thể thấy vai trò nền tảng của đơn vị từ trong các bước phân tích vàhiểungônngữvănbảnnhưhình0.1.

Qua cỏc khảo sỏt nghiên cứu, một số vấn đề quan trọng trong bài toántách từ tiếng Việt còn bỏ ngỏ gồm có: nhận diện và khử nhập nhằng tên riêng, nhậndiện từ mới, và xử lý nhập nhằng ranh giới từ. Chính vì thế, trong mục tiêu và phạm vi nghiên cứu, tác giả chọn đề tài luận ánlà“Nghiêncứupháttriển mộtsốkỹthuậttáchtừtiếngViệt”.

Phươngphápnghiêncứucủa luậnán

Trong đó, kết hợp chặt chẽ có hệ thống các phương pháp lôgíc, thống kê – khảosát,phântích –tổng hợpvà phươngpháp chuyên gia.

Bốcụcluận án

Phươngphápđánhgiá kết quảtáchtừ tiếng Việt

Có nhiều tiêu chí và phương pháp đánh giá khác nhau như: dựa vào biên của từ,dựavào từ,haydựa vào câu.Ởđây, luận án dựa vàođơn vị từ đểđánhgiá. Cho đến nay, bài toán tách từ đã có một lịch sử phát triển đáng kể (hơn 20 nămtrênthếgiớivàhơn10nămtrongnước)vàđãthuđượcnhiều kếtquảquantrọng. Những tiếp cận trên thế giới về bài toán tách từ chủ yếu tập trung vào các ngônngữ thuộc khu vực Châu Á.

Các ngôn ngữ này có đặc điểm giống nhau về cấu tạo làkhông có kí hiệu để phân cách giữa các đơn vị từ trong văn bản như tiếng Việt, tiếngTrung. Chính vì thế, hầu hết các ngôn ngữ thuộc khu vực này đều có nhiều nghiêncứu và xử lý cần thiết để giải quyết bài toán tách từ cho mình. Phần này sẽ giới thiệu sơ lược các phương pháp giải quyết bài toán tách từ trênthế giới cũng như trong nước.

Nhữngtiếpcậntrênthếgiới

Mở đầu với nghiên cứu[142]dựa trên các bộ biến đổi trạng thái hữuhạn có trọng số (WFST - Weighted Finite-State Transducer), trong đó, bộ biến đổi làmột từ điển có dạng một automat hữu hạn, với các nút có trọng số được thống kê trênkho ngữ liệu. Các khung khác cho bài toán tách từ,bao gồm các mô hình Entropy cực đại MEMs như[126]và các trường ngẫu nhiên cóđiều kiện CRFs như[76]đã giới thiệu. Học máy bán giám sát(semi-supervised): Học bán giám sát cho tách từ thựcchất là sự kết hợp giữa học giám sát và không có giám sát.

Sự kết hợp này cho kếtquả tốt hơn so với các phương pháp đơn lẻ: sử dụng học giám sát để xác định các từđã biết (đã học) và xử lý nhập nhằng, còn các từ mới chưa biết thì sử dụng học khônggiám sát để đoán nhận. Mô hình lai: từ điển và thống kê: Sự kết hợp của hai phương pháp dựa vào từđiểnvàthốngkêđãbùđắpnhữngđiểmyếucủatừngphươngphápriênglẻ.Tạora. Kỹ thuật này thường cho kết quả tốt, tuy nhiên phảitốn nhiều chi phí hơn (công sức, thời gian để thiết kế lại các thuật toán, chạy lại cácthuậttoán,rồithựchiệnVoting).Mộtsốnghiêncứutiêubiểu:[56],[62],[63],[71].

Môhìnhhỗnhợptuyếntính:đâylàphươngphápmà[98]và[99]đưaranhằmgiảiquyếtđồn gthờicácnhiệmvụ:vừatáchtừdựavàotừđiểnvàvừanhậndiệncáctừmớiNWdựavàothốngkêtrong mộtmôhìnhhỗnhợptuyếntính.Môhìnhnàyđưaramột khung (framework) linh hoạt để kết hợp các loại thông tin từ. Các mô hình tuyến tính bắt nguồn từ các hàm phân biệttuyếntính,đượcsửdụngđểphânloạimẫutrong[158],vàđãđượcgiớithiệutrongcácnhiệmvụxửl ýngônngữtựnhiên[121].

Nhữngtiếpcậntrongnước

Thứ hai, các phương pháp đều phải đối diện với thách thức nhập nhằng, nhưngcácnghiêncứumớichỉnêuvàđưaramộtdạngnhậpnhằngchồnglấpcủabaâmtiết. Hầu hết,các nghiên cứu chưa đưa ra cách giải quyết khử nhập nhằng trong điều kiện kho ngữliệu huấn luyện không đủ lớn làm cho các xác suất ngữ cảnh có điều kiện (phụ thuộcbêntráihayphải)củanhậpnhằngbằng0. Dovậy, tỉ lệ này đã được sử dụng để khởi tạo các giá trị cho nhiễm sắc thể, và nhận địnhrằng quần thể ban đầu đã có một số cá thể tối ưu cục bộ.

Trong[79]sử dụng thuật toán quy hoạch động, kết hợp so sánhgiữa các xác suất khác loại nhau (unigram, bigram và trigram) để chọn lựa từ đơn, từképhay từbộba mà không có sựquyđổivề cùng thangđo (chuẩnhoá). Điểm nổi bật trong các nghiên cứu là nhiều tác giả quan tâm đến lĩnh vực họcmáythốngkê,cáccáchtiếpcậncũngkháđadạng,từtiếpcậnhọctừmôhìnhxácsuấtđến các mô hình cao hơn như HMM, MEM, CRF, SVM. Trong các nghiên cứu sử dụng học máy cho thấy, một số mô-đun nhận dạngthực thể tên chưa tốt, làm giảm kết quả tách từ xuống như trong[29]: nếu không cómô-đun nhận diện tên riêng (PN - Proper Name) thì kết quả đạt được 0,973, và khitíchhợpthêmPNvàothìkếtquảgiảmxuốngcòn0,9679(Bảng1.3).

Đa số các tác giả đều chỉ ra là kết hợp cácđặc trưng hay các phương pháp như: so khớp cực đại dựa vào từ điển, dựa vào thốngkê, học máy, nhận dạng các thực thể tên riêng trong văn bản,. Trong[29]sửdụngsokhớpcựcđạiFMMvàBMMđểpháthiệnranhậpnhằng.Trên cơ sở một số đặc trưng unigram, bigram của nhãn biên từ và nhãn so khớpFMM/BMM, các tác giả sử dụng công cụ SVM-based Chunker (Kudo và Matsumoto2001, YAMCHA - Yet Another Multipurpose CHunk.

ĐỀXUẤTHƯỚNGGIẢIQUYẾT

    Trên cơ sở quy định về chuẩn chính tả tiếng Việt hiện hành ([4],[5]) và quy tắcđặt dấu thanh tiếng Việt ([20],[27]), luận án đã đề xuất thuật toán A3 (Phụ lục A) đểphântíchvàsửamộtsốlỗichínhtảđãnêu chocáckhongữliệu mẫutiếngViệt. Cũng qua thống kê, các từ - thực thể chiếm tỉ lệ không nhỏ trong các kho ngữliệumẫu(SP731:7,76%,SP732:4,93%,theoBảng1.4).Việcnhậndiệnđúngcáctừ - thực thể, nhất là các từ - thực thể ghép sẽ làm tăng độ chính xác cho kết quả tách từ.Các dạng từ - thực thể không có mặt trong từ điển, nên chúng được coi là một dạng"từmới" cần đượcnghiêncứuvà nhận diện. Qua thống kê tên riêng và từ tiền tố tên riêng trong các kho ngữ liệu mẫu, luậnánđãlọcrađượcdanhsáchcáctừtiềntố1âmtiếtcủathựcthểtênriêng(ListPreNE, Bảng B5.1, Phụ lục B5) theo các dạng nhập nhằng, và một danh sáchtênriêngđặcbiệt(ListSpecialPN,BảngB5.2,PhụlụcB5).

    Dãy âm tiết có khuôn dạng tên riêng có thể bị nhập nhằng ở các dạng: tên riêngtiếng nước ngoài, tên riêng địa điểm, tên họ người Việt (Bảng B5.3, Phụ lục B5), vàcũng có thể là dãy từ tiêu đề của bài viết nào đó. HàmSplitNEbyRules(TenRieng) thực hiện kiểm tra từng âm tiết trong tên riêngbằng các hàmisVietSyll(a),isVietFamily(a),isVietWord(w), nên độ phức tạp thuậttoánchungsẽlàO(m),vớimlàsốâmtiếtdãyTenRieng.(m=|TenRieng|). Trên cơ sở chọn mô hình tíchhợp có thứ tự cho tách từ tiếng Việt, luận án đưa ra thuật toán tách từ gồm 6 bước.Trongđó,babướcquantrọngđượcgiảiquyếtlà:Tiềnxửlý,dùngcâyquyết địnhnhịphântáchkítựđặcbiệt;Sinhcácứngviêntừdựavàotừvựng;vàTìmdãytáchtừ tối ưu.

    (2)Vấn đề nhận diện thực thể và khử nhập nhằng ranh giới tên riêng: qua khảosátcáckhongữliệumẫu,chỉracácloạithựcthểvàtỉlệcủachúng.Trêncơsởđóchỉ hai loại thực thể cần nhận diện làtên riêngvàsố (hay phân số) bằng chữ. Đặcbiệt, qua khảo sát một số mẫu tên riêng khi dùng trong văn bản tiếng Việt, luận án đãchỉ ra ba dạng nhập nhằng:nhập nhằng từ tiền tố với tên riêng, nhập nhằng tên riêngvới từ hậu tố và nhập nhằng tên riêng với tên riêng.