n mLaoScript for Windows, Lao Word Pro, Lao Pad, Lao Unikey.... s d ng các phông ch SaysetthaUnicode, Saysettha OT, Chantabuli Lao, Chantabuli 95, v.v.... BÀI TOÁN TÁCH T TING LÀO 3.1 Bà
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Vixay PHOMMAVONG NGHIÊN CỨU VÀ ỨNG DỤNG CÁC PHƯƠNG PHÁP TÁCH TỪ CHO TIẾNG LÀO Chuyên ngành: KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội - 2018 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057204959821000000 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Vixay PHOMMAVONG NGHIÊN CỨU VÀ ỨNG DỤNG CÁC PHƢƠNG PHÁP TÁCH TỪ CHO TIẾNG LÀO Chuyên ngành: KHOA HỌC MÁY TÍNH Mã đề tài: 16BKHMT-KH08 LUẬN VĂN THẠC SĨ KHOA HỌC NHƢỜI HƢỚNG DẪN TS Nguyễn Thị Thu Hƣơng Hà Nội - 2018 LI C Với tất lòng, em xin gửi lời cảm ơn sâu sắc đến cô, giáo viên hướng dẫn TS.Nguyễn Thị Thu Hương , người tận tình hướng dẫn, bảo tạo điều kiện tốt giúp em hoàn thành luận văn Đồng thời em xin gửi lời cảm ơn chân thành đến tồn thể q thầy Trường Đại Học Báck khoa Hà Nội trang bị cho em kiến thức học tập nghiên cứu khoa học Cuối cùng,em xin gửi lời cảm ơn đến gia đình, bạn bè đồng nghiệp động viên cho em lời khuyên bổ ích suốt trình thực luận văn Học viên thực Luận văn (Ký ghi rõ họ tên) Vixay PHOMMAVONG MC LC LI C MC LC DANH MC CÁC BNG DANH MC CÁC HÌNH V M U t v Lý ch tài Mm vi, ng nghiên cu ca lu Ni dung lu I THIU 1.1 X lý ngôn ng t 9 1.2 X lý ti .9 1.3.Bài toán tách t, tách t ting Lào, ti10 t toán tách t n ti10 1.5.Thc trng thách thc x lý ti11 TING LÀO 12 2.1 TÌM HIU TING LÀO 12 2.1.1 Gii thiu ting Lào 12 2.1.2 Ngun gc ca ting Lào ting Thái 13 2.1.3 Nhng yu t ng pháp ti14 2.2.Ting Lào bi cnh x lý ngôn ng t nhiên .23 2.2.1.Xây dng trình son thn ti. 23 TI 3.1 Bài toán tách t 25 3... 3.3 Biu dibn ting Lào .30 3.4 Biu din t n 30 3.6 Bài toán tách t ti35 ting Lào s dng biu th 3.6.2 Xây dng mơ hình cha theo cu trúc ba t37 n din t 3.6.4.Các gii pháp tách t ti 42 NG DNG TÁCH T CHO TI 4.1.La chn công c 49 4.2.So sánh ting Lào ting T 50 4.3 Th nghi 53 KT LU 54 TÀI LIU THAM KHO 55 DANH MC CÁC BNG Bng 2.1 Bng cu trúc âm tit thành phn 15 Bng 2.2.Bng cu trúc âm tit ba tng. 16 Bng 2.3 Bng ch ca ting Lào.19 Bng 3.2 Vai trò thành phn ca V1 V238 Bng 4.1 So sánh ch cái50 Bng 4.2 So sánh cu trúc âm tit51 Bng 4.3 So sánh cu trúc t 52 Bng 4.4 So sánh cu trúc câu52 Bng 4.5 bng so sánh ting 53 DANH MC HÌNH V Hình 2.1 Bàn phím gõ ting Lào24 Hình 3.1 th ng m t CRF28 Hình 3.2 Cu trúc d liu trie30 Hình 3.4 Cu trúc t ng Lào36 khi hàm is next word M U t v Nghiên cu v x lý ngôn ng t nhiên bao gm nhi c quan tr ch máy (MT: Machine Translation), truy vn khai thác thông tin ( IR-IE: Information Retrieval and Extraction), h thng h n (ATS: Automatic Text Summarization), nh ting nói (SR: Speech Recognition) v.v t c giúp máy tính hi c tri thc ca i n t (WS:Word Segmention) c quan trng x lý nhng ngôn nh ng Vit ,ting Trung Quc, ting Hàn , ting Thái v Làon t vinh ranh gii gia t câu, không g ting Anh ngôn ng Âu-Á khác, ting Lào không s dng khong cách làm du hinh ranh gii t Ranh gii gia t khơng có du hiu rõ ràng mà cn phi da vào yu t c lân cn, v.v ghép Lý ch tài ng t khoa hc công ngh ti CHDCND c Lào th trin, so sánh vi ctrong khi ASEAN, hay so sánh vi cláng ging Thái Lan unày d n chuyên vc XL tingLào Mcdù có nhiuhotng Tin hc hóa,s dng internet truy n mi khía a cuc sng, cLào vng thiu trao ichuyên môn, hp tác nghiên cu khoa hc.Mt nh mcatingLào lý bn V v tách t, T ng Tuy nhiên, ting Lào rt ng Thái Lan Hit s cơng trình nghi tin mm ngun m x lý ting Thái Chúng hy kin thc hc hc trình thc hin lu ci t tách t ting Thái cho ti t hiu qu t 3.M, phm vi ng nghiên cu ca lu Mu c tài: tài tìm hi ca h thng vit ting , la ch th nghim cho ting Lào hin ti Nghiên cu q trình ng dng phn mn ngơn ng ting Thái cho ting Lào Phát trin phn mm áp dng cho ting Lào có th x lý v nhp nhn mt cách thích hp Phm vi nghiên cu ca lu Phm vi c tài tp trung nghiên cu n ting Lào.Vi mc tiêu nêu trên, lup trung nghiên cu v 1.) C lý thuyt v ngơn ng bao gm: loi hình ngơn ng ch yu ca ngôn ng ting Lào, cu trúc c t ting Lào, nghiên cu v t vng hing nhp nha t 2.) Cn t 3.) Các phn mm tách t n ting Thái ting Lào ng nghiên cu ca lu 1.) c x lý ngôn ng t ng pháp ca h thng ch vi 2.) i quyt tốn tách t nói chung, gii quyt b tách t ting Lào nói riêng 4.Ni dung lu Lugm : Trình bày tng quan XLNNTN, XL ting Lào, Thái, toán tách t ting Lào, thc trng thách thc x lý ting Lào : Trình bày v lý thuyt tìm hiu ting Lào, ng ,h thng ngôn ng , âm tit , t , câu hình hóa ba tng ca t ting Lào :Trình bày v toán tách t pháp tách t ,mơ hình tách t tốn ng tip c: so khp t c i MM (Maximum Matching), xác su u kin CRF (Conditio Random Field) ,vec tr (Support Vector Machines) , mơ hình Markov n HMM (Hidden Markov Models) liên quan, gii pháp tách t cho ting Lào Trình bày v phn mm tách t ting Thái vi giao din web, vic s dng phn mm ngun m tách t ting Lào, th nghi bit ting Lào ting Thái, so sánh ch cái, âm tit ,ph âm, nguyên âm ,th nghim phn mm, ng phát trin