Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
2,16 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Vixay PHOMMAVONG NGHIÊN CỨU VÀ ỨNG DỤNG CÁC PHƯƠNG PHÁP TÁCH TỪ CHO TIẾNG LÀO Chuyên ngành: KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội - 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Vixay PHOMMAVONG NGHIÊN CỨU VÀ ỨNG DỤNG CÁC PHƢƠNG PHÁP TÁCH TỪ CHO TIẾNG LÀO Chuyên ngành: KHOA HỌC MÁY TÍNH Mã đề tài: 16BKHMT-KH08 LUẬN VĂN THẠC SĨ KHOA HỌC NHƢỜI HƢỚNG DẪN TS Nguyễn Thị Thu Hƣơng Hà Nội - 2018 LỜI CẢM ƠN Với tất lòng, em xin gửi lời cảm ơn sâu sắc đến cô, giáo viên hướng dẫn TS.Nguyễn Thị Thu Hương , người tận tình hướng dẫn, bảo tạo điều kiện tốt giúp em hoàn thành luận văn Đồng thời em xin gửi lời cảm ơn chân thành đến toàn thể quý thầy cô Trường Đại Học Báck khoa Hà Nội trang bị cho em kiến thức học tập nghiên cứu khoa học Cuối cùng,em xin gửi lời cảm ơn đến gia đình, bạn bè đồng nghiệp động viên cho em lời khuyên bổ ích suốt q trình thực luận văn Học viên thực Luận văn (Ký ghi rõ họ tên) Vixay PHOMMAVONG MỤC LỤC LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ …………… MỞ ĐẦU Đặt vấn đề Lý chọn đề tài Mục đích, phạm vi, đối tượng nghiên cứu luận văn .7 Nội dung luận văn CHƢƠNG 1.GIỚI THIỆU……………………….……….… .9 1.1 Xử lý ngôn ngữ tự nhiên…… …………………………………… … ………9 1.2 Xử lý tiếng Lào……………………………………………………… ……….9 1.3.Bài toán tách từ, tách từ tiếng Lào, tiếng Thái………………….……… ……10 1.4.Đặt toán tách từ văn tiếng Lào……………………………… ……….10 1.5.Thực trạng thách thức xử lý tiếng Lào……………………………… 11 CHƢƠNG NGÔN NGỮ TIẾNG LÀO 12 2.1 TÌM HIỂU TIẾNG LÀO 12 2.1.1 Giới thiệu tiếng Lào……………………………………… ……… ………12 2.1.2 Nguồn gốc tiếng Lào tiếng Thái…………………………………… 13 2.1.3 Những yếu tố ngữ pháp tiếng Lào …………………………………….…….14 2.2.Tiếng Lào bối cảnh xử lý ngôn ngữ tự nhiên………………… ……….23 2.2.1.Xây dựng trình soạn thảo văn tiếng Lào……….……… …….…….23 CHƢƠNG BÀI TOÁN TÁCH TỪ TIẾNG LÀO ……… … ……25 3.1 Bài toán tách từ ……………………………………………… ………25 3.2 Các phương pháp tách từ…………………………… ….……….………26 3.3 Biểu diễn văn tiếng Lào……………………………… ……….……30 3.4 Biểu diễn từ điển 30 3.6 Bài toán tách từ tiếng Lào…………………………………………………… 35 3.6.1 Phương pháp tách từ tiếng Lào sử dụng biểu thức quy……………….35 3.6.2 Xây dựng mơ hình chứa theo cấu trúc ba tầng…………… ……….…….…37 3.6.3 Phương pháp nhận diện từ câu………………………………… ……41 3.6.4.Các giải pháp tách từ tiếng Lào……………………………………… …… 42 3.6.5 Các đại lượng đo độ xác………………………………………………47 CHƢƠNG ỨNG DỤNG TÁCH TỪ CHO TIẾNG LÀO………… … ……49 4.1.Lựa chọn công cụ………….………………………………………… ……….49 4.2.So sánh tiếng Lào tiếng Thái………………………………………… … 50 4.3 Thử nghiệm đánh giá …………………………………………… …… …53 KẾT LUẬN……………………………………………………….…………… …54 TÀI LIỆU THAM KHẢO 55 DANH MỤC CÁC BẢNG Bảng 2.1 Bảng cấu trúc âm tiết thành phần ………………………………… 15 Bảng 2.2.Bảng cấu trúc âm tiết ba tầng………………………….………… ….…16 Bảng 2.3 Bảng chữ tiếng Lào………………… ….…………….….19 ảng 3.1 Vectơ từ đơn tiếng Lào……………………………… …………… ….38 Bảng 3.2 Vai trò thành phần V1 V2………………………… ……….38 ảng 3.3 Ví dụ cách tạo từ đơn tiếng Lào………………………… ………… …40 Bảng 4.1 So sánh chữ cái……………………………………….…………….……50 Bảng 4.2 So sánh cấu trúc âm tiết……………………………………… ….…… 51 Bảng 4.3 So sánh cấu trúc từ đơn……………………………… …………….… 52 Bảng 4.4 So sánh cấu trúc câu…………………………………………………….52 Bảng 4.5 bảng so sánh tiếng ………………………………… ……………….…53 ảng 4.6 Kết phương pháp tách từ………………………………… ….…… 53 DANH MỤC HÌNH VẼ Hình 2.1 Bàn phím gõ tiếng Lào……………………………………….………….24 Hình 3.1 Đồ thị v hướng m tả CRF………………………………… ……………28 Hình 3.2 Cấu trúc liệu trie……………………………………… ……….… 30 H nh 3.3 M h nh tách từ tiếng Lào……………………………………… ………35 Hình 3.4 Cấu trúc từ đơn tiếng Lào……………………… ……… ………36 H nh 3.5 Một số cấu tr c câu tiếng Lào………………………….…………….… 40 H nh 3.6 Sơ đồ hối hàm word split……………………………………… …….42 H nh 3.7 Sơ đồ hối hàm find first word………………………………… …….43 H nh 3.8 Sơ đồ hối hàm select best word……………………………….……….44 H nh 3.9 Sơ đồ khối hàm is next word………………………… ……………… 45 MỞ ĐẦU 1.Đật vấn đề Nghiên cứu xử lý ngôn ngữ tự nhiên bao gồm nhiều lĩnh vực quan trọng như: dịch máy (MT: Machine Translation), truy vấn khai thác thông tin ( IR-IE: Information Retrieval and Extraction), hệ thống hỏi đáp (Q&A: Question and Answer), tóm lược văn (ATS: Automatic Text Summarization), nhận dạng tiếng nói (SR: Speech Recognition) v.v bước giúp máy tính hiểu tri thức người Phân đoạn từ (WS:Word Segmention) bước quan trọng xử lý ngôn nhữ đơn lập tiếng Việt ,tiếng Trung Quốc, tiếng Hàn , tiếng Thái tiếng Lào Phân đoạn từ việc xác định ranh giới từ câu, không giống tiếng Anh ngôn ngữ Âu-Á khác, tiếng Lào không sử dụng khoảng cách làm dấu hiệu xác định ranh giới từ Ranh giới từ khơng có dấu hiệu rõ ràng mà cần phải dựa vào yếu tố như: ngữ nghĩa, ngữ cảnh, văn phong, từ lân cận, v.v Ngoài ra, vấn đề từ đa nghĩa, từ ghép gây nhiều hó hăn việc phân đoạn từ tiếng Lào Lý chọn đề tài Hiện nay, hoạt động khoa học công nghệ nước CHDCND Lào chưa thực phát triển, so sánh với nước khối ASEAN, hay so sánh với nước láng giềng Thái Lan Điều dẫn đến có chun gia lĩnh vực XLNNTN, đặc biệt XL tiếng Lào Mặc dù có nhiều hoạt động Tin học hóa,sử dụng internet phương tiện truyền th ng đại khía cạnh sống, hoạt động chưa thật hắp nước Lào vắng thiếu trao đổi chuyên môn, hợp tác nghiên cứu khoa học Một hó hăn hác liên quan đến đặc điểm tả tiếng Lào vần đề xử lý văn Về vấn đề tách từ, c ng tr nh nghiên cứu tách từ tiếng Lào c n hạn chế, Trong c ng tr nh nghiên cứu nói trên, hầu hết tồn vấn đề việc xử l nhập nhằng V tiếng Lào có nhiều cách viết, cách nói sử dụng từ h ng thống nhất, đặc biệt đặc trưng tiếng Lào h ng có dấu cách từ, việc tách từ tiếng Lào hó hăn Tuy nhiên, tiếng Lào giống với ngôn ngữ hác, tiếng Thái Lan Hiện có số cơng trình nghiên cứu tách từ tiếng Thái phần mềm nguồn mở xử lý tiếng Thái Chúng hy vọng với kiến thức học hỏi q trình thực luận văn, cải tiến công cụ tách từ tiếng Thái cho tiếng Lào để đạt hiệu tốt 3.Mục đích , phạm vi , đối tƣợng nghiên cứu luận văn Mục đích nghiên cứu đề tài: Đề tài tìm hiểu đặc trưng tả hệ thống viết tiếng Lào, phương pháp tách từ , lựa chọn phương pháp tách từ phù hợp điều kiện thử nghiệm cho tiếng Lào Nghiên cứu q trình ứng dụng phần mềm có sẵn ngôn ngữ tiếng Thái cho tiếng Lào Phát triển phần mềm áp dụng cho tiếng Lào để xử lý vần đề nhập nhằng cách thích hợp Phạm vi nghiên cứu luận văn Phạm vi đề tài tập trung nghiên cứu phương pháp phân đoạn từ văn tiếng Lào.Với mục tiêu nêu trên, luận văn tập trung nghiên cứu vấn đề sau đây: 1.) Cơ sở lý thuyết ngôn ngữ bao gồm: loại hình ngơn ngữ, đơn vị chủ yếu ngôn ngữ tiếng Lào, cấu trúc đơn vị từ tiếng Lào, nghiên cứu từ vựng tượng nhập nhằng nghĩa từ 2.) Các phương pháp phân đoạn từ 3.) Các phần mềm tách từ có sẵn tiếng Thái tiếng Lào Đối tƣợng nghiên cứu luận văn 1.) Các tốn liên quan đến lĩnh vực xử lý ngơn ngữ tự nhiên, xử lý tiếng Lào đặc trưng tả ngữ pháp hệ thống chữ viết tiếng Lào 2.) Các phương pháp giải toán tách từ nói chung, giải tốn tách từ tiếng Lào nói riêng 4.Nội dung luận văn Luận văn gồm chương sau: Chương 1: Trình bày tổng quan XLNNTN, XL tiếng Lào, Thái, toán tách từ tiếng Lào, thực trạng thách thức xử lý tiếng Lào Chương 2: Trình bày sở lý thuyết tìm hiểu tiếng Lào, đặc trưng ngơn ngữ ,hệ thống ngôn ngữ , âm tiết , từ , câu hình hóa ba tầng từ tiếng Lào Chương 3:Trình bày tốn tách từ, phương pháp tách từ, giải pháp tách từ ,mơ hình tách từ tốn hướng tiếp cận : so khớp tối đa, hay cực đại MM (Maximum Matching), xác suất có điều kiện CRF (Conditional Random Field) ,vectơ hỗ trợ (Support Vector Machines) , mơ hình Markov ẩn HMM (Hidden Markov Models) liên quan, giải pháp tách từ cho tiếng Lào Chương Trình bày phần mềm tách từ tiếng Thái với giao diện web, việc sử dụng phần mềm nguồn mở để tách từ tiếng Lào, thử nghiệm đánh giá khác biệt tiếng Lào tiếng Thái, so sánh chữ cái, âm tiết ,phụ âm, nguyên âm ,thử nghiệm phần mềm, đánh giá hướng phát triển Hình 3.8 Sơ đồ hối hàm select_best_word Hàm select_best_word chức chọn từ đơn tốt phân tự đầu vào first_word_list, có bước sau: Đầ array first_word_list, cụm từ c Đầu ra: Kiểm trả tổng số phần tử đầu vào first_word_list th trả lại phần tử thứ ết th c, lớn th lấy phần tử first_word_list kiểm tra vào hàm is_next_is_word(word, c) lặp lại đến chức trả lại ết h ng th lấy từ có ngược lại th trả lại tự dài first_word_list, tự thứ cụm từ c ết th c 45 Hình 3.9 Sơ đồ hối hàm is next word Hàm is_next_is_word có chức iểm tra chuỗi có phải từ đơn hay h ng, hàm đảm bảo h ng tách vào từ tiếp theo, ví dụ đầu vào ກຟຌຟ້ (b nh nước) tách từ ກຟ|ຌຟ້ h ng phải ກຟຌ | ື້ືຟ , v ການ từ đơn dài mà lấy từ chức so hớp tối đa, v phải iểm tra lại từ tiếp theo, có bước sau: Đầ từ đơn word cụm từ c Đầu ra: kiểm tra ba điều iện next_clause có h ng trống hay h ng next_clause[0] ( tự thứ chuỗi next_clause) có mặt tự nguyên âm đầu vần ( ໂ ແ ເ) hay khơng so hớp từ đơn phía trước 46 next clause hay h ng, ba điều iện đ ng th trả lại True ết th c, ngược lại trả lại False 3.6.5 Các đại ƣợng đo độ xác Việc đánh giá độ xác m h nh phân đoạn từ quan trọng Nó cho phép ta so sánh độ xác mơ hình tập liệu huấn luyện, nữa, so sánh độ xác mơ hình ta xây dựng với m h nh phân đoạn từ có Có nhiều cách để đánh giá độ xác m h nh phân đoạn từ, cách phổ biến sử dụng độ đo độ xác (precision), độ hồi tưởng (recall), độ đo F1 Độ đo F1 số cân độ xác độ hồi tưởng Nếu độ xác độ hồi tưởng cao cân th độ đo F1 lớn, c n độ xác hồi tưởng nhỏ không cân th độ đo F1 nhỏ Mục tiêu ta xây dựng m h nh phân đoạn từ có số F1 cao Độ đo dựa theo từ tính theo cơng thức sau: Trong o Kí hiệu c số lượng từ hệ thống phân đoạn đ ng o Kí hiệu N số lượng từ văn o Kí hiệu số lượng từ hệ thống phân đoạn Ví dụ ta cần phân đoạn văn có 100 từ, hệ thống phân đoạn 102 từ có 90 từ phân đoạn đ ng th độ đo tính là: 47 48 CHƢƠNG ỨNG DỤNG TÁCH TỪ CHO TIẾNG LÀO 4.1 Lựa chọn công cụ Ứng dụng web sử dụng rộng rãi làm tảng chung cho truy cập phần mềm ngày Các ứng dụng web dễ dàng truy cập thông qua giao thức HTTP Số lượng ứng dụng web đại bùng nổ tăng nhanh đến mức đáng inh ngạc, có nhu cầu lọc liệu có nghĩa trích xuất liệu ngữ nghĩa ngày trở nên cấp thiết Việc tách từ nhằm phục vụ cho yêu cầu Trong luận văn , mong muốn triển khai dịch vụ web cho phân đoạn từ để sau hỗ trợ số ứng dụng web ngữ nghĩa hay phân tích trích xuất th ng tin web Người dùng sử dụng dịch vụ để giảm thời gian học tập họ ,với tài liệu tiếng Lào dành nhiều thời gian để tập trung vào việc giải vấn đề ngữ nghĩa dịch vụ web dịch vụ web cho phân đoạn từ tiếng Lào hỗ trợ gắn thẻ phần dựa ho văn có Lào Có hai loại triển khai dịch vụ web Đây Giao thức truy cập đối tượng đơn giản (SOAP) Chuyển giao trạng thái REPResentational (REST) biểu diễn chuyển trạng thái (REST) SOAP có số tiêu chuẩn hỗ trợ tiêu chuẩn mở rộng có liên quan với mức độ nghiêm ngặt quy tắc SOAP có lợi cho dịch vụ phức tạp cấu trúc nhiều tương tác đ i hỏi nhiều thực phức tạp Ngược lại, REST đơn giản v sử dụng justs HTTP có định dạng liệu người dùng định nghĩa Tuy nhiên, đơn giản khiến cho việc thiếu tiêu chuẩn cho liệu chuyển Chúng chọn triển khai dịch vụ web REST Dịch vụ web REST không cần lược đồ phức tạp để mô tả liệu; nữa, REST thường hiệu SOAP thời hạn sử dụng băng th ng hồi thấp độ trễ truyền qua mạng 49 Điều lợi làm tăng mở rộng dịch vụ giảm thời gian xử lý dịch vụ Hiện có số phần mềm phân đoạn từ tiếng nước với nhiều phương pháp ỹ thuật hác Trong c ng việc ch ng t i, ch ng t i chọn sử dụng phần mềm có giấy phép nguồn mở (Open Source) ,bởi v ch ng tự sử dụng sửa đổi phần mềm Ch ng t i chọn phần mềm tác giả Suwicha Phua -im lin đây: https://github.com/moohooooo /thsplitlib : http://www.alogik.com/thsplitlib/ Đây phần mềm tách từ tiếng Thái xây dựng nhờ c ng cụ PHP Phương pháp tác giả sử dụng phương pháp so hớp cực đại Chúng mong muốn ứng dụng ỹ thuật học xử l tiếng Lào để chỉnh sửa phần mềm, phục vụ cho tách từ tiếng Lào Sở dĩ làm v tiếng Lào có nhiều đặc điểm giống tiếng Thái 4.1.2.Hệ thống web ứng dụng Trong hệ thống có bao gồm hai thành phần chính: ứng dụng web HTTP Dịch vụ web JSON Ch ng t i phát triển hệ thống ng n ngữ lập tr nh PHP Trong PHP, có ộ c ng cụ ng n ngữ tự nhiên (Natural Language Tool Kit = NLTK) Mô-đun PHP cho liệu ng n ngữ phát triển xử l ng n ngữ tự nhiên phân tích văn Ch ng t i sử dụng tính gắn thẻ N-gram c ng cụ Tính gắn thẻ Part-of-speech với Orchid corpus Dành cho phân đoạn từ, ch ng t i phát triển tr nh bao bọc PHP chương tr nh để ết nối chương tr nh chạy Library (Libth) Libth tập hợp thư viện mã nguồn mở cho ng n ngữ Thái Lan ủng hộ Nó bao gồm hỗ trợ nhân vật, đặc tính tự, chuỗi thao tác, chuỗi collation, đầu vào(Input) ,đầu (Output) phương pháp từ vỡ Tính ngắt từ Libth thuật toán so hợp tối đa Nó chứa 23.563 từ từ thêm tay người bảo 50 trì Libth chọn tối thiểu từ cho tối ưu hóa tốc độ sử dụng Dịch vụ đề xuất ch ng t i bao gồm tính phá vỡ từ từ điển dựa Libth Smart Word Analysis thai (SWAth) SWA ban đầu phát triển vào năm 2003 Nó đề xuất phân đoạn từ cách sử dụng ết hợp dài tối đa thuật toán phù hợp Nó triển hai phần lớn gắn thẻ giọng nói tài nguyên Orchid corpora Việc tr phiên xóa tính gắn thẻ tính dựa tính thuật tốn Phiên chứa 23.944 từ cho nội từ điển Những từ trích từ tiếng Thái từ điển phổ biến người bảo tr thêm vào theo cách thủ c ng Đề xuất ch ng t i dịch vụ sử dụng phiên tr v sửa số vấn đề cố sẵn sàng để sử dụng NECTEC Orchid Orchid ho liệu gắn thẻ giọng nói (POS) Nó có sẵn miễn phí để sử dụng nhiều định dạng văn Nó chứa số đoạn văn, câu tách biệt gắn thẻ từ ngữ Điểm bất lợi tài liệu văn ỹ thuật để miền cụ thể vấn đề mơ hồ phân bổ POS Chỉ có sẵn truy cập c ng cộng gắn thẻ corpus, sau ch ng t i cố gắng sử dụng tài nguyên trước tiên Ch ng t i đề xuất sử dụng ho làm tập đoàn xe lửa để gắn thẻ dịch vụ NLTK NLTK hay Natural Language Toolkit - ộ c ng cụ ng n ngữ tự nhiên, thư viện viết PHP hỗ trợ xử l ng n ngữ tự nhiên ằng cách cung cấp chế ỹ thuật xử l ng n ngữ phổ biến, gi p cho việc xử l ng n ngữ tự nhiên trở lên dễ dàng nhanh chóng Được viết Steven ird Edward Loper, làm việc Khoa Máy Tính, Đại Học Pennsylvania, Hoa Kỳ năm 2001 Ngoài việc hỗ trợ xử l ng n ngữ, NLTK c n có m đồ hoạ liệu mẫu hữu ích NLTK cung cấp xử l classification, to enization, stemming, tagging, parsing, semantic reasoning Những ứng dụng ch ng ta dần t m hiểu viết sau Ngoài việc phục vụ xử l ng n ngữ tự 51 nhiên, NLTK c n sử dụng Machine Learning với tác dụng làm liệu, xử l liệu đầu vào cho thuật toán Machine Learning.(*) H nh 4.1 hệ thống ứng dụng web application 4.2 Só sánh tiếng Lào tiếng Thái 1) So sánh bảng chữ Bảng cho thấy khác biệt hình loại chữ haingơn ngữ Bảng 4.1 So sánh chữ Tiếng Lào Số phụ âm 33 (bổ sung phụ Tiếng Thái 44 (có 16 phụ âm ghép ) âm ghép đ i ) Số nguyên âm 28 (có 12 nguyên 32 (có nguyên âm âm ngắn, 12 ngắn, nguyên nguyên âm dài, âm dài, hợp nguyên âm âm) 52 đặc biệt) Số dấu 4 Dấu phụ Khơng có Khơng có Đặc điểm Thuộc hệ TaiKadai Khơng phân biệt Thuộc hệ TaiKadai Không phân biệt chữ hoa chữ chữ hoa chữ thường thường 10 chữ số Lào 10 chữ số Lào Chữ số 2) So sánh cấu trúc âm tiết Trong hai ngôn ngữ, âm tiết đơn vị phát âm ngắn tạo nên tiếng Mỗi âm tiết cấu tạo từ nhân âm tiết thường nguyên âm, có giới hạn trước sau (không bắt buộc) phụ âm Có nhiều quan điểm cho âm tiết hai ngơn ngữ có cấu trúc ba tầng (chân, thân tóc) Bảng 4.2 So sánh cấu trúc âm tiết Tầng (tóc) Tầng (thân) Tầng (chân) Tiếng Lào Tiếng Thái Dấu Nguyên âm Phụ âm trung tâm, phụ âm ghép, nguyên âm Nguyên âm Dấu Nguyên âm Phụ âm trung tâm, phụ âm ghép, nguyên âm Nguyên âm 3) So sánh cấu trúc từ vựng Lào Thái ngơn ngữ có cấu trúc từ vựng tương đối giống nhau, tạo thành từ âm tiết có hai loại từ : từ đơn, từ ghép cụm từ (kết hợp nhiều từ đơn từ ghép) Về mặt từ loại, ngơn ngữ có loại từ : danh từ, đại từ, động từ, giới từ, tính từ, liên từ, trạng từ Tuy nhiên có khác số lượng âm tiết ngôn ngữ 53 Bảng 4.3 So sánh cấu trúc từ đơn Số lượng âm tiết Đặc điểm Số chữ tối thiểu (độ dài) Số chữ tối đa Thanh điệu Tiếng Lào Tiếng Thái 1 Mỗi âm tiết từ đơn (tiếng) Mỗi âm tiết từ đơn (tiếng) 12 27 Có Có 4) So sánh cấu trúc câu Câu tập hợp từ ngữ kết hợp với theo quy tắc định, diễn đạt tương đối trọn vẹn, dùng để thực mục đích giao tiếp, truyền đạt Dấu hiệu nhận biết câu viết đặt cuối câu dấu câu : dấu chấm, dấu chấm hỏi, dấu chấm than, dấu hai chấm Có hai loại câu câu đơn câu phức Tuy nhiên cấu trúc câu, quan hệ từ từ ghép đóng vai trò quan trọng việc nhận diện từ để giải toán tách từ Luận văn nhắm đến giải pháp toán tách từ tiếng Lào Bảng so sánh khác hai ngôn ngữ Bảng 4.4 So sánh cấu trúc câu Tiếng Lào Tiếng Thái Dấu câu Dấu phấy (,), dấu chấm (.), chấm phẩy (;), chấm than (!), chấm hỏi (?), hai chấm (:), chấm lửng ( ), gạch ngang (-), ngoặc đơn (), ngoặc ép (“ ”) Dấu hết câu Dấu chấm (.), chấm phẩy (;), chấm than (!), chấm hỏi (?), hai chấm (:), chấm lửng ( ) Quan hệ từ 2 Cấu trúc từ ghép 6 Khoảng trống phân tách từ câu Không Không 54 5).Tiếng nói Tiếng Thái tiếng Lào chịu ảnh hưởng mạnh mẽ tiếng Phạn, ch ng mượn nhiều quy tắc tiếng Phạn, chúng giao tiếp dễ dàng với , Thái Lào tiếng khác nhau: Bảng 4.5 bảng so sánh tiếng Ngơ ngữ Câu nói Viết theo âm thái สวัสดีครับ lào ຘຝຍຟງຈຟ thái ไปใหนมา Pai ma lào ໂຎແຘຓຟ Pai xai ma 4.3 Thử nghiệ Dịch Xa vặt hặp Xa bai chao Xin chào Đi đau ? đánh giá Quy trình thử nghiệm tách từ tiếng Lào dựa trình đánh giá hiệu m h nh đề xuất mơ hình toán tách từ ch ng t i tiến hành thử nghiệm tách từ ngữ liệu tiếng Lào với kích cỡ khác Để tiến hành q trình thử nghiệm hệ thống, chúng tơi thu thập ngữ liệu từ báo mạng Từ điển tiếng Lào gồm 12570 từ, sưu tập từ nguồn 1803 từ Bảng 4.6 ết phƣơng pháp tách từ Dung lượng văn 20 k 40 k 60 k 80 k precision 64.58 65.93 67.52 65.28 Recall 54.06 66.52 62.44 59.35 64.88 62.17 F 58.85 55 66.22 Kết luận thử nghiệm Kết thử nghiệm phân đoạn từ tiếng Lào sử dụng phương pháp so khớp tối đa, phương pháp sử dụng trường ngẫu nhiên có điều kiện CRF biểu thức quy để tách từ văn áp dụng biểu thức quy để tách từ, thử nghiệm dụng văn có ích thước 20K đến 80 K, đạt ết độ xác(Precision), độ hồi tưởng (recall) độ đo F1 theo bảng 4.6 Cho thấy thấp Th ng qua ết thực nghiệm cho thấy, hi sử dụng phương pháp tách từ đơn câu, phương pháp h ng thể nhận biết từ mà viết sai tả đặc biệt viết thiếu chữ, h ng thể nhận biết tên người kể tên quận, huyện, tỉnh, tách từ thường, v tên cụm từ từ đơn ghép lại với đ i hi có nghĩa từ điển đ i hi h ng, h ng có chữ viết hoa, nói chung h ng có hiệu chuẩn đ ng trăm phần trăm để định tên V vậy, hó hăn mà gặp tr nh tách từ tiếng Lào KẾT L N Trong trình thực luận văn, ch ng t i làm c ng việc sau: Tìm hiểu đặc trưng ngữ pháp hệ thống ngữ pháp chữ viết Lào, đề xuất xây dựng mơ hình cấu trúc từ đơn mang tính đặc thù tiếng Lào Nghiên cứu, áp dụng phương pháp biểu diễn văn tiếng Lào Nghiên cứu phương pháp tách từ nói chung văn tiếng Lào nói riêng Nghiên cứu phần mềm nguồn mở để tách từ tiếng Thái ước đầu ứng dụng phần mềm nguồn mở để tách từ tiếng Lào Phần mềm nhiều hạn chế nhận biết tên người kể tên quận, huyện, tỉnh, tách từ thường, v tên 56 cụm từ từ đơn ghép lại với ,đ i hi có nghĩa từ điển, đ i hi h ng, h ng có chữ viết hoa, nói chung h ng có hiệu chuẩn đ ng trăm phần trăm để định tên V vậy, hó hăn mà gặp tr nh tách từ tiếng Lào HƢỚNG PHÁT TRIỂN Do thời gian có hạn nên ch ng t i chưa thể ứng dụng hết kỹ thuật học để tách từ tiếng Lào Hướng phát triển trước mắt luận văn t m cách hắc phục mặt hạn chế liên quan đến giải pháp tách từ nghiên cứu Sau đó, tiếp tục đánh giá so sánh kết thử nghiệm để t m phương pháp tối ưu Ngoài nghiên cứu thêm phương pháp phát sửa chữa từ sai tả 57 TÀI LIỆU THAM KHẢO TIẾNG ANH [1] Phonepasit Phissamay et al 2004 Syllabification of Lao Script for Line Breaking, Technical Report of STEA, Lao PDR [2] Ohm Sornil and Paweena Chaiwanarom 2004 Combining Prediction by Partial Matching and Logistic Regression for Thai word segmentation Proceedings of the 20th International Conferenceon Computational Linguistics [3] K Toutanova and C D Manning, ”Enriching the Knowledge Sources Used in a Maximum Entropy Part-of-Speech Tagger” Proc the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, pp 63-70, 2000 [4] D Roth and D Zelen o, ”Part of Speech Tagging Using a Networ of Linear Separators”, The 17th International Conference on Computational Linguistics (1998), pp 1136–1142, 1998 [5] T Karoonboonyanan, C Silpa-Anan, P Kiatisevi, P.Veerathanabutr and V Ampornaramveth, ”libthai Library” Available at: http://linux.thai.net/ projects/libthai [6] Limcharoen, P., Nattee, C., and Theeramunkong, T (2009).Thai word segmentation based-on glr parsing technique and word n-gram model In Eighth International Symposium onNatural Lanugage Processing [7] Asanee Kawtraku 1995 Alexibase Model for Writing Production Assistant System Chih-Hao Tsai 1996 MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm www.casper.beckman uiuc.edu/~c-tsai4/chinese/wordseg/mmseg.html TIẾNG LÀO [8].https://www.researchgate.net/publication/228997721_LaoWS_Lao_Word_Segm entation_Based_on_Conditional_Random_Fields ) 58 [9].ທ ພຈຝຌຟຌກຓຑຟຘຟຖຟທ (Từ điển tiếng Lào) http://bolikhamxay.gov.la TIẾNG VIỆT [10] Vilavong Souksan Nguyên cứu phương pháp táp tách từ phục vụ phân loại ăn tiếng Lào Luận án tiến sĩ - Đại học Đà Nẵng: - 2017 [11] Nguyễn Trung Kiên: Phân đ ạn từ tiếng Việt sử dụng mơ hình CRF Khóa luận tốt nghiệp Trương đại học cơng nghệ - Đại học quốc gia Hà Nội 2016) [12] Lê Tuấn Linh,KIểm lỗi tả tiếng Việt, Khóa luận tốt nghiệp Đại học Công nghệ Đại học quốc gia Hà Nội, 2013 59 ... ngữ tiếng Lào, cấu trúc đơn vị từ tiếng Lào, nghiên cứu từ vựng tượng nhập nhằng nghĩa từ 2.) Các phương pháp phân đoạn từ 3.) Các phần mềm tách từ có sẵn tiếng Thái tiếng Lào Đối tƣợng nghiên cứu. .. Trong văn tiếng Lào câu tách với chuỗi hu n mẫu biểu thức quy (pattern) lưu trữ ết vectơ 3.6.4 Các giải pháp tách từ tiếng Lào Trong phương pháp tách từ có đầu vào cụm từ đầu mảng từ tiếng Lào, chia... giải pháp tách từ cho tiếng Lào Chương Trình bày phần mềm tách từ tiếng Thái với giao diện web, việc sử dụng phần mềm nguồn mở để tách từ tiếng Lào, thử nghiệm đánh giá khác biệt tiếng Lào tiếng