luận án tiến sĩ nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xư ly vân đê viết tắt tiếng việt

204 14 0
luận án tiến sĩ nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xư ly vân đê viết tắt tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN NHO TÚY ÀNG THỊ MỸ LỆ Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, năm 2020 i BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN NHO TÚY NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS.TS PHAN HUY KHÁNH Đà Nẵng, năm 2020 ii LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu tơi, hướng dẫn trực tiếp PGS TS Phan Huy Khánh, cán giảng dạy Đại học Bách Khoa, Đại học Đà Nẵng Tơi cam đoan kết trình bày luận án trung thực, không chép từ luận án hay nguồn tài liệu khác chưa công bố cơng trình khác Mọi trích dẫn tài liệu tham khảo có ghi nguồn gốc xuất xứ rõ ràng Nếu có khơng trung thực, tác giả xin chịu hoàn toàn trách nhiệm Tác giả, Nguyễn Nho Túy iii MỤC LỤC LỜI CAM ĐOAN ii DANH MỤC CÁC CHỮ VIẾT TẮT vii DANH MỤC HÌNH ẢNH ix DANH MỤC BẢNG BIỂU xi MỞ ĐẦU 1 2.1 2.2 2.3 ĐẶT VẤN ĐỀ MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU Mục tiêu Đối tượng Phạm vi PHƯƠNG PHÁP NGHIÊN CỨU BỐ CỤC CỦA LUẬN ÁN ĐÓNG GÓP CỦA LUẬN ÁN CHƯƠNG VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT 11 1.1 NGÔN NGỮ VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN 11 1.1.1 Ngôn ngữ xử lý ngôn ngữ 11 1.1.2 Âm, chữ viết vấn đề cải tiến chữ viết 12 1.1.3 Các loại hình ngôn ngữ 13 1.1.4 Xử lý ngôn ngữ tự nhiên 14 1.1.5 Vấn đề xử lý tiếng Việt 16 1.2 NGỮ NGHĨA VÀ NHẬP NHẰNG NGỮ NGHĨA TIẾNG VIỆT 18 1.2.1 Ngữ nghĩa ngữ nghĩa học 18 1.2.2 Phân tích nghĩa từ 19 1.2.3 Sự biến đổi từ vựng ngữ nghĩa 20 1.2.4 Nhập nhằng ngữ nghĩa tiếng Việt 22 1.3 CHỮ VIẾT TẮT TRONG CUỘC SỐNG 25 1.3.1 Chữ viết tắt 25 1.3.2 Lịch sử hình thành chữ Quốc ngữ 26 1.3.3 Tìm hiểu lịch sử chữ viết tắt 27 1.3.4 Sử dụng chữ viết tắt 28 1.3.5 Chữ viết tắt tiếng Việt 31 1.4 NGỮ NGHĨA CHỮ VIẾT TẮT 32 iv 1.4.1 Khái niệm ngữ nghĩa chữ viết tắt 32 1.4.2 Biến đổi ngữ nghĩa chữ viết tắt 33 1.4.3 Nhập nhằng chữ viết tắt 34 1.4.4 Xử lý nhập nhằng chữ viết tắt 35 1.4.5 Đề xuất nghiên cứu chữ viết tắt tiếng Việt 36 1.5 TÓM TẮT CHƯƠNG 37 CHƯƠNG XÂY DỰNG HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT 38 2.1 CÁC TÌNH HUỐNG HÌNH THÀNH CHỮ VIẾT TẮT 38 2.1.1 Mơ hình hình thành chữ viết tắt 38 2.1.2 Đặc điểm hình thành chữ viết tắt tiếng Việt 40 2.1.3 Quy tắc hình thành chữ viết tắt tiếng Việt 41 2.1.4 Những yếu tố khác ảnh hưởng đến thành lập chữ viết tắt 44 2.2 TÌM HIỂU HỆ SINH THÁI PHẦN MỀM 47 2.2.1 Hệ sinh thái phần mềm 47 2.2.2 Mô hình hóa hệ sinh thái phần mềm 48 2.2.3 Đặc điểm hệ sinh thái phần mềm 50 2.2.4 Lợi ích ứng dụng hệ sinh thái phần mềm 51 2.3 HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT (AMES) 51 2.3.1 Hệ thống khai thác phần mềm 51 2.3.2 Đề xuất xây dựng hệ thống khai thác chữ viết tắt 52 2.3.3 Mơ hình hệ thống khai thác chữ viết tắt 53 2.4 THỰC NGHIỆM XÂY DỰNG AMES 54 2.4.1 Xây dựng nguồn tài nguyên chữ viết tắt tiếng Việt 55 2.4.2 Xây dựng công cụ khai thác chữ viết tắt 55 2.4.3 Xây dựng giải pháp xử lý nhập nhằng chữ viết tắt 55 2.5 TÓM TẮT CHƯƠNG 56 CHƯƠNG XÂY DỰNG NGUỒN TÀI NGUYÊN CHỮ VIẾT TẮT 57 3.1 XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT 57 3.1.1 Mơ hình quan hệ liệu 57 3.1.2 Triển khai cài đặt 59 3.2 GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT .60 3.2.1 Thu thập liệu thủ công 60 3.2.2 Thu thập liệu tự động 61 v 3.2.3 Đề xuất thuật tốn SENVA tìm kiếm chữ viết tắt 62 3.2.4 Thực nghiệm cài đặt thuật toán SENVA 64 3.3 ỨNG DỤNG KHAI THÁC DỮ LIỆU CHỮ VIẾT TẮT 65 3.3.1 Sử dụng chữ viết tắt CSDL chuyên ngành 65 3.3.2 Ứng dụng chữ viết tắt xây dựng CSDL danh mục 69 3.3.3 Đề xuất sử dụng CVT mã danh mục quốc gia .71 3.4 ĐÁNH GIÁ KẾT QUẢ 73 3.4.1 Kết xây dựng kho ngữ liệu chữ viết tắt 73 3.4.2 Kết ứng dụng khai thác liệu chữ viết tắt 74 3.5 TÓM TẮT CHƯƠNG 76 CHƯƠNG XÂY DỰNG CÔNG CỤ KHAI THÁC CHỮ VIẾT TẮT 77 4.1 XÂY DỰNG THƯ VIỆN CHỮ VIẾT TẮT 77 4.1.1 Lựa chọn công cụ lập trình 77 4.1.2 Thiết kế chương trình 77 4.1.3 Kết xây dựng thư viện chữ viết tắt 78 4.2 CÔNG CỤ TƯ VẤN CHỮ VIẾT TẮT THƯƠNG HIỆU 79 4.2.1 Tin nhắn thương hiệu 79 4.2.2 Các bước xây dựng công cụ tư vấn đặt tên Brandname 80 4.2.3 Thuật toán CSBCOM đặt tên tin nhắn thương hiệu 81 4.2.4 Cài đặt chương trình, kết thử nghiệm 87 4.3 XÂY DỰNG TỪ ĐIỂN CHỮ VIẾT TẮT TRÊN MÁY DI ĐỘNG 88 4.3.1 Thiết kế sở liệu chức chương trình 88 4.3.2 Đồng liệu với thư viện chữ viết tắt 89 4.3.3 Đề xuất thuật toán SAOM-FTS xây dựng từ điển 90 4.3.4 Cài đặt kết thực nghiệm 92 4.4 ĐÁNH GIÁ KẾT QUẢ 93 4.4.1 Đánh giá kết thực nghiệm AMES 93 4.4.2 Đánh giá AMES đặc tả theo mơ hình UML 94 4.5 TÓM TẮT CHƯƠNG 96 CHƯƠNG XỬ LÝ NHẬP NHẰNG CHỮ VIẾT TẮT 97 5.1 NHẬN DIỆN TÌNH HUỐNG SỬ DỤNG CHỮ VIẾT TẮT 97 5.1.1 Ngữ cảnh sử dụng chữ viết tắt 97 5.1.2 Vấn đề nhận diện chữ viết tắt văn 98 vi 5.1.3 Xây dựng mơ hình nhận diện chữ viết tắt văn .99 5.1.4 Giải pháp xử lý nhập nhằng chữ viết tắt 100 5.2 XÂY DỰNG VỊ TỪ VÀ HÀM NHẬN DIỆN CHỮ VIẾT TẮT 102 5.2.1 Xây dựng miền liệu 102 5.2.2 Xây dựng vị từ hàm 103 5.2.3 Nhận diện tượng nhập nhằng CVT văn 105 5.3 XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN CHỮ VIẾT TẮT 106 5.3.1 Xây dựng sở luật 106 5.3.2 Xây dựng máy suy diễn nhận diện chữ viết tắt 109 5.3.3 Thuật toán nhận diện xử lý nhập nhằng chữ viết tắt .110 5.3.4 Kết hợp sở luật nhận diện CVT với xử lý nhập nhằng 112 5.4 TẦN SỐ CHỮ VIẾT TẮT VÀ GIẢI PHÁP XỬ LÝ NHẬP NHẰNG .113 5.4.1 Tần số chữ viết tắt 113 5.4.2 Xây dựng khái niệm tần số, khái niệm tần suất chữ viết tắt .114 5.4.3 Giải pháp đánh giá tần số, suất chữ viết tắt 116 5.4.4 Xây dựng thuật toán AFVAI triển khai thực nghiệm 117 5.4.5 Kết thực nghiệm đánh giá 119 5.4.6 Ứng dụng kết xử lý nhập nhằng chữ viết tắt 123 5.5 TÓM TẮT CHƯƠNG 124 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 125 KẾT LUẬN 125 1.1 Tóm tắt nội dung luận án 125 1.2 Các kết đạt 126 1.3 Hạn chế luận án 128 HƯỚNG PHÁT TRIỂN 129 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA TÁC GIẢ .130 TÀI LIỆU THAM KHẢO 131 PHỤ LỤC TIẾNG VIỆT STT 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 viii TIẾNG ANH STT Chữ viết tắ API AMES AFVAI CSBCOM I* IM HTML PSTN SENVA 10 SMS 11 SAOM-FTS 12 UML 13 VNPT 14 WFST 15 XML Mã sợi cáp quang IX Bảng Danh mục mã vùng điện thoại STT STT 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 X Phụ lục Hình ảnh, hình giao diện chức 1) Thống kê mẫu văn của Viễn thông Đà Nẵng Thư viễn biểu mẫu văn sử dụng thông kê loại văn để khảo sát, nhận diện tình sử dụng CVT thực tế đơn vị (mục 3.3.4.) Khảo sát giúp đề xuất giải pháp xử lý nhập nhằng CVT lĩnh vực VT-CNTT đơn vị Hình Thư viện biểu mẫu văn 2) Hình ảnh giao diện kết xây dựng Website Giới thiệu kết xây dựng website thư viện CVT (minh họa thêm cho mục 5.3.3.), đưa vào sử dụng hình 1, hình hình đây: Hình Trang quản trị cấu hình thư viện CVT XI Trang chủ thư viện CVT thiết kế với nhiều chức năng, có liên kết xếp theo vần ABC giúp tra cứu nhanh chóng Hình Trang chủ thư viện chữ viết tắt Chức tra cứu CVT thiết kế cho phép tra cứu xác gần Quá trình tìm kiếm, sử dụng hệ thống website lưu trữ để có số liệu thống kê CVT xem nhiều nhất… Hình Kết tra cứu chữ viết tắt XII 3) Cơng cụ lập trình Android Studio Genymotion giả lập máy di đợng Hình ảnh cơng cụ giả lập để triển khai thực nghiệm lập trình xây dựng từ điển tra CVT máy di động (làm rõ thêm mục 4.3): Hình Sử dụng mơi trường phát triển tích hợp Android Studio lập trình Hình Cơng cụ Genymotion giả lập máy di động Danh mục tệp Java thiết kế cho từ điển CVT máy di đợng XIII Hình Danh mục tệp Java thiết kế 4) Cấu trúc Bộ danh mục mã bưu chính quốc gia Việt Nam Hình Cấu trúc Mã bưu XIV 5) Ứng dụng chạy máy di động giả lập máy tính Biên dịch Android Studio, chương trình có biểu tượng ABC Acronym Dictionary (hình 8) Hình ảnh ứng dụng giả lập máy tính (bởi Genymotion), chương trình thường trú nhớ Menu dọc chức năng: Thống kê, cài đặt, cập nhật mới… hình Nhấn hình cảm ứng cụm CVT để chọn khối, sau chọn copy vào vùng nhớ đệm, chương trình copy liệu CVT vùng nhớ đệm, tra cứu hiển thị liệu kết tra cứu hình Biểu tượng: ABC Acronym Dictionary Hình Giao diện chức kết tra cứu CVT Hình Giao diện chức tra cứu thống kê sử dụng CVT XV 6) Ứng dụng thực tế máy di động Samsung Not Sau xây dựng chương trình phần mềm giả lập, thực lệnh Build, ứng dụng có tên là: "ABC Acronym Dictionary" Sao chép tập tin lên máy di động cài đặt biểu tượng ABC Acronym Dictionary Các hình ảnh ứng dụng thực tế chạy trên máy di động Samsung Not hình sau đây: Hình 10 Giao diện chức thống kê sử dụng CVT máy di động Hình 11 Giao diện biểu đồ thống kê sử dụng tra cứu CVT máy di động XVI Về chức tra cứu chạy thực tế máy di động: Tương tự trên, chương trình chạy thường trú, Khi người dùng cần tra cứu trực tiếp CVT file văn bản, email, tin nhắn, website…, nhấn hình cảm ứng máy di động cụm CVT để chọn khối, sau chọn copy vào vùng nhớ đệm, chương trình copy liệu CVT vùng nhớ đệm Tiếp theo NSD nhấn vào biểu tượng tra cứu, chương trình kích hoạt tìm kiếm CVT (ABC Acronym Dictionary), hiển thị liệu kết tra cứu:  Khung cửa sổ phía trên: Kết tra cứu CVT  Khung cửa sổ phía dưới: Vẫn giữ nội dung văn NSD đọc Hình 12 Giao diện tra cứu trực tiếp CVT máy di động XVII 7) Ứng dụng SMS Brandname: Ứng dụng SMS Brandname đưa vào khai thác, có chức nằn: Thiết lập cấu hình, Tư vận trực tiếp/Tự động Brandname cho khách hàng Giao diện hình 13 Hình 13 Giao diện chức cấu hình ứng dụng SMS Brandname Hình 14 Chức tư vấn tự động Brandname XVIII 8) Cấu trúc XML cho CSDL chữ viết tắt Hình 15 ví dụ cách tổ chức CSDL với mục từ viết tắt “VNPT”: 1 VNPT Vi-en-pi-ti VietNam Posts And Telecommunications Group Tập đồn Bưu Viễn thơng Việt Nam 1 - (Công nghệ thông tin Truyền thông) 01 Hình 15 Cấu trúc XML cho CSDL chữ viết tắt 9) CSDL 108 VNPT Đà Nẵng Hình 16 CSDL 108 VNPT Đà Nẵng XIX Hình 17 Minh họa CSDL xây dựng 10) Thực chương trình cập nhật tần số sử dụng CVT Chương trình chạy khung cửa sổ Main (hình 18), chọn nút lệnh Import CSV file, chọn file đầu vào, chọn lựa trình duyệt, sau kích chọn nút Run để thực thu thập liệu tần suất sử dụng CVT Hình 18 Thực chương trình cập nhật tần số sử dụng CVT XX 11) Khảo sát tương quan tần số sử dụng CVT Tần suất xuất cụm CVT (là thương hiệu thức ăn nhanh) ngày 02/04/2016 so sánh với thị phần thương hiệu bàn luận mạng xã hội (bảng hình 19): Bảng Tương quan tần suất xuất CVT bàn luận mạng xã hội STT NGHI Hình 19 Biểu đồ thương hiệu thực ăn nhanh thảo luận Internet (theo nguồn số liệu Internet) KFC Lotteria McDona Burger K Popeyes Jollibee Texas Ch Carl's Jr ... cận xư? ? ly? ? vấn đê? ? viết tắt tiếng Việt? ??, triển khai thực theo nội dung nghiên cứu: 1) Ngữ nghĩa vấn đề nhập nhằng ngữ nghĩa tiếng Việt, tiếp cận vấn đề chữ viết tắt tiếng Việt 2) Tiếp cận xử... DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN NHO TÚY NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số LUẬN... CVT tiếng Việt 1.1 NGÔN NGỮ VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN Nội dung luận án thuộc lĩnh vực XLNNTN, nghiên cứu tượng nhập nhằng xử lý tiếng Việt, tiếp cận xử lý vấn đề CVT tiếng Việt Trước sâu vào

Ngày đăng: 15/12/2020, 06:52

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan