1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xư ly vân đê viết tắt tiếng việt tt

27 31 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 589,27 KB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN NHO TÚY NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62 48 01 01 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, năm 2020 Cơng trình hồn thành tại: ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS TS PHAN HUY KHÁNH Phản biện 1: ……………………………………………… Phản biện 2: ……………………………………………… Phản biện 3: ……………………………………………… Luận án bảo vệ trước Hội đồng chấm luận án cấp Đại học Đà Nẵng họp tại: Đại học Đà Nẵng Vào hồi … ……… Ngày …… tháng …… năm ………… Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam; - Trung tâm Thông tin Học liệu Truyền thông, ĐHĐN MỞ ĐẦU Tính cấp thiết đề tài Trong ngôn ngữ đọc viết hàng ngày, người sử dụng chữ viết tắt (CVT) với mong muốn rút gọn thời gian, công sức CVT vấn đề không lớn, không mẻ có lẽ gặp phải đọc hiểu văn Cùng CVT, người ta đọc hiểu theo nhiều cách khác nhau, tùy theo tình huống, hình thái, ngữ cảnh hay suy nghĩ chủ quan Thực tế sống giao tiếp làm nảy sinh tìm hiểu ý nghĩa CVT Trong ngôn ngữ tự nhiên (NNTN), xu hướng thể văn bản, lời nói ngắn gọn, đơn giản, chuyển tải lượng thông tin lớn mà viết tắt trở thành tượng phổ biến nhiều thứ tiếng khác giới, sử dụng rộng rãi nhiều lĩnh vực, nhiều chuyên ngành khác Vấn đề xử lý tiếng Việt (XLTV) triển khai nghiên cứu từ năm 1990 Gần có cơng trình XLTV, nghiên cứu khử nhập nhằng vài lĩnh vực: Xử lý nhập nhằng tiếng Việt ứng dụng tra cứu tài liệu phục vụ giảng dạy học tập; xử lý nhập nhằng tìm kiếm văn tiếng Việt học từ vài tập ngữ liệu; nghiên cứu biểu diễn ngữ cảnh triển khai CVT dùng tiếp cận học máy, thực chuẩn hóa văn tiếng Việt dựa quy tắc Tuy vậy, đến chưa có cơng trình nghiên cứu cách hệ thống đầy đủ CVT tiếng Việt Trong bối cảnh chung XLTV, sở thực trạng sử dụng CVT thực tiễn, ta nhận thấy NNTN biến đổi phát triển không ngừng; hình thành CVT xem phương thức biến đổi từ vựng, hình thành từ ngữ mới, kèm với biến đổi ngữ nghĩa CVT Do đó, để góp phần giải toán XLTV, đề tài đặt vấn đề cần thiết phải tìm hiểu nghiên cứu: tiếp cận vấn đề ngữ nghĩa, nhập nhằng ngữ nghĩa, xử lý, nhận dạng CVT, hướng đến xây dựng môi trường khai thác khả dụng, phát triển CVT liên tục biến tấu, thay đổi ln có nhu cầu sử dụng thực tiễn Đề tài luận án chọn để nghiên cứu: “Nghiên cứu ngữ nghĩa tượng nhập nhằng tiếng Việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt” Đề tài tập trung nghiên cứu vấn đề sở khoa học ngôn ngữ học, ngữ nghĩa học, xử lý ngôn ngữ tự nhiên, xử lý tiếng Việt, ngữ nghĩa, biến đổi ngữ nghĩa, tượng nhập nhằng tiếng Việt Từ xây dựng ứng dụng khai thác CVT, đề xuất giải pháp xử lý nhập nhằng CVT văn Mục tiêu nhiệm vụ đề tài Nghiên cứu tiếng Việt phương diện ngôn ngữ học, tượng nhập nhằng tiếng Việt, nhập nhằng CVT; nhu cầu sử dụng CVT thực tế, từ hiểu tri thức CVT Xây dựng nguồn tài nguyên CVT tiếng Việt, phát đề xuất quy tắc tạo sinh, giúp khắc phục sửa lỗi, biểu diễn quán Xây dựng ứng dụng khai thác CVT; đồng thời khử nhập nhằng, giúp cho việc sử dụng CVT chuẩn hoá, góp phần phát triển ngơn ngữ Cơng bố kho ngữ liệu chuẩn CVT, hình thành hệ thống khai thác CVT tiếng Việt, triển khai ứng dụng thực nghiệm, đánh giá Đối tượng phạm vi nghiên cứu Nghiên cứu chất NNTN, tiếng Việt; phương pháp, kỹ thuật công cụ xử lý NNTN, phương pháp khử nhập nhằng Đối tượng nghiên cứu tri thức chuyên gia ngôn ngữ, xử lý NNTN, tin học; CVT văn bản, sách, báo, web site; hình thành CVT NNTN tất lĩnh vực đời sống xã hội Về lý thuyết, nghiên cứu xử lý NNTV, XLTV, chủ yếu xử lý văn bản, tượng nhập nhằng, vấn đề ngữ nghĩa Về nghiên cứu sử dụng CVT, đề tài không hạn chế phạm vi, tập trung vào lĩnh vực khoa học, công nghệ kỹ thuật, có tham khảo CVT tiếng Anh số ngôn ngữ khác Về môi trường phát triển ứng dụng, chủ yếu xây dựng kho ngữ liệu, xây dựng ứng dụng, hình thành mơi trường khai thác CVT, cài đặt thử nghiệm Phạm vi giới hạn lĩnh vực viễn thông, CNTT Phương pháp nghiên cứu Khảo sát thực tế: Khảo sát sử dụng CVT văn bản, Internet, quy định ngữ pháp, thực tiễn; kết hợp phương pháp vấn trực tiếp số chuyên gia Nghiên cứu lý thuyết: Lý thuyết ngôn ngữ học, xử lý NNTN, phương pháp tách từ, xây dựng từ điển, kỹ thuật xây dựng máy tìm kiếm, xây dựng vị từ, hàm, sở luật máy suy diễn Nghiên cứu thực nghiệm: Các kỹ thuật tìm kiếm, xây dựng thuật tốn cơng cụ dựa giải pháp đề xuất Cấu trúc luận án Nội dung gồm chương, phần kết luận phụ lục: Chương nghiên cứu tổng quan, nhân tố làm cho ngôn ngữ biến đổi phát triển, tiếp cận vấn đề ngữ nghĩa nhập nhằng ngữ nghĩa Tìm hiểu biến đổi phát triển ngơn ngữ tiếng Việt Chương tiếp cận hình thành CVT tiếng Việt; xây dựng quy tắc tạo sinh CVT, làm rõ dấu hiệu nhận biết CVT văn Xây dựng hệ thống khai thác CVT tiếng Việt (AMES) dựa ý tưởng hệ sinh thái phần mềm Chương nghiên cứu xây dựng nguồn tài nguyên CVT tiếng Việt, phương pháp thu thập liệu CVT, thực nghiệm thuật tốn tìm kiếm CVT mạng Internet Chương trình bày kết xây dựng cơng cụ khai thác CVT tiếng Việt, thực nghiệm hình thành hệ thống khai thác CVT: thư viện viết tắt, từ điển máy di động, xây dựng công cụ tư vấn đặt tên thương hiệu Brandname cho doanh nghiệp Chương phân tích, xử lý nhập nhằng CVT Xây dựng máy suy diễn nhận diện CVT văn Tiếp cận xử lý nhập nhằng CVT dựa vào số tần suất xuất CVT triển khai ứng dụng Đóng góp luận án Luận án có nhóm đóng góp khoa học ứng dụng 1) Phát xây dựng kho ngữ liệu chữ viết tắt 2) Tổng kết quy tắc hình thành CVT, xây dựng hệ thống khai thác CVT (Abbreviations Management Exploit System AMES) 3) Góp phần xử lý nhập nhằng chữ viết tắt tiếng Việt 4) Xây dựng ứng dụng khai thác CVT: từ điển CVT máy tính, điện thoại di động , đề xuất chuẩn hóa sử dụng CVT phạm vi quốc gia Luận án tiếp tục phát triển, nghiên cứu: Trao đổi hợp tác với nhà nghiên cứu chun ngành ngơn ngữ học, chuẩn hóa quy tắc hình thành CVT, tối ưu các, hàm, luật, máy suy diễn nhận diện CVT Nghiên cứu công cụ tắt hóa văn bản, cải tiến thuật tốn Bổ sung thêm đánh giá độ đo khoa học chuẩn (Recall, Precision)… CHƯƠNG 1: VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT 1.1 NGÔN NGỮ VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN 1.1.1 Ngôn ngữ xử lý ngôn ngữ 1.1.3 Các loại hình ngôn ngữ 1.1.4 Xử lý ngôn ngữ tự nhiên 1.1.5 Vấn đề xử lý tiếng Việt 1.2 NGỮ NGHĨA VÀ NHẬP NHẰNG NGỮ NGHĨA TIẾNG VIỆT 1.2.1 Ngữ nghĩa ngữ nghĩa học Ngữ nghĩa: Ngữ nghĩa (meaning), hay nghĩa của từ liên hệ xác lập nhận thức người từ với mà từ (những mà từ làm tín hiệu cho chúng) Nghĩa của từ khơng tồn vật tượng, không tồn ý thức, óc người Nghĩa từ tồn trong từ, nói rộng tồn hệ thống ngơn ngữ 1.2.2 Phân tích nghĩa từ 1.2.3 Sự biến đổi từ vựng ngữ nghĩa Phương thức viết tắt xuất từ ngữ mới: Như đề cập, đường hình thành từ ngữ thông qua nhiều phương thức, cấu tạo nên từ ngữ chất liệu quy tắc sẵn có ngơn ngữ dân tộc, có phương thức viết tắt 1.2.4 Nhập nhằng ngữ nghĩa tiếng Việt Một số tượng nhập nhằng Xử lý nhập nhằng tiếng Việt: Hiện tượng nhập nhằng xảy khi: Một từ thường có nhiều nghĩa, có biểu hiểu lầm, mơ hồ ngữ nghĩa từ Trong tiếng Anh, có nhiều cơng trình nghiên cứu trước giải nhập nhằng ngữ nghĩa thực Trong tiếng Việt, gần có nhiều cơng trình nghiên cứu: Xử lý nhập nhằng tiếng Việt ứng dụng tra cứu tài liệu phục vụ giảng dạy học tập; xử lý nhập nhằng tìm kiếm văn tiếng Việt học từ vài tập ngữ liệu; khả khắc phục soạn thảo văn bản, nghiên cứu đề xuất giải vấn đề khử nhập nhằng toán tách từ tiếng Việt 1.3 CHỮ VIẾT TẮT TRONG CUỘC SỐNG 1.3.1 Chữ viết tắt gì 1.3.2 Lịch sử hình thành chữ Quốc ngữ 1.3.3 Tìm hiểu lịch sử chữ viết tắt 1.3.4 Sử dụng chữ viết tắt 1.3.5 Chữ viết tắt tiếng Việt 1.4 NGỮ NGHĨA CHỮ VIẾT TẮT 1.4.1 Khái niệm ngữ nghĩa chữ viết tắt Ngữ nghĩa chữ viết tắt: liên hệ xác lập nhận thức người mà CVT (những mà CVT làm tín hiệu cho chúng) Nghĩa của CVT không tồn vật tượng, không tồn ý thức, óc người Nghĩa CVT tồn trong CVT, nói rộng tồn hệ thống ngơn ngữ mà CVT hình thành 1.4.2 Biến đổi ngữ nghĩa chữ viết tắt Các phương thức biến đổi ngữ nghĩa chữ viết tắt 1.4.3 Nhập nhằng chữ viết tắt Hiện tượng nhập nhằng CVT sinh tính chất: Sự đa nghĩa, khó tìm nghĩa đúng, hợp lý; sử dụng tùy tiện, không theo quy luật; khó xác định mục đích văn 1.4.4 Xử lý nhập nhằng chữ viết tắt Luận án đặt vấn đề xử lý nhập nhằng CVT theo hai hướng: 1) Sử dụng mặt tích cực nhập nhằng CVT 2) Từng bước khử bỏ nhập nhằng CVT 1.4.5 Đề xuất nghiên cứu chữ viết tắt tiếng Việt Tựu trung, đến chưa có cơng trình nghiên cứu cách hệ thống đầy đủ CVT tiếng Việt, chưa mối liên hệ dựa sở lý thuyết ngôn ngữ học vấn đề CVT nhập nhằng CVT tiếng Việt Ta thấy ngơn ngữ tự nhiên, có tiếng Việt, biến đổi phát triển không ngừng Chữ viết tắt hướng làm biến đổi chữ viết, xem cải tiến chữ viết Hệ thống từ vựng ngôn ngữ biến đổi phát triển, phương thức viết tắt, tạo lập CVT làm xuất từ ngữ Luận án đặt vấn đề nghiên cứu bốn vấn đề lớn sau đây: 1) Tiếp cận vấn đề CVT tiếng Việt phương diện thực tế nhu cầu sử dụng sống, vấn đề ngữ nghĩa CVT dựa lý thuyết ngơn ngữ học Tìm hiểu hình thành CVT quy tắc tạo sinh CVT 2) Xây dựng hệ thống khai thác CVT tiếng Việt, cung cấp cho NSD, sử dụng CVT ngày thuận tiện, có tính gợi mở, hợp tác trao đổi vấn đề nghiên cứu, tạo môi trường học tập trao đổi thông tin vấn đề liên quan đến CVT 3) Xây dựng nguồn tài nguyên CVT tiếng Việt, phương pháp thu thập liệu triển khai thực nghiệm 4) Xây dựng công cụ khai thác CVT xử lý nhập nhằng CVT tiếng Việt văn triển khai thực nghiệm CHƯƠNG XÂY DỰNG HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT 2.1 CÁC TÌNH HUỐNG HÌNH THÀNH CHỮ VIẾT TẮT 2.1.1 Mơ hình hình thành chữ viết tắt Các tình hình thành CVT tiếng Việt biểu diễn qua mơ hình: 2.1.2 Đặc điểm hình thành chữ viết tắt tiếng Việt 2.1.3 Quy tắc hình thành chữ viết tắt tiếng Việt 1) Quy tắc 1: Viết tắt theo từ 2) Quy tắc 2: Ghép âm hay ghép tiếng 3) Quy tắc 3: Ghép theo từ có nghĩa 4) Quy tắc 4: Sử dụng chữ viết phụ 5) Quy tắc 5: Kết hợp tiếng nước 6) Quy tắc 6: Mượn chữ viết tắt tiếng nước 7) Quy tắc 7: Viết tắt ngẫu nhiên 8) Quy tắc 8: Quy tắc viết tắt mã hóa ) Quy tắc 9: Quy tắc viết tắt CSDL 11 CHƯƠNG XÂY DỰNG NGUỒN TÀI NGUYÊN CHỮ VIẾT TẮT 3.1 XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT 3.1.1 Mô hình quan hệ liệu 3.1.2 Triển khai cài đặt 3.2 GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT 3.2.1 Thu thập liệu thủ công 3.2.2 Thu thập liệu tự động 1) Cập nhật CVT từ tập tin Word 2) Cập nhật CVT tự động từ Internet 3.2.3 Đề xuất thuật toán SENVA tìm kiếm chữ viết tắt Ý tưởng thuật tốn: Máy tìm kiếm CVT nhận URL, gửi yêu cầu đến Web Server, nhận lại trang HTML tương ứng với URL; xử lý tập tin theo kiểu xử lý chuỗi để bóc tách nội dung văn cần tìm, lọc CVT mới, so sánh với CVT CSDL để lưu khơng, có những đánh giá cần thiết khác, thuật tốn đặt tên SENVA - máy tìm kiếm chữ viết tắt tiếng Việt (Search Engines for New Vietnamese Abbreviations) 3.2.4 Thực nghiệm cài đặt thuật toán SENVA Upload chương trình lên máy chủ: http://10.59.0.14 Gõ lệnh thực thi máy tìm kiếm Address theo dạng thức: http://10.59.0.14/thuthapcvt.php?url= Kết nhận danh sách liên kết duyệt trang chủ Phần sau CVT tìm thấy được đánh số thứ tự, CVT có trích chọn nghĩa CVT, đánh giá trùng lặp liệu hay 12 không hiển thị câu, đoạn có chứa CVT - xem ngữ cảnh sử dụng CVT, để phục vụ cho biên tập liệu 3.3 ỨNG DỤNG KHAI THÁC DỮ LIỆU CHỮ VIẾT TẮT 3.3.1 Sử dụng chữ viết tắt CSDL chuyên ngành Giải pháp sử dụng CVT - chỉ mục tìm kiếm: Đối với CSDL chuyên trách phục vụ cho ĐTV tìm kiếm, tra cứu thơng tin phục vụ nhu cầu khách hàng, cần sử dụng CVT làm chỉ mục tìm kiếm để tăng hiệu khai thác theo bước: 1) Lập trường mục CVT 2) Xây dựng quy tắc chuyển đổi CVT 3) Xây dựng hàm tạo sinh CVT chuyển đổi CVT 4) Chỉ mục CSDL cài đặt chương trình 5) Khai thác CSDL dựa CVT Áp dụng thực tiễn giải pháp Xây dựng CSDL: Áp dụng giải pháp xây dựng lại CSDL 108 cách bổ sung trường liệu CVT làm trường mục tìm kiếm Xây dựng ứng dụng Đánh giá kết quả: Hiệu tìm kiếm sử dụng trường CVT làm mục gõ giá trị CVT giúp giảm thời gian gõ phím 45%; tăng hiệu làm việc ĐTV lên 133%, làm tăng suất lao động, giảm thiểu tắc nghẽn Mở rộng giải pháp: Thực mở rộng Đài 108 Đà Nẵng cung cấp dịch vụ 108 cho toàn khu vực miền Trung Tây Nguyên với 20 tỉnh Mở rộng CSDL khác cho người chuyên trách tìm kiếm, tra cứu thơng tin: Tổng đài dịch vụ hành cơng, CSDL hỗ 13 trợ chăm sóc khách hàng nhiều ngành nghề khác nhau, danh mục sách - tác giả thư viện online 3.3.2 Ứng dụng chữ viết tắt xây dựng CSDL danh mục Xây dựng CSDL danh mục Hệ thống ĐHSXKD chuyên ngành Đề xuất ứng dụng CVT quy định mã chuyên ngành VTCNTT Chuẩn hóa liệu cho CSDL danh mục, áp dụng cho toàn mạng lưới VT- CNTT doanh nghiệp Trong đó, liệu mã hóa sử dụng CVT thường phải thỏa mãn điều kiện: (1) CVT mã hóa tổ chức ban hành, có phạm vi, giới hạn áp dụng (2) CVT mã hóa nhất, không trùng lặp để tránh nhập nhằng (3) CVT mã hóa thường dùng thêm ký tự theo quy luật định sẵn 3.3.3 Đề xuất sử dụng CVT mã danh mục quốc gia Nhà nước cần có quan nghiên cứu ban hành mã chuẩn CSDL danh mục quốc gia, ưu tiên sử dụng CVT để có tính gợi nhớ, dễ hiểu, dễ sử dụng, đội ngũ chuyên gia thiết kế CSDL, lập trình viên, bảo trì, bảo dưỡng phần mềm, tạo điều kiện trao đổi chia xẻ thông tin, khai thác CSDL quốc gia dễ dàng đồng Bảng CSDL danh mục quốc gia chuyên ngành: ST T Tên trường Kiểu liệu Cấu trúc ID_XYZ C ID mã hóa sử dụng quy tắc hình thành CVT (ví dụ quy tắc 1, 2…) ND_XYZ C Tên chi tiết XYZ danh mục SOHOA_XYZ C Mã số hóa khác mã vạch,… 14 3.4 ĐÁNH GIÁ KẾT QUẢ 3.4.1 Kết xây dựng kho ngữ liệu chữ viết tắt Loại Chữ viết tắt thuộc lĩnh vực cập nhật thủ công cập nhật tự động Tổng cộng Tỷ lệ % cập nhật Tự động 754 350 1104 32% 301 120 421 29% 273 253 526 48% 202 120 322 37% Công nghệ thông tin truyền thơng Chính phủ, tổ chức trị xã hội Khoa học công nghệ, kỹ thuật Quân Y học 253 255 508 50% Giáo dục 301 2.378 2.679 89% Tài chính, thương mại 403 140 543 26% Tài nguyên môi trường 163 130 293 44% Giao tiếp cộng đồng 121 125 246 51% 10 Tôn giáo 150 150 100% 11 Tên riêng 75 75 100% 12 Khác 120 120 100% 2.771 4.216 6.987 60% Tổng cộng 3.4.2 Đánh giá kết Phân tích kết quả, đánh giá phương pháp, đánh giá cài đặt chương trình Thuật tốn SENVA mở rộng, phát triển thành máy thống kê, đánh giá tần số, tần suất sử dụng CVT Điều giúp ích cho việc biên soạn từ điển theo tần suất sử dụng, phục vụ cho việc đánh giá từ vựng tiếng Việt 15 CHƯƠNG XÂY DỰNG CÔNG CỤ KHAI THÁC CHỮ VIẾT TẮT 4.1 XÂY DỰNG THƯ VIỆN CHỮ VIẾT TẮT 4.1.1 Lựa chọn công cụ lập trình 4.1.2 Thiết kế chương trình 4.1.3 Kết xây dựng thư viện chữ viết tắt 4.2 CÔNG CỤ TƯ VẤN CHỮ VIẾT TẮT THƯƠNG HIỆU 4.2.1 Tin nhắn thương hiệu gì Tin nhắn thương hiệu: Doanh nghiệp thường sử dụng thương hiệu ấn phẩm truyền thông, sử dụng tin nhắn đến máy di động khách hàng thông qua dịch vụ tin nhắn thương hiệu (Short Message Services Brandname), gọi tắt SMS BrandName 4.2.2 Các bước xây dựng công cụ tư vấn đặt tên Brandname 1) Bước 1: Xây dựng CSDL quản trị Brandname; tích hợp vào hệ thống CSDL kho ngữ vựng chữ viết tắt 2) Bước 2: Xây dựng quy tắc tạo sinh chữ viết tắt Brandname, mô dùng cơng cụ lập trình tạo sinh 3) Bước 3: Xây dựng công cụ phần mềm quản lý SMS Brandname, công cụ tư vấn doanh nghiệp đặt tên quản trị Brandname 4) Bước 4: Triển khai áp dụng vào thực hoạt động kinh doanh, cung cấp cho khách hàng sử dụng tin nhắn SMS Brandname 4.2.3 Thuật toán CSBCOM đặt tên tin nhắn thương hiệu Ý tưởng thuật toán Tư vấn đặt tên tin nhắn thương hiệu cho doanh nghiệp, công ty - Consultant SMS brandname to the company (CSBCOM): 1) Phân tích chuỗi tên doanh nghiệp thành k chuỗi con: n1, nk 16 2) Với chuỗi ni , tìm cách đưa CVT, cách học liệu CVT tập huấn luyện lưu trữ CVT có chuỗi ni Nếu có CVT đưa sử dụng, nều khơng có CVT, thành lập CVT chuỗi ni (theo quy tắc tạo sinh CVT); đồng thời lưu vào tập huấn luyện sử dụng lần sau 3) Sau xử lý chuỗi ni, thực tổ hợp kết theo thứ tự chuỗi n1, nk để đề xuất CVT có 4) So khớp bảng NGHIA_CVT_DATBIET hiển thị nghĩa tích cực, nghĩa tiêu cực, để giúp NSD có diễn dịch ý nghĩa tích cực hay tiêu cực, từ chọn lọc CVT làm Brandname 4.2.4 Cài đặt chương trình, kết thử nghiệm Ứng dụng thực nghiệm góp phần xây dựng Hệ thống khai thác chữ viết tắt AMES AMES bước hướng đến thỏa mãn tính chất đặc trưng hệ sinh thái phần mềm: Tính kế thừa, Tính ổn định Tính mở; đồng thời hướng đến phương thức thống trao đổi thông tin AMES với hệ thống thông tin khác 4.3 XÂY DỰNG TỪ ĐIỂN CHỮ VIẾT TẮT TRÊN MÁY DI ĐỘNG 4.3.1 Thiết kế sở liệu chức chương trình Cơ sở dữ liệu: Công cụ hỗ trợ quản trị CSDL SQLite Expert Personal 4.2 (64bit) Ngôn ngữ lập trình sử dụng Java Android Studio với hệ thống phần mềm giả lập máy di động Genymotion Thiết kế chương trình: chạy thường trú, sử dụng tính copy máy di động Khi người dùng cần tra cứu trực tiếp CVT file văn bản, email, tin nhắn, web site…, nhấn hình cảm ứng cụm CVT để chọn khối, sau chọn copy vào vùng 17 nhớ đệm, chương trình lấy liệu CVT vùng nhớ đệm, NSD nhấn vào biểu tượng tra cứu, chương trình kích hoạt tìm kiếm CVT hiển thị liệu tra cứu khung cửa sổ phía, sau đóng cửa sổ hiển thị tra cứu CVT tiếp tục công việc 4.3.2 Đồng liệu với thư viện chữ viết tắt 4.3.3 Đề xuất thuật toán SAOM-FTS xây dựng từ điển Search abbreviations on mobile devices - used Full Text Search (SAOM -FTS) SAOM-FTS thuật tốn tìm kiếm chữ viết tắt di động - sử dụng FTS 4.3.4 Cài đặt kết thực nghiệm 4.4 ĐÁNH GIÁ KẾT QUẢ 4.4.1 Đánh giá kết thực nghiệm AMES 4.4.2 Đánh giá AMES đặc tả theo mô hình UML Tổng hợp kết xây dựng AMES: 18 Bảng kết so sánh tác nhân AMES SECO Chú thích Tác nhân SECO Tác nhân AMES Cơng cụ thực nghiệm AMES Xây dựng, lập trình phần mềm, công cụ khai Đơn vị phát triển thác, cung cấp giao diện phần mềm kết nối, trao đổi thông tin (1) Software developer (2) State, standards and certificatio ns bodies Ngôn ngữ học, chuyên gia tư vấn, Quy định ngữ pháp CVT, quy tắc tạo sinh… Quy tắc tạo sinh CVT, hàm API, phương pháp cập nhật tự động, đánh giá tần số tần suất CVT Nature Nhà cung cấp hạ tầng tài nguyên, đường truyền, không gian lưu trữ Server lưu trữ hàm API: 10.59.10.250:81/CSSbil source.asmx; Kết nối Internet Software users NSD từ điển di Người sử dụng, động, web site; NSD di người mua, đặt động nhận tin nhắn hàng/thuê phần (brandname) từ nhà mềm (SaaS) cung cấp dịch vụ (3) (4) Nhà cung cấp Sử dụng Công cụ tư vấn dịch vụ hợp tác sử tin nhắn Brandname, Software dụng hệ thống hợp đồng DN để (5) vendor phần mềm, cung cung cấp tin nhắn cho cấp cho NSD dịch NSD đầu cuối di động vụ đầu cuối AMES hình thành cung cấp môi trường khai thác CVT cho tác nhân, hợp tác phát triển, có mối liên quan mật thiết lẫn cùng hệ thống khai thác phần mềm, lợi ích chung riêng của hệ thống phần mềm đem lại cho tác nhân 19 CHƯƠNG XỬ LÝ NHẬP NHẰNG CHỮ VIẾT TẮT 5.1 NHẬN DIỆN TÌNH HUỐNG SỬ DỤNG CHỮ VIẾT TẮT 5.1.1 Ngữ cảnh sử dụng chữ viết tắt 5.1.2 Vấn đề nhận diện chữ viết tắt văn 5.1.3 Xây dựng mô hình nhận diện chữ viết tắt văn 5.1.4 Giải pháp xử lý nhập nhằng chữ viết tắt 5.2 XÂY DỰNG VỊ TỪ VÀ HÀM NHẬN DIỆN CHỮ VIẾT TẮT 5.2.1 Xây dựng miền liệu 5.2.2 Xây dựng vị từ hàm 5.2.3 Nhận diện tượng nhập nhằng CVT văn 5.3 XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN CHỮ VIẾT TẮT 5.3.1 Xây dựng sở luật 5.3.2 Xây dựng máy suy diễn nhận diện chữ viết tắt 5.3.3 Thuật toán nhận diện xử lý nhập nhằng chữ viết tắt 5.3.4 Kết hợp sở luật nhận diện CVT với xử lý nhập nhằng 5.4 TẦN SỐ CHỮ VIẾT TẮT VÀ GIẢI PHÁP XỬ LÝ NHẬP NHẰNG 5.4.1 Tần số chữ viết tắt 5.4.2 Xây dựng khái niệm tần số, khái niệm tần suất chữ viết tắt Khái niệm tần số sử dụng CVT Internet Khái niệm tần suất xuất CVT tiếng Việt Internet Tần suất xuất CVT tiếng Việt Internet tỷ số tần số sử dụng CVT môi trường Internet tổng tần số sử dụng CVT bảng thống kê tần số sử dụng CVT xem xét 20 đơn vị thời gian, phạm vi thống kê Hay nói cách khác, với bảng số liệu thống kê chữ viết tắt có N giá trị có k giá trị khác x1, x2, …,xk Giá trị chữ viết tắt xi xuất ni lần (1 ≤ i ≤ k), ni tần số chữ viết tắt xi Tỉ số fi = ni tần suất xuất của chữ viết tắt xi , với: N n1 + n2 + … + nk =N; Hoặc nói cách khác: Tỉ số fi = f1 + f2 + … + fk = ni *100 gọi tần suất xuất N của chữ viết tắt xi , với: n1 + n2 + … + nk f2 + … + fk = 100 =N ; f1 + 5.4.3 Giải pháp đánh giá tần số, suất chữ viết tắt Giải pháp đánh giá tần số CVT tiếng Việt Internet Giải pháp đánh giá tần suất xuất CVT tiếng Việt Internet: 1) Bước 1: Sắp xếp liệu tần số sử dụng CVT 2) Bước 2: Chọn lọc CVT trùng lặp, đa nghĩa 3) Bước 3: Lựa chọn phạm vi tần số xuất để thực tính tốn tần suất xuất CVT theo cơng thức: fi = ni *100 N Trong đó: N: Tổng số CVT giống có ngữ nghĩa khác nhau, ni tần số sử dụng chữ viết tắt xi 4) Bước 4: Sắp xếp CVT theo giá trị fi giảm dần, lưu trữ, nhận xét, công bố 21 5) Bước 5: Sau chu kỳ (3 tháng), lặp lại bước 2, 3, 6) Bước 6: So sánh liệu, đánh giá biến động giá trị tần suất xuất sau chu kỳ thời gian 5.4.4 Xây dựng thuật toán AFVAI triển khai thực nghiệm Thuật toán ghi nhận, đánh giá tần số CVT Internet (Assessment frequency Vietnamese abbreviations on the Internet, viết tắt AFVAI) Thuật tốn AFVAI Input: File liệu CVT, phạm vi tìm kiếm yahoo.com Output: File liệu tần số sử dụng CVT theo tiêu chí Begin Open CSDL làm việc trung gian Thiết lập tiêu chí, phạm vi tìm kiếm Lựa chọn Khởi động trình duyệt Repeat Read CVT file đầu vào Truyền tham số trình duyệt tìm kiếm giá trị CVT phạm vi, tiêu chí Open tệp HTML sau kết tìm kiếm trả Read file HTML Dùng Biểu thức quy tìm giá trị số "(.*) kết " So khớp Lưu giữ giá trị vào bảng theo phạm vi tương ứng, Lưu giữ ngày tìm kiếm Until Hiển thị Bảng kết quả; Lưu kết vào File End 22 5.4.5 Kết thực nghiệm đánh giá Ví dụ: Kết tính tốn tần suất chữ viết tắt PT phạm vi N_VN1 thời điểm khác nhau: TT Ngày 15/3/2016 Chữ viết tắt Ngày 25/03/2016 N_VN1 Tần suất % N_VN1 Tần suất % Phương trình (PT) 382 63 385 63,1 Phát triển (PT) 182 30 184 30,2 Phương Thanh (PT) 16 2,9 17 2,8 Phát (PT) 14 2,5 15 2,5 Phương thức (PT) 1,5 1,5 Phạm trù (PT) 0,0 0,0 603 333.000 100 610 345.000 100 Tổng cộng PT Sự tương quan tần suất xuất CVT (là thương hiệu, nhãn hiệu) đưa số để dự đoán thị phần, mức độ phát triển thương hiệu, nhãn hiệu Bảng: Tương quan tần suất CVT thị phần dịch vụ: STT NGHIAVIET N_VN1 Tần suất Thị phần So sánh % % Prec Viettel 687.000 32,2 43,5 0,43 MobiFone 688.000 32,3 31,8 0,50 VinaPhone 489.000 22,9 17,5 0,57 Vietnamobile 127.000 6,0 4,1 0,59 GMobile 140.000 6,6 3,2 0,67 2.131.000 100 100 23 Biểu đồ tần suất CVT thương hiệu di động Internet: Doanh nghiệp tham khảo số tần suất xuất CVT để đánh giá việc quảng bá, truyền thơng 5.4.6 Ứng dụng kết xử lý nhập nhằng chữ viết tắt 1) Sự tăng/giảm tần suất cho thấy bước phát triển sử dụng CVT, có ý nghĩa tư vấn doanh nghiệp phát triển truyền thông 2) Với phạm vi sử dụng, tần số xuất CVT giúp tư vấn chọn lựa phương thức truyền thông để đạt hiệu mong đợi 3) Sự tương quan chúng cho phép dựa vào tần suất xuất CVT đưa số lượng hóa phát triển thương hiệu doanh nghiệp 4) Chỉ số tần suất xuất hiện: Cho phép cách tiếp cận xử lý nhập nhằng ngữ nghĩa, nhận diện CVT dựa số tần suất CVT Các CVT có số tần suất fi cao ưu tiên gán ngữ nghĩa tương ứng, tính phổ dụng CVT cao 24 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Qua trình thực mục tiêu nghiên cứu đặt ra, luận án có đóng góp khoa học ứng dụng thực tiễn: 1) Xây dựng kho ngữ liệu CVT tiếng Việt, cập nhật từ nhiều nguồn liệu, chuẩn hóa phân lớp 2) Xây dựng quy tắc tạo sinh CVT, bước chuẩn hóa việc sử dụng CVT, góp phần phát triển ngôn ngữ tiếng Việt 3) Xây dựng hệ thống khai thác xử lý chữ viết tắt tiếng Việt (Abbreviations Management Exploit System - AMES) 4) Tiếp cận xử lý nhập nhằng chữ viết tắt: Xây dựng 27 vị từ điều khiển, 12 hàm xử lý chuỗi, 12 luật sở luật, xây dựng máy suy diễn nhận diện CVT 5) Từ nguồn tài nguyên CVT tiếng Việt, tạo lập từ điển CVT máy tính, máy điện thoại di động, Web site thư viện CVT, có đồng liệu với 6) Xây dựng ứng dụng khác như: Máy tìm kiếm CVT mới, cơng cụ quảng bá thương hiệu Brandname, tư vấn đặt tên Brandname cho doanh nghiệp 7) Xây dựng công cụ thống kê CVT đề xuất chuẩn hóa sử dụng CVT phạm vi quốc gia, doanh nghiệp Luận án có những hạn chế: Xử lý nhập nhằng CVT giới hạn chuyên ngành VT-CNTT; số thuật toán hàm chưa tối ưu Luận án tiếp tục phát triển, nghiên cứu: Trao đổi hợp tác với nhà nghiên cứu chuyên ngành ngơn ngữ học, chuẩn hóa quy tắc hình thành CVT, tối ưu các, hàm, luật, máy suy diễn nhận diện CVT Nghiên cứu cơng cụ tắt hóa văn bản, cải tiến thuật toán… 25 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ [1] [2] [3] [4] [5] [6] [7] [8] Nguyen Nho Tuy, Phan Huy Khanh Abbreviations Applicationin 108 VNPT Service Exploitation in Da Nang City, IJISET (International Journal of Innovative Science, Engineering & Technology) Vol Issue 1, January 2016 Nguyễn Nho Túy, Phan Huy Khánh Giải pháp ứng dụng chữ viết tắt chỉ mục sở dữ liệu phục vụ tìm kiếm khai thác dữ liệu, Tạp chí KHCN ĐHĐN, Số 9(106).2016, trang 97-101 Nguyễn Nho Túy, Phan Huy Khánh, Đặng Huy Hòa Đánh giá tần số sử dụng chữ viết tắt tiếng Việt Internet, Tạp chí KHCN ĐHĐN, Số 9(106) 2016, trang 81-86 Nguyen Nho Tuy, Phan Huy Khanh Developing database of Vietnamese abbreviations and some applications, Nature of Computation and Communication, Springer, ICTCC2016, Kien Giang, pp 373-383 Nguyen Nho Tuy, Phan Huy Khanh New Automatic Search and Update Algorithms of Vietnamese Abbreviations, World of Computer Science and Information Technology Journal (WCSIT),Vol 6, No 1, 1-7, 2016 Nguyễn Nho Túy, Phan Huy Khánh, Lê Văn Anh Giải pháp tư vấn đặt tên sử dụng tin nhắn thương hiệu cho doanh nghiệp Kỷ yếu Hội nghị Quốc gia lần thứ X Nghiên cứu ứng dụng CNTT (FAIR), Đà Nẵng 2017, tr 226-232 Nguyễn Nho Túy, Phan Huy Khánh Xây dựng môi trường khai thác chữ viết tắt tiếng Việt, Kỷ yếu hội thảo khoa học quốc gia CITA2017, Đà Nẵng 2017, trang 160-167 Nguyễn Nho Túy, Phan Huy Khánh, Nguyễn Thị Minh Tuyết Một góc nhìn hình thành CVT, hướng đến xây dựng CSDL khai thác liệu CVT tiếng Việt Kỷ yếu Hội thảo Quốc tế “Ngôn ngữ học Việt Nam - chặng đường phát triển hội nhập quốc tế”, ĐHSP Đà Nẵng, 2018, trang 10211035 ... án chọn để nghiên cứu: ? ?Nghiên cứu ngữ nghĩa tượng nhập nhằng tiếng Việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt? ?? Đề tài tập trung nghiên cứu vấn đề sở khoa học ngôn ngữ học, ngữ nghĩa học,... XLTV, nghiên cứu khử nhập nhằng vài lĩnh vực: Xử lý nhập nhằng tiếng Việt ứng dụng tra cứu tài liệu phục vụ giảng dạy học tập; xử lý nhập nhằng tìm kiếm văn tiếng Việt học từ vài tập ngữ liệu; nghiên. .. nhằng ngữ nghĩa thực Trong tiếng Việt, gần có nhiều cơng trình nghiên cứu: Xử lý nhập nhằng tiếng Việt ứng dụng tra cứu tài liệu phục vụ giảng dạy học tập; xử lý nhập nhằng tìm kiếm văn tiếng Việt

Ngày đăng: 09/12/2020, 06:45

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w