1. Trang chủ
  2. » Công Nghệ Thông Tin

Xây dựng môi trường khai thác chữ viết tắt tiếng Việt

8 14 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Nghiên cứu này đề xuất xây dựng môi trường khai thác chữ viết tắt hướng đến một giải pháp tạo ra môi trường khai thác có tính cộng đồng, nhiều người sử dụng cùng tham gia đóng góp, cập nhật, kế thừa dữ liệu và khai thác; đồng thời tổng hợp các công cụ đã xây dựng, giới thiệu chi tiết hơn về công cụ từ điển tra cứu chữ viết tắt trên máy di động, nhằm minh họa một kết quả thực nghiệm xây dựng môi trường khai thác CVT.

160 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Xây dựng môi trường khai thác chữ viết tắt tiếng Việt Nguyễn Nho Tuý1, Phan Huy Khánh2 VNPT Đà Nẵng Đại học Bách Khoa, Đại học Đà Nẵng nhotuy68@gmail.com, khanhph29@gmail.com Abstract: Xuất phát từ nghiên cứu tượng chữ viết tắt (CVT), vấn đề nhập nhằng chữ viết tắt tiếng Việt, vấn đề phương thức viết tắt hình thành từ, ngữ với ý tưởng hệ sinh thái phần mềm; nghiên cứu đề xuất xây dựng môi trường khai thác chữ viết tắt hướng đến giải pháp tạo mơi trường khai thác có tính cộng đồng, nhiều người sử dụng tham gia đóng góp, cập nhật, kế thừa liệu khai thác; đồng thời tổng hợp công cụ xây dựng, giới thiệu chi tiết công cụ từ điển tra cứu chữ viết tắt máy di động, nhằm minh họa kết thực nghiệm xây dựng môi trường khai thác CVT Keywords: Software Ecosystem, khai thác chữ viết tắt, từ điển chữ viết tắt Một vài khái niệm 1.1 Vài nét hệ sinh thái phần mềm Hệ sinh thái phần mềm (Software Ecosystem) lấy cảm hứng từ khái niệm từ hoạt động kinh doanh hệ sinh thái sinh học Hệ sinh thái phần mềm hiểu tập hợp doanh nghiệp hoạt động đơn vị tương tác với thị trường chung cho phần mềm dịch vụ, với mối quan hệ chúng Những mối quan hệ thường xuyên củng cố tảng công nghệ phổ biến hoạt động thông qua việc trao đổi thông tin, nguồn lực Thuật ngữ phân tích phần mềm cho rằng, hệ sinh thái phần mềm định nghĩa tập hợp hệ thống phần mềm, phát triển hợp tác phát triển môi trường[15] Các môi trường tổ chức, công ty, xã hội (hệ thống mã nguồn mở cộng đồng), hay liên kết cộng đồng kỹ thuật Hiện nay, có ý kiến phản đối việc sử dụng thuật ngữ “hệ sinh thái” để mô tả phần mềm Họ cho phần mềm khơng có chung với hệ sinh thái tự nhiên (của thành phần vật lý sinh học kết hợp môi trường tự nhiên) Tuy nhiên, công đồng doanh nghiệp phần mềm có xu hướng xây dựng một hệ sinh thái phần mềm Họ xem xây dựng hệ sinh thái thành cơng cách để doanh nghiệp phần mềm phát triển trường tồn Trên giới, ví dụ tiếng hệ sinh thái phần mềm mà giới CNTT xem kiểu mẫu, hệ sinh thái phần mềm iPhone, Microsoft, Google, Android, Symbian Tại Việt Nam, xuất hệ sinh thái: vnEdu - Hệ sinh thái giáo dục, VNPT-HIS - hệ sinh thái ngành Y tế, hay Zing Me (mạng xã hội giải trí online) Theo https://en.wikipedia.org/wiki/Software_ecosystem Theo Wikipedia, Bách khoa toàn thư Nguyễn Nho Tuý, Phan Huy Khánh 161 Nhiều nhà nghiên cứu tin xây dựng hệ sinh thái phần mềm đường đắn, phù hợp với xu hướng chung đảm bảo tồn doanh nghiệp phần mềm môi trường cạnh tranh khốc liệt đòi hỏi sáng tạo, hợp tác để cung tồn phát triển 1.2 Đặc điểm hệ sinh thái phần mềm Để có hệ thống phần mềm, từ hình thành ý tưởng sản phẩm mình, cần đặt vấn đề xây dựng hệ sinh thái phần mềm từ đầu[15]: Khi xây dựng hệ thống, nên cân nhắc kỹ để lựa chọn làm “sản phẩm” hay “sản phẩm lõi + hệ sinh thái”; cần ý đến tính cộng sinh (sống nhờ) phối ghép với hệ sinh thái khác, chẳng hạn tận dụng Facebook, WordPress,… thay tự làm lấy tồn bộ; triển khai lập trình giao diện ứng dụng API (Application Programming Interface) hay chế plugin cho sản phẩm/ dịch vụ sớm tốt Từng bước tối ưu API để thực dễ nắm bắt, đầy đủ, khơng chồng chéo, dư thừa Có thể tóm tắt đặc điểm hệ sinh thái phần mềm sau3: - Tính kế thừa: Giống đặc điểm tự nhiên hệ sinh thái hỗ sinh, cộng sinh, hợp tác phát triển, kế thừa, phối ghép với hệ sinh thái khác - Tính ổn định: Hệ sinh thái có kiến trúc ổn định: giao diện, quản lý phát triển - tiến hóa, an ninh độ tin cậy - Tính mở: mơ hình phát triển mã nguồn mở, cộng đồng CNTT tham gia, tạo khả cho trình đổi công nghệ 1.3 Sự xuất từ ngữ từ vựng chữ viết tắt Sự xuất từ ngữ để thỏa mãn nhu cầu định danh vật tượng đời sống Hai đường tạo thành từ người [2]: (1) Cấu tạo từ chất liệu quy tắc sẵn có ngơn ngữ dân tộc thơng qua phương thức: Phương thức phức hợp: Hòa đúc hai từ sẵn có tạo nên từ mới, người ta giữ lại yếu tố coi giá trị mặt ngữ nghĩa hai từ để tạo đơn vị hoàn chỉnh Phương thức rút gọn: phương thức tạo từ cách lược bớt phần đơn vị Phương thức viết tắt: Phương thức ghép chữ (âm) đầu, cuối, vị trí nhóm từ với để tạo nên từ Ví dụ: Kiểm tra chất lượng sản phẩm  KCS (2) Vay mượn ngôn ngữ khác: Đây q trình tiếp nhận thêm từ ngơn ngữ khác hình thành nên lớp từ vay mượn Phương thức viết tắt xuất từ ngữ Con đường hình thành từ ngữ thơng qua nhiều phương thức, cấu tạo nên từ ngữ chất liệu quy tắc sẵn có ngơn ngữ dân tộc, có phương thức viết tắt Chữ viết tắt thường có hai dạng: Viết tắt tự tạo, ngẫu nhiên Viết tắt theo quy luật, thể xu hướng “tắt hóa” sử dụng viết chữ cách tự nhiên người, sáng tạo cách viết vốn riêng tư, phổ biến Viết tắt theo quy luật chung cách viết tắt có nghiên cứu, xếp, định dạng theo quy luật định sẵn tùy lĩnh vực Ngơn ngữ có tính kế thừa, cộng đồng phát triển Việc tạo lập, sử dụng CVT nên cần tạo lập môi trường khai thác chung với công cụ cần thiết để hỗ trợ người sử dụng (IJACSA) Tạp chí Quốc tế Khoa học máy tính nâng cao ứng dụng,Vol 4, số 8, 2013, trang 247, website: www.ijacsa.thesai.org 162 1.4 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Môi trường khai thác phần mềm Xuất phát từ ý tưởng hệ sinh thái phần mềm, đặt cần đặt vấn đề xây dựng môi trường khai thác phần mềm - hướng phát triển với ý tưởng hệ sinh thái giúp khai thác phần mềm hiệu Chẳng hạn, xây dựng kho ngữ liệu CVT, tận dụng nguồn liệu Internet để tập hợp, tìm kiếm CVT mới; nghiên cứu đánh giá tần số, tần suất xuất CVT, tận dụng nguồn liệu hệ thống Yahoo.com, tức cộng sinh để đề xuất cách thống kê liệu sử dụng CVT, cung cấp góc nhìn, cách đánh giá CVT sử dụng Internet… Trong nghiên cứu đề tài, đặt mục tiêu xây dựng môi trường khai thác chữ viết tắt chưa phải hệ sinh thái CVT Tuy nhiên, cố gắng hướng đến giải pháp tạo mơi trường khai thác có tính cộng đồng, nhiều NSD tham gia khai thác, sử dụng, đóng góp ý tưởng, cập nhật liệu, phát triển liên tục, kế thừa ngày hoàn thiện tương lai Đề xuất môi trường khai thác chữ viết tắt 2.1 Khái niệm môi trường khai thác chữ viết tắt Xuất phát từ ví dụ trực quan bể nước sinh thái nuôi cá nhà, đưa khái niệm môi trường khai thác chữ viết tắt Bể sinh thái với hệ thống đất, đá, cát, trồng thủy sinh, cá nuôi bể tạo hệ sinh thái nuôi sống loại cá, cảnh bên bể hình mơ phỏng: Hình Mơ hình hệ sinh thái bể ni cá Khái niệm môi trường khai thác chữ viết tắt: Môi trường khai thác CVT hệ thống tập hợp thông tin nghiên cứu, sản phẩm phần mềm, tập trung tích hợp cơng cụ cập nhật, xử lý, hiệu chỉnh, tạo sinh, khai thác, ứng dụng CVT tiếng Việt; thực trao đổi thông tin, liệu với hệ thống thông tin, đồng thời thực cung cấp trao đổi với người sử dụng thông qua phương thức thống tảng web thời điểm từ đâu Chúng đề xuất xây dựng môi trường khai thác CVT, cụ thể Hình - CSDL CVT: CSDL chứa chữ viết tắt xây dựng [13] - CSDL Luật sinh: CSDL chứa Luật sinh (luật sản xuất) [9] mô suy diễn tri thức CVT, tạo lập môi trường khai thác CVT; xây dựng, bổ sung chỉnh sửa theo phát triển tự nhiên ngơn ngữ, có tạo sinh CVT Nguyễn Nho Tuý, Phan Huy Khánh 163 Hình Mơ hình mơi trường khai thác chữ viết tắt tiếng Việt - CSDL khai thác: Tập hợp loại văn mẫu để thử nghiệm mơ hình máy suy diễn[10], tập Copus[1] có sẵn xây dựng 2.2 Thực nghiệm xây dựng công cụ môi trường khai thác chữ viết tắt Trên sở kết nghiên cứu tác giả [13], [2] [15], trình bày vài nghiên cứu mình, đóng góp môi trường khai thác CVT Một số kết thực nghiệm xây dựng công bố: 1) Xây dựng kho ngữ liệu CVT tiếng Việt, bao gồm phân tích thiết kế CSDL, triển khai cài đặt để thu thập liệu CVT thủ công từ môi trường Internet Kết xây dựng kho ngữ liệu với gần 10.000 CVT tiếng Việt, tiếng Anh [3] 2) Đưa giải pháp ứng dụng chữ viết tắt mục sở liệu phục vụ tìm kiếm khai thác liệu [4] 3) Đề xuất giải pháp xây dựng thuật toán SENVA cập nhật tự động CVT từ môi trường Internet, tiếp tục bước làm giàu liệu, cập nhật theo kịp biến động, tạo sinh CVT thực tiễn [6] 4) Xây dựng hệ thống web site thư viện CVT Internet gồm nhiều chức năng: lưu trữ, cập nhật, tra cứu, biên tập, thống kê sử dụng CVT…; hỗ trợ NSD cập nhật CVT mới, trao đổi thông tin vấn đề quan tâm [14] 5) Xây dựng hệ thống khai thác CVT tin nhắn thương hiệu: xây dựng chương trình tin nhắn thương hiệu, triển khai ứng dụng cung cấp cho khách hàng công cụ tư vấn thông minh đặt tên Brandname hỗ trợ doanh nghiệp[7] 6) Trên sở tìm hiểu danh sách CVT xếp theo tần số Hội ngôn ngữ học [8], đề xuất xây dựng phương pháp đánh giá tần số, tần suất CVT mạng Internet [5] Ở đây, để tạo môi trường khai thác CVT hướng đến tính mở, tạo điều kiện dễ giao tiếp, bảo trì; chúng tơi triển khai lập trình giao diện ứng dụng API (Application Programming Interface); chế plugin cho hàm cài đặt thuật toán [7] Từng bước tối ưu API để thực dễ nắm bắt, đầy đủ, khơng chồng chéo, dư thừa; lập trình viên phát triển dịch 164 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” vụ bổ sung để tạo hàm sử dụng chế plugin vào môi trường khai thác CVT để chia xẻ kinh nghiệm, ứng dụng Ví dụ hàm có cấu trúc: GetSMSBrand(, ) Khi cần, hiệu chỉnh hàm GetSMSBrand mà không cần biên dịch hay sửa chữa dịng lệnh nơi máy tính chứa phần mềm gọi Từ điển tra cứu chữ viết tắt máy di động: Nghiên cứu trình bày chi tiết xây dựng từ điển tra cứu CVT máy di động, nhằm minh họa công cụ thực nghiệm xây dựng môi trường khai thác CVT 3.1 Ý tưởng thiết kế chương trình Ý tưởng thiết kế chương trình từ điển chữ viết tắt máy di động hướng đến môi trường khai thác thuận tiện cho NSD máy di động: Chương trình sử dụng máy di động tra cứu CVT theo cách thơng thường, có chức tìm kiếm, tra cứu, thống kê Chương trình thiết kế tối ưu hóa cho người sử dụng di động: chạy thường trú nhớ máy di động, sử dụng tính copy máy di động.Khi người dùng cần tra cứu trực tiếp CVT file văn bản, email, web site…, nhấn hình cảm ứng cụm CVT để chọn khối, sau chọn copy vào vùng nhớ đệm, chương trình kích hoạt tìm kiếm CVT hiển thị liệu tra cứuvà tiếp tục công việc Về cập nhật liệu máy di động: CSDL máy di động (client) liên kết với thống web site www.chuviettat.com (lưu trữ server) để có CVT mới, liệu cập nhật máy di động [14] Ngày cập nhật sau Dữ liệu Người dùng điện thoại Webserver chuviettat.com Hình Đồng liệu máy di động 3.2 Đề xuất thuật toán xây dựng từ điển Chúng sử dụng kỹ thuật tìm kiếm FTS (Full Text Search)4 để giải yêu cầu thiết kế chương trình nêu Thuật tốn SOMA-FTS (Search On Mobile Abbreviations - used FTS) Mô tả: SOMA-FTS thuật tốn tìm kiếm chữ viết tắt di động - sử dụng FTS Người dùng tra cứu trực tiếp CVT file văn bản, email, tin nhắn, web site… cách nhấn hình cảm ứng cụm CVT, sau kích chọn biểu tượng từ điển CVT, kết tra cứu thị Đầu vào: + NSD nhấn giữ hình máy di động; + Chọn cụm CVT/hoặc Copy CVT vào vùng nhớ đệm Theo https://kipalog.com/posts/Full-Text-Search tu-khai-niem-den-thuc-tien phan-1, Nguyễn Nho Tuý, Phan Huy Khánh Đầu ra: 165 + Hiển thị khung cửa số giải thích nghĩa CVT; + Thống kê số tần số, tần suất sử dụng Bắt đầu: If < Chưa tồn CSDL nhớ hệ thống điện thoại > { - Khởi tạo CSDL CVT (T1) - Khởi tạo CSDL CVT phục vụ tìm nhanh (T2) { - Tách CVT CSDL T1 khoảng trống để tìm xác đến ký tự Ví dụ "ABC"=> A B C - Chuyển đổi ký tự đặc biệt dạng ∞ + (mã ASCII ký tự) để tìm ký tự đặc biệt (AB# => A B ∞35) - Lưu nội dụng CVT chuẩn hóa vào T2 CSDL định nghĩa đánh index theo chế FTS (Full-Text Searches): bảng CSDL tích hợp sẵn FTS } - Sao chép toàn sở liệu T1 T2 vào nhớ hệ thống điện thoại - Mở kết nối đến CSDL } Else { - Mở kết nối đến CSDL End If While { - Lấy giá trị vùng nhớ đệm, gán vào biến X - Xóa ký tự khơng phải BMP (BMP= Basic Multilingual Plane, ký tự mặt cười ): - Tách ký tự X khoảng trống ("ABC"=> A B C): - Chuyển đổi ký tự đặc biệt X dạng ∞ + mã ASCII ký tự (AB# => A B ∞35): - < Tìm kiếm CVT X > { - Truy vấn CSDL T2 tất CVT chứa X //chú thích mục (1) - Kết trùng khớp với tìm kiếm chứa tất ký tự X theo thứ tự trước sau // mục (2) - Kết nối với CSDL T1 để lấy đầy đủ thông tin, định nghĩa CVT tìm - Lưu danh sách CVT tìm vào mảng A } - Tăng tần số tần suất truy vấn CVT X lưu vào liệu thống kê CSDL T1 Chú thích mục (3) - Hiển thị nút thơng báo có kết tìm kiếm CVT cạnh bên hình điện thoại chờ NSD bấm/chạm tay vào If < NSD bấm/chạm vào nút thông báo > { - Ẩn nút thông báo 166 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” - Hiển thị danh sách giải thích chi tiết CVT tìm (mảng A) hình điện thoại - Lấy thông tin thống kê tần số tần suất CVT hệ thống - Hiển thị thống kê tần số tần suất sử dụng CVT hệ thống } Else {Nút thông báo tự động ẩn sau N giây (mặc định N = 5s, NSD điều chỉnh chức cài đặt) } End If } End While Kết thúc: 3.3 Kết thực nghiệm xây dựng chương trình Những ưu điểm ứng dụng kỹ thuật FTS: Kết tra cứu trả nhiều CVT, tốc độ tìm kiếm nhanh, gần tức thời Ưu điểm phù hợp với việc tra cứu liệu text lớn, đặc biệt với CVT thành lập theo quy tắc: CVT cấu thành chữ đầu cụm từ (acronym Tuy vậy, có nhược điểm dùng kỹ thuật FTS trường liệu text lớn: độ xác thấp, độ nhiễu cao, kết trả rộng chứa nhiều kết nhiễu không mong muốn So với từ điển Online ứng dụng từ điển máy di động nay: Các ứng dụng (vndic.net, vdict.com, tratu.soha.vn ) chưa có tính tra cứu CVT, nhiều cụm từ viết tắt thơng dụng khơng tìm thấy; ứng dụng cung cấp chức tra cứu, thống kê CVT Đặc biệt, từ điển máy di động tạo mơi trường khai thác thuận lợi, cá nhân hóa việc sử dụng CVT, có kết nối liên thơng với kho ngữ liệu CVT tập trung; có đánh giá tần số, tần suất cá nhân sử dụng, nhóm CVT thường sử dụng, liên kết với kho ngữ liệu CVT quản lý Kết luận Việc nghiên cứu cho thấy từ tượng sử dụng CVT, hình thành CVT phát triển ngôn ngữ tự nhiên, chúng tơi bước hệ thống hóa, chuẩn hóa CVT, ứng dụng CNTT xây dựng kho ngữ liệu, áp dụng kỹ thuật tìm kiếm (FTS), phát triển thành công cụ ứng dụng, tạo lập môi trường khai thác CVT cần thiết cho NSD, đồng thời lưu trữ nguồn gốc CVT tạo sinh CVT Các kết nghiên cứu góp phần ghi nhận, chụp ảnh trạng CVT, đề xuất giải pháp CNTT thúc đẩy đường hình thành từ ngữ thơng qua nhiều phương thức, đường cấu tạo nên từ ngữ chất liệu quy tắc sẵn có ngơn ngữ dân tộc, có phương thức viết tắt [2] [9], phát triển hệ thống từ vựng thông qua việc tạo từ, ngữ CVT mới; từ góp phần phát triển hệ thống ngôn ngữ tiếng Việt Nguyễn Nho Tuý, Phan Huy Khánh 167 Tài liệu tham khảo Lưu Tuấn Anh, Download liệu tập Corpus, http://viet.jnlp.org/download-du-lieu-tu-vungcorpus, 2012 Lê Đình Tư, Vũ Ngọc Cân, Nhập mơn ngơn ngữ học Giáo trình ĐH Quốc Gia, Hà Nội, 2009 Nguyễn Nho Túy, Phan Huy Khánh, Developing database of Vietnamese abbreviations and some applications Kỷ yếu Hội thảo ICTCC 2016 - 2nd EAI International Conference on Nature of Computation and Communication, 2016 Nguyễn Nho Túy, Phan Huy Khánh, Giải pháp ứng dụng chữ viết tắt mục sở liệu phục vụ tìm kiếm khai thác liệu, Tạp chí KHCN ĐHĐN, Số 9(106), trang 97-101, 2016 Nguyễn Nho Túy, Phan Huy Khánh, Đặng Huy Hòa, Đánh giá tần số sử dụng chữ viết tắt tiếng Việt Internet, Tạp chí KHCN ĐHĐN, Số (106), tr 81-86, 2016 Nguyen Nho Tuy, Phan Huy Khanh, New Automatic Search and Update Algorithms of Vietnamese Abbreviations, World of Computer Science and Information Technology Journal (WCSIT),Vol 6, No 1, 1-7, 2016 Nguyễn Nho Túy, Phan Huy Khánh, Lê Văn Anh, Giải pháp tư vấn đặt tên sử dụng tin nhắn thương hiệu cho doanh nghiệp Kỷ yếu Hội nghị Quốc gia lần thứ X Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), tr 226-232, 2017 Nguyễn Nho Túy, Web site thư viên chữ viết tắt Link: http://www.chuviettat.com, 2015 Nguyễn Thị Trúc, Dẫn luận ngôn ngữ, ĐHSP Đà Nẵng, 2000 10 Phan Huy Khánh, Giáo trình Hệ chuyên gia, Trường Đại học Bách Khoa - Đại học Đà Nẵng, 2005 11 Phan Huy Khánh, Nguyễn Nho Túy, Nghiên cứu xây dựng cở sở liệu chữ viết tắt cho dịch vụ 1080 Bưu điện Đà Nẵng, Kỷ yếu Hội thảo Khoa học Quốc gia “Một số vấn đề chọn lọc CNTT&Truyền thông”, 2006 12 Hội Ngôn ngữ học Việt Nam, Danh sách chữ viết tắt xếp theo tần số, Hà Nội 2002 13 Huỳnh Công Pháp, Nguyễn Văn Huệ, Nghiên cứu thu thập xây dựng sở liệu chữ viết tắt tiếng Việt, Tạp chí Khoa học Công nghệ ĐHĐN, Số (80), 2014 14 Thư viện chữ viết tắt, http://www.chuviettat.com 15 “Thời Của Các “Hệ Sinh Thái”, http://www.web2vietnam.com/2011/02/14/the-age-of-ecosystems/ ... xuất mơi trường khai thác chữ viết tắt 2.1 Khái niệm môi trường khai thác chữ viết tắt Xuất phát từ ví dụ trực quan bể nước sinh thái ni cá nhà, đưa khái niệm môi trường khai thác chữ viết tắt Bể... mục tiêu xây dựng môi trường khai thác chữ viết tắt chưa phải hệ sinh thái CVT Tuy nhiên, cố gắng hướng đến giải pháp tạo môi trường khai thác có tính cộng đồng, nhiều NSD tham gia khai thác, sử... niệm môi trường khai thác chữ viết tắt: Môi trường khai thác CVT hệ thống tập hợp thông tin nghiên cứu, sản phẩm phần mềm, tập trung tích hợp cơng cụ cập nhật, xử lý, hiệu chỉnh, tạo sinh, khai thác,

Ngày đăng: 17/12/2021, 09:02

w