Bài viết Đánh giá tần số sử dụng chữ viết tắt tiếng Việt trên Internet trình bày vấn đề tần số sử dụng và tần suất xuất hiện chữ viết tắt; Đề xuất giải pháp mới đánh giá tần số CVT, tần suất CVT tiếng Việt.
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 9(106).2016 81 ĐÁNH GIÁ TẦN SỐ SỬ DỤNG CHỮ VIẾT TẮT TIẾNG VIỆT TRÊN INTERNET ASSESSMENT OF USE FREQUENCY OF VIETNAMESE ABBREVIATIONS ON THE INTERNET Phan Huy Khánh2, Nguyễn Nho Tuý1, Đặng Huy Hòa2 VNPT Đà Nẵng, tuynn.dng@vnpt.vn; hoadh89@gmail.com Trường Đại học Bách khoa, Đại học Đà Nẵng; khanhph29@gmail.com Tóm tắt - Thời đại bùng nổ thông tin Internet, chữ viết tắt (CVT) tiếng Việt sử dụng rộng rãi nhiều lĩnh vực Tuy nhiên, việc đánh giá số tần số sử dụng, tần suất xuất CVT gặp nhiều khó khăn tính đa dạng sử dụng, tính nhập nhằng, đa nghĩa CVT; thiếu phương tiện thống kê, đánh giá chưa có nghiên cứu chuyên sâu vấn đề Trên sở kho liệu CVT xây dựng được, báo này, đề xuất giải pháp đánh giá tần số sử dụng CVT Interrnet; qua lượng hóa số tần suất xuất cụm CVT giống nhau, nhằm cung cấp góc nhìn, cách đánh giá mức độ sử dụng CVT tiếng Việt, phục vụ nhiều mục đích sử dụng xử lý ngôn ngữ, khai thác liệu CVT, tư vấn doanh nghiệp… Abstract - In this era of information explosion on the Internet, Vietnamese abbreviations are widely used in many fields However, the evaluation of index which is the use frequency, appearance frequency of abbreviations is difficult due to the variety, the ambiguity of abbreviations; lack of means of statistical evaluation and because there has been almost no in-depth study of this issue On the basis of our data warehouse of abbreviations we have built, in this paper, we propose a new evaluation of the use frequency of abbreviations on the Internet and thereby quantify the frequency indicators that appear in the same abbreviation clusters to provide a perspective, a way of assessing the use of Vietnamese abbreviations to serve many purposes in language processing, in abbreviation data mining, business counseling Từ khóa - chữ viết tắt; từ viết tắt; tần số chữ viết tắt; tần suất chữ viết tắt; số đánh giá xuất chữ viết tắt Key words - abbreviation; Acronyms; frequency of abbreviations; indicators to assess abbreviations Đặt vấn đề Hiện nay, ứng dụng khai thác dịch vụ Internet ngày phong phú, đa tạp, biến đổi nhanh chóng, làm thay đổi chiều sâu sống Điện thoại, Email, nhắn tin, lướt web… gần hoạt động thiếu người Việc sử dụng bàn phím, gõ văn tiếng Việt có dấu nhiều gây trở ngại cho người sử dụng (NSD) Chính bất cập dẫn đến tượng viết tắt, nói tắt Theo đà phát triển cơng nghệ, viết tắt, nói tắt trở thành trào lưu phổ biến Internet lĩnh vực, chủ đề, lớp NSD, giới trẻ Tuy nhiên, tính đa tạp, khơng qn, lẫn lộn tiếng Anh, tiếng Việt, thiếu quy chuẩn, khơng có định hướng… dẫn đến chữ viết tắt sử dụng tùy tiện, nhập nhằng Nhu cầu chuẩn hóa, thống hóa tiến trình phát triển ngơn ngữ nói chung, tiếng Việt nói riêng, có CVT, nhu cầu thực tế, nhiệm vụ đặt chuyên ngành xử lý ngôn ngữ tự nhiên, xử lý tiếng Việt Việc triển khai xây dựng ứng dụng khai thác thơng tin Internet nhiều lĩnh vực ln có nhu cầu đánh giá tiêu chí ứng dụng xử lý thông tin khác Chẳng hạn, lĩnh vực thương mại: CVT ngày sử dụng rộng rãi, thương hiệu, nhãn hiệu dễ nhớ, dễ đọc, tạo khác biệt sản phẩm, giúp khách hàng nhận biết lựa chọn, từ giúp phát triển, quảng bá sản phẩm doanh nghiệp Do đó, nhu cầu thống kê (đếm) tần số, tần suất xuất hiện, sử dụng CVT cần thiết có ý nghĩa ứng dụng thực tiễn Chúng ta nhận thấy CVT sử dụng kho ngữ liệu (Corpus) hay liệu lớn khổng lồ (Big Data): Internet, sách báo, phim ảnh, giao tiếp Rõ ràng, khơng thể có giải pháp hồn hảo cho việc thống kê tần số sử dụng CVT nguồn liệu lớn Tuy nhiên, việc xác định phạm vi giới hạn để đưa phương pháp thống kê, đánh giá hoàn toàn khả thi Trên sở lý thuyết xác suất, thống kê [8], vận dụng đưa thống kê tần số sử dụng CVT cách kế thừa nguồn liệu có, chẳng hạn kế thừa liệu CVT hệ thống tìm kiếm chuyên nghiệp Google, Yahoo Từ đó, tìm cách tính tốn, đánh giá tần số sử dụng, tần suất xuất CVT Internet, đưa số tham khảo mức độ sử dụng CVT, làm sở tư vấn, đánh giá riêng cho số chuyên ngành Nội dung báo sau: trước tiên, trình bày khái niệm thuật ngữ tần số, tần suất; đồng thời điểm qua vài nét CSDL CVT xây dựng Phần trình bày giải pháp đánh giá tần số sử dụng CVT phạm vi thơng tin CVT xuất Internet; qua đó, đưa số tần suất xuất CVT cụm CVT giống nhau, lượng hóa số đánh giá mức độ sử dụng CVT tiếng Việt thời điểm thu thập liệu; đồng thời có khuyến nghị ứng dụng số xử lý nhập nhằng, khai thác liệu CVT, sử dụng CVT cho nhãn hiệu, thương hiệu Phần cuối kết luận Vấn đề tần số sử dụng tần suất xuất chữ viết tắt 2.1 Một vài nghiên cứu tần số CVT Hiện nay, chưa có nhiều cơng trình, báo liên quan đến vấn đề này, đặc biệt tiếng Việt (Kinh) Mô ̣t số công trı̀nh nghiên cứu thu thập xây dựng sở liệu CVT tiếng Việt [2], [6] đã thố ng kê đươ ̣c các CVT thông du ̣ng, chưa thố ng kê đươ ̣c tầ n số xuấ t hiê ̣n Hội Ngôn ngữ học Việt Nam đưa “Danh sách chữ viết tắt xếp theo tần số” [5] (năm 2002), ghi nhận đươ ̣c 1.151 đơn vị CVT, có thố ng kê tầ n số xuấ t hiê ̣n, hầ u không đưa các CVT trùng và tầ n suấ t xuấ t hiê ̣n của chúng Ở đây, khơng nói rõ cứ, tiêu chí thống kê để đưa tần số sử dụng CVT Với cách làm thủ công, thiếu cơng cụ quản lý, cập nhật thường xun cách đánh giá 82 tần số sử dụng gặp nhiều khó khăn, bất cập; khơng theo kịp phát triển CVT thực tế xu hướng sử dụng Sau 10 năm, CVT có nhiều biến đổi, chắc liệu thống kê tần số này lỗi thời Một nghiên cứu thực trạng tượng viết tắt từ ngữ [1], cách khảo sát tư liệu thực tế 10 tờ báo với phương pháp thống kê thủ công đưa số kết luận: Tư liệu thống kê cho biết tần số sử dụng dạng viết tắt, từ cho thấy xu hướng (theo tần số) cố định hóa dạng tắt, gợi ý cho việc đưa giải pháp chuẩn hóa chữ viết tắt văn Với mu ̣c đı́ch mơ tả, phân tích đối chiếu viết tắt tiếng Anh tiếng Việt phương tiện giao tiếp - thư điện tử [11], nghiên cứu đã tìm nét tương đồng khác biệt CVT tiếng Anh đối chiếu với tiếng Việt, từ dự đốn khó khăn người đọc để giúp cho người sử dụng ngơn ngữ Nghiên cứu có Bảng thống kê tần suất xuất đặc điểm ngữ pháp cụm từ câu viết tắt, giới hạn lĩnh vực hẹp thư điện tử tiếng Anh tiếng Việt; khơng có tính tốn hay cơng bố tần số sử dụng, tần suất xuất CVT nói chung Các tập Corpus cũng có thể cho phép đánh giá tần số sử dụng CVT tương đối tập trung Chẳng hạn, sử dụng tập Corpus VNTQcorpus(big).txt - kế thừa kết nghiên cứu [10], tập có kích thước ~240 Mb, số lượng câu khoảng 1.750.000 câu, trích xuất từ khoảng 13.000 báo Internet Bằng kỹ thuật tìm kiếm thơng thường tệp văn (TXT), chúng tơi tìm thấy chữ viết tắt UBND (Ủy ban nhân dân), không tìm thấy chữ viết tắt KCS (Kiể m tra chấ t lươṇ g sản phẩ m), hay HTX (Hơ ̣p tác xa)̃ Điều chứng tỏ dựa tập Corpus, khó đưa tần số sử dụng CVT tần suất xuất cách tiệm cận với thực tế vốn có 2.2 Đề xuất giải pháp đánh giá tần số CVT, tần suất CVT tiếng Việt Chúng đưa khái niệm tần số sử dụng, tần suất xuất chữ viết tắt tiếng Việt Internet 2.2.1 Khái niệm tần số sử dụng, tần suất chữ viết tắt tiếng Việt Internet Ta gọi bảng số liệu CVT bảng có N chữ viết tắt, thực chất bảng CSDL chữ viết tắt, có k CVT khác x1, x2, …, xk Tần số sử dụng CVT Internet giá trị số biểu thị kết trả thực tìm kiếm hệ thống tìm kiếm chuyên nghiệp Internet phạm vi thời điểm định Chữ viết tắt xi xuất ni lần tìm thấy chương trình tìm kiếm chuyên nghiệp, với ≤ i ≤ k, ta nói ni tần số sử dụng chữ viết tắt xi Phạm vi, tiêu chí tìm kiếm tần số sử dụng: Cơng cụ tìm kiếm có chức tìm kiếm mở rộng, chun sâu, theo tiêu chí (tên miền, gần đúng, xác…) Dựa vào đặc điểm này, đánh giá tần số sử dụng CVT phạm vi định Ví dụ, cơng cụ tìm kiếm cho phép tìm CVT phạm vi tên miền.vn Phạm vi không giới hạn Internet: Phạm vi CVT sử dụng hệ thống tìm kiếm chuyên nghiệp với tên miền Phan Huy Khánh, Nguyễn Nho Tuý, Đặng Huy Hòa nào, quốc gia, với ngôn ngữ, ký hiệu N_ALL Phạm vi giới hạn: Đây tiêu chí tìm kiếm CVT có giới hạn quốc gia, tên miền Internet Có phạm vi giới hạn định nghĩa: N_VN1: Phạm vi CVT sử dụng hệ thống tìm kiếm chuyên nghiệp với tiêu chí tìm kiếm tên miền nằm quốc gia Việt Nam, với ngôn ngữ, ký hiệu N_VN1 N_VN2: Phạm vi CVT sử dụng hệ thống tìm kiếm chun nghiệp với tiêu chí tìm kiếm tên miền.vn, quốc gia Việt Nam, với ngôn ngữ tiếng Việt, ký hiệu N_VN2 N_VN3: Phạm vi CVT sử dụng hệ thống tìm kiếm chuyên nghiệp với tiêu chí tìm kiếm tên miền.com, quốc gia Việt Nam, với ngôn ngữ tiếng Việt, ký hiệu N_VN3 N_VN4: Phạm vi CVT sử dụng hệ thống tìm kiếm chun nghiệp với tiêu chí tìm kiếm tên miền.org, quốc gia Việt Nam, với ngôn ngữ tiếng Việt, ký hiệu N_VN4 Tiêu chí tìm kiếm tần số sử dụng Internet: Để có kết tần số sử dụng có giá trị xác; chúng tơi định nghĩa tiêu chí tìm kiếm xác, tức là bọc chuỗi từ khóa cần tìm dấu ngoặc kép (“”) Nhận xét: Giá trị tần số sử dụng nhất, biến động cập nhật thông tin liên tục từ Internet Số lần sử dụng trùng lặp, xuất hay trích dẫn Internet xem lần sử dụng giá trị tần số sử dụng tăng lên đơn vị Tần suất xuất chữ viết tắt tiếng Việt Internet: Tần suất xuất CVT tỷ số tần số sử dụng CVT môi trường Internet tổng tần số sử dụng CVT bảng thống kê tần số sử dụng CVT xem xét đơn vị thời gian, phạm vi thống kê Hay nói cách khác, với bảng số liệu thống kê chữ viết tắt có N giá trị có k giá trị khác x1, x2, …, xk Giá trị chữ viết tắt xi xuất ni lần (1 ≤ i ≤ k), ni tần số chữ viết tắt xi Tỉ số fi = ni gọi tần suất xuất của chữ N viết tắt xi với: n1 + n2 + … + nk = N; f1 + f2 + … + fk = Hoặc: Tỉ số fi = ni *100% gọi tần suất xuất N của chữ viết tắt xi với: n1 + n2 + … + nk = N; f1 + f2 + … + fk = 100 Ví dụ: Với cách định nghĩa trên, phạm vi định thời điểm, tần số sử dụng CVT tần suất xuất CVT mô tả Bảng đây: Bảng 1: Tính tốn tần suất xuất CVT phạm vi định STT Chữ viết tắt Phát triển (PT) Tần số (trong phạm vi) n1 Tần suất (%) fi ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 9(106).2016 Phạm trù (PT) Phương thức (PT) Phát (PT) Phương trình (PT) Phương Thanh (PT) Tổng cộng PT n2 n3 n4 n5 n6 N n7 f2 f3 f4 f5 f6 100% Với bảng có tổng N giá trị sử dụng k (k=6) CVT khác nhau, tần số sử dụng CVT thứ i giá trị ni tương ứng Tần suất xuất CVT “PT” phạm vi CVT sử dụng định Internet theo nghĩa “Phát triển” f1, theo nghĩa “Phương trình” f3, theo nghĩa “Phương Thanh” f6, 2.2.2 Giải pháp đánh giá tần số sử dụng Internet Hiện nay, xây dựng CSDL CVT [4], xem bảng liệu đầu vào cần đánh giá tần suất sử dụng CVT Các bước đề xuất tìm kiếm cập nhật liệu tính tốn tần số sử dụng CVT Internet: Bước 1: Chuẩn bị bảng liệu CVT, thiết kế trường lưu giữ kết tần số sử dụng Bước 2: Thiết lập phạm vi, giá trị cần tìm kiếm CVT hệ thống website tìm kiếm chuyên nghiệp Bước 3: Xây dựng chương trình tìm kiếm giả lập thao tác tìm kiếm từ người sử dụng Bước 4: Thực chạy chương trình tìm kiếm, ghi nhận thời gian, giá trị tìm kiếm CVT vào CSDL Bước 5: Phân tích liệu, dánh giá, xếp lưu trữ, công bố Bước 6: Sau chu kỳ (3 tháng 6), lặp lại bước 4, Bước 7: So sánh liệu, đánh giá biến động giá trị tần số sử dụng sau chu kỳ thời gian 2.2.3 Giải pháp đánh giá tần suất xuất CVT tiếng Việt Internet Sau có kết cập nhật liệu tính tốn tần số sử dụng CVT mơi trường Internet, đưa cách đánh giá tần suất xuất CVT tiếng Việt sau: Bước 1: Sắp xếp liệu tần số sử dụng CVT Bước 2: Chọn lọc CVT trùng lặp, đa nghĩa Bước 3: Lựa chọn phạm vi tần số xuất để thực tính tốn tần suất xuất CVT theo cơng thức: fi = ni *100% Trong đó: N: Tổng số CVT giống N có ngữ nghĩa khác nhau, ni tần số sử dụng chữ viết tắt xi Bước 4: Sắp xếp CVT theo giá trị fi giảm dần, lưu trữ, nhận xét công bố Bước 5: Sau chu kỳ (3 tháng), lặp lại bước 2, 3, Bước 6: So sánh liệu, đánh giá biến động giá trị tần suất xuất sau chu kỳ thời gian 2.3 Đề xuất ứng dụng số tần số sử dụng CVT, tần suất xuất CVT tiếng Việt Với giải pháp đề xuất, đưa ứng dụng 83 sau đây: - Chỉ số tần suất xuất hiện: Tiếp cận xử lý nhập nhằng ngữ nghĩa CVT dựa số tần suất CVT Các CVT có số tần suất fi cao ưu tiên gán ngữ nghĩa tương ứng, tı́nh phổ du ̣ng CVT càng cao, truyề n thông quan tâm, có sức số ng thực tiễn CVT có tầ n suấ t xuấ t hiê ̣n ı́t thấ p ı́t phổ biế n, có thể rấ t cá biê ̣t - Sự gia tăng tầ n suấ t (sau khoảng thời gian đánh giá hoă ̣c tháng) sẽ cho thấ y bước phát triể n sử du ̣ng CVT, đă ̣c biê ̣t đố i với thương hiệu, nhan ̃ hiê ̣u; chứng tỏ sự lă ̣p la ̣i, sự quan tâm truyề n thông (qua Internet); lưu trữ, quan sát số giúp cho việc tư vấn phát triể n, nhâ ̣n diê ̣n thương hiê ̣u cho doanh nghiệp - Sự giảm tầ n suấ t CVT (sau khoảng thời gian đánh giá hoă ̣c tháng) cho thấy viê ̣c phát triể n thương hiê ̣u có chiề u hướng giảm, truyề n thông ı́t quan tâm; có thể đưa khuyế n nghi ̣ doanh nghiê ̣p cầ n phải xem la ̣i chiế n lươ ̣c truyề n thơng Việc có ý nghĩa ứng du ̣ng tư vấ n doanh nghiê ̣p phát triể n nhâ ̣n da ̣ng thương hiê ̣u - Với phạm vi sử dụng, tần số xuất CVT giúp tư vấn chọn lựa phương thức truyền thông để đạt hiệu mong đợi Chẳng hạn CVT thương hiệu xuất nhiều tên miền.com quảng bá web site có tên miền hiệu tên miền khác - Bằng phép so sánh, đối chiếu, rút tương quan tầ n suấ t CVT với những chı̉ số thị phần, xế p ̣ng thương hiê ̣u Sự tương quan giữa chúng cho phép dựa vào tầ n suấ t xuấ t hiê ̣n CVT đưa chı̉ số lươ ̣ng hóa phát triể n thương hiê ̣u, nhãn hiê ̣u, thị phần của doanh nghiê ̣p Triển khai thử nghiệm đánh giá kết Chúng triển khai áp dụng giải pháp theo bước nêu 3.1 Xây dựng chương trình tìm kiếm tự động Chúng tơi chọn hệ thống tìm kiếm chuyên nghiệp để khai thác liệu chữ viết tắt Yahoo.com Sử dụng ngôn ngữ lập trình C# để triển khai xây dựng chương trình Thuật tốn: Ghi nhận tần số sử dụng chữ viết tắt từ môi trường Internet Input: File liệu CVT, phạm vi tìm kiếm liệu yahoo.com Output: File liệu tần số sử dụng CVT theo tiêu chí Open CSDL làm việc trung gian Thiết lập tiêu chí, phạm vi tìm kiếm Lựa chọn và Khởi động trình duyệt Repeat Read CVT file đầu vào Truyền tham số trình duyệt tìm kiếm giá trị CVT phạm vi, tiêu chí Open tệp HTML sau có kết tìm kiếm trả Read file HTML Dùng Biểu thức quy tìm giá trị số 84 "(.*) kết " So khớp và Lưu giữ giá trị vào bảng theo phạm vi tương ứng Lưu giữ ngày tìm kiếm Until Khơng cịn CVT file đầu vào Hiển thị Bảng kết Lưu kết vào File Kết thúc Chương trình nhận danh sách CVT CSDL đầu vào [2], khởi động trình duyệt, truyền tham số tìm kiếm gồm CVT, phạm vi, tiêu chí tìm kiếm Tự động hóa tìm kiếm Sau tìm kiếm xong, lấy kết tệp mã nguồn (source code dạng html) từ trang web, đọc kết tìm lưu vào CSDL Chương trình gồm lớp (class) sau: a) Class Utils: chứa hàm cần thiết để chạy chương trình Có hàm quan trọng sau: Hàm getSourceCode_FromSelenium: Lấy source code dạng html từ trang web Tham số đầu vào đường link dẫn đến trang web Hàm trả kiểu string, source code dạng html Nếu lỗi trả chuỗi “ERROR” Hàm getMatchedResult: Tìm chuỗi chứa số kết CVT tìm thấy nằm source code dạng file html Sử dụng Regex (Regular Expression - Biểu thức quy) để tìm chuỗi chuỗi Pattern chuỗi mà sử dụng để tìm theo source mà yahoo.com trả là: “ (.*) kết ” Ngồi có hàm khác liên quan đến chức bổ sung chương trình như: đọc/ghi file CSV, đọc file xml, lấy ngày tháng, b) Class PromptForBrowserSelection: Dùng để hiển thị form, chọn trình duyệt bấm vào nút Run thực chương trình, xuất tệp kết lưu trữ c) Class TieuChi: chứa thông số cho trường hợp (tiêu chí) cụ thể để tạo thành đường link tìm kiếm yahoo.com Các tiêu chí mô tả lưu tệp xml (Data/tieuchi.xml) Thơng số bao gồm: 1: Chế độ/tiêu chí: tìm xác cụm hay tìm theo từ khóa (tìm xác bọc chuỗi từ khóa dấu ngoặc kép “ ”) 2: Tên miền: tìm tất tên miền để trống 3: Quốc gia: tìm tất quốc gia để trống 4: Ngơn ngữ: Nếu tìm với tất ngơn ngữ để trống 5: V_NAME: tên trường lưu số kết tìm lên lưới giao diện d) Class TieuChiStore: Chứa danh sách trường hợp (tiêu chí) phạm vi tìm kiếm Chương trình đọc tiêu chí từ file Data/tieuchi.xml (tệp tạo dựa theo định nghĩa phạm vi tần số sử dụng, tiêu chí nêu trên: N_ALL, N_VN1, N_VN2, N_VN3, N_VN4) 3.2 Thực chương trình cập nhật liệu tần số sử dụng CVT - Thực chạy chương trình Tiêu chí tìm kiếm xác cụm từ (bọc chuỗi từ khóa dấu ngoặc kép “…”), phạm vi tìm kiếm định nghĩa Phan Huy Khánh, Nguyễn Nho Tuý, Đặng Huy Hịa - Chương trình chạy khung cửa sổ Main (Hình 1), chọn nút lệnh Import CSV file, chọn file đầu vào; chọn lựa trình duyệt, sau kích chọn nút Run để thực thu thập liệu tần suất sử dụng CVT Hình Thực chương trình cập nhật tần số sử dụng CVT - Giao diện chương trình thực xong đưa kết với giá trị tìm kiếm tần số CVT sử dụng theo phạm vi định nghĩa (các cột) Thực Save as để lưu kết File CSV phục vụ cho lưu trữ xử lý tính tốn tần suất xuất CVT (Hình 2): Hình Kết thực chương trình cập nhật tần số CVT - Kết hình cho thấy, phạm vi N_VN1, chữ viết tắt PT với nghĩa “Phát triển” có tần số sử dụng định nghĩa 184 lần (thời điểm 24/03/2016), với nghĩa “Phương trình” có tần số sử dụng định nghĩa 184 lần…, chữ viết tắt PT có tần số sử dụng lên đến 345.000 lần - Chú ý: Do đó, tệp đầu vào cần phải tách liệu mức độ vừa phải (nên 50 dịng) để Yahoo khơng từ chối phục vụ Trong thực nghiệm giải pháp, để chạy chương trình số lượng lớn liệu, cần phải sử dụng nhiều máy tính, nhiều khoảng thời gian để có kết mong đợi - Tı́nh chı́nh xác của chương trı̀nh: So sánh với cách tı̀m kiế m thủ công của Yahoo.com (gõ chuỗ i, tı̀m kiế m nâng cao tương ứng), kế t quả tı̀m đươ ̣c ta ̣i cùng thời điể m là hoàn toàn khớp trùng nhau, vı̀ thực chấ t thuâ ̣t toán là sự tự đô ̣ng hóa cách tı̀m thủ công yahoo.com 3.3 Kết thực đánh giá Sử dụng nhiều máy tính chạy chương trình, nhiều khoảng thời gian Dữ liệu đầu vào có 4.542 mẫu tin (với 2.300 mẫu CVT thông dụng chọn lựa CSDL có [1]); tách thành gần 100 File liệu đầu vào Dữ liệu đầu với gần 100 file tương ứng, sau ghép lại để có bảng liệu tổng thể tần số sử dụng CVT - Sau có bảng liệu tần số sử dụng CVT, chúng tơi thực tính tốn tần suất sử dụng theo bước đề xuất giải pháp mục 2.2 Trước mắt, kết đưa hớn 30 bảng tần suất xuất CVT với cụm chữ viết tắt giống ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 9(106).2016 Ví dụ: Kết tính tốn tần suất chữ viết tắt PT phạm vi N_VN1 thời điểm khác ngày 15/03/2016 25/03/2016: Bảng Kết tính tồn tần số, tần suất xuất CVT Ngày 15/3/2016 STT Chữ viết tắt Ngày 25/03/2016 N_VN1 Tần suất % N_VN1 Tần suất % Phương trình (PT) 382 63 385 63,1 Phát triển (PT) 182 30 184 30,2 Phương Thanh (PT) 16 2,9 17 2,8 Phát (PT) 14 2,5 15 2,5 Phương thức (PT) 1,5 1,5 Phạm trù (PT) Tổng cộng PT 0,0 0,0 603 100 610 100 333.000 số thị phần hay xế p ̣ng thương hiê ̣u; chẳng hạn ví dụ đây: a) Tần suất xuất CVT (là thương hiệu nhà mạng di động) ngày 2/4/2016 so sánh với thị phần dịch vụ nhà mạng (nguồn số liệu Bộ Thông tin Truyền thông) năm 2015: Bảng Tương quan tần suất CVT thị phần dịch vụ STT NGHIAVIET N_VN1 Tần suất %Thị phần % Viettel 687.000 32,2 43,5 MobiFone 688.000 32,3 31,8 VinaPhone 489.000 22,9 17,5 Vietnamobile 127.000 6,0 4,1 GMobile 345.000 Trong bảng trên, với giá trị ngữ nghĩa khác chữ viết tắt PT, ta có nhận xét: - Tần số sử dụng gia tăng sau 10 ngày, chữ viết tắt PT tăng từ 333.000 lên 345.000, tức tăng số lần sử dụng lên 12.000 lần; tần số chữ viết tắt gia tăng chứng tỏ sử dụng CVT ngày nhiều mạng Internet - Tần suất sử dụng Phương trình (PT) thời điểm 15/03/2016 63,04%; Phát triển (PT) 30,03%, Phương Thanh (PT) 2,97% Đến ngày 25/3/2016, tần suất biến đổi không đáng kể Chữ viết tắt PT có tần suất sử dụng 345.000 lần, nhiên chữ viết tắt PT theo ngữ nghĩa “Phương trình” chiếm tần suất sử dụng cao 63,11% với tần số sử dụng định nghĩa 385 lần Giá trị cho thấy ngữ nghĩa “Phương trình” chữ viết tắt PT phổ biến Chỉ số cao dấu với chữ viết tắt PT, ngữ nghĩa “Phương trình” có xác suất xuất cao Sau ngữ nghĩa “Phương trình”, theo thứ tự “Phát triển”, “Phương Thanh”, “Phát Thanh”, “Phương thức”, PT viết tắt cho “Phạm trù” không sử dụng Nhờ số tần suất này, vấn đề xử lý nhập nhằng ngữ nghĩa CVT có hướng tiếp cận giải quyết, tức chọn ngữ nghĩa CVT theo tần suất sử dụng cao - So sánh với phương pháp đánh giá tần số CVT theo Hội Ngôn ngữ học Việt Nam [5], [7] tần số CVT xuất Corpus, phương pháp có ưu điểm định Dựa nguồn liệu sẵn có hệ thống web site tìm kiếm chun nghiệp, trích lọc thơng tin hữu ích tần số sử dụng tần suất xuất CVT, cập nhật theo kịp sử phát triển CVT thực tiễn - Chúng công bố www.chuviettat.com [12] kết tầ n số, tần suấ t xuấ t hiê ̣n các CVT, dự kiến công bố giá tri ̣tăng giảm tầ n suấ t sau mô ̣t chu kỳ thời gian (3 - tháng); sắ p xế p giảm dầ n theo giá tri ̣tầ n suấ t Đưa cảnh bảo các giá tri ̣giảm (CVT nhãn hiê ̣u, thương hiê ̣u) NSD có công cu ̣ để tự đánh giá là các CVT mı̀nh sở hữu; chức tra cứu CVT sẽ bổ sung thêm giá tri ̣ tầ n suấ t xuấ t hiê ̣n và thời gian đánh giá Sau mô ̣t chu kỳ thời gian sẽ có bổ sung giá tri ̣tăng/giảm tầ n suấ t xuấ t hiê ̣n - Tương quan thị phần dịch vụ số tần suất xuất chữ viết tắt: Bằng phép so sánh, đối chiếu, chúng tơi nhận thấy có tương quan tầ n suấ t CVT với những chı̉ 85 140.000 6,6 3,2 2.131.000 100 100 GMobile Vietnamobile 6% 7% Viettel 32% VinaPhone 23% MobiFone 32% Hình Biểu đồ tần suất CVT thương hiệu di động Internet b) Tần suất xuất cụm CVT (là thương hiệu thức ăn nhanh) ngày 02/04/2016 so sánh với thị phần thương hiệu bàn luận mạng xã hội: Bảng Tương quan tần suất xuất CVT bàn luận mạng xã hội STT NGHIAVIET N_VN1 Tần suất % Social Media % KFC 146.000 34,7 47,0 Lotteria 125.000 29,7 26,0 McDonald's 57.900 13,8 10,0 Burger King 32.800 7,8 5,0 Popeyes 29.700 7,1 5,6 Jollibee 18.800 4,5 4,4 Texas Chicken 7.420 1,8 1,0 Carl's Jr 2.760 0,7 1,0 420.380 100 100 Nhận xét: Sự tương quan giữa chúng cho phép đứa cách tiếp cận: dựa vào tầ n suấ t xuấ t hiê ̣n CVT (thương hiê ̣u, nhãn hiê ̣u) đưa chı̉ sớ lươ ̣ng hóa, sử dụng để dự đốn thị phần, mức độ phát triể n thương hiê ̣u, nhãn hiê ̣u của doanh nghiê ̣p Một số hạn chế giải pháp: còn phụ thuộc vào liệu có yahoo.com, chương trình tìm kiếm mơ tự động viê ̣c tìm kiếm thủ cơng Nếu liệu đầu vào lớn, cần nhiều thời gian, nhiều máy tính để chạy chương trình ghi nhận liệu Dữ liệu Interrnet sử 86 Phan Huy Khánh, Nguyễn Nho Tuý, Đặng Huy Hòa dụng bảng mã tiếng Việt nhiều loại rào cản cho liệu tìm kiếm chưa đầy đủ, hoàn toàn chuẩn xác Texas Jollibee Chicken 4% 2% Popeyes 7% Burger King 8% Carl's Jr 1% KFC 34% McDonald's 14% Lotteria 30% Biểu đồ tần suất xuất Thảo luận Internet (Social Media %) 50 40 30 20 10 Hình Biểu đồ thương hiệu thức ăn nhanh thảo luận Internet (theo nguồn số liệu Internet) Kết luận Giải pháp đánh giá tần số sử dụng, tần suất xuất CVT tiếng Việt Internet đưa cách tiếp cận, phương pháp thống kê đánh giá, lượng hóa số sử dụng phát triển CVT thực tiễn Chỉ số tần số, tần suất giúp nhà nghiên cứu quan sát, lưu trữ, thống kê phân tích tượng phát triển ngơn ngữ tiếng việt nói chung CVT nói riêng qua thời điểm Những kết đạt trình triển khai thực giải pháp CVT cho phép tiếp tục cơng việc nghiên cứu để bước hồn thiện dần bảng tần số, tần suất CVT tiếng Việt Internet, lưu trữ công bố định kỳ Internet Trong đó, có phân tích, đưa tư vấn riêng cho CVT thương hiệu, nhãn hiệu nhằm trợ giúp dự báo thị phần sản phầm, dịch vụ hay phát triển thương hiệu cho doanh nghiệp Giải pháp có thể tiếp tục mở rộng áp du ̣ng đánh giá tần số CVT cho ngôn ngữ dân tộc thiểu số Việt Nam (Chăm, ÊĐê, Thái, Kh’mer…) Ý tưởng kết bài báo cho phép đề xuất phương pháp thống kê ngôn ngữ học Internet, để quan sát phân tích tượng phát triển ngôn ngữ Chẳng hạn tı̀m những từ, cu ̣m từ mới xuấ t hiê ̣n, có thố ng kê tầ n suấ t xuấ t hiê ̣n (theo đinh ̣ kỳ thời gian), lưu trữ phân tích; từ quan sát đươ ̣c mức đô ̣ quan tâm truyề n thông và sử du ̣ng chúng, giúp ta thấ y đươ ̣c sự phát triể n của từ vựng ngôn ngữ ho ̣c… Tài liệu tham khảo [1] Nguyễn Quang Hồng (2002), Nói tắt viết tắt tiếng Việt Hiện trạng giải pháp, Báo cáo tổng quan đề tài cấp 2001-2002 [2] Phan Huy Khánh, Nguyễn Nho Túy (2006), “Nghiên cứu xây dựng cở sở liệu chữ viết tắt cho dịch vụ 1080 Bưu điện Đà Nẵng”, Kỷ yếu Hội thảo Khoa học Quốc gia “Một số vấn đề chọn lọc CNTT & Truyền thông”, 2006 [3] Phan Huy Khánh, Nguyễn Nho Túy (2006), Abbreviations Applicationin 108 VNPT Service Exploitation in Da Nang City, IJISET (International Journal of Innovative Science, Engineering & Technology), Vol Issue 1, January 2016, p.222-227 [4] Phan Huy Khánh, Nguyễn Nho Túy (2016), “Developing database of Vietnamese abbreviations and some applications”, Kỷ yếu Hội thảo ICTCC 2016 - 2nd EAI International Conference on Nature of Computation and Communication [5] Hội Ngôn ngữ học Việt Nam (2002), Danh sách chữ viết tắt xếp theo tần số, Hà Nội 2002 [6] Huỳnh Công Pháp, Nguyễn Văn Huệ (2014), “Nghiên cứu thu thập xây dựng sở liệu chữ viết tắt tiếng Việt”, Tạp chí Khoa học Cơng nghệ ĐHĐN Số (80) [7] Hồ Thị Kiều Oanh, Lê Thị Bích Chi (2012), “Nghiên cứu đặc trưng ngôn ngữ tượng viết tắt thư điện tử tiếng Anh đối chiếu với tiếng Việt, Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ Đại học Đà Nẵng, năm 2012 [8] Lê Bá Long (2006), Lý thuyết xác suất thống kê tốn, Giáo trình Học viện Bưu Viễn thơng Việt Nam [9] Manuel Zahariev (2004) Acronyms Simon Fraser University, Jun 2004 [10] Lưu Tuấn Anh (2012) Download liệu tập Corpus, link: http://viet.jnlp.org/download-du-lieu-tu-vung-corpus [11] Lê Thị Bích Chi (2012) Nghiên cứu đăc trưng ngôn ngữ tượng viết tắt thư điện tử tiếng Anh đối chiếu với tiếng Việt Link:http://www.udn.vn/app/webroot/svnckh2012/PDF/TB2003.pdf [12] Nguyễn Nho Túy (2015) Web site thư viên chữ viết tắt Link: http://www.chuviettat.com (BBT nhận bài: 14/04/2016, phản biện xong: 16/08/2016) ... niệm tần số sử dụng, tần suất chữ viết tắt tiếng Việt Internet Ta gọi bảng số liệu CVT bảng có N chữ viết tắt, thực chất bảng CSDL chữ viết tắt, có k CVT khác x1, x2, …, xk Tần số sử dụng CVT Internet. .. đơn vị Tần suất xuất chữ viết tắt tiếng Việt Internet: Tần suất xuất CVT tỷ số tần số sử dụng CVT môi trường Internet tổng tần số sử dụng CVT bảng thống kê tần số sử dụng CVT xem xét đơn vị thời... CVT tần suất xuất cách tiệm cận với thực tế vốn có 2.2 Đề xuất giải pháp đánh giá tần số CVT, tần suất CVT tiếng Việt Chúng đưa khái niệm tần số sử dụng, tần suất xuất chữ viết tắt tiếng Việt Internet