Bài viết Nghiên cứu thu thập và xây dựng cơ sở dữ liệu chữ viết tắt tiếng Việt tập trung nghiên cứu thu thập tự động và xây dựng một cơ sở dữ liệu tương đối đầy đủ về chữ viết tắt tiếng Việt. Trên cơ sở đó, chúng tôi sẽ tiến đến xây dựng một hệ thống quản lý và tra cứu chữ viết tắt tiếng Việt trực tuyến nhằm đáp ứng nhu cầu của đông đảo người sử dụng.
TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG - SỐ 7(80).2014 125 NGHIÊN CỨU THU THẬP VÀ XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT TIẾNG VIỆT COLLECTING AND BUILDING AN VIETNAMESE ABBREVIATION DATABASE Huỳnh Công Pháp1, Nguyễn Văn Huệ2 Đại học Đà Nẵng; Email: hcphap@gmail.com Cơng ty phần mềm Enclave; Email: nguyenhuebkdn@gmail.com Tóm tắt - Chữ viết tắt tiếng Việt ngày tăng lên đáng kể số lượng, đa dạng ký hiệu, nhiều chữ viết tắt có nhiều nghĩa khác Điều dẫn đến thực trạng làm cho người đọc văn nhiều lúc hiểu nhầm nội dung khó đốn nghĩa từ viết tắt Tuy nhiên, chưa tìm thấy hệ thống tra cứu chữ viết tắt tiếng Việt Để xây dựng hệ thống tra cứu chữ viết tắt công cụ hỗ trợ gõ tắt, bước cần phải xây dựng sở liệu chữ viết tắt tiếng Việt Trong báo tập trung nghiên cứu thu thập tự động xây dựng sở liệu tương đối đầy đủ chữ viết tắt tiếng Việt Trên sở đó, chúng tơi tiến đến xây dựng hệ thống quản lý tra cứu chữ viết tắt tiếng Việt trực tuyến nhằm đáp ứng nhu cầu đông đảo người sử dụng Bên cạnh đó, từ sở liệu này, tiến hành nghiên cứu xây dựng cơng cụ tích hợp mơi trường Windows (giống Vietkey) nhằm hỗ trợ tra cứu soạn thảo chữ viết tắt Abstract - Vietnamese abbreviations increase very fast, diversify in forms and some of them have multiple meanings This poses a problem for readers to recognize abbreviations or to understand the relevant meaning in some situation However, we currently can’t still find out a system of vietnamese abbreviation consultation To have such a system, the first step we should build a vietnamese abbreviation database In this paper, we focus on the research of acquiring vietnamese abbreviations from documents and the internet to build an abbreviation database From this database, we aim to propose an online system of abbreviation management and consultation as well as a “hooked” software (like Vietkey) supporting autotext when typing Từ khóa - chữ viết tắt; từ điển chữ viết tắt; trích rút văn bản; xử lý tiếng Việt; sở liệu chữ viết tắt; hệ thống tra cứu chữ viết tắt; Key words - abbreviation; acronym; abbreviation dictionary; text extraction; vietnamese language processing; vietnamese abbreviation consultation system; Đặt vấn đề Hiện tượng viết tắt văn tiếng Việt trở nên phổ biến Số lượng chữ viết tắt tiếng Việt tăng lên đáng kể nhiều hình thức đa dạng Điều dẫn đến thực trạng làm cho người đọc văn nhiều lúc hiểu nhầm nội dung khó đốn nghĩa từ viết tắt Thật vậy, phát triển xã hội hội nhập quốc tế khoa học kỹ thuật, ngày tiếng Việt xuất thêm nhiều chữ viết tắt Quy tắt hình thành chữ viết tắt đa dạng, nhiều chữ viết tắt tiếng Việt hình thành từ từ có nguồn gốc tiếng nước ngồi (ví dụ: ngành IT - ngành Công nghệ thông tin), nhiều chữ viết tắt cấu thành từ chữ đầu (ví dụ: ĐHĐN – Đại học Đà Nẵng), nhiên có nhiều chữ viết tắt cấu thành từ hai ký tự từ (ví dụ: vina – Việt Nam)… Trước thực trạng vừa nêu nhu cầu tra cứu chữ viết tắt người sử dụng cấp thiết thường xuyên Tuy nhiên, kết nghiên cứu thu thập chữ viết tắt tiếng Việt [1] không chia sẻ trực tuyến Do chưa thật có từ điển hay sở liệu đầy đủ chữ viết tắt tiếng Việt, nhằm phục vụ nhu cầu tra cứu, học tập hỗ trợ vấn đề đọc soạn thảo văn người sử dụng Trong báo này, tập trung nghiên cứu thu thập tự động xây dựng sở liệu tương đối đầy đủ chữ viết tắt tiếng Việt Trên sở đó, chúng tơi tiến đến xây dựng hệ thống quản lý tra cứu chữ viết tắt tiếng Việt trực tuyến nhằm đáp ứng nhu cầu đông đảo người sử dụng Bên cạnh đó, từ sở liệu này, tiến hành nghiên cứu xây dựng cơng cụ tích hợp mơi trường Windows (giống Vietkey) nhằm hỗ trợ tra cứu soạn thảo chữ viết tắt Một số nghiên cứu tổng quan Liên quan đến vấn đề thu thập, xử lý quản lý chữ viết tắt tiếng Việt, kể đến cơng trình tác giả Bạch Như Nguyện “Nghiên cứu tích hợp mơi trường, cơng cụ kỹ thuật tìm kiếm, quản lý chữ viết tắt” (2007)[3] Tuy nhiên, cơng trình dừng lại mức nghiên cứu chưa có dịch vụ trực tuyến hay miễn phí phục vụ cho cộng đồng người sử dụng Đối với hỗ trợ tra cứu xử lý chữ viết tắt, phần mềm MS Word cung cấp chức “AutoCorrect Options” cho phép định nghĩa chữ viết tắt để phục vụ gõ tắt Tuy nhiên, liệu chữ viết tắt không chia sẻ sử dụng môi trường khác Đối với hệ thống quản lý tra cứu chữ viết tắt, tìm thấy hệ thống tra cứu từ viết tắt tiếng Anh địa http://www.abbreviations.com gồm 2000 từ viết tắt, hệ thống tra cứu chữ viết tắt tiếng Pháp địa http://www.les-abreviations.com Tuy nhiên, tiếng Việt, chưa tìm thấy hệ thống trực tuyến chữ viết tắt ngôn ngữ khác Quy tắt viết tắt tiếng Việt Việc sử dụng chữ viết tắt văn tiếng Việt thường xuyên thực theo quy tắt mô tả tài liệu Ngữ pháp tiếng Việt [1] “Khi tên gọi xuất lần đầu văn khơng viết tắt, mà phải viết dạng đầy đủ ghi chữ viết tắt ngoặc đơn Từ lần xuất thứ hai trở đi, ta viết tắt” Huỳnh Công Pháp, Nguyễn Văn Huệ 126 Khi sử dụng chữ viết tắt soạn thảo văn bản, phải xem xét hai trường hợp sau: Chữ viết tắt có sẵn: trường hợp chữ viết tắt định nghĩa trước thông dụng, nhiều người biết, không mập mờ, không phản nghĩa dùng; có quy định, chẳng hạn đăng ký nhãn hiệu, quy định bảng chữ viết tắt, danh mục chữ viết tắt,… sử dụng trực tiếp mà không cần định nghĩa lại Chữ viết tắt chưa định nghĩa: Trong trường hợp cần định nghĩa chữ viết tắt xuất lần đầu văn theo dạng sau: () Tùy theo lĩnh vực ngành nghề khác mà văn hành chính, chun ngành có quy định riêng việc dùng chữ viết tắt, ghi rõ định, tiêu chuẩn ngành, tài liệu hướng dẫn, triển khai thực hiện… Một số quy tắc cấu tạo chữ viết tắt Để nhận dạng thu thập tự động chữ viết tắt, tiến hành nghiên cứu quy tắt cấu tạo chữ viết tắt Theo kết nghiên cứu từ tài liệu [3][3][4][5], chữ viết tắt cấu tạo dạng thức sau: 4.1 Dùng ký tự từ tố Dạng phổ biến chữ viết tắt dạng cấu tạo ký tự từ tố cụm từ Ví dụ: ĐHĐN = Đại học Đà Nẵng 4.2 Dùng ký tự đầu từ kép Dạng chữ viết tắt thứ hai mà thường gặp dạng cấu tạo từ ký tự từ kép Ví dụ: TĐC = Tiêu chuẩn Đo lường Chất lượng 4.3 Dùng ký tự đầu từ tiếng nước Một dạng chữ viết tắt tiếng Việt mà thường gặp dạng cấu thành từ chữ đầu từ tiếng nước ngồi Ví dụ: VINASA = Hiệp hội phần mềm Việt Nam (Vietnam Software Association) 4.4 Dùng nhiều ký tự phụ âm Chữ viết tắt tiếng Việt cấu tạo cách cấu tạo từ nhiều ký tự phụ âm để phân biệt chữ viết tắt khác Ví dụ: ThS = Thạc sĩ 4.5 Dùng ký hiệu khoa học Trong số tài liệu tiếng Việt văn pháp quy, người ta dùng ký hiệu khoa học hóa học để viết tắt Đối với đa số nhiều người, ký hiệu quen thuộc có số người chưa biết đến Do đó, trường hợp cần phải trọng để hỗ trợ giải nghĩa cho người dùng Ví dụ: H2O = Nước Các dạng ký hiệu chữ viết tắt Để xử lý văn nhằm thu thập tự động chữ viết tắt, việc nắm quy luật cấu tạo chữ viết tắt cần nhận biết quy luật ký hiệu chữ viết tắt thường sử dụng văn tiếng Việt 5.1 Một số dạng ký hiệu chữ viết tắt phổ biến Dạng 1: Cụm từ đầy đủ (Chữ viết tắt) Đây dạng tương đối phổ biến, dạng chữ viết tắt đặt cặp ngoặc đơn Ví dụ: Tài liệu tham khảo (TLTK) Công nghệ thông tin (CNTT) Dạng 2: Chữ viết tắt (Cụm từ đầy đủ) Một dạng ký hiệu chữ viết tắt thường thấy văn tiếng Việt nghĩa chữ viết tắt đặt cặp ngoặc đơn Ví dụ: ĐHĐN (Đại học Đà Nẵng) Dạng 3: Chữ viết tắt dấu cách Cụm từ đầy đủ Dạng biểu diễn chữ viết tắt thứ chữ viết tắt nghĩa đặt cách ký tự phân cách dấu gạch ngang (–) dấu hai chấm (:) CNPM – Công nghệ phần mềm Dạng 4: Ngoài dạng phổ biến nêu trên, để thu thập tự động chữ viết tắt cần tập trung xử lý tài liệu tiếng Việt luận văn, luận án Trong tài liệu dạng này, chữ viết tắt thường định nghĩa dạng bảng chữ viết tắt sau: Bảng Bảng ví dụ chữ viết tắt Chữ viết tắt BTCQ CNTT CSDL CVT Cụm từ đầy đủ Biểu thức quy Cơng nghệ thông tin Cơ sở liệu Chữ viết tắt 5.2 Một số dấu hiệu nhận biết chữ viết tắt Để nhận biết chữ viết tắt, dạng ký hiệu chữ viết tắt trình bày trên, rút số dấu hiệu nhận biết chữ viết tắt sau: Chữ viết tắt thường gồm ký tự phụ âm, Chữ viết tắt đa số ký tự in hoa Chữ viết tắt có chứa ký tự phân cách Chữ viết tắt tiếng Việt không sử dụng nguyên âm Â, Ă, Ê, Ơ, Ô, Ư Trên số dấu hiệu nhận biết chữ viết tắt qua khảo sát, nhiên tiếng Việt chưa có quy tắc thành lập chữ viết tắt, chưa có thống tiêu chí đánh giá chung cho việc thành lập sử dụng chữ viết tắt Một vấn đề chữ viết tắt tiếng Việt chữ viết tắt mang nhiều nghĩa, nhiều chữ viết tắt vay mượn tiếng nước ngoài, tiếng Anh Giải pháp nhận biết thu thập tự động chữ viết tắt 6.1 Sử dụng phương pháp so khớp Giải pháp thứ mà chúng tơi đề xuất sử dụng phương pháp so khớp tối đa (Maximum Matching - MM): TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG - SỐ 7(80).2014 Forward/Backward hay gọi Left Right Maximum Matching - LRMM Ở phương pháp này, duyệt đoạn văn từ trái sang phải chọn từ có nhiều âm tiết có mặt từ điển thực lặp lại hết câu Loại trừ từ đơn kép tìm thấy từ điển, số từ đơn không tồn từ điển mà khớp với dấu hiệu nhận biết chữ viết tắt trình bày mục 5.2 từ có khả chữ viết tắt Nhận xét: Giải pháp tìm kiếm chữ viết tắt theo phương pháp so khớp tối đa không thực hiệu phải so khớp với từ điển để loại từ có nghĩa 6.2 Sử dụng biểu thức quy Biểu thức quy quan trọng thường ứng dụng tìm kiếm xử lý văn dựa mẫu quy định Kết hợp với quy luật cấu tạo chữ viết tắt phân tích mục 3, 4, trên, tạo nên mẫu tình kiếm chữ viết tắt dễ dàng xác xuất phát chữ viết tắt lớn Ví dụ: Biểu thức quy @"\((.*?)\)" định nghĩa mẫu so khớp tất chữ viết tắt theo dạng: Cụm từ đầy đủ (Chữ viết tắt) Thuật toán thực hiện: Đầu vào: Tệp văn Đầu ra: Danh sách chữ viết tắt Các bước: Tạo biểu thức quy định nghĩa mẫu so khớp: P Tạo đối tượng lớp Regex với đối số mẫu so khớp: R Mở tệp đầu vào Repeat - Đọc dòng văn từ tệp: S Thực so khớp để thu thập chữ viết tắt: R.Matches(S) Until hết tệp Nhận xét: So với giải pháp thứ nhất, giải pháp có tốc độ xử lý nhanh xác chữ viết tắt dạng phổ biến Tuy nhiên, chữ viết tắt cấu thành đa dạng, có nhiều chữ viết tắt khơng theo quy luật phân tích nên sử dụng phương pháp nhận biết tất dạng chữ viết tắt Xây dựng hệ thống kết thực nghiệm 7.1 Mơ hình hệ thống tổng qt Mơ hình biểu diễn hệ thống tổng quát cho phép thu thập khai thác chữ viết tắt Sau thu thập chữ viết tắt từ tệp văn từ internet, hệ thống tiến hành phân tích trích rút chữ viết tắt để cập nhật vào sở liệu chữ viết tắt Quá trình thu thập chữ viết tắt tự động nên khơng xác, hệ thống phải cung cấp mơi trường cho phép người dùng xem lại, chỉnh sửa cập nhật chữ viết tắt Từ sở liệu chữ viết tắt xây dựng được, đề xuất hai dịch vụ khai thác ứng dụng chữ viết tắt là: từ điển cho phép tra cứu chữ viết tắt trực tuyến chương trình tích hợp tra cứu hỗ trợ gõ tắt 127 Trong báo này, tập trung vào việc thu thập xây dựng sở liệu chữ viết tắt Đối với chương trình tích hợp tra cứu hỗ trợ gõ tắt đề cập báo Hình Mơ hình hệ thống tổng quát 7.2 Kết thực nghiệm 7.2.1 Giao diện chương trình Trên sở phân tích quy luật cấu tạo ký hiệu chữ viết tắt, chúng tơi tiến hành xây dựng chương trình trích rút chữ viết tắt sử dụng ngơn ngữ lập trình C# Sau người dùng nạp tệp văn trang web, chương trình tiến hành phân tích trích rút chữ viết tắt (Hình 1) Giải pháp nhận biết chữ viết tắt mà sử dụng chương trình giải pháp sử dụng biểu thức quy trình bày 7.2.2 Giải pháp đánh giá độ xác chương trình Nhằm hỗ trợ kiểm chứng đánh giá độ xác chương trình nhận biết thu thập chữ viết tắt, xây dựng mô đun thống kê chữ viết tắt có giao diện Hình Để đánh giá độ xác giải pháp chương trình trích rút, chúng tơi xây dựng lựa chọn tệp đầu vào có chứa đựng chữ viết tắt dùng chương trình để thống kê số lượng hiển thị chữ viết tắt Qua số lần thử, nhận thấy kết chương trình trích rút chữ viết tắt tương đối xác tất trường hợp chữ viết tắt ký hiệu khớp với mẫu tìm kiếm mà chúng tơi định nghĩa dùng biểu thức quy Tuy nhiên, chữ viết tắt có cấu tạo đa dạng nhiều lúc ký hiệu tùy tiện văn nên mẫu tìm kiếm biểu thức quy định nghĩa chương trình chưa thể so khớp với tất dạng chữ viết tắt Kết luận Chữ viết tắt tiếng Việt ngày tăng lên đáng kể số lượng, đa dạng ký hiệu, nhiều chữ viết tắt có nhiều nghĩa khác Chính người dùng thường gặp khó khăn việc đốn chữ viết tắt hiểu nhầm nghĩa, người đọc người nước nghiên cứu văn tiếng Việt người không thuộc lĩnh vực mà văn trình bày Đối với ngơn ngữ khác tiếng Anh, tiếng Pháp…, hiên có hệ thống cho phép tra cứu chữ viết tắt Tuy nhiên, tiếng Việt, chưa tìm thấy hệ thống tra cứu chữ viết tắt hoăc hỗ trợ gõ tắt Để xây Huỳnh Công Pháp, Nguyễn Văn Huệ 128 dựng hệ thống vậy, việc cần phải thực nghiên cứu xây dựng sở liệu chữ viết tắt tương đối đầy đủ Bài báo đưa giải pháp thu thập xây dựng sở liệu chữ viết tắt Trong cơng bố chúng tơi trình bày kết thu thập việc khai thác kết Hình Giao diện chương trình trích rút chữ viết tắt Hình Giao diện chương trình thống kê chữ viết tắt nhằm hỗ trợ kiểm chứng đánh giá TÀI LIỆU THAM KHẢO [1] Phan Huy Khánh, Nguyễn Nho Tuý (2007), Setting Up the Database of Abbreviation for Service 1080, Hội thảo RIVF, Hà Nội [2] Chim Văn Be (2001), Ngữ pháp tiếng Việt, Giáo trình đào tạo Đại học Cần Thơ [3] Bạch Như Nguyện (2007), Nghiên cứu tích hợp mơi trường, cơng cụ kỹ thuật tìm kiếm, quản lý chữ viết tắt, Luận văn thạc sĩ kỹ thuật Khoa học máy tính, Đại học Đà Nẵng [4] Xuân Lãm, Minh Tân, Thanh Nghi (1998), Từ điển tiếng Việt, NXB Thanh Hóa [5] Nguyễn Thị Thu Thủy, Nguyễn Hữu Chỉnh (2001), Tổng quan ngôn ngữ ngơn ngữ học, Giáo trình đào tạo Đại học Cần Thơ [6] Phương pháp maximum matching, http://www.cs.dartmouth.edu/ ~ac /Teach/ CS105-Winter05/Notes/kavathekar-scribe.pdf (BBT nhận bài: 28/03/2014, phản biện xong: 05/05/2014) ... thu thập khai thác chữ viết tắt Sau thu thập chữ viết tắt từ tệp văn từ internet, hệ thống tiến hành phân tích trích rút chữ viết tắt để cập nhật vào sở liệu chữ viết tắt Quá trình thu thập chữ. .. quy tắc cấu tạo chữ viết tắt Để nhận dạng thu thập tự động chữ viết tắt, tiến hành nghiên cứu quy tắt cấu tạo chữ viết tắt Theo kết nghiên cứu từ tài liệu [3][3][4][5], chữ viết tắt cấu tạo dạng... dụng chữ viết tắt là: từ điển cho phép tra cứu chữ viết tắt trực tuyến chương trình tích hợp tra cứu hỗ trợ gõ tắt 127 Trong báo này, tập trung vào việc thu thập xây dựng sở liệu chữ viết tắt