XằY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT

Một phần của tài liệu NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT (Trang 70 - 73)

CHƯƠNG 3 XằY DỰNG NGUỒN TáI NGUYấN CHỮ VIẾT TẮT

3.1. XằY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT

Cở sở dữ liệu CVT tiếng Việt gồm cõc mục từ lỏ cõc chữ viết tắt, gọi tắt lỏ

mục từ viết tắt (MTVT). Mỗi MTVT bao gồm cõch phõt ĩm, nghĩa tiởu biểu tiếng

Anh, nghĩa tiếng Việt, lĩnh vực chuyởn mừn, một số vợ dụ sử dụng, nguồn gốc, xuất xứ CVT, chỉ dẫn sử dụng liởn quan (nếu cụ). Cõc MTVT cụ thể cụ nhiều nghĩa khõc nhau tỳy theo lĩnh vực sử dụng. Luận õn tiến hỏnh phĩn lớp, phĩn loại CVT theo lĩnh vực sử dụng.

3.1.1. Mừ hình quan hệ dữ liệu

Ứng dụng lý thuyết cơ sở dữ liệu [20] để xĩy dựng CSDL chợnh với cõc thừng tin chi tiết:

Cở sở dữ liệu CVT chứa thừng tin về CVT gồm thừng tin số thứ tự của CVT, CVT, phiởn ĩm (để cụ thể đọc được dễ dỏng). Thực thể PhanLop dỳng phĩn lớp theo loại hớnh, lĩnh vực gồm thừng tin mọ lớp, tởn phĩn lớp; NguonCVT gồm cõc thừng tin nguồn gốc cập nhật CVT, ngỏy cập nhật của người cập nhật trực tuyến hay địa chỉ trang web; NgonNgu gồm cõc thừng tin ngừn ngữ CVT lỏ tiếng Việt, tiếng Anh, hay mở rộng ra ngừn ngữ khõc; HinhThuc gồm cõc thừng tin hớnh thức hớnh thỏnh, tạo sinh CVT theo nhưng quy tắc nỏo, cụ thể giỷp thống kở, đõnh giõ tần số, tần suất xuất hiện hay dỳng cho việc phĩn loại, xử lý dữ liệu CVT. Ngoỏi ra, cún cụ bảng dữ liệu trung gian được xĩy dựng để phục vụ cho việc cập nhật dữ liệu, lỏm giỏu kho dữ liệu. Mừ hớnh quan hệ dữ liệu được biểu diễn bằng lược đồ quan hệ hớnh 3.1. dưới đĩy:

NgonNgu MaNN TenNN ... NguonCVT Nguon_ID MaCN HoTen DiaChi ...... n-1 CVT CVT_ID CVT 1-n PhienAm n-1 MaLop MaCN MaNN MaHT HinhThuc 1-n MaHT Nghia Vidu … PhanLop MaLop TenLop ...

Hớnh 3.1: Mừ hớnh quan hệ dữ liệu kho ngữ liệu CVT tiếng Việt.

Vợ dụ như mục từ viết tắt KCS cụ mọ ngừn ngữ (01) lỏ tiếng Việt, cụ 2 nghĩa tiếng Việt: nghĩa “Kiểm tra Chất lượng Sản phẩm” (phĩn lớp lĩnh vực sản xuất, thương mại), nghĩa “Kinh cầu siởu” (phĩn lớp lĩnh vực từn giõo). Trong tiếng Anh (mọ 02), mục từ viết tắt KCS cụ hơn 20 nghĩa khõc nhau, chẳng hạn như: nghĩa “Knowledge-Centered Support” trong lĩnh vực khoa học cừng nghệ, nghĩa “King's

Cross Station (London, UK)” trong lĩnh vực văn hụa36… Cõc bảng dữ liệu CVT tiếng Việt, tiếng Anh chi tiết được trớnh bỏy trong trong phần phụ lục 2.

3.1.2. Triển khai cỏi đặt

Để thống nhất với cõch lựa chọn cừng cụ xĩy dựng CSDL lỏ MySQL vỏ PHP nhằm xĩy dựng cõc ứng dụng phỳ hợp với cừng nghệ, thiết bị vỏ cõc ứng dụng hiện cụ, ta xĩy dựng mừ hớnh CSDL theo cõch tổ chức dữ liệu MySQL với sự trợ giỷp của phần mềm SQLyog vỏ Navicat premium. Trởn cơ sở mừ hớnh logic dữ liệu vỏ cõc bảng thuộc tợnh, ta xĩy dựng cơ sở dữ liệu cho CVT tiếng Việt bằng MySQL cụ tởn lỏ dulieucvt gồm cõc bảng: cvts (dữ liệu CVT), phanlop (cún gọi lĩnh vực hay phĩn lớp CVT), nguoncncvt (nguồn cập nhật CVT), ngonngu (ngừn ngữ CVT) cụ quan hệ với nhau như hớnh 3.2:

Hớnh 3.2. Quan hệ giữa cõc CSDL chữ viết tắt.

Bảng CVTs chứa thừng tin về CVT gồm trường số thứ tự của CVT, trường CVT, trường PhienAm (phiởn ĩm) để cụ thể đọc được dễ dỏng. Trường MaLop (mọ lớp) vỏ trường MaCN (mọ cập nhật) lỏ hai khõ ngoỏi liởn kết với hai bảng phanlopcvt vỏ

nguoncncvt tương ứng... Bảng CVTs chứa tất cả CVT cụ được để khai thõc vỏ tiếp tục

cập nhật.Bảng phanlopcvt liệt kở cõc lớp CVT gồm MaLop (mọ lớp) vỏ TenLop (tởn lớp). Bảng nguoncncvt chứa cõc trường mọ cập nhật, họ tởn, e-

mail, mật khẩu... ngỏy cập nhật của người cập nhật trực tuyến CVT vỏ nguồn cập nhật hay địa chỉ trang web.

Ngoỏi ra, con cụ cõc bảng dữ liệu trung gian được xĩy dựng để phục vụ cho việc cập nhật dữ liệu, lỏm giỏu kho dữ liệu.Bảng thuthapviet phục vụ cho việc cập nhật trực tuyến, lỏm giỏu kho dữ liệu CVT tiếng Việt của NSD trởn mạng Internet. Bảng bao gồm cõc trường tương tự như bảng cvtviet (phụ lục 2). Bảng tttdviet phục vụ cho việc cập nhật tự động lỏm giỏu kho dữ liệu CVT tiếng Việt trởn Internet hoặc từ cõc tập tin văn bản. Bảng gồm cõc trường: cvt (chữ viết tắt), Cau (cĩu hay cụm từ đầy đủ của CVT), Doan (đoạn văn bản chứa cĩu hay cụm từ viết tắt),

NguonURL, GhiChu (nguồn gốc CVT, website hay tập tin...), Ngay (ngỏy thu thập

được CVT), MaCN (mọ cập nhật của người biởn tập) - khõ ngoỏi liởn kết với bảng

nguoncncvt (phụ lục 2).

Để đảm bảo an toỏn dữ liệu, tợnh chợnh xõc của thuật ngữ viết tắt, dữ liệu lưu ở cõc bảng trung gian được biởn tập lại sau đụ mới đưa vỏo sử dụng chợnh thức trong bảng cvts. Kết quả xĩy dựng, cỏi đặt CSDL như hớnh 3.2.

Một phần của tài liệu NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT (Trang 70 - 73)

Tải bản đầy đủ (DOC)

(169 trang)
w