THỰC NGHIỆM XằY DỰNG AMES

Một phần của tài liệu NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT (Trang 67)

CHƯƠNG 1 VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT

2.4. THỰC NGHIỆM XằY DỰNG AMES

Trởn cơ sở nghiởn cứu đọ thực hiện cõc chương 1, luận õn triển khai thực nghiệm xĩy dựng nguồn dữ liệu, cừng cụ phần mềm, từng bước hớnh thỏnh nởn AMES.

2.4.1. Xĩy dựng nguồn tỏi nguyởn chữ viết tắt tiếng Việt

Xĩy dựng kho ngữ liệu CVT tiếng Việt, bao gồm phĩn tợch thiết kế CSDL, triển khai cỏi đặt để thu thập dữ liệu CVT thủ cừng, tự động từ mừi trường Internet.

Đề xuất giải phõp vỏ xĩy dựng thuật tõn cập nhật tự động CVT mới từ mừi trường Internet, tiếp tục cập nhật dữ liệu theo kịp sự biến động, tạo sinh mới CVT trong thực tiễn.

Thực hiện biởn tập dữ liệu, chuyởn ngữ dữ liệu CVT tiếng Việt thừng dụng sang tiếng Anh, lưu trữ vỏ cừng bố dữ liệu CVT.

2.4.2. Xĩy dựng cừng cụ khai thõc chữ viết tắt

Triển khai thực nghiệm xĩy dựng cừng cụ khai thõc CVT, bao gồm:

Xĩy dựng cõc cừng cụ ứng dụng CVT vỏo chỉ mục tớm kiếm, khai thõc CSDL chuyởn ngỏnh, ứng dụng CVT vỏo bộ mọ chuyởn ngỏnh, đề xuất bộ mọ danh mục quốc gia.

Xĩy dựng thư viện CVT cung cấp cho NSD. Xĩy dựng cừng cụ tư vấn đặt CVT thương hiệu (brandname) cho doanh nghiệp.

Xĩy dựng từ điển tra cứu trực tiếp chữ viết tắt trởn mõy di động, thực hiện đồng bộ dữ liệu giữa website thư viện CVT vỏ từ điển CVT trởn mõy di động.

Cõc kết quả xĩy dựng cừng cụ khai thõc CVT sẽ từng bước minh họa thực nghiệm xĩy dựng hệ thống khai thõc chữ viết tắt AMES.

2.4.3. Xĩy dựng giải phõp xử lý nhập nhằng chữ viết tắt

Luận õn tiếp cận cõc hướng xử lý nhập nhằng CVT tiếng Việt:

Hướng thứ nhất, xử lý nhập nhằng CVT thực nghiệm văn bản trong lĩnh vực chuyởn ngỏnh viễn thừng: xĩy dựng vị từ vỏ hỏm nhận diện CVT trong văn bản; đề xuất xĩy dựng cơ sở luật, thuật tõn nhận diện vỏ xử lý nhập nhằng CVT.

Hướng tiếp cận khõc để xử lý nhập nhằng lỏ đề xuất dựa vỏo phương phõp thống kở chỉ số tần suất xuất hiện CVT. Chỉ số tần suất xuất hiện CVT cũng lỏ cơ sở cho phờp một cõch tiếp cận xử lý nhập nhằng ngữ nghĩa vỏ nhận diện CVT.

2.5. TểM TẮT CHƯƠNG 2

Chương nỏy đọ nghiởn cứu đề xuất được 9 quy tắc hớnh thỏnh, 6 đặc điểm hớnh thỏnh CVT vỏ chỉ ra những yếu tố ảnh hưởng đến hớnh thỏnh CVT tiếng Việt.

Đĩy lỏ cơ sở cho việc xõc định cõc quy tắc cấu tạo vỏ sử dụng CVT tiếng Việt mỏ từ trước đến nay chưa được cõc nhỏ khoa học nghiởn cứu vỏ tổng hợp đầy đủ. Đồng thời kết quả nỏy cũng cho thấy được CVT tiếng Việt được hớnh thỏnh ngay trong chợnh ngừn ngữ tiếng Việt (nội sinh), cũng được hớnh thỏnh bằng cõch vay mượn từ tiếng nước ngoỏi (ngoại nhập), hoặc hớnh thỏnh bằng cõch kết hợp giữa nội sinh vỏ ngoại nhập.

Cõc nghiởn cứu trởn cún cho thấy sự biến động vỏ phõt triển của CVT tiếng Việt lỏ rất lớn, cần thiết phải xĩy dựng kho ngữ liệu CVT tiếng Việt.

Chương nỏy đọ đề xuất xĩy dựng được mừi trường AMES nhằm khai thõc CVT. Trong cõc chương tiếp theo sẽ trớnh bỏy kết quả thực nghiệm vỏ những đụng gụp cho mừi trường AMES.

CHƯƠNG 3.

XằY DỰNG NGUỒN TáI NGUYấN CHỮ VIẾT TẮT

Trong chương nỏy sẽ trớnh bỏy về xĩy dựng cơ sở dữ liệu CVT, cõc giải phõp thu thập dữ liệu từ nhiều nguồn dữ liệu khõc nhau, đề xuất vỏ triển khai thuật tõn tớm kiếm CVT trởn Internet.

Từ CSDL thu thập được, chương nỏy tiếp tục trớnh bỏy đề xuất một số ứng dụng th thực nghiệm trong ngỏnh Viễn thừng, CNTT.

3.1. XằY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT

Cở sở dữ liệu CVT tiếng Việt gồm cõc mục từ lỏ cõc chữ viết tắt, gọi tắt lỏ

mục từ viết tắt (MTVT). Mỗi MTVT bao gồm cõch phõt ĩm, nghĩa tiởu biểu tiếng

Anh, nghĩa tiếng Việt, lĩnh vực chuyởn mừn, một số vợ dụ sử dụng, nguồn gốc, xuất xứ CVT, chỉ dẫn sử dụng liởn quan (nếu cụ). Cõc MTVT cụ thể cụ nhiều nghĩa khõc nhau tỳy theo lĩnh vực sử dụng. Luận õn tiến hỏnh phĩn lớp, phĩn loại CVT theo lĩnh vực sử dụng.

3.1.1. Mừ hình quan hệ dữ liệu

Ứng dụng lý thuyết cơ sở dữ liệu [20] để xĩy dựng CSDL chợnh với cõc thừng tin chi tiết:

Cở sở dữ liệu CVT chứa thừng tin về CVT gồm thừng tin số thứ tự của CVT, CVT, phiởn ĩm (để cụ thể đọc được dễ dỏng). Thực thể PhanLop dỳng phĩn lớp theo loại hớnh, lĩnh vực gồm thừng tin mọ lớp, tởn phĩn lớp; NguonCVT gồm cõc thừng tin nguồn gốc cập nhật CVT, ngỏy cập nhật của người cập nhật trực tuyến hay địa chỉ trang web; NgonNgu gồm cõc thừng tin ngừn ngữ CVT lỏ tiếng Việt, tiếng Anh, hay mở rộng ra ngừn ngữ khõc; HinhThuc gồm cõc thừng tin hớnh thức hớnh thỏnh, tạo sinh CVT theo nhưng quy tắc nỏo, cụ thể giỷp thống kở, đõnh giõ tần số, tần suất xuất hiện hay dỳng cho việc phĩn loại, xử lý dữ liệu CVT. Ngoỏi ra, cún cụ bảng dữ liệu trung gian được xĩy dựng để phục vụ cho việc cập nhật dữ liệu, lỏm giỏu kho dữ liệu. Mừ hớnh quan hệ dữ liệu được biểu diễn bằng lược đồ quan hệ hớnh 3.1. dưới đĩy:

NgonNgu MaNN TenNN ... NguonCVT Nguon_ID MaCN HoTen DiaChi ...... n-1 CVT CVT_ID CVT 1-n PhienAm n-1 MaLop MaCN MaNN MaHT HinhThuc 1-n MaHT Nghia Vidu … PhanLop MaLop TenLop ...

Hớnh 3.1: Mừ hớnh quan hệ dữ liệu kho ngữ liệu CVT tiếng Việt.

Vợ dụ như mục từ viết tắt KCS cụ mọ ngừn ngữ (01) lỏ tiếng Việt, cụ 2 nghĩa tiếng Việt: nghĩa “Kiểm tra Chất lượng Sản phẩm” (phĩn lớp lĩnh vực sản xuất, thương mại), nghĩa “Kinh cầu siởu” (phĩn lớp lĩnh vực từn giõo). Trong tiếng Anh (mọ 02), mục từ viết tắt KCS cụ hơn 20 nghĩa khõc nhau, chẳng hạn như: nghĩa “Knowledge-Centered Support” trong lĩnh vực khoa học cừng nghệ, nghĩa “King's

Cross Station (London, UK)” trong lĩnh vực văn hụa36… Cõc bảng dữ liệu CVT tiếng Việt, tiếng Anh chi tiết được trớnh bỏy trong trong phần phụ lục 2.

3.1.2. Triển khai cỏi đặt

Để thống nhất với cõch lựa chọn cừng cụ xĩy dựng CSDL lỏ MySQL vỏ PHP nhằm xĩy dựng cõc ứng dụng phỳ hợp với cừng nghệ, thiết bị vỏ cõc ứng dụng hiện cụ, ta xĩy dựng mừ hớnh CSDL theo cõch tổ chức dữ liệu MySQL với sự trợ giỷp của phần mềm SQLyog vỏ Navicat premium. Trởn cơ sở mừ hớnh logic dữ liệu vỏ cõc bảng thuộc tợnh, ta xĩy dựng cơ sở dữ liệu cho CVT tiếng Việt bằng MySQL cụ tởn lỏ dulieucvt gồm cõc bảng: cvts (dữ liệu CVT), phanlop (cún gọi lĩnh vực hay phĩn lớp CVT), nguoncncvt (nguồn cập nhật CVT), ngonngu (ngừn ngữ CVT) cụ quan hệ với nhau như hớnh 3.2:

Hớnh 3.2. Quan hệ giữa cõc CSDL chữ viết tắt.

Bảng CVTs chứa thừng tin về CVT gồm trường số thứ tự của CVT, trường CVT, trường PhienAm (phiởn ĩm) để cụ thể đọc được dễ dỏng. Trường MaLop (mọ lớp) vỏ trường MaCN (mọ cập nhật) lỏ hai khõ ngoỏi liởn kết với hai bảng phanlopcvt vỏ

nguoncncvt tương ứng... Bảng CVTs chứa tất cả CVT cụ được để khai thõc vỏ tiếp tục

cập nhật.Bảng phanlopcvt liệt kở cõc lớp CVT gồm MaLop (mọ lớp) vỏ TenLop (tởn lớp). Bảng nguoncncvt chứa cõc trường mọ cập nhật, họ tởn, e-

mail, mật khẩu... ngỏy cập nhật của người cập nhật trực tuyến CVT vỏ nguồn cập nhật hay địa chỉ trang web.

Ngoỏi ra, con cụ cõc bảng dữ liệu trung gian được xĩy dựng để phục vụ cho việc cập nhật dữ liệu, lỏm giỏu kho dữ liệu.Bảng thuthapviet phục vụ cho việc cập nhật trực tuyến, lỏm giỏu kho dữ liệu CVT tiếng Việt của NSD trởn mạng Internet. Bảng bao gồm cõc trường tương tự như bảng cvtviet (phụ lục 2). Bảng tttdviet phục vụ cho việc cập nhật tự động lỏm giỏu kho dữ liệu CVT tiếng Việt trởn Internet hoặc từ cõc tập tin văn bản. Bảng gồm cõc trường: cvt (chữ viết tắt), Cau (cĩu hay cụm từ đầy đủ của CVT), Doan (đoạn văn bản chứa cĩu hay cụm từ viết tắt),

NguonURL, GhiChu (nguồn gốc CVT, website hay tập tin...), Ngay (ngỏy thu thập

được CVT), MaCN (mọ cập nhật của người biởn tập) - khõ ngoỏi liởn kết với bảng

nguoncncvt (phụ lục 2).

Để đảm bảo an toỏn dữ liệu, tợnh chợnh xõc của thuật ngữ viết tắt, dữ liệu lưu ở cõc bảng trung gian được biởn tập lại sau đụ mới đưa vỏo sử dụng chợnh thức trong bảng cvts. Kết quả xĩy dựng, cỏi đặt CSDL như hớnh 3.2.

3.2. GIẢI PHạP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT3.2.1. Thu thập dữ liệu thủ cừng 3.2.1. Thu thập dữ liệu thủ cừng

Giải phõp cập nhật thủ cừng thường được sử dụng để cập nhật dữ liệu khi xĩy dựng bất kỳ một hệ thống CSDL nỏo. Nguồn dữ liệu được thu thập từ cõc nguồn khõc nhau như sõch, từ điển, bõo, tạp chợ, văn bản phõp quy, bõo cõo khoa học, hay

từ thực tiễn cuộc sống…Cụ chỷ ý lưu lại nguồn tham khảo CVT, người cập nhập,

người biởn tập dữ liệu. Phương phõp thực hiện:

Trước đĩy, sử dụng hệ soạn thảo văn bản Winword để tiến hỏnh cập nhật vỏ kiểm tra thủ cừng nội dung hệ thống CVT theo từng lĩnh vực sử dụng khõc nhau. Cõc CSDL của CVT trong Winword được xĩy dựng trước khi cập nhật cụ cấu trỷc dạng mẫu văn bản (document template) đọ được phõt triển ở Khoa CNTT, Đại học Đỏ Nẵng [44][45]. Từ cõc CSDL văn bản Winword, tiếp tục chuyển đổi qua dạng XML hoặc dạng CSDL khai thõc sử dụng bằng MySQL.

Do số lượng CVT lớn, phĩn ra nhiều lĩnh vực khõc nhau, để từng bước lỏm đầy kho ngữ liệu CVT, đối với những CVT phõt sinh trong thực tiễn, hiện nay ta sử dụng cõch cập nhật trực tuyến thủ cừng bởi hệ thống website hoỏn chỉnh, thực hiện quản trị vỏ biởn tập cập nhật, tiến đến cung cấp cho NSD cập nhật trực tuyến. Cõch thu thập thừng tin trực tuyến lỏ cõch huy động nguồn lực vỏ trợ tuệ tập thể nhiều người để lỏm giỏu kho dữ liệu.

3.2.2. Thu thập dữ liệu tự động

Từ kết quả cập nhật thủ cừng, trực tuyến nởu trởn, tiếp tục lỏm giỏu CSDL của CVT một cõch tự động từ mừi trường Internet hoặc cõc tập tin dữ liệu đọ cụ. Đĩy lỏ giải phõp cập nhật tự động dữ liệu. Giải phõp cập nhật tự động giới hạn trong việc tớm kiếm những CVT mới tiếng Việt.

Nguồn dữ liệu được thu thập từ cõc website trởn mạng Internet, cõc tập tin dữ liệu dạng *. HTM, tập tin dữ liệu văn bản phổ biến như *.DOC. Cụ lưu lại nguồn tham khảo, trợch dẫn CVT, người cập nhập, người biởn tập dữ liệu.

Phương phõp thực hiện: Dựa vỏo cõc dấu hiệu nhận biết CVT trong một văn

bản, trợch lọc ra cõc CVT mới để bổ sung vỏo CSDL. Hai phương phõp đề xuất:

1) Cập nhật CVT mới từ tập tin văn bản DOC

Dữ liệu văn bản hiện nay được soạn thảo vỏ lưu giữ rất phổ biến bởi phần mềm Winword. Việc thu thập CVT mới từ cõc văn bản word lỏ khả thi. Cụ thể thực hiện giải phõp thu thập cõc CVT mới từ trong cõc tập tin văn bản *.DOC. Thay vớ phải tớm từng cụm từ viết tắt, phương phõp đề xuất lỏ “bõn tự động”, dựa vỏo Macro vỏ lập trớnh VBA để thực nghiệm. Bằng cõch mở tập tin Word, thực hiện một Marcro chọn lọc cõc cụm từ trong cặp dấu ngoặc đơn (...), đưa về một bảng, từ đụ tiếp tục biởn tập, chuyển đổi thỏnh dữ liệu CVT chợnh thức. Macro nỏy sẽ thực hiện cõc bước theo thuật tõn đọ chỉ định như mục 1, phần phụ lục 3).

2) Cập nhật CVT mới tự đự̀ng từ Internet

Luận õn nghiởn cứu, phõt triển mõy tớm kiếm CVT dựa vỏo cừng cụ mõy tớm kiếm đọ được giới thiệu nguyởn lý trong [11]. Ý tưởng hoạt động như sau: mõy tớm kiếm CVT nhận một danh sõch URL, gửi yởu cầu đến Web Server vỏ nhận lại một

trang HTML tương ứng với mỗi URL (tương tự chức năng View Source trong trớnh duyệt Internet Explorer).

Bước tiếp theo, chương trớnh sẽ phĩn tợch nội dung tập tin dạng HTML. Vận dụng cõc hỏm chức năng của cõc ngừn ngữ lập trớnh cụ hỗ trợ ứng dụng biểu thức chợnh quy (Regular Expressions) để loại bỏ cõc thẻ HTML vỏ cõc thẻ khõc, chuyển tập tin về dạng đơn giản hơn. Tiếp theo lỏ xử lý tập tin theo kiểu xử lý chuỗi để bục tõch nội dung văn bản cần tớm, lọc ra CVT mới để lưu vỏo CSDL, so sõnh với CVT trong CSDL để lưu giữ hoặc khừng, hoặc cụ những đõnh giõ cần thiết khõc. Thuật tõn mừ tả hoạt động của mõy tớm kiếm CVT trong mừi trường Internet như sau:

Mừ tả thuật tõn tớm kiếm CVT mới: Thuật tõn sẽ thực hiện 4 vúng lặp:

(1) Vúng lặp thứ nhất mở tập tin trong danh sõch liởn kết tớm thấy của URL. (2) Với mỗi tập tin được mở, vúng lặp thứ 2 đọc từng đoạn văn bản. Nếu nhận

thấy đoạn văn bản nỏo cụ dấu hiệu CVT nằm trong cặp dấu (...) thớ thực hiện vúng lặp thứ 3 đọc từng cĩu trong đoạn.

(3) Với mỗi cĩu được đọc, nếu nhận thấy cĩu văn bản nỏo cụ dấu hiệu CVT nằm trong cặp dấu (...) thớ thực hiện vúng lặp thứ 4 xờt chọn lấy cõc cụm từ nằm trong (...).

(4)Với mỗi một cụm từ được chọn (...), dỳng cõc dấu hiệu nhận biết CVT để loại bỏ cõc cụm từ khừng lỏ CVT để trợch chọn ra CVT. Từ đụ trợch chọn ra nghĩa của CVT lỏ gớ, trợch chọn ra cĩu hay đoạn chứa CVT, so sõnh CVT tớm được với dữ liệu đọ biởn tập, chưa biởn tập. Lưu vỏo CSDL vỏ in ra mỏn hớnh

kết quả tớm kiếm CVT.

Sau đụ biởn tập vỏ lưu chợnh thức vỏo kho ngữ liệu CVT.

3.2.3. Đở̀ xuĩ́t thuật tõn SENVA tìm kiếm chữ viết tắt mới

Ý tưởng thuật tõn: Mõy tớm kiếm CVT nhận một URL, gửi yởu cầu đến Web Server, nhận lại một trang HTML tương ứng với mỗi URL; xử lý tập tin theo kiểu xử lý chuỗi để bục tõch nội dung văn bản cần tớm, lọc ra CVT mới, so sõnh với CVT trong CSDL để lưu hoặc khừng, hoặc cụ những đõnh giõ cần thiết khõc, thuật tõn đặt tởn lỏ SENVA - mõy tớm kiếm chữ viết tắt tiếng Việt mới (Search Engines for New Vietnamese Abbreviations).

Thuật tõn: SENVA

Input : Địa chỉ URL

Output : Dữ liệu CVT nhận được bảng TTTDVIET Begin

Kết nối vỏ mở cõc CSDL lỏm việc trung gian

Xõc định URL lỏm việc

Xõc định DanhSach cõc liởn kết trởn URL để tớm kiếm CVT Khởi động bộ đếm CVT, cõc biến đõnh giõ CVT

Repeat

Open một tệp HTML/PHP trong DanhSach Read nội dung tệpHTML vỏ xử lý bục tõch: Repeat

Read từng đoạn trong tệp gõn vỏo biến Doan

If <Doan cụ dấu hiệu CVT, cụ cặp dấu “(“ hoặc dấu “)” >

Xõ bỏ khoảng trắng đầu cuối Xõ bỏ cõc thẻ HTML, PHP

Bục tõch dữ liệu

Trợch cõc cĩu trong Doan gõn vỏo biến MotCau

Repeat

If <MotCau cụ dấu hiệu CVT trong cặp dấu (...)>

Trợch CVT nằm trong (...) gõn cho TuDuocChon

Repeat

If <TuDuocChon thoả dấu hiệu lỏ CVT>

- Trợch ra được CVT, trợch chọn nghĩa của CVT

- Trợch chọn cĩu chứa CVT, So sõnh với CSDL đọ biởn tập, chưa biởn tập

- Lưu vỏo CSDL trung gian, cập nhật bộ đếm - In ra mỏn hớnh tham khảo

endif

Until <Khừng cún TuDuocChon trong MotCau> Endif

Until <Khừng cún MotCau trong Doan> Endif

Until <khừng cún Doan (kết thỷc một tệp)> Until <Khừng cún tệp HTML>

Đõnh giõ thuật tõn SENVA

Thuật tõn xử lý nội dung tập tin dưới dạng chuỗi, ký tự; sử dụng bốn vúng lặp lồng nhau cụ cõc điều kiện kết thỷc lần lượt lỏ: khi khừng cún một cụm từ được

trợch chọn trong một cĩu (danh sõch cĩu lỏ hữu hạn), khi khừng cún một cĩu trong một đoạn (danh sõch đoạn lỏ hữu hạn), khi khừng cún đoạn văn bản trong tệp vỏ khi khừng cún tệp trong danh sõch hữu hạn cõc tệp đảm bảo tợnh kết thỷc giải thuật.

Đõnh giõ độ phức tạp thuật tõn: Do sử dụng bốn vúng lặp lồng nhau, độ phức tạp của thuật tõn lỏ O(n4). Tuy nhiởn, vúng lặp trong cỳng (thứ 4) cụ chứa lệnh so sõnh CVT tớm được với CSDL đọ cụ, tương ứng như một vúng lặp duyệt cõc mẩu tin trong CSDL, sẽ lỏm tăng độ phức tạp giải thuật thỏnh O(n5); cần cải tiến thuật giải theo hướng loại bỏ sự so sõnh trực tiếp mỗi CVT tớm được với CSDL đọ cụ.

3.2.4. Thực nghiệm cỏi đặt thuật tõn SENVA

Chương trớnh cỏi đặt bởi cõc mọ lệnh PHP, cõc thẻ HTML trong trang web

thuthapv5.php với mọ nguồn chi tiết trởn website [74]. Ở đĩy luận õn chỉ trớnh bỏy

Một phần của tài liệu NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT (Trang 67)