ĐạNH GIạ KẾT QUẢ

Một phần của tài liệu NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT (Trang 86)

CHƯƠNG 3 XằY DỰNG NGUỒN TáI NGUYấN CHỮ VIẾT TẮT

3.4.ĐạNH GIạ KẾT QUẢ

3.4.1. Kết quả xĩy dựng kho ngữ liệu chữ viết tắt

Qũ trớnh cập nhật tự động CVT vỏ biởn tập kiểm tra thủ cừng nội dung, đến thời điểm nỏy được thống kở số lượng CVT tiếng Việt hiện cụ trong CSDL như bảng 3.7 với cõc phĩn tợch kết quả dưới đĩy.

Phĩn tích kết quả: Trong kết quả gần 7.000 CVT thu thập được thống kở, cập

nhật tự động mới chỉ đạt 60%, tuy cụ nhiều loại CVT phõt sinh vỏ biến động khừng ngừng. Tỷ lệ cập nhật tự động sẽ ngỏy cỏng ợt đi do CVT trỳng lặp đọ lưu trữ trong CSDL. Lĩnh vực giõo dục - đỏo tạo cụ CVT khõ lớn, chủ yếu cõc CVT liởn quan đến mọ trường học, mọ ngỏnh nghề... Lĩnh vực CNTT vỏ truyền thừng cũng cụ lượng CVT khõ nhiều, cụ sự phõt triển mạnh cõc thuật ngữ viết tắt. Việc cập nhật thủ cừng sẽ cụ tỷ lệ dần tăng lởn do sử dụng website, khuyến khợch NSD cập nhật.

Bảng 3.7. Thống kở kết quả dữ liệu chữ viết tắt

cập cập Tỷ lệ %

nhật Tổng

Loại Chữ viết tắt thuự̀c lĩnh vực thủ nhật tự cự̀ng cập nhật

đự̀ng Tự đự̀ng cừng 1 Cừng nghệ thừng tin vỏ truyền thừng 754 350 1104 32% 2 Chợnh phủ, tổ chức chợnh trị xọ hội 301 120 421 29% 3 Khoa học cừng nghệ, kỹ thuật 273 253 526 48% 4 Quĩn sự 202 120 322 37% 5 Y học 253 255 508 50% 6 Giõo dục 301 2.378 2.679 89% 7 Tỏi chợnh, thương mại 403 140 543 26% 8 Tỏi nguyởn mừi trường 163 130 293 44% 9 Giao tiếp cộng đồng 121 125 246 51%

10 Từn giõo 0 150 150 100%

11 Tởn riởng 0 75 75 100%

12 Khõc 0 120 120 100%

Tổng cộng 2.771 4.216 6.987 60%

So sõnh với cơ sở dữ liệu CVT tiếng Việt [13] đọ được Hội Ngừn ngữ học Việt Nam (ghi nhận được 1.151 đơn vị CVT39, với cõch lỏm thủ cừng, thiếu quản lý, cập

nhật thường xuyởn) thớ giải phõp cập nhật CVT nởu trởn đọ ghi nhận được 4.216 đơn vị CVT, bằng 366% so với [13]; bước đầu theo kịp sự phõt triển CVT trong thực tế vỏ xu hướng sử dụng CVT.

Đõnh giõ cõc phương phõp: Phương phõp cập nhật CVT mới từ tập tin Word:

Thay vớ phải tớm từng cụm từ viết tắt, phương phõp đề xuất lỏ “bõn tự động”, mở tập tin Word, thực hiện một Marcro chọn lọc cõc cụm CVT; việc thực hiện nỏy với dữ liệu tập tin Word sẵn cụ, số lượng cập nhật CVT sẽ khừng lớn. Phương phõp cập nhật CVT mới tự động từ Internet: cho thấy cập nhật tự động chỉ giới hạn trong việc

tớm kiếm CVT mới tiếng Việt. Số CVT mới được cập nhật tự động cún rất khiởm tốn, tỷ lệ cỏng ngỏy sẽ cỏng ợt đi do CSDL được lỏm giỏu bằng nhiều phương phõp vỏ đọ cụ CSDL. Một trong những nguồn CVT từ người sử dụng, do đụ cần phải cụ giải phõp cập nhật trực tuyến để cụ kho ngữ liệu CVT phong phỷ hơn.

Đõnh giõ cỏi đặt chương trớnh: Do chương trớnh chạy trực tuyến trởn

Internet, nởn cần cải tiến để tăng tốc độ xử lý: cụ thể bỏ qua việc so sõnh từng CVT tớm được với CVT cụ trong CSDL đọ biởn tập để giảm bớt việc truy nhập CSDL. Việc so sõnh, đối chiếu CVT cụ thể thực hiện được ở tại mõy tợnh đơn. Cần thiết phải xĩy dựng một hệ thống website thư viện CVT cung cấp chức năng vừa cho phờp tra cứu, sử dụng CVT, vừa cho phờp cập nhật CVT. Đĩy cũng lỏ cõch thức tạo ra mừi trường sử dụng CVT ngỏy cỏng thuận lợi cho NSD.

Về ý nghĩa mở rộng thuật tõn SENVA, ý tưởng cập nhật CVT mới tự động từ Internet (mõy tớm kiếm CVT) cụ thể được mở rộng, phõt triển thỏnh mõy thống kở, đõnh giõ tần số, tần suất sử dụng CVT. Điều nỏy giỷp ợch cho việc biởn soạn những từ điển theo tần suất sử dụng, phục vụ cho việc đõnh giõ từ vựng tiếng Việt.

3.4.2. Kết quả ứng dụng khai thõc dữ liệu chữ viết tắt

Đõnh giõ kết quả: Bảng 3.8 thống kở số liệu tõc nghiệp thực tế sau khi sử

dụng giải phõp CVT trong CSDL 108 cụ so sõnh với trước khi sử dụng giải phõp đọ thực hiện trong mục 3.3:

Bảng 3.8. Thống kở số liệu sử dụng giải phõp CVT

Stt Nội dung Đơn vị Bớnh Sử dụng So sõnh thường CVT

1 Tớm kiếm TBT trởn DBĐT Cuộc 22.673 22.673 - 2 Thời gian xử lý/cuộc/ĐTV Giĩy 55 30 55% 3 Thời gian xử lý tớm tởn, địa chỉ trởn Giĩy 100 75 75%

DBĐT/cuộc

4 Khả năng ĐTV xử lý được số cuộc/ca trực Cuộc 220 293 133% 5 Thời gian tiết kiệm được khi gử bỏn phợm / Giĩy 0 25 -

cuộc / ĐTV

6 Số cuộc tăng lởn /cuộc/ĐTV Cuộc 0 73 -

Kết quả phĩn tợch sau khi so sõnh Bảng 3.1 vỏ Bảng 3.8: Tuy dung lượng dữ liệu của CSDL mới (bổ sung hai trường TBT, DCT) cụ tăng 32% so với trước, nhưng hoỏn toỏn phỳ hợp với năng lực mõy chủ hiện cụ. Thời gian gử phợm của mỗi ĐTV giảm đõng kể, chỉ cần 30 giĩy, thay vớ mất 55 giĩy trong hệ thống cũ, rỷt ngắn 45% thời gian. Với ca lỏm việc 8 giờ, ĐTV cụ trung bớnh 6 giờ nghe vỏ tớm kiếm thừng tin trởn CSDL, chỉ dỏnh 1,8 giờ gử bỏn phợm, xử lý được 293 cuộc, thay vớ mất 3,3 giờ gử bỏn phợm, chỉ xử lý được 220 cuộc. Mỗi ca trực cụ 14 ĐTV, thời gian tiết kiệm được tăng lởn 14 lần. Như vậy: hiệu năng tớm kiếm sử dụng trường CVT lỏm chỉ mục vỏ gử giõ trị CVT giỷp giảm thời gian gử phợm 45%; tăng hiệu năng lỏm việc ĐTV lởn 133%, lỏm tăng năng suất lao động, giảm thiểu tắc nghẽn.

Mở rự̀ng giải phõp: Những kết quả đạt được trong qũ trớnh xĩy dựng vỏ khai

thõc CSDL cụ sử dụng CVT cho phờp chỷng ta tiếp tục hoỏn thiện, từng bước đưa vỏo phục vụ khai thõc nhiều CSDL khõc trong ngỏnh viễn thừng như: danh bạ cố định, danh bạ di động..., đặc biệt khi thực hiện mở rộng Đỏi 108 Đỏ Nẵng cung cấp dịch vụ 108 cho toỏn khu vực miền Trung vỏ Tĩy Nguyởn với 20 tỉnh. Mở rộng ra đối với cõc CSDL khõc cho người chuyởn trõch tớm kiếm, tra cứu thừng tin: Tổng đỏi dịch vụ hỏnh chợnh cừng, CSDL hỗ trợ vỏ chăm sục khõch hỏng nhiều ngỏnh nghề

khõc nhau, danh mục sõch - tõc giả trong thư viện online... cụ thể õp dụng CVT lỏm trường chỉ mục tớm kiếm để tăng hiệu năng khai thõc, tăng năng suất lao động của người khai thõc thừng tin để phục vụ khõch hỏng.

Ngoỏi ra, cõc đề xuất ứng dụng CVT trong xĩy dựng CSDL danh mục vỏ ứng dụng CVT quy định bộ mọ chuyởn ngỏnh VT-CNTT nởu trởn nhằm mục đợch gụp phần chuẩn hụa dữ liệu cho CSDL danh mục, õp dụng cho nhiều ngỏnh, giỷp cho cừng tõc quản lý, lập trớnh, bảo trớ, bảo dưỡng phần mềm, mạng lưới vỏ sử dụng chương trớnh được thuận lợi.

3.5. TểM TẮT CHƯƠNG 3

Chương nỏy đọ xĩy dựng được cơ sở dữ liệu CVT; đề xuất thuật tõn SENVA; xĩy dựng ứng dụng vỏo CSDL chuyởn ngỏnh VT-CNTT.

Cõc nghiởn cứu trởn cụ thể mở rộng ra đối với cõc CSDL chuyởn trõch tớm kiếm, tra cứu thừng tin: Tổng đỏi dịch vụ hỏnh chợnh cừng, CSDL hỗ trợ vỏ chăm sục khõch hỏng nhiều ngỏnh nghề khõc nhau, thư viện online...; cụ thể õp dụng CVT lỏm trường chỉ mục tớm kiếm để tăng hiệu năng khai thõc, tăng năng suất lao động.

Nghiởn cứu trong chương nỏy, bước đầu đọ khẳng định được mối liởn hệ giữa lý thuyết ngừn ngữ học vỏ những ứng dụng trong ngỏnh VT-CNTT. Từ đụ cụ những so sõnh, đối chiếu vỏ kiểm nghiệm với những vấn đề lý thuyết đọ nghiởn cứu. Đồng thời qua đụ cũng đõnh giõ được hiệu quả thực tiễn ứng dụng CVT trong một số lĩnh vực vỏ lỏm cở sở cho bước nghiởn cứu tiếp theo trong luận õn.

CHƯƠNG 4.

XằY DỰNG CễNG CỤ KHAI THạC CHỮ VIẾT TẮT

Chương 4 đề xuất vỏ xĩy dựng hệ thống khai thõc CVT (AMES) cụ tợnh cộng đồng. Thừng qua AMES cõc nhỏ khoa học, NSD cụ thể tham gia cập nhật, kế thừa vỏ khai thõc.

Nội dung chương nỏy sẽ giới thiệu cừng cụ từ điển tra cứu CVT trởn mõy di động, hệ thống website vỏ cừng cụ tư vấn đặt tởn CVT thương hiệu (brandname) cho doanh nghiệp… minh họa một kết quả thực nghiệm xĩy dựng hệ thống khai thõc CVT.

4.1. XằY DỰNG THƯ VIỆN CHỮ VIẾT TẮT4.1.1. Lựa chọn cừng cụ lập trình 4.1.1. Lựa chọn cừng cụ lập trình

Để thống nhất với phần xĩy dựng CSDL trong hệ quản trị MySQL vỏ một số chương trớnh thu thập dữ liệu, ta tiếp tục chọn PHP để xĩy dựng thực nghiệm ứng dụng web khai thõc dữ liệu CVT. Trong PHP, sử dụng biểu thức chợnh quy để thỏnh lập biểu thức, dỳng cõc hỏm hỗ trợ để xử lý chuỗi. Trang web động cụ sử dụng kỹ thuật AJAX (Asynchronous JavaScript and XML)40 để minh hoạ việc xử lý dữ liệu trởn giao diện web.

4.1.2. Thiết kế chương trình

Thiết kế giao diện: Cũng như CSDL, bộ mọ tiếng Việt Unicode cũng được lựa

chọn để thiết kế giao diện website. Chức năng của website:

- Cung cấp những thừng tin chung nghiởn cứu về CVT, kết quả tớm hiểu về CVT như lịch sử, quy tắc thỏnh lập;

- Tra cứu CVT theo hai dạng ngừn ngữ lỏ tiếng Anh vỏ tiếng Việt; - Cập nhật, thu thập dữ liệu CVT;

- Thống kở số lượng CVT;

- Quản trị bao gồm biởn tập, đăng ký thỏnh viởn... Mừ hớnh hoạt động website như hớnh 4.1.

Qũ trình xử lý Đầu vỏo CVT tiếng Tra cứu

Truy nhập Việt chợnh xõc trang web

Tracứu Tra cứu

CVT gần đỷng tiếng Anh CSDL Chữ viết tắt Đầu ra Khừng tớm thấy Giải thợch Người sử dụng

Hớnh 4.1. Mừ hớnh hoạt động của website tra cứu chữ viết tắt.

4.1.3. Kết quả xĩy dựng thư viện chữ viết tắt

Trang chủ đọ được thiết kế vỏ xĩy dựng với khung tiởu đề cụ liởn kết tra cứu CVT xếp theo vần A, B, C… để giỷp NSD tra cứu nhanh CVT theo vần.

Kết quả tra cứu được hiện thị ngay bởn dưới khung tra cứu, thuận lợi cho thao tõc tra cứu nhiều lần vỏ tăng hiệu năng tớm kiếm của khai thõc của NSD. Cõc chức năng cấu hớnh, tra cứu, biởn tập, cấu hớnh… minh họa trong cõc hớnh 2, 3, 4 trong phần phụ lục 5. Thư viện CVT cụ địa chỉ www.chuviettat.com , cung cấp cho NSD

Hớnh 4.2. Trang chủ website thư viện chữ viết tắt

4.2. CễNG CỤ TƯ VẤN CHỮ VIẾT TẮT THƯƠNG HIỆU4.2.1. Tin nhắn thương hiệu lỏ gì 4.2.1. Tin nhắn thương hiệu lỏ gì

Vỏi nờt về quy định đặt tởn doanh nghiệp: Theo quy định đặt tởn doanh

nghiệp41, tởn Tiếng Việt của doanh nghiệp bao gồm hai thỏnh tố như sau:

Loại hình doanh nghiệp + Tởn riởng

Trong đụ tởn riởng được viết bằng cõc chữ cõi trong bảng chữ cõi tiếng việt, cõc chữ F, J, Z, W, chữ số vỏ ký hiệu. Những điều cấm trong đặt tởn doanh nghiệp: Đặt tởn trỳng hoặt tởn gĩy nhầm lẫn với tởn của doanh nghiệp đọ đăng ký theo quy định; sử dụng tởn cơ quan nhỏ nước, đơn vị vũ trang nhĩn dĩn, tởn của tổ chức chợnh trị...; sử dụng từ ngữ, ký hiệu vi phạm truyền thống lịch sử, văn hụa, đạo đức vỏ thuần phong mỹ tục dĩn tộc.

Tin nhắn thương hiệu: Để quảng bõ vỏ giới thiệu sản phẩm hay dịch vụ,

doanh nghiệp thường sử dụng thương hiệu của mớnh trong ấn phẩm truyền thừng,

hoặc sử dụng tin nhắn đến mõy di động khõch hỏng thừng qua dịch vụ tin nhắn thương hiệu (Short Message Services Brandname), gọi tắt lỏ SMS BrandName. SMS BrandName lỏ một dịch vụ gửi tin nhắn hỏng loạt, cho phờp cõc doanh nghiệp cụ thể triển khai cõc chương trớnh tiếp thị vỏ chăm sục khõch hỏng một cõch hiệu quả với chi phợ thấp. Đặc điểm nổi bật của tin nhắn thương hiệu chợnh lỏ thương hiệu của Khõch hỏng được hiển thị tại mục người gửi (Sender) thay vớ một số điện thoại di động, qua đụ lỏm tăng mức độ nhận biết của khõch hỏng đối với thương hiệu doanh nghiệp [93]. Để sử dụng dịch vụ SMS Brandname, nhỏ cung cấp dịch vụ cần tư vấn cho doanh nghiệp chọn lựa cho mớnh một Brandname. Brandname thực chất lỏ CVT hiển thị trởn mõy di động khi khõch hỏng nhận tin nhắn, chợnh lỏ hớnh ảnh thương hiệu, lỏ “chợnh danh” của doanh nghiệp. Như vậy, việc đặt CVT lỏm Brandname, đại diện cho doanh nghiệp phụ thuộc vỏo "tởn doanh nghiệp". Tởn riởng bao giờ cũng nằm cuối của chuỗi tởn doanh nghiệp, đặc điểm nỏy giỷp ta nhận diện thỏnh phần tởn riởng để cụ tư vấn đặt tởn Brandname hợp lý.

Quy tắc đặt tởn SMS Brandname: Yởu cầu căn bản của Brandname lỏ giới

hạn trong 11 ký tự (cụ thể phải tận dụng tối đa 11 ký tự, hạn chế tối đa ký tự trống). Cần õp dụng cõc quy tắc tạo sinh CVT để đặt tởn Brandname, nhằm phản ảnh nhận diện thương hiệu của doanh nghiệp. Thực chất vấn đề đặt tởn thương hiệu Brandname lỏ dỳng CVT đại diện, trong CVT đụ cần hội đủ cõc yếu tố đại diện, trợ giỷp doanh nghiệp phõt triển thương hiệu.

4.2.2. Cõc bước xĩy dựng cừng cụ tư vĩ́n đặt tởn Brandname

Xĩy dựng cừng cụ tư vấn đặt tởn Brandname qua cõc bước:

1) Bước 1: Xĩy dựng CSDL quản trị Brandname; tợch hợp vỏo hệ thống

CSDL kho ngữ vựng chữ viết tắt.

2) Bước 2: Xĩy dựng quy tắc tạo sinh chữ viết tắt Brandname, mừ phỏng

dỳng cừng cụ lập trớnh tạo sinh.

3) Bước 3: Xĩy dựng cừng cụ phần mềm quản lý SMS Brandname, cừng cụ

tư vấn doanh nghiệp đặt tởn vỏ quản trị Brandname.

4) Bước 4: Triển khai õp dụng vỏo thực hiện hoạt động kinh doanh, cung

Trong cõc bước đụ, việc xĩy dựng cừng cụ tư vấn thừng minh đặt tởn

Brandname được đề xuất thực hiện theo quy trớnh: Khi cụ khõch hỏng hợp đồng sử

dụng brandname, nhỏ cung cấp dịch vụ tư vấn cõch đặt tởn bằng cõch gử tởn đầy đủ Doanh nghiệp/cừng ty... Chương trớnh tớm kiếm, so khớp trong CSDL, định vị tởn cừng ty gần đỷng với tởn cừng ty trong bảng Brandname, hiển thị ra Brandname, CVT vỏ khuyến nghị nởn trõnh đặt tởn trỳng với Brandname, CVT đọ cụ (vớ dễ gĩy nhầm lẫn). Sau đụ khuyến nghị vỏi cõch đặt tởn nỏo đụ khừng trỳng với cõc tởn đọ cụ trong CSDL chữ viết tắt vỏ Brandname đọ lưu trữ của cõc doanh nghiệp đọ cụ.

Sau đĩy lỏ đề xuất thuật tõn sử dụng tư vấn đặt tởn CVT lỏ Brandname.

4.2.3. Thuật tõn CSBCOM đặt tởn tin nhắn thương hiệu

Ý tưởng thuật tõn Tư vấn đặt tởn tin nhắn thương hiệu cho doanh nghiệp, cừng ty - Consultant SMS brandname to the company (CSBCOM):

1) Phĩn tợch chuỗi tởn doanh nghiệp thỏnh k chuỗi con: n1,.. nk.

2) Với từng chuỗi ni , tớm cõch đưa ra cõc CVT, bằng cõch học dữ liệu CVT trong một tập huấn luyện lưu trữ cõc CVT cụ thể cụ của chuỗi ni . Nếu đọ cụ cõc CVT thớ đưa ra sử dụng, nều khừng cụ cõc CVT, thớ thỏnh lập cõc CVT của chuỗi ni (theo cõc quy tắc hớnh thỏnh CVT); đồng thời lưu vỏo tập huấn luyện để sử dụng lần sau.

3) Sau khi xử lý từng chuỗi ni, thực hiện tổ hợp kết quả theo thứ tự cõc chuỗi n1,.. nk để đề xuất cõc CVT cụ thể cụ của chuỗi đầu vỏo.

4) So khớp trong bảng NGHIA_CVT_DATBIET để hiển thị cõc nghĩa tợch cực, nghĩa tiởu cực kèm theo, để giỷp NSD cụ thể cụ diễn dịch ý nghĩa tợch cực hay tiởu cực, từ đụ chọn lọc CVT lỏm cõc Brandname.

Thuật tõn 1: Tạo sinh tởn thương hiệu (CSBCOM)

Mừ tả: Nhận chuỗi vỏo lỏ tởn doanh nghiệp, tư vấn đặt tởn thương hiệu lỏ

cõc CVT cho doanh nghiệp sử dụng tin nhắn quảng bõ, giới thiệu, chăm sục khõch hỏng.

Input:

+ Chuỗi tởn Doanh nghiệp/Cừng ty; địa phương, lĩnh vực + Tập cõc CVT cụ nghĩa đặc biệt: NGHIA_CVT_DACBIET + Kho ngữ liệu CSDL cõc Chữ viết tắt: CVTS

Output:

+ Hiển thị khung cửa số cõc CVT lỏ cõc tởn Brandname

Một phần của tài liệu NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT (Trang 86)