Kết quả thực nghiệm vỏ đõnh giõ

Một phần của tài liệu NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT (Trang 132)

CHƯƠNG 5 XỬ LÝ NHẬP NHẰNG CHỮ VIẾT TẮT

5.4. TẦN SỐ CHỮ VIẾT TẮT Vá GIẢI PHạP XỬ LÝ NHẬP NHẰNG

5.4.5. Kết quả thực nghiệm vỏ đõnh giõ

Sử dụng nhiều mõy tợnh chạy chương trớnh, trong nhiều khoảng thời gian. Dữ liệu đầu vỏo cụ 4.542 mẫu tin (với hơn 2.300 mẫu CVT thừng dụng chọn lựa trong CSDL đọ cụ), tõch thỏnh gần 100 File dữ liệu đầu vỏo. Dữ liệu đầu ra với gần 100 file tương ứng, sau đụ được ghờp lại bảng dữ liệu tổng thể tần số sử dụng CVT.

Sau khi cụ bảng dữ liệu tần số sử dụng CVT, thực hiện tợnh tõn tần suất sử dụng theo cõc bước đọ đề xuất trong giải phõp trởn đĩy. Trước mắt, kết quả đưa ra

được hơn 30 bảng tần suất xuất hiện cõc CVT với những cụm viết tắt giống nhau. Vợ dụ: Kết quả tợnh tõn tần suất chữ viết tắt PT trong phạm vi N_VN1 tại 2 thời điểm khõc nhau lỏ ngỏy 15/03/2016 vỏ 25/03/2016:

Bảng 5.4. Kết quả thực hiện tợnh toỏn tần số sử dụng, tần suất xuất hiện CVT

Ngỏy 15/3/2016 Ngỏy 25/03/2016

STT Chữ viết tắt N_VN1 Tần suĩ́t N_VN1 Tần suĩ́t %

% 1 Phương trớnh (PT) 382 63 385 63,1 2 Phõt triển (PT) 182 30 184 30,2 3 Phương Thanh (PT) 16 2,9 17 2,8 4 Phõt thanh (PT) 14 2,5 15 2,5 5 Phương thức (PT) 9 1,5 9 1,5 6 Phạm trỳ (PT) 0 0,0 0 0,0 Tổng cự̀ng 603 100 610 100 PT 333.000 345.000

Phĩn tợch bảng trởn, với 6 giõ trị ngữ nghĩa khõc nhau chữ viết tắt PT:

1) Tần số sử dụng gia tăng sau 10 ngỏy, chữ viết tắt PT tăng từ 333.000 lởn 345.000, tức lỏ tăng số lần sử dụng lởn 12.000 lần; CVT gia tăng chứng tỏ sự sử dụng CVT ngỏy cỏng nhiều trởn mạng Internet.

2) Tần suất sử dụng của Phương trớnh (PT) tại thời điểm 15/03/2016 lỏ 63,04%; Phõt triển (PT) lỏ 30,03%, Phương Thanh (PT) lỏ 2,97%... Đến ngỏy 25/3/2016, tần suất biến đổi nhưng khừng đõng kể. Chữ viết tắt PT cụ tần suất sử dụng lỏ 345.000 lần; tuy nhiởn chữ viết tắt PT theo ngữ nghĩa “Phương trớnh” chiếm tần suất sử dụng cao nhất 63,11% với tần số sử dụng định nghĩa lỏ 385 lần. Giõ trị nỏy cho thấy ngữ nghĩa “Phương trớnh” của chữ viết tắt PT lỏ phổ biến hơn cả. Chỉ số cao nhất nỏy chỉ dấu với một chữ viết tắt PT, ngữ nghĩa “Phương trớnh” lỏ cụ xõc suất xuất hiện cao nhất. Nhờ chỉ số tần suất nỏy, vấn đề xử lý nhập nhằng ngữ nghĩa CVT cụ một hướng tiếp cận giải quyết, tức lỏ chọn ngữ nghĩa CVT theo tần suất sử dụng cao nhất.

3) Cừng bố trởn www.chuviettat.com [74] về kết quả tần số, tần suất xuất

gian; sắp xếp giảm dần theo giõ trị tần suất. Đưa ra cảnh bảo cõc giõ trị giảm (CVT lỏ nhọn hiệu, thương hiệu). NSD cụ cừng cụ để tự đõnh giõ lỏ cõc CVT mớnh đang sở hữu; chức năng tra cứu CVT sẽ bổ sung thởm giõ trị tần suất xuất hiện vỏ thời gian đõnh giõ.

4) Tương quan giữa thị phần dịch vụ vỏ chỉ số tần suất xuất hiện chữ viết tắt:

Bằng phờp so sõnh, đối chiếu, ta nhận thấy cụ sự tương quan tần suất CVT với những chỉ số thị phần hay xếp hạng thương hiệu; chẳng hạn cõc vợ dụ dưới đĩy:

- Vợ dụ 1: Tần suất xuất hiện 8 cụm CVT (lỏ thương hiệu thức ăn nhanh) so sõnh với thị phần thương hiệu bỏn luận trởn mạng xọ hội trong hớnh 19, bảng 1, phụ lục 5.

- Vợ dụ 2: Tần suất xuất hiện 5 CVT (lỏ thương hiệu nhỏ mạng di động) so sõnh với thị phần dịch vụ cõc nhỏ mạng di động tương ứng (nguồn số liệu: Bộ Thừng tin Truyền thừng), bảng 5.5:

Bảng 5.5. Tương quan tần suất CVT vỏ thị phần dịch vụ

STT NGHIAVIET N_VN1 Tần Thị phần So sõnh suĩ́t % % Prec 1 Viettel 687.000 32,2 43,5 0,43 2 MobiFone 688.000 32,3 31,8 0,50 3 VinaPhone 489.000 22,9 17,5 0,57 4 Vietnamobile 127.000 6,0 4,1 0,59 5 GMobile 140.000 6,6 3,2 0,67 2.131.000 100 100

6.570% 5.960% 32.238% Viettel 22.947% MobiFone VinaPhone 32.285% Vietnamobile GMobile

Hớnh 5.5. Biểu đồ tần suất CVT lỏ thương hiệu di động trởn Internet

Sự tương quan giữa chỷng cho phờp tiếp cận: Dựa vỏo tần suất xuất hiện CVT (lỏ thương hiệu, nhọn hiệu) cụ thể đưa ra chỉ số lượng hụa, sử dụng để dự đõn thị phần, mức độ phõt triển thương hiệu, nhọn hiệu. Doanh nghiệp cụ thể tham khảo chỉ số nỏy để đõnh giõ việc quảng bõ, truyền thừng của mớnh.

Lấy ý tưởng từ chỉ số tỷ lệ chợnh xõc (Precision), lập tỷ lệ so sõnh giữa Tần

suất vỏ Thị phần như cột thứ 6 của bảng 5.5. Kết quả nhận thấy tỷ lệ Precision nỏy

tăng dần đối với những doanh nghiệp cụ thị phần nhỏ dần: Điều nỏy hợp lý bởi cõc doanh nghiệp mới ra đời hay nhỏ hơn, ợt lợi thế cạnh tranh hơn, thị phần phần thấp thừng thường gia tăng quảng bõ thương hiệu; hay nụi cõch khõc lỏ xõc suất về tần suất xuất hiện trởn truyền thừng lớn hơn.

Nhận xờt kết quả thực nghiệm

1. So sõnh với phương phõp đõnh giõ tần số CVT theo Hội ngừn ngữ học Việt Nam [11][9] vỏ tần số CVT xuất hiện trong Corpus, phương phõp nỏy cụ những ưu điểm nhất định. Dựa trởn nguồn dữ liệu sẵn cụ của cõc hệ thống website tớm kiếm chuyởn nghiệp, chỷng ta cụ thể trợch lọc cõc thừng tin hữu ợch về tần số sử dụng vỏ tần suất xuất hiện CVT (cừng cụ phần mềm thống kở nỏy thể hiện tợnh cộng sinh của AMES).

2. Về kết quả tần số, tần suất xuất hiện cõc CVT, cừng bố giõ trị tăng giảm tần suất sau một chu kỳ thời gian (3-6 thõng); sắp xếp giảm dần theo giõ trị tần suất. Đưa ra cảnh bảo cõc giõ trị giảm (CVT lỏ nhọn hiệu, thương hiệu). NSD cụ cừng cụ để tự đõnh giõ lỏ cõc CVT mớnh đang sở hữu. Sau một chu kỳ thời gian sẽ cụ bổ sung giõ trị tăng/giảm tần suất xuất hiện. 3. Tương quan giữa thị phần dịch vụ vỏ chỉ số tần suất xuất hiện chữ viết tắt:

Bằng phờp so sõnh, đối chiếu, đưa ra sự tương quan tần suất CVT với những chỉ số thị phần hay xếp hạng thương hiệu (hớnh 5.7 vỏ 5.8). Sự tương quan giữa chỷng cho phờp đưa ra cõch tiếp cận: dựa vỏo tần suất xuất hiện CVT (thương hiệu, nhọn hiệu) cụ thể lượng hụa, sử dụng để dự đõn thị phần, mức độ phõt triển thương hiệu của doanh nghiệp.

4. Một số hạn chế của giải phõp: cún phụ thuộc vỏo dữ liệu cụ được trởn

yahoo.com, chương trớnh lỏ sự mừ phỏng tự động việc tớm kiếm thủ cừng. Nếu dữ liệu đầu vỏo lớn, cần nhiều thời gian, nhiều mõy tợnh để chạy chương trớnh vỏ ghi nhận dữ liệu. Dữ liệu trởn Interrnet sử dụng bảng mọ tiếng Việt nhiều loại lỏ rỏo cản cho dữ liệu chưa đầy đủ, chuẩn xõc.

5.4.6. Ứng dụng kết quả xử lý nhập nhằng chữ viết tắt

Với giải phõp đề xuất, luận õn đưa ra những ứng dụng, cụ thể:

1. Sự gia tăng tần suất (sau một khoảng thời gian đõnh giõ) cho thấy bước phõt triển vỏ sử dụng CVT, đặc biệt đối với thương hiệu, nhọn hiệu; chứng tỏ sự lặp lại, sự quan tĩm của truyền thừng; lưu trữ, quan sõt chỉ số nỏy giỷp cho việc tư vấn phõt triển, nhận diện thương hiệu. Sự giảm tần suất CVT cho thấy việc truyền thừng cụ chiều hướng giảm. Việc nỏy cụ ý nghĩa ứng dụng trong tư vấn doanh nghiệp phõt triển truyền thừng.

2. Với mỗi phạm vi sử dụng, tần số xuất hiện CVT giỷp tư vấn chọn lựa phương thức truyền thừng để đạt hiệu quả mong đợi. Chẳng hạn CVT lỏ thương hiệu xuất hiện nhiều nhất trởn tởn miền .com thớ quảng bõ trởn website cụ tởn miền nỏy sẽ hiệu quả hơn.

3. Bằng phờp so sõnh, đối chiếu, rỷt ra sự tương quan tần suất CVT với những chỉ số thị phần, xếp hạng thương hiệu. Sự tương quan giữa chỷng cho phờp

dựa vỏo tần suất xuất hiện CVT đưa ra chỉ số lượng hụa trong phõt triển thương hiệu, thị phần của doanh nghiệp.

4. Chỉ số tần suất xuất hiện: Cho phờp một cõch tiếp cận xử lý nhập nhằng ngữ nghĩa, nhận diện CVT dựa trởn chỉ số tần suất CVT. Cõc CVT cụ chỉ

số tần suất fi cao được ưu tiởn gõn ngữ nghĩa tương ứng, tợnh phổ dụng CVT cỏng cao, cụ sức sống trong thực tiễn. CVT cụ tần suất xuất hiện ợt vỏ thấp thớ ợt phổ biến, cũng cụ thể lỏ rất cõ biệt.

5.5. TểM TẮT CHƯƠNG 5

Chương 5 đọ phĩn tợch vỏ đề xuất giải quyết vấn đề xử lý nhập nhằng CVT. Triển khai đề xuất hai hướng tiếp cận xử lý nhập nhằng CVT.

Hướng thứ nhất xử lý nhập nhằng CVT cụ nội dung trọng tĩm lỏ xĩy dựng vị từ vỏ hỏm nhận diện CVT trong văn bản, từ đụ đề xuất xĩy dựng cơ sở luật, thuật tõn nhận diện vỏ xử lý nhập nhằng CVT trong văn bản, giới hạn nghiởn cứu vỏ thực nghiệm văn bản trong lĩnh vực chuyởn ngỏnh viễn thừng.

Hướng tiếp cận khõc để xử lý nhập nhằng luận õn đề xuất dựa vỏo chỉ số tần suất xuất hiện CVT, tức lỏ tần suất CVT cực đại. Triển khai ý tưởng nỏy, xĩy dựng giải phõp vỏ thuật tõn AFVAI, thực nghiệm đõnh giõ tần số, tần suất CVT trởn mạng Internet vỏ đưa ra một vỏi ứng dụng thực tiễn. Chỉ số tần suất xuất hiện CVT cũng lỏ cơ sở cho phờp một cõch tiếp cận xử lý nhập nhằng ngữ nghĩa vỏ nhận diện CVT dưạ vỏo tần suất CVT cực đại cụ được.

Ý tưởng vỏ thực nghiệm kết quả nghiởn cứu cho phờp đề xuất một phương phõp thống kở ngừn ngữ học trởn Internet, để quan sõt vỏ phĩn tợch cõc hiện tượng phõt triển ngừn ngữ. Chẳng hạn như tớm những từ, cụm từ mới xuất hiện, cụ thống kở tần suất xuất hiện (theo định kỳ thời gian), lưu trữ phĩn tợch; từ đụ quan sõt được mức

độ quan tĩm của truyền thừng vỏ sử dụng chỷng, giỷp ta thấy được sự phõt triển của từ vựng trong ngừn ngữ học.

KẾT LUẬN Vá HƯỚNG PHạT TRIỂN

Phần nỏy tụm tắt nội dung luận õn, đõnh giõ những kết quả đạt được, đụng gụp khoa học vỏ thực tiễn ứng dụng, đồng thời nởu lởn những hạn chế vỏ hướng phõt triển nghiởn cứu trong tương lai của luận õn.

1. KẾT LUẬN

1.1. Tụm tắt nội dung luận õn

Luận õn trớnh bỏy kết quả nghiởn cứu lý thuyết của tõc giả về ngừn ngữ, nguồn gốc phõt triển, những nhĩn tố lỏm cho ngừn ngữ biến đổi vỏ phõt triển; nởu lởn những vấn đề về XLNNTN đặt trong bối cảnh chung để tiếp cận nghiởn cứu vấn đề ngữ nghĩa vỏ nhập nhằng ngữ nghĩa. Tớm hiểu sự biến đổi phõt triển ngừn ngữ tiếng Việt thừng qua hai vấn đề: Sự biến đổi từ vựng vỏ Sự biến đổi ngữ nghĩa. Đĩy lỏ cơ sở lý luận của ngừn ngữ học để luận õn tiếp cận nghiởn cứu vấn đề nguồn gốc, sự hớnh thỏnh CVT tiếng Việt, khẳng định cụ ý nghĩa khoa học vỏ thực tiễn: Hệ thống từ vựng của ngừn ngữ luừn biến đổi phõt triển, trong đụ phương thức viết tắt,

tạo lập cõc chữ viết tắt lỏm xuất hiện cõc từ ngữ mới. Từ đụ phĩn tợch cõc hạn chế,

phõt hiện đặt vấn đề cần nghiởn cứu của luận õn: Hiện tượng nhập nhằng trong xử

lý tiếng Việt, tiếp cận xử lý vấn đề chữ viết tắt tiếng Việt.

Tiếp theo, lần lượt trong cõc chương 2, 3, 4 vỏ 5, nội dung đọ đi sĩu nghiởn cứu vấn đề CVT trong thực tiễn với lịch sử hớnh thỏnh, nhu cầu sử dụng, đề xuất

khõi niệm ngữ nghĩa CVT, sự biến đổi ngữ nghĩa CVT, đề xuất khõi niệm sự nhập nhằng ngữ nghĩa CVT vỏ xử lý nhập nhằng CVT. Từ đụ, nghiởn cứu sự hớnh thỏnh CVT thừng qua việc mừ hớnh hụa, xem xờt kỹ nguồn gốc tạo nởn CVT, phĩn tợch,

tổng hợp vỏ xĩy dựng được cõc quy tắc thỏnh lập CVT. Để tạo lập mừi trường nghiởn cứu vỏ khai thõc CVT, tõc giả đề xuất xĩy dựng AMES - hệ thống khai thõc

CVT, hướng đến một giải phõp tạo ra mừi trường khai thõc cụ tợnh cộng đồng, nhiều

người sử dụng cỳng tham gia.

Triển khai thực nghiệm xĩy dựng AMES bằng cõch xĩy dựng nguồn tỏi nguyởn CVT tiếng Việt, triển khai phương phõp thu thập dữ liệu (thủ cừng, tự động), thực nghiệm thuật tõn tớm kiếm vỏ cập nhật CVT mới trởn mạng Internet về CSDL

đọ xĩy dựng; triển khai giải phõp xử lý nhập nhằng CVT, trong đụ cụ hướng tiếp cận xử lý nhập nhằng dựa vỏo chỉ số tần suất xuất hiện CVT. Xĩy dựng thuật tõn, cỏi đặt vỏ thực nghiệm đõnh giõ tần số, tần suất CVT, đưa ra một số ứng dụng thực tiễn cho doanh nghiệp. Xuyởn suốt qũ trớnh nghiởn cứu vỏ thực nghiệm, tõc giả đọ xĩy dựng từng bước cõc cừng cụ phần mềm, hớnh thỏnh nởn hệ thống AMES - lỏ mừi trường khai thõc CVT, tạo lập hệ thống khai thõc CVT ngỏy cỏng thuận lợi, tạo cơ hội trao đổi, chia xẻ kinh nghiệm, kết quả nghiởn cứu vỏ õp dụng thực tiễn.

1.2. Cõc kết quả đạt được

Qua qũ trớnh thực hiện mục tiởu nghiởn cứu đọ đặt ra, luận õn đọ cụ 4 đụng gụp khoa học vỏ thực tiễn ứng dụng, cụ thể với 7 nội dung đõnh dấu từ (1) đến (7) như sau:

1. Phõt hiện vỏ xĩy dựng kho ngữ liệu chữ viết tắt

Xĩy dựng kho ngữ liệu CVT tiếng Việt (1). Kho ngữ liệu được cập nhật từ

nhiều nguồn dữ liệu khõc nhau theo sự biến động vỏ phõt triển CVT trong thực tiễn với phương phõp thủ cừng/tự động. Dữ liệu được từng bước chuẩn hụa vỏ phĩn lớp.

Hiện nay đọ cụ khoảng 7.000 CVT tiếng Việt (cụ cả CVT nội sinh vỏ ngoại nhập) đọ biởn tập lưu trữ trong CSDL, từng bước chuyển song ngữ (Việt - Anh) những CVT thừng dụng.

2. Tổng kết cõc quy tắc hình thỏnh chữ viết tắt, xĩy dựng hệ thống khai thõc chữ viết tắt

Xĩy dựng cõc quy tắc hớnh thỏnh CVT, từng bước chuẩn hụa quy tắc thỏnh lập, sử dụng CVT, gụp phần phõt triển ngừn ngữ tiếng Việt (2): Luận õn đọ tiếp cận

nghiởn cứu sự hớnh thỏnh CVT thừng qua việc mừ hớnh hụa sự hớnh thỏnh, xem xờt kỹ nguồn gốc tạo nởn CVT, phĩn tợch, tổng hợp để xĩy dựng vỏ cừng bố 9 quy tắc

hớnh thỏnh CVT. Tổng hợp cõc yếu tố ảnh hưởng đến hớnh thỏnh CVT, so sõnh với

những quy định ngữ phõp tiếng Việt về sử dụng CVT, lỏm rử dấu hiệu nhận biết CVT trong văn bản.

Xĩy dựng AMES, hệ thống khai thõc vỏ xử lý CVT tiếng Việt (3): Luận õn đề

xuất AMES, mừ hớnh hụa hệ thống khai thõc CVT. Đụ lỏ mừi trường khai thõc CVT tiếng Việt dựa trởn ý tưởng hệ sinh thõi phần mềm, được triển khai thực nghiệm để tạo lập kết nối giữa cõc đối tượng NSD, chuyởn gia nghiởn cứu, doanh nghiệp, lập

trớnh viởn, nhỏ cung cấp hạ tầng với nhau, kết quả cụ thể: Sử dụng hạ tầng viễn

thừng, kết nối thu thập dữ liệu, hệ thống từ điển, đồng bộ dữ liệu, người sử dụng khai thõc, hỏm API kết nối người lập trớnh, nhỏ cung cấp dịch vụ viễn thừng gửi SMS đến cõc mạng di động qua gateway định sẵn, doanh nghiệp sử dụng tư vấn đặt tởn SMS Brandname thừng qua website…

3. Xử lý nhập nhằng chữ viết tắt

Xử lý nhập nhằng CVT (4): Luận õn xĩy dựng 27 vị từ điều khiển, nhận diện

CVT trong văn bản; xĩy dựng 12 hỏm xử lý chuỗi; lập 12 luật trong cơ sở luật lỏm căn cứ xĩy dựng mõy suy diễn nhận diện CVT vỏ triển khai thử nghiệm trong văn bản chuyởn ngỏnh viễn thừng. Đề xuất giải phõp vỏ xĩy dựng cừng cụ thống kở tần số, tần suất CVT tiếng Việt. Chỉ số tần số, tần suất giỷp nhỏ nghiởn cứu quan sõt, lưu trữ, thống kở vỏ phĩn tợch cõc hiện tượng phõt triển ngừn ngữ tiếng việt nụi chung vỏ CVT nụi riởng qua từng thời điểm. Chỉ số tần suất xuất hiện CVT cũng lỏ cơ sở cho phờp một cõch tiếp cận xử lý nhập nhằng ngữ nghĩa CVT.

4. Ứng dụng vỏ khai thõc chữ viết tắt

Tạo lập từ điển CVT trởn mõy tợnh, mõy điện thoại di động (5): Sử dụng nguồn

tỏi nguyởn CVT tiếng Việt để xĩy dựng hai hệ thống từ điển: Website thư viện CVT 44 vỏ Từ điển CVT trởn mõy di động45. Hai hệ thống nỏy cụ sự đồng bộ dữ liệu với nhau đảm bảo thống nhất chung nguồn dữ liệu; tuy nhiởn cụ sự tỳy biến cõ

Một phần của tài liệu NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT (Trang 132)

Tải bản đầy đủ (DOC)

(169 trang)
w