XằY DỰNG TỪ ĐIỂN CHỮ VIẾT TẮT TRấN MạY DI ĐỘNG

Một phần của tài liệu NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT (Trang 101)

CHƯƠNG 4 XằY DỰNG CễNG CỤ KHAI THạC CHỮ VIẾT TẮT

4.3. XằY DỰNG TỪ ĐIỂN CHỮ VIẾT TẮT TRấN MạY DI ĐỘNG

4.3.1. Thiết kế cơ sở dữ liệu vỏ chức năng chương trình

Để tạo hệ thống khai thõc, tra cứu CVT, từ việc xĩy dựng hệ thống website, ta mở rộng xĩy dựng thực nghiệm ứng dụng tra cứu CVT trởn mõy di động, trước mắt lỏ thực nghiệm đối với mõy di động sử dụng hệ điều hỏnh Android.

Cơ sở dữ liệu: Sử dụng cấu trỷc đọ thiết kế vỏ kho ngữ liệu CVT sẵn cụ như

đọ trớnh bỏy trong chương 2. Cừng cụ hỗ trợ quản trị CSDL phục vụ lập trớnh trởn mõy di động lỏ phần mềm SQLite Expert Personal 4.2 (64bit). Về cơ bản, CSDL sử dụng lại cõc bảng dữ liệu như đọ thiết kế trong chương 2. Cõc bảng dữ liệu cụ tởn CVT_FTS_... sinh ra trong qũ trớnh xĩy dựng thuật tõn, sử dụng kỹ thuật tớm kiếm toỏn văn (Full Text Search) được nởu trong mục 4.3.3. Ngừn ngữ lập trớnh: Ngừn ngữ lập trớnh sử dụng Java, cừng cụ lập trớnh sử dụng Android Studio cỳng với hệ

thống phần mềm giả lập mõy di động Genymotion (cõc hớnh ảnh chi tiết trớnh bỏy trong mục 3, phụ lục 8). Sau khi lập trớnh, sử dụng Android Studio biởn dịch thỏnh tập tin chương trớnh, cỏi đặt trởn mõy di động, chạy như một ứng dụng thừng thường.

Thiết kế chương trớnh: Ý tưởng thiết kế chương trớnh từ điển CVT trởn mõy

di động hướng đến mừi trường khai thõc thuận tiện cho NSD trởn mõy di động (khõc với thư viện CVT đọ xĩy dựng cụ địa website www.chuviettat.com):

(1) Thứ nhất, chương trớnh sử dụng trởn mõy di động tra cứu CVT theo cõch thừng thường, cụ chức năng tớm kiếm, tra cứu, thống kở...

(2) Thứ hai, chương trớnh thiết kế tối ưu hụa cho người sử dụng di động: chạy thường trỷ trong bộ nhớ, sử dụng tợnh năng copy. Khi người dỳng cần tra cứu trực

tiếp CVT trởn file văn bản, email, website…, nhấn mỏn hớnh cảm ứng trởn cụm CVT

để chọn khối, sau đụ chọn copy vỏo vỳng nhớ đệm, chương trớnh sẽ lấy dữ liệu CVT trong vỳng nhớ đệm, NSD nhấn vỏo biểu tượng tra cứu, chương trớnh kợch hoạt tớm kiếm CVT, hiển thị dữ liệu tra cứu khung cửa sổ phợa trởn (vẫn giữ nguyởn dữ liệu cửa sổ bởn dưới), sau đụ cụ thể đụng cửa sổ hiển thị tra cứu vỏ tiếp tục cừng việc.

4.3.2. Đồng bộ dữ liệu với thư viện chữ viết tắt

Cập nhật dữ liệu mới đừ̀ng bự̀ về mõy di đự̀ng: CSDL trởn mõy di động

(client) sẽ liởn kết với website www.chuviettat.com (lưu trữ trởn server) để khi cụ CVT mới, dữ liệu sẽ được cập nhật về mõy di động như mừ hớnh trong hớnh 4.5:

a) Chương trớnh client sẽ lưu lại ngỏy cập nhật dữ liệu sau cỳng (ngỏy A). b) Khi client gửi yởu cầu cập nhật dữ liệu (gửi ngỏy A), chương trớnh sẽ

kiểm tra trởn CSDL tại server (www.chuviettat.com) vỏ trả về dữ liệu mới được thởm vỏo (từ ngỏy A trở đi).

Ngỏy cập nhật sau cỳng Dữ liệu mới

NSD CSDL trởn CSDL trởn

mõy di động www.chuviettat.com

Dữ liệu tần số, tần suất trởn hệ thống www.chuviettat.com

Chương trớnh được thiết kế khừng cập nhật dữ liệu nỏy về client. Vớ khi lỏm như vậy, mỗi lần cập nhật dữ liệu trả về khõ lớn vỏ phải cập nhật lại toỏn bộ dữ liệu tại client. Hơn nữa, phần dữ liệu nỏy chỉ phục vụ thống kở. Việc thống kở dữ liệu tần số vỏ tần suất toỏn mạng sẽ được thực hiện trực tuyến (online) khi cụ kết nối mạng. Khi nỏo thực hiện thống kở, client gửi yởu cầu lởn server vỏ server chỉ trả về dữ liệu đọ tợnh tõn thống kở (dữ liệu rất nhỏ) cho client vỏ hiển thị. Tại client trởn mõy di động cụ tợnh tõn thống kở tần số, tần suất (chẳng hạn trong top 10 CVT thường sử dụng) của NSD. Mọ lệnh chương trớnh được giới thiệu trong mục 3 phần phụ lục 3, tiếp theo trớnh bỏy thuật tõn chợnh.

4.3.3. Đở̀ x́t thuật tõn SAOM-FTS xĩy dựng tư điển

Vỏi nờt về kỹ thuật tớm kiếm toỏn văn (Full Text Search): FTS lỏ kỹ thuật tớm

kiếm toỏn văn trởn dữ liệu "Full text database", "Full text database" lỏ cơ sở dữ liệu chứa "toỏn bộ" cõc ký tự (text) của một hoặc một số cõc tỏi liệu, bỏi bõo, hoặc của website [88]. Khõc với kỹ thuật tớm kiếm rất cơ bản, đụ lỏ thừng qua cĩu lệnh LIKE của SQL:

Select column_name(s) From table_name

Where column_name LIKE pattern;

Sử dụng từ khụa LIKE tớm kiếm ở trường đọ định trước, do đụ lượng thừng tin phải tớm giới hạn lại chỉ trong cõc trường đụ của CSDL; độ phức tạp sẽ lỏ tuyến tợnh với số dúng, vỏ số kợ tự của từng dúng, hay chợnh lỏ toỏn bộ ký tự chứa trong trường cần tớm kiếm.

Một kỹ thuật tớm kiếm khõc, tốt hơn LIKE, mềm dẻo hơn, giảm độ phức tạp hơn, đụ chợnh lỏ FTS. FTS khõc biệt với cõc kỹ thuật tớm kiếm thừng thường khõc chợnh lỏ kỹ thuật chỉ mục (Inverted Index). Inverted Index lỏ kỹ thuật chỉ mục (index) theo đơn vị (term) thay vớ chỉ mục theo từng dúng row(document) giống như MYSQL; Inverted Index lỏ một cấu trỷc dữ liệu, nhằm mục đợch liởn kết (map) giữa đơn vị (term), vỏ cõc tỏi liệu (document) chứa đơn vị đụ.

Thuật tõn tớm kiếm CVT trởn mõy di đự̀ng: Search abbreviations on

mobile devices - used Full Text Search (SAOM -FTS):

Mừ tả: SAOM-FTS lỏ thuật tõn tớm kiếm chữ viết tắt trởn di động - sử dụng

FTS. Người dỳng tra cứu trực tiếp CVT trởn file văn bản, email, tin nhắn, website… bằng cõch nhấn mỏn hớnh cảm ứng trởn cụm CVT để chọn khối (trởn mõy điện thoại di động), sau đụ kợch chọn biểu tượng từ điển CVT, kết quả tra cứu sẽ hiện thị.

Input: + NSD nhấn giữ trởn mỏn hớnh mõy di động;

+ Chọn cụm CVT/hoặc copy CVT vỏo vỳng nhớ đệm.

OutPut:+ Hiển thị khung cửa số giải thợch nghĩa CVT;

+ Thống kở số tần số, tần suất sử dụng.

Begin

If < Chưa tồn tại CSDL trong bộ nhớ hệ thống của điện thoại > Begin

- Khởi tạo CSDL CVT (T1)

- Khởi tạo CSDL CVT phục vụ tớm nhanh (T2)

Begin

- Tõch cõc CVT trong CSDL T1 bởi khoảng trống để cụ thể tớm chợnh xõc đến từng ký tự Vợ dụ như "ABC"=> A B C

- Chuyển đổi cõc ký tự đặc biệt về dạng ∞ + (mọ ASCII của ký tự) để tớm cõc ký tự đặc biệt (AB# => A B ∞35)

- Lưu nội dụng CVT đọ chuẩn hụa ở trởn vỏo T2 lỏ CSDL đọ được định nghĩa vỏ đõnh index theo cơ chế FTS (Full-Text Searches): bảng CSDL được tợch hợp sẵn FTS

End

- Sao chờp toỏn bộ cõc cơ sở dữ liệu T1 vỏ T2 vỏo bộ nhớ hệ thống của điện thoại - Mở kết nối đến CSDL

End Else

- Mở kết nối đến CSDL

End If

While <NSD Copy CVT vỳng nhớ đệm vỏ nội dung CVT khừng trống> do Begin

- Lấy giõ trị vỳng nhớ đệm, gõn vỏo biến X

- Xụa cõc ký tự khừng phải lỏ BMP (BMP= Basic Multilingual Plane, như ký tự mặt cười ):

- Chuyển đổi cõc ký tự đặc biệt của X về dạng ∞ + mọ ASCII của ký tự (AB# => A B ∞35):

- < Tớm kiếm CVT X >

Begin

- Truy vấn trong CSDL T2 tất cả cõc CVT chứa X //chỷ thợch mục (1) - Kết quả trỳng khớp với tớm kiếm sẽ chứa tất cả cõc ký tự của X theo

thứ tự trước sau // mục (2).

- Kết nối với CSDL T1 để lấy đầy đủ thừng tin, định nghĩa của cõc CVT tớm được.

- Lưu danh sõch cõc CVT tớm được vỏo mảng A.

End

- Tăng tần số vỏ tần suất truy vấn của CVT X lưu vỏo dữ liệu thống kở trởn CSDL T1. Chỷ thợch mục (3).

- Hiển thị nỷt thừng bõo cụ kết quả tớm kiếm CVT cạnh bởn của mỏn hớnh điện thoại vỏ chờ NSD bấm/chạm tay vỏo

If < NSD bấm/chạm vỏo nỷt thừng bõo > Begin

- Thủ tục ẩn nỷt thừng bõo

- Hiển thị danh sõch giải thợch chi tiết CVT tớm được (mảng A) trởn mỏn hớnh điện thoại.

- Lưu nhớ thừng tin thống kở tần số vỏ tần suất của cõc CVT trởn hệ thống. - Hiển thị thống kở tần số vỏ tần suất sử dụng của cõc CVT trởn hệ thống

End Else

- Nỷt thừng bõo sẽ tự động ẩn sau N giĩy (mặc định N = 5s, NSD cụ thể điều chỉnh trong chức năng cỏi đặt)

End If End End While End

Mọ nguồn chương trớnh vỏ chỷ thợch chỷng từi trớnh bỏy trong phần phụ lục 3.

4.3.4. Cỏi đặt vỏ kết quả thực nghiệm

Sau khi xĩy dựng chương trớnh, thực hiện lệnh Build trong Android Studio, ta cụ được ứng dụng cụ tởn lỏ: "ABC Acronym Dictionary". Sao chờp tập tin lởn mõy di động vỏ cỏi đặt biểu tượng ABC Acronym Dictionary, hớnh ảnh ứng dụng chạy

trởn mõy di động giả lập trởn mõy tợnh (bởi Genymotion) như mục 5 phụ lục 5. Hớnh ảnh ứng dụng thực tế chạy trởn mõy di động Samsung Not 3 như mục 6 phụ lục 5.

4.4. ĐạNH GIạ KẾT QUẢ

4.4.1. Đõnh giõ kết quả thực nghiệm AMES

Từ AMES, ta rỷt ra được những nhận xờt, cũng lỏ những bỏi học:

1. Nghiởn cứu của luận õn đọ kết nối, liởn thừng theo đặc trưng chuyởn ngỏnh khoa học mõy tợnh đọ chỉ ra, như qũ trớnh thực hiện hớnh 4.6. dưới đĩy:

Thực tiễn sử dụng CVT + Lý thuyết ngừn ngữ học + Chuẩn hụa, xĩy dựng cừng cụ khai thõc => Hình thỏnh

hệ thống AMES

Hớnh 4.6. Tiếp cận nghiởn cứu hớnh thỏnh AMES

Nghiởn cứu đọ tiếp cận sử dụng CVT từ thực tiễn cỳng với nghiởn cứu lý thuyết cơ sở ngừn ngữ học, từng bước chuẩn hụa quy tắc hớnh thỏnh CVT, xĩy dựng nguồn dữ liệu vỏ cừng cụ ứng dụng khai thõc CVT, hớnh thỏnh hệ thống khai thõc CVT tạo lập mừi trường trao đổi thừng tin, thu thập, xử lý, lưu trữ, khại thõc CVT. Kết quả nghiởn cứu nỏy xem như lỏ gạch nối nhỏ giữa lý thuyết ngừn ngữ học với thực tiễn sử dụng vỏ với chuyởn ngỏnh xử lý ngừn ngữ tự nhiởn trong CNTT của khoa học mõy tợnh, gụp phần cỳng giải quyết vấn đề CVT tiếng Việt được nhiều người quan tĩm.

2. Đặc điểm AMES hướng đến SECO bởi cõc tợnh chất đặc trưng quan trọng được quan tĩm trong xĩy dựng cừng cụ khai thõc AMES:

a) Tợnh kế thừa: Cộng sinh, hợp tõc cỳng phõt triển, kế thừa, kết nối với cõc

hệ sinh thõi phần mềm khõc.

b) Tợnh ổn định: Hệ sinh thõi cụ kiến trỷc ổn định: Giao diện, quản lý phõt

triển-tiến hụa, an ninh vỏ độ tin cậy.

c) Tợnh mở: Mừ hớnh phõt triển mọ nguồn mở, cộng đồng CNTT cỳng tham

gia. Cừng cụ phần mềm của AMES được thiết kế cho nhiều tõc nhĩn (nhỏ cung cấp dịch vụ VT-CNTT) sử dụng, quảng bõ, kết nối, hợp tõc, tạo khả năng cho qũ trớnh đổi mới cừng nghệ, tăng năng suất lao động.

4.4.2. Đõnh giõ AMES đặc tả theo mừ hớnh UML

Tổng hợp xĩy dựng AMES như hớnh 4.7 dưới đĩy với cõc chỷ thợch (1), (2), (3)

(4) vỏ (5) lỏ cõc phần mềm vỏ cừng cụ khai thõc CVT đọ xĩy dựng vỏ cỏi đặt thực nghiệm: (5)Cị̃p nhị̃t tự động CVT mới từ Internet;Xử lý nhị̃p nhằnghttp://www.c huviettat.comTừ điển tra cứu mõy tợnh, di động (4) Server lưu trữ hỏm API: 10.59.10.250:81/CSSbilso urce.asmx (1) Cừng cụ tư vấn đặt tởn Brandna me doanh nghiệp (2) Cõc hỏm API: GetSMSBrand(<tham số xõc thực>, <Chuỗi>) (3) Phương phõp đõnh giõ tần số, tần suất CVT tiếng Việt

Hớnh 4.7. Kết quả thực nghiệm AMES

(6) Đơn vị phõt triển phần mềm: Đụng vai trú chủ yếu trong xĩy dựng, lập trớnh phần mềm, cừng cụ khai thõc CVT, cung cấp giao diện kết nối (hỏm API) vỏ trao đổi thừng tin.

(7) Nhỏ nghiởn cứu ngừn ngữ học, chuyởn gia tư vấn, quy định ngữ phõp CVT: Nghiởn cứu, xĩy dựng quy tắc hớnh thỏnh CVT, dấu hiệu nhận biết CVT, đề xuất quy định bảng danh mục CVT quốc gia; tham gia tạo cõc hỏm API, đề xuất phương phõp, xĩy dựng thuật tõn, cập nhật CVT, đõnh giõ tần số vỏ tần suất CVT.

(8) Nhỏ cung cấp hạ tầng tỏi nguyởn, đường truyền, khừng gian lưu trữ: Cung cấp kết nối Internet, xĩy dựng hoặc thuở hệ thống Server lưu trữ hỏm API, chẳng hạn như server 10.59.10.250:81/CSSbilsource.asmx.

(9) Người sử dụng, người mua, đặt hỏng/thuở phần mềm (SaaS): Đụ lỏ NSD từ điển trởn mõy di động, thư viởn website; NSD di động nhận tin nhắn (brandname) từ nhỏ cung cấp dịch vụ quảng bõ SMS brandname.

(10) Nhỏ cung cấp dịch vụ/Doanh nghiệp: Lỏ cõc đối tõc hợp tõc sử dụng hệ thống phần mềm, cung cấp cho NSD dịch vụ đầu cuối: Sử dụng Cừng cụ tư vấn tin nhắn Brandname, hợp đồng cõc doanh nghiệp để cung cấp tin nhắn cho NSD đầu cuối di động.

Bảng 4.5 dưới đĩy nởu lởn kết quả so sõnh cõc tõc nhĩn, đặc điểm vỏ cừng cụ thực nghiệm xĩy dựng được thể hiện AMES hướng đến SECO:

Bảng 4.5. Kết quả so sõnh cõc tõc nhĩn vỏ đặc điểm AMES vỏ SECO

Chỷ Tõc nhĩn Tõc nhĩn vỏ đặc điểm Cừng cụ thực nghiệm của

thợch của SECO của AMES AMES

Đơn vị phõt triển phần Xĩy dựng, lập trớnh phần

(1) Software mềm; mềm, cừng cụ khai thõc, cung

developer Cụ tợnh kế thừa (kỹ thuật cấp giao diện kết nối, trao đổi

FTS, API…) thừng tin

State, Ngừn ngữ học, chuyởn gia Quy tắc hớnh thỏnh CVT, cõc tư vấn, Quy định ngữ phõp

standards and hỏm API, phương phõp cập

(2) CVT, quy tắc hớnh thỏnh… certifications nhật tự động, đõnh giõ tần số Cụ tợnh kế thừa tri thức bodies tần suất CVT CVT, tợnh mở Nhỏ cung cấp hạ tầng tỏi

nguyởn, đường truyền, Server lưu trữ hỏm API: (3) Nature khừng gian lưu trữ 10.59.10.250:81/CSSbilsourc

Cụ tợnh mở, tợnh ổn định, sử e.asmx;

dụng nguồn lực của nhỏ CC Kết nối Internet

dịch vụ chuyởn nghiệp.

Người sử dụng, người mua,

đặt hỏng/thuở phần mềm NSD từ điển trởn di động,

(4) Software users (SaaS). website; NSD di động nhận

Cụ tợnh mở khi NSD cập tin nhắn (brandname) từ nhỏ

nhật, khai thõc CVT, tỳ điện cung cấp dịch vụ.

(5) Softwarevendor Nhỏ cung cấp dịch vụ hợp tõc sử dụng hệ thống phần mềm, cung cấp cho NSD dịch vụ đầu cuối. Cụ tợnh mở, kết nối đối tõc cỳng khai thõc vỏ phõt triển. Sử dụng Cừng cụ tư vấn tin nhắn Brandname, cỳng cõc Doanh nghiệp cung cấp tin nhắn cho NSD đầu cuối di động.

Như vậy, AMES hớnh thỏnh cung cấp mừi trường khai thõc CVT cho 5 tõc nhĩn với cõc đặc điểm, được hợp tõc phõt triển, cụ mối liởn quan mật thiết lẫn nhau trong cỳng một hệ thống khai thõc phần mềm, vớ lợi ợch chung vỏ riởng của hệ thống phần mềm đem lại cho mỗi một tõc nhĩn.

4.5. TểM TẮT CHƯƠNG 4

Chương 4 đọ đề xuất xĩy dựng hệ thống khai thõc AMES nhằm thừng qua AMES cõc nhỏ khoa học, NSD cụ thể tham gia cập nhật, kế thừa vỏ khai thõc CVT. Kết quả so sõnh cõc tõc nhĩn AMES vỏ SECO khẳng định ý nghĩa khoa học vỏ ứng dụng của nghiởn cứu: Từ những hiện tượng sử dụng CVT, sự hớnh thỏnh CVT trong sự phõt triển ngừn ngữ tự nhiởn, luận õn đọ từng bước quy tắc hụa CVT, xĩy dựng kho ngữ liệu, khai thõc được kho ngữ liệu, phõt triển cõc cừng cụ, ứng dụng. Từng bước hớnh thỏnh mừi trường khai thõc, chia xẻ giõ trị lợi ợch riởng đem lại cho mỗi một tõc nhĩn.

Chương nỏy cũng đọ trớnh bỏy chi tiết về cừng cụ từ điển tra cứu CVT trởn mõy di động, xĩy dựng thư viện CVT, cừng cụ tư vấn đặt CVT thương hiệu (brandname) cho doanh nghiệp. Trong đụ, xĩy dựng thuật tõn SAOM-FTS trong cừng cụ từ điển chữ viết tắt trởn mõy di động, đồng bộ dữ liệu giữa website thư viện chữ viết tắt vỏ từ điển chữ viết tắt trởn mõy di động. Cỳng với cõc kết quả thực nghiệm trớnh bỏy trong cõc chương trước, chương nỏy đọ minh họa kết quả thực nghiệm xĩy dựng hệ thống khai thõc chữ viết tắt AMES.

CHƯƠNG 5.

XỬ LÝ NHẬP NHẰNG CHỮ VIẾT TẮT

Chương 5 tập trung phĩn tợch vỏ đề xuất hướng tiếp cận giải quyết vấn đề xử lý nhập nhằng CVT. Tiếp cận phĩn tợch ngữ cảnh văn bản, nhận diện tớnh huống sử dụng CVT trong văn bản. Xĩy dựng vị từ vỏ hỏm nhận diện CVT trong văn bản, từ đụ đề xuất xĩy dựng cơ sở luật, thuật tõn nhận diện vỏ xử lý nhập nhằng CVT trong văn bản, giới hạn thực nghiệm văn bản trong lĩnh vực chuyởn ngỏnh viễn thừng.

Một hướng tiếp cận khõc xử lý nhập nhằng lỏ dựa vỏo chỉ số tần suất xuất hiện

Một phần của tài liệu NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT (Trang 101)