CHƯƠNG 4 XằY DỰNG CễNG CỤ KHAI THạC CHỮ VIẾT TẮT
4.3. XằY DỰNG TỪ ĐIỂN CHỮ VIẾT TẮT TRấN MạY DI ĐỘNG
4.3.1. Thiết kế cơ sở dữ liệu vỏ chức năng chương trình
Để tạo hệ thống khai thõc, tra cứu CVT, từ việc xĩy dựng hệ thống website, ta mở rộng xĩy dựng thực nghiệm ứng dụng tra cứu CVT trởn mõy di động, trước mắt lỏ thực nghiệm đối với mõy di động sử dụng hệ điều hỏnh Android.
Cơ sở dữ liệu: Sử dụng cấu trỷc đọ thiết kế vỏ kho ngữ liệu CVT sẵn cụ như
đọ trớnh bỏy trong chương 2. Cừng cụ hỗ trợ quản trị CSDL phục vụ lập trớnh trởn mõy di động lỏ phần mềm SQLite Expert Personal 4.2 (64bit). Về cơ bản, CSDL sử dụng lại cõc bảng dữ liệu như đọ thiết kế trong chương 2. Cõc bảng dữ liệu cụ tởn CVT_FTS_... sinh ra trong qũ trớnh xĩy dựng thuật tõn, sử dụng kỹ thuật tớm kiếm toỏn văn (Full Text Search) được nởu trong mục 4.3.3. Ngừn ngữ lập trớnh: Ngừn ngữ lập trớnh sử dụng Java, cừng cụ lập trớnh sử dụng Android Studio cỳng với hệ
thống phần mềm giả lập mõy di động Genymotion (cõc hớnh ảnh chi tiết trớnh bỏy trong mục 3, phụ lục 8). Sau khi lập trớnh, sử dụng Android Studio biởn dịch thỏnh tập tin chương trớnh, cỏi đặt trởn mõy di động, chạy như một ứng dụng thừng thường.
Thiết kế chương trớnh: Ý tưởng thiết kế chương trớnh từ điển CVT trởn mõy
di động hướng đến mừi trường khai thõc thuận tiện cho NSD trởn mõy di động (khõc với thư viện CVT đọ xĩy dựng cụ địa website www.chuviettat.com):
(1) Thứ nhất, chương trớnh sử dụng trởn mõy di động tra cứu CVT theo cõch thừng thường, cụ chức năng tớm kiếm, tra cứu, thống kở...
(2) Thứ hai, chương trớnh thiết kế tối ưu hụa cho người sử dụng di động: chạy thường trỷ trong bộ nhớ, sử dụng tợnh năng copy. Khi người dỳng cần tra cứu trực
tiếp CVT trởn file văn bản, email, website…, nhấn mỏn hớnh cảm ứng trởn cụm CVT
để chọn khối, sau đụ chọn copy vỏo vỳng nhớ đệm, chương trớnh sẽ lấy dữ liệu CVT trong vỳng nhớ đệm, NSD nhấn vỏo biểu tượng tra cứu, chương trớnh kợch hoạt tớm kiếm CVT, hiển thị dữ liệu tra cứu khung cửa sổ phợa trởn (vẫn giữ nguyởn dữ liệu cửa sổ bởn dưới), sau đụ cụ thể đụng cửa sổ hiển thị tra cứu vỏ tiếp tục cừng việc.
4.3.2. Đồng bộ dữ liệu với thư viện chữ viết tắt
Cập nhật dữ liệu mới đừ̀ng bự̀ về mõy di đự̀ng: CSDL trởn mõy di động
(client) sẽ liởn kết với website www.chuviettat.com (lưu trữ trởn server) để khi cụ CVT mới, dữ liệu sẽ được cập nhật về mõy di động như mừ hớnh trong hớnh 4.5:
a) Chương trớnh client sẽ lưu lại ngỏy cập nhật dữ liệu sau cỳng (ngỏy A). b) Khi client gửi yởu cầu cập nhật dữ liệu (gửi ngỏy A), chương trớnh sẽ
kiểm tra trởn CSDL tại server (www.chuviettat.com) vỏ trả về dữ liệu mới được thởm vỏo (từ ngỏy A trở đi).
Ngỏy cập nhật sau cỳng Dữ liệu mới
NSD CSDL trởn CSDL trởn
mõy di động www.chuviettat.com
Dữ liệu tần số, tần suất trởn hệ thống www.chuviettat.com
Chương trớnh được thiết kế khừng cập nhật dữ liệu nỏy về client. Vớ khi lỏm như vậy, mỗi lần cập nhật dữ liệu trả về khõ lớn vỏ phải cập nhật lại toỏn bộ dữ liệu tại client. Hơn nữa, phần dữ liệu nỏy chỉ phục vụ thống kở. Việc thống kở dữ liệu tần số vỏ tần suất toỏn mạng sẽ được thực hiện trực tuyến (online) khi cụ kết nối mạng. Khi nỏo thực hiện thống kở, client gửi yởu cầu lởn server vỏ server chỉ trả về dữ liệu đọ tợnh tõn thống kở (dữ liệu rất nhỏ) cho client vỏ hiển thị. Tại client trởn mõy di động cụ tợnh tõn thống kở tần số, tần suất (chẳng hạn trong top 10 CVT thường sử dụng) của NSD. Mọ lệnh chương trớnh được giới thiệu trong mục 3 phần phụ lục 3, tiếp theo trớnh bỏy thuật tõn chợnh.
4.3.3. Đở̀ x́t thuật tõn SAOM-FTS xĩy dựng tư điển
Vỏi nờt về kỹ thuật tớm kiếm toỏn văn (Full Text Search): FTS lỏ kỹ thuật tớm
kiếm toỏn văn trởn dữ liệu "Full text database", "Full text database" lỏ cơ sở dữ liệu chứa "toỏn bộ" cõc ký tự (text) của một hoặc một số cõc tỏi liệu, bỏi bõo, hoặc của website [88]. Khõc với kỹ thuật tớm kiếm rất cơ bản, đụ lỏ thừng qua cĩu lệnh LIKE của SQL:
Select column_name(s) From table_name
Where column_name LIKE pattern;
Sử dụng từ khụa LIKE tớm kiếm ở trường đọ định trước, do đụ lượng thừng tin phải tớm giới hạn lại chỉ trong cõc trường đụ của CSDL; độ phức tạp sẽ lỏ tuyến tợnh với số dúng, vỏ số kợ tự của từng dúng, hay chợnh lỏ toỏn bộ ký tự chứa trong trường cần tớm kiếm.
Một kỹ thuật tớm kiếm khõc, tốt hơn LIKE, mềm dẻo hơn, giảm độ phức tạp hơn, đụ chợnh lỏ FTS. FTS khõc biệt với cõc kỹ thuật tớm kiếm thừng thường khõc chợnh lỏ kỹ thuật chỉ mục (Inverted Index). Inverted Index lỏ kỹ thuật chỉ mục (index) theo đơn vị (term) thay vớ chỉ mục theo từng dúng row(document) giống như MYSQL; Inverted Index lỏ một cấu trỷc dữ liệu, nhằm mục đợch liởn kết (map) giữa đơn vị (term), vỏ cõc tỏi liệu (document) chứa đơn vị đụ.
Thuật tõn tớm kiếm CVT trởn mõy di đự̀ng: Search abbreviations on
mobile devices - used Full Text Search (SAOM -FTS):
Mừ tả: SAOM-FTS lỏ thuật tõn tớm kiếm chữ viết tắt trởn di động - sử dụng
FTS. Người dỳng tra cứu trực tiếp CVT trởn file văn bản, email, tin nhắn, website… bằng cõch nhấn mỏn hớnh cảm ứng trởn cụm CVT để chọn khối (trởn mõy điện thoại di động), sau đụ kợch chọn biểu tượng từ điển CVT, kết quả tra cứu sẽ hiện thị.
Input: + NSD nhấn giữ trởn mỏn hớnh mõy di động;
+ Chọn cụm CVT/hoặc copy CVT vỏo vỳng nhớ đệm.
OutPut:+ Hiển thị khung cửa số giải thợch nghĩa CVT;
+ Thống kở số tần số, tần suất sử dụng.
Begin
If < Chưa tồn tại CSDL trong bộ nhớ hệ thống của điện thoại > Begin
- Khởi tạo CSDL CVT (T1)
- Khởi tạo CSDL CVT phục vụ tớm nhanh (T2)
Begin
- Tõch cõc CVT trong CSDL T1 bởi khoảng trống để cụ thể tớm chợnh xõc đến từng ký tự Vợ dụ như "ABC"=> A B C
- Chuyển đổi cõc ký tự đặc biệt về dạng ∞ + (mọ ASCII của ký tự) để tớm cõc ký tự đặc biệt (AB# => A B ∞35)
- Lưu nội dụng CVT đọ chuẩn hụa ở trởn vỏo T2 lỏ CSDL đọ được định nghĩa vỏ đõnh index theo cơ chế FTS (Full-Text Searches): bảng CSDL được tợch hợp sẵn FTS
End
- Sao chờp toỏn bộ cõc cơ sở dữ liệu T1 vỏ T2 vỏo bộ nhớ hệ thống của điện thoại - Mở kết nối đến CSDL
End Else
- Mở kết nối đến CSDL
End If
While <NSD Copy CVT vỳng nhớ đệm vỏ nội dung CVT khừng trống> do Begin
- Lấy giõ trị vỳng nhớ đệm, gõn vỏo biến X
- Xụa cõc ký tự khừng phải lỏ BMP (BMP= Basic Multilingual Plane, như ký tự mặt cười ):
- Chuyển đổi cõc ký tự đặc biệt của X về dạng ∞ + mọ ASCII của ký tự (AB# => A B ∞35):
- < Tớm kiếm CVT X >
Begin
- Truy vấn trong CSDL T2 tất cả cõc CVT chứa X //chỷ thợch mục (1) - Kết quả trỳng khớp với tớm kiếm sẽ chứa tất cả cõc ký tự của X theo
thứ tự trước sau // mục (2).
- Kết nối với CSDL T1 để lấy đầy đủ thừng tin, định nghĩa của cõc CVT tớm được.
- Lưu danh sõch cõc CVT tớm được vỏo mảng A.
End
- Tăng tần số vỏ tần suất truy vấn của CVT X lưu vỏo dữ liệu thống kở trởn CSDL T1. Chỷ thợch mục (3).
- Hiển thị nỷt thừng bõo cụ kết quả tớm kiếm CVT cạnh bởn của mỏn hớnh điện thoại vỏ chờ NSD bấm/chạm tay vỏo
If < NSD bấm/chạm vỏo nỷt thừng bõo > Begin
- Thủ tục ẩn nỷt thừng bõo
- Hiển thị danh sõch giải thợch chi tiết CVT tớm được (mảng A) trởn mỏn hớnh điện thoại.
- Lưu nhớ thừng tin thống kở tần số vỏ tần suất của cõc CVT trởn hệ thống. - Hiển thị thống kở tần số vỏ tần suất sử dụng của cõc CVT trởn hệ thống
End Else
- Nỷt thừng bõo sẽ tự động ẩn sau N giĩy (mặc định N = 5s, NSD cụ thể điều chỉnh trong chức năng cỏi đặt)
End If End End While End
Mọ nguồn chương trớnh vỏ chỷ thợch chỷng từi trớnh bỏy trong phần phụ lục 3.
4.3.4. Cỏi đặt vỏ kết quả thực nghiệm
Sau khi xĩy dựng chương trớnh, thực hiện lệnh Build trong Android Studio, ta cụ được ứng dụng cụ tởn lỏ: "ABC Acronym Dictionary". Sao chờp tập tin lởn mõy di động vỏ cỏi đặt biểu tượng ABC Acronym Dictionary, hớnh ảnh ứng dụng chạy
trởn mõy di động giả lập trởn mõy tợnh (bởi Genymotion) như mục 5 phụ lục 5. Hớnh ảnh ứng dụng thực tế chạy trởn mõy di động Samsung Not 3 như mục 6 phụ lục 5.
4.4. ĐạNH GIạ KẾT QUẢ
4.4.1. Đõnh giõ kết quả thực nghiệm AMES
Từ AMES, ta rỷt ra được những nhận xờt, cũng lỏ những bỏi học:
1. Nghiởn cứu của luận õn đọ kết nối, liởn thừng theo đặc trưng chuyởn ngỏnh khoa học mõy tợnh đọ chỉ ra, như qũ trớnh thực hiện hớnh 4.6. dưới đĩy:
Thực tiễn sử dụng CVT + Lý thuyết ngừn ngữ học + Chuẩn hụa, xĩy dựng cừng cụ khai thõc => Hình thỏnh
hệ thống AMES
Hớnh 4.6. Tiếp cận nghiởn cứu hớnh thỏnh AMES
Nghiởn cứu đọ tiếp cận sử dụng CVT từ thực tiễn cỳng với nghiởn cứu lý thuyết cơ sở ngừn ngữ học, từng bước chuẩn hụa quy tắc hớnh thỏnh CVT, xĩy dựng nguồn dữ liệu vỏ cừng cụ ứng dụng khai thõc CVT, hớnh thỏnh hệ thống khai thõc CVT tạo lập mừi trường trao đổi thừng tin, thu thập, xử lý, lưu trữ, khại thõc CVT. Kết quả nghiởn cứu nỏy xem như lỏ gạch nối nhỏ giữa lý thuyết ngừn ngữ học với thực tiễn sử dụng vỏ với chuyởn ngỏnh xử lý ngừn ngữ tự nhiởn trong CNTT của khoa học mõy tợnh, gụp phần cỳng giải quyết vấn đề CVT tiếng Việt được nhiều người quan tĩm.
2. Đặc điểm AMES hướng đến SECO bởi cõc tợnh chất đặc trưng quan trọng được quan tĩm trong xĩy dựng cừng cụ khai thõc AMES:
a) Tợnh kế thừa: Cộng sinh, hợp tõc cỳng phõt triển, kế thừa, kết nối với cõc
hệ sinh thõi phần mềm khõc.
b) Tợnh ổn định: Hệ sinh thõi cụ kiến trỷc ổn định: Giao diện, quản lý phõt
triển-tiến hụa, an ninh vỏ độ tin cậy.
c) Tợnh mở: Mừ hớnh phõt triển mọ nguồn mở, cộng đồng CNTT cỳng tham
gia. Cừng cụ phần mềm của AMES được thiết kế cho nhiều tõc nhĩn (nhỏ cung cấp dịch vụ VT-CNTT) sử dụng, quảng bõ, kết nối, hợp tõc, tạo khả năng cho qũ trớnh đổi mới cừng nghệ, tăng năng suất lao động.
4.4.2. Đõnh giõ AMES đặc tả theo mừ hớnh UML
Tổng hợp xĩy dựng AMES như hớnh 4.7 dưới đĩy với cõc chỷ thợch (1), (2), (3)
(4) vỏ (5) lỏ cõc phần mềm vỏ cừng cụ khai thõc CVT đọ xĩy dựng vỏ cỏi đặt thực nghiệm: (5) • Cị̃p nhị̃t tự động CVT mới từ Internet; • Xử lý nhị̃p nhằng • http://www.c huviettat.com • Từ điển tra cứu mõy tợnh, di động (4) Server lưu trữ hỏm API: 10.59.10.250:81/CSSbilso urce.asmx (1) Cừng cụ tư vấn đặt tởn Brandna me doanh nghiệp (2) Cõc hỏm API: GetSMSBrand(<tham số xõc thực>, <Chuỗi>) (3) Phương phõp đõnh giõ tần số, tần suất CVT tiếng Việt
Hớnh 4.7. Kết quả thực nghiệm AMES
(6) Đơn vị phõt triển phần mềm: Đụng vai trú chủ yếu trong xĩy dựng, lập trớnh phần mềm, cừng cụ khai thõc CVT, cung cấp giao diện kết nối (hỏm API) vỏ trao đổi thừng tin.
(7) Nhỏ nghiởn cứu ngừn ngữ học, chuyởn gia tư vấn, quy định ngữ phõp CVT: Nghiởn cứu, xĩy dựng quy tắc hớnh thỏnh CVT, dấu hiệu nhận biết CVT, đề xuất quy định bảng danh mục CVT quốc gia; tham gia tạo cõc hỏm API, đề xuất phương phõp, xĩy dựng thuật tõn, cập nhật CVT, đõnh giõ tần số vỏ tần suất CVT.
(8) Nhỏ cung cấp hạ tầng tỏi nguyởn, đường truyền, khừng gian lưu trữ: Cung cấp kết nối Internet, xĩy dựng hoặc thuở hệ thống Server lưu trữ hỏm API, chẳng hạn như server 10.59.10.250:81/CSSbilsource.asmx.
(9) Người sử dụng, người mua, đặt hỏng/thuở phần mềm (SaaS): Đụ lỏ NSD từ điển trởn mõy di động, thư viởn website; NSD di động nhận tin nhắn (brandname) từ nhỏ cung cấp dịch vụ quảng bõ SMS brandname.
(10) Nhỏ cung cấp dịch vụ/Doanh nghiệp: Lỏ cõc đối tõc hợp tõc sử dụng hệ thống phần mềm, cung cấp cho NSD dịch vụ đầu cuối: Sử dụng Cừng cụ tư vấn tin nhắn Brandname, hợp đồng cõc doanh nghiệp để cung cấp tin nhắn cho NSD đầu cuối di động.
Bảng 4.5 dưới đĩy nởu lởn kết quả so sõnh cõc tõc nhĩn, đặc điểm vỏ cừng cụ thực nghiệm xĩy dựng được thể hiện AMES hướng đến SECO:
Bảng 4.5. Kết quả so sõnh cõc tõc nhĩn vỏ đặc điểm AMES vỏ SECO
Chỷ Tõc nhĩn Tõc nhĩn vỏ đặc điểm Cừng cụ thực nghiệm của
thợch của SECO của AMES AMES
Đơn vị phõt triển phần Xĩy dựng, lập trớnh phần
(1) Software mềm; mềm, cừng cụ khai thõc, cung
developer Cụ tợnh kế thừa (kỹ thuật cấp giao diện kết nối, trao đổi
FTS, API…) thừng tin
State, Ngừn ngữ học, chuyởn gia Quy tắc hớnh thỏnh CVT, cõc tư vấn, Quy định ngữ phõp
standards and hỏm API, phương phõp cập
(2) CVT, quy tắc hớnh thỏnh… certifications nhật tự động, đõnh giõ tần số Cụ tợnh kế thừa tri thức bodies tần suất CVT CVT, tợnh mở Nhỏ cung cấp hạ tầng tỏi
nguyởn, đường truyền, Server lưu trữ hỏm API: (3) Nature khừng gian lưu trữ 10.59.10.250:81/CSSbilsourc
Cụ tợnh mở, tợnh ổn định, sử e.asmx;
dụng nguồn lực của nhỏ CC Kết nối Internet
dịch vụ chuyởn nghiệp.
Người sử dụng, người mua,
đặt hỏng/thuở phần mềm NSD từ điển trởn di động,
(4) Software users (SaaS). website; NSD di động nhận
Cụ tợnh mở khi NSD cập tin nhắn (brandname) từ nhỏ
nhật, khai thõc CVT, tỳ điện cung cấp dịch vụ.
(5) Softwarevendor Nhỏ cung cấp dịch vụ hợp tõc sử dụng hệ thống phần mềm, cung cấp cho NSD dịch vụ đầu cuối. Cụ tợnh mở, kết nối đối tõc cỳng khai thõc vỏ phõt triển. Sử dụng Cừng cụ tư vấn tin nhắn Brandname, cỳng cõc Doanh nghiệp cung cấp tin nhắn cho NSD đầu cuối di động.
Như vậy, AMES hớnh thỏnh cung cấp mừi trường khai thõc CVT cho 5 tõc nhĩn với cõc đặc điểm, được hợp tõc phõt triển, cụ mối liởn quan mật thiết lẫn nhau trong cỳng một hệ thống khai thõc phần mềm, vớ lợi ợch chung vỏ riởng của hệ thống phần mềm đem lại cho mỗi một tõc nhĩn.
4.5. TểM TẮT CHƯƠNG 4
Chương 4 đọ đề xuất xĩy dựng hệ thống khai thõc AMES nhằm thừng qua AMES cõc nhỏ khoa học, NSD cụ thể tham gia cập nhật, kế thừa vỏ khai thõc CVT. Kết quả so sõnh cõc tõc nhĩn AMES vỏ SECO khẳng định ý nghĩa khoa học vỏ ứng dụng của nghiởn cứu: Từ những hiện tượng sử dụng CVT, sự hớnh thỏnh CVT trong sự phõt triển ngừn ngữ tự nhiởn, luận õn đọ từng bước quy tắc hụa CVT, xĩy dựng kho ngữ liệu, khai thõc được kho ngữ liệu, phõt triển cõc cừng cụ, ứng dụng. Từng bước hớnh thỏnh mừi trường khai thõc, chia xẻ giõ trị lợi ợch riởng đem lại cho mỗi một tõc nhĩn.
Chương nỏy cũng đọ trớnh bỏy chi tiết về cừng cụ từ điển tra cứu CVT trởn mõy di động, xĩy dựng thư viện CVT, cừng cụ tư vấn đặt CVT thương hiệu (brandname) cho doanh nghiệp. Trong đụ, xĩy dựng thuật tõn SAOM-FTS trong cừng cụ từ điển chữ viết tắt trởn mõy di động, đồng bộ dữ liệu giữa website thư viện chữ viết tắt vỏ từ điển chữ viết tắt trởn mõy di động. Cỳng với cõc kết quả thực nghiệm trớnh bỏy trong cõc chương trước, chương nỏy đọ minh họa kết quả thực nghiệm xĩy dựng hệ thống khai thõc chữ viết tắt AMES.
CHƯƠNG 5.
XỬ LÝ NHẬP NHẰNG CHỮ VIẾT TẮT
Chương 5 tập trung phĩn tợch vỏ đề xuất hướng tiếp cận giải quyết vấn đề xử lý nhập nhằng CVT. Tiếp cận phĩn tợch ngữ cảnh văn bản, nhận diện tớnh huống sử dụng CVT trong văn bản. Xĩy dựng vị từ vỏ hỏm nhận diện CVT trong văn bản, từ đụ đề xuất xĩy dựng cơ sở luật, thuật tõn nhận diện vỏ xử lý nhập nhằng CVT trong văn bản, giới hạn thực nghiệm văn bản trong lĩnh vực chuyởn ngỏnh viễn thừng.
Một hướng tiếp cận khõc xử lý nhập nhằng lỏ dựa vỏo chỉ số tần suất xuất hiện