NHẬN DIỆN TèNH HUỐNG SỬ DỤNG CHỮ VIẾT TẮT

Một phần của tài liệu 1_ NGUYEN NHO TUY_ Toan van LA (Trang 110)

CHƯƠNG 5 XỬ LÝ NHẬP NHẰNG CHỮ VIẾT TẮT

5.1. NHẬN DIỆN TèNH HUỐNG SỬ DỤNG CHỮ VIẾT TẮT

5.1.1. Ngữ cảnh sử dụng chữ viết tắt

Trong thực tiễn cừng việc chuyởn mừn, tõc giả đọ lưu trữ, tập hợp 15 loại hớnh mẫu văn bản phõt hỏnh của VNPT Đỏ Nẵng, với cõc mẫu cụ sẵn (mục 1, phụ lục 5). Mỗi một mẫu văn bản cụ hỏng trăm văn bản phõt hỏnh. Trong đụ, người đọc vỏ ký duyệt văn bản lỏ cõc nhỏ quản lý đơn vị. Thống kở sơ lược 100 văn bản:

Bảng 5.1. Bảng thống kở sử dụng chữ viết tắt (Mẫu bõo cõo gửi đi)

STT Sử dụng CVT Nghĩa CVT Tần suất sử dụng 1. VT Viễn thừng 100% 2. VBG Văn bản giấy 100% 3. MDV Mạng dịch vụ 70% 4. … … … Nhận xờt:

1. Ứng với một ngữ cảnh văn bản (cụ thể lỏ mẫu bõo cõo gửi đi), CVT được sử dụng khõ thống nhất một số cụm CVT với tần suất sử dụng khõ lớn.

2. Để đọc vỏ xờt duyệt văn bản trước khi ký kết, nhỏ quản lý nhận diện cõc CVT dựa trởn sự nhận biết cảm tợnh của mớnh, sự quen thuộc, sự lặp lại cõc CVT. CVT cụ tần suất sử dụng cỏng cao cỏng dễ nhận biết.

3. Những CVT cụ tần suất sử dụng thấp, khừng quen thuộc thường bị yởu cầu giải thợch rử ngữ nghĩa trong văn bản. Trong một văn bản, vẫn cụ sự sử dụng CVT nhập nhằng. Vợ dụ như hai CVT khõc nhau cỳng thể hiện cỳng

một nghĩa; trường hợp nỏy thường bị quy về sai chợnh tả.

Với phĩn tợch nởu trởn, cần xĩy dựng mừ hớnh nhận diện CVT trong văn bản, nhằm giỷp nhận diện được CVT trong văn bản. Giải phõp thực hiện lỏ xĩy dựng cơ sở luật (luật sinh) vỏ căn cứ trởn ngữ cảnh văn bản, đề xuất xĩy dựng mõy suy diễn nhận diện CVT.

5.1.2. Vĩ́n đở̀ nhận diện chữ viết tắt trong văn bản

Xử lý vấn đề CVT tiếng Việt trong văn bản gặp phải những khụ khăn như: tợnh

đa tạp ngừn ngữ, khừng nhất qũn, lẫn lộn tiếng Anh, tiếng Việt, thiếu quy chuẩn, khừng cụ định hướng, nhập nhằng ngữ nghĩa trong nhiều ngữ cảnh khõc nhau. Vấn đề

đặt ra lỏ lỏm thể nỏo để nhận diện CVT, mừ phỏng sự suy diễn của NSD văn bản để cụ được tri thức về CVT, tạo lập mừi trường khai thõc CVT thuận lợi hơn. Sau đĩy lỏ một số khả năng nhận diện tớnh huống NSD gặp CVT trong văn bản tiếng Việt:

Trường hợp 1: Nếu CVT đọ biết, quen thuộc. Đụ lỏ CVT cụ tần suất sử dụng

cao, quen thuộc, NSD đọc vỏ hiểu được dễ dỏng. Cụ thể dựa vỏo chỉ số tần suất sử dụng để nhận biết CVT thuộc dạng nỏy.

Trường hợp 2: Nếu CVT mới lạ, chưa gặp bao giờ. Tớnh huống cụ thể xảy ra

cõc trường hợp:

1. CVT đọ cụ định nghĩa: Trong văn bản đọ cụ bảng cõc CVT chỉ dẫn đầy

đủ, hoặc đọ cụ chỉ dẫn trong đoạn văn bản, NSD tra cứu để sử dụng, đọc vỏ hiểu ngữ nghĩa CVT. Hoặc cụ thể CVT đọ được định nghĩa trước đụ (nhưng khừng cụ trong bảng CVT của văn bản), trường hợp nỏy NSD sẽ gặp khụ khăn, xem như CVT chưa định nghĩa được phĩn tợch dưới đĩy. 2. CVT chưa định nghĩa: Tớnh huống nỏy, trong văn bản khừng cụ bảng định

nghĩa cõc CVT, NSD sẽ thực hiện:

tớm thấy, CVT hợp lý với ngữ cảnh văn bản, NSD cụ thể sử dụng để

đọc, hiểu ngữ nghĩa CVT; trường hợp tớm thấy CVT, nhưng lại cụ qũ nhiều ngữ nghĩa. Đĩy lỏ tớnh huống nhập nhằng ngữ nghĩa CVT (tớnh

huống 1).

b) Trường hợp nếu tra cứu mỏ khừng tớm thấy CVT, NSD sẽ gặp khụ khăn trong xõc định ngữ nghĩa. CVT cụ thể mới lạ, chưa định nghĩa, nhưng lặp lại nhiều lần NSD cụ thể nhận diện dựa vỏo ngữ cảnh văn nhiều đoạn văn hoặc cả văn bản. Đĩy lỏ tớnh huống xõc định khừng chắc chắn ngữ nghĩa CVT (tớnh huống 2).

c) Trường hợp nếu tra cứu mỏ khừng tớm thấy CVT, CVT cụ thể hoỏn toỏn mới lạ, chưa định nghĩa bao giờ, được viết tỳy tiện vỏo văn bản, hiếm khi viết lặp lại, NSD cụ thể nhận diện dựa vỏo ngữ cảnh một vỏi đoạn văn của bản. Đĩy cũng lỏ tớnh huống khừng xõc định được ngữ nghĩa

CVT (tớnh huống 3)

Trong hai trường hợp đọ nởu, cần bục tõch, nhận diện 3 tớnh huống NSD gặp CVT trong văn bản tiếng Việt, cần thiết phải cụ giải phõp nhận diện vỏ xử lý nhập nhằng CVT.

5.1.3. Xĩy dựng mừ hình nhận diện chữ viết tắt trong văn bản

Để cụ thể nhận diện được CVT trong văn bản (thủ cừng/tự động), giải phõp triển khai lỏ xĩy dựng cơ sở luật (luật sinh) vỏ căn cứ trởn ngữ cảnh văn bản, đề xuất xĩy dựng mõy suy diễn nhận diện thủ cừng, tự động CVT. Mừ hớnh nhận diện CVT trong văn bản đề xuất như hớnh 5.1.

Văn bản sau khi qua giai đoạn nhận diện lĩnh vực, thể loại, tợnh chất; phĩn tợch văn bản bằng cõch tõch cĩu, tõch từ… ta tiếp tục xem xờt tớnh huống gặp CVT:

Văn bản

Gặp CVT

Y N

Quen thuộc

Nghĩa Tra cứu

CVT CSDL CVT Bảng CVT Tìm thĩ́y hợp lý Tìm thĩ́y khừng hợp lý Khừng tìm thĩ́y CVT tường minh Đõn nhận, nhập nhằng ngữ nghĩa CVT, tạo mới CVT

Xử lý nhập nhằng CVT

Hớnh 5.1. Mừ hớnh nhận diện CVT trong văn bản.

5.1.4. Giải phõp xử lý nhập nhằng chữ viết tắt

Từ mừ hớnh nhận diện CVT trong văn bản nởu trởn, đề xuất cõc bước nhận diện một CVT, xử lý nhập nhằng CVT trong văn bản tiếng Việt chuyởn ngỏnh viễn thừng gồm:

1. Xĩy dựng CSDL CVT tiếng Việt, thư viện CVT trởn Internet, từ điển tra cứu CVT trởn mõy di động, CSDL tần suất sử dụng CVT trởn Internet, bảng mọ danh mục CVT chuyởn ngỏnh.

2. Xĩy dựng cõc vị từ (Predicate) nhận diện cõc tớnh huống gặp phải CVT trong văn bản, sau đụ xĩy dựng cơ sở luật nhận diện ngữ nghĩa, xử lý nhập

nhằng cõc CVT trởn cơ sở xõc định CVT xuất hiện trong cĩu, trong đoạn vỏ ngữ cảnh văn bản

3. Xĩy dựng mõy suy diễn (MSD) hoạt động theo cơ chế quay lui nhận diện CVT trong văn bản.

Bước 1 thực hiện xĩy dựng CSDL CVT tiếng Việt, thư viện CVT xĩy dựng trởn Internet trong, từ điển tra cứu CVT trởn mõy di động, xĩy dựng bảng mọ danh mục CVT chuyởn ngỏnh (phụ lục 2). Để đơn giản, ta gọi chung chỷng lỏ miền dữ liệu D

cõc CVT sẵn cụ. Sử dụng dạng tệp XML để xĩy dựng CSDL CVT cụ cấu trỷc đơn

giản, dễ cập nhật. Tuy nhiởn khi cỏi đặt trong mõy, tệp XML được tổ chức dưới dạng cõc mảng dữ liệu một chiều (hớnh 15, phụ lục 5).

Trong bước 2, xĩy dựng cõc vị từ dựa vỏo cõc dấu hiệu nhận biết CVT trong

một văn bản từ cõc quy tắc thỏnh lập, sử dụng CVT:

(1) Văn bản cụ bảng định nghĩa trước cõc CVT: Đĩy lỏ bảng dạng cột định

nghĩa n chữ viết tắt phĩn biệt, được trớnh bỏy trong phần đầu văn bản. Cõc CVT

thường được lặp lại nhiều lần, phổ biến, được giải thợch rử nghĩa vỏ khừng cụ sự nhập nhằng khi NSD đọc hiểu văn bản.

(2) Văn bản khừng cụ bảng định nghĩa trước cõc CVT: Cõc CVT được sử dụng trong văn bản, nhận biết chỷng bởi cõc dấu hiệu nhận biết nởu ở (3) dưới đĩy.

(3) Cõc dấu hiệu nhận biết CVT dỳng trong văn bản:

a) CVT nằm trong dấu ngoặc đơn (..) ngay sau cụm từ viết đầy đủ khi CVT được định nghĩa lần đầu, CVT nỏy được sử dụng từ đụ về sau. b) Thừng thường CVT lỏ chữ in hoa (cụ số ợt trường hợp viết chữ

thường). CVT lỏ một từ cụ độ dỏi cụ thể đạt tới 15 ký tự.

c) CVT cụ cõc ký tự hay dấu đặc biệt vỏ (&), dấu phĩn cõch (/), dấu gạch ngang (-), dấu chấm (.), kết hợp chữ vỏ số, khừng dỳng dấu cõch… d) CVT tiếng Việt phần lớn dỳng phụ ĩm, khừng dỳng cõc nguyởn ĩm ằ,

Ă, Ơ, ấ, ễ… khừng dỳng cõc dấu thanh huyền, sắc, hỏi ngọ, nặng. Qũ trớnh nhận diện từ được đề xuất bởi thuật tõn trong mục tiếp theo dưới

đĩy. Ý tưởng thuật tõn: Văn bản lấy từ kho dữ liệu văn bản sưu tập, hoặc cụ thể sử dụng cõc tập Copus [23]. Văn bản được tõch lần lượt từng đoạn, từng cĩu S để xử lý.

Mõy suy diễn hoạt động theo cơ chế quay lui sử dụng cơ sở luật sẽ lần lượt trợch từng từ đơn W trong cĩu tỳy theo ngữ cảnh. Từ đơn W sau khi xem xờt cõc dấu hiệu nhận biết CVT, xõc định rử CVT, ngữ nghĩa CVT, được cập nhật vỏo bảng CVT tường minh, giải thợch rử ngữ nghĩa. Văn bản đầu ra sẽ được chuẩn hụa với Bảng cõc CVT tường minh, đầy đủ, khừng cún sự nhập nhằng CVT, lưu vỏo kho dữ liệu văn bản đọ chuẩn hụa sử dụng CVT.

Trong bước 3, cụ thể sử dụng phương phõp khõc như so khớp tối đa MMS (Maximum Matching Segmentation) với CSDL đọ được xĩy dựng trong bước 1 để nhận diện ngữ nghĩa CVT. Ở đĩy, cõc mục tiếp theo trớnh bỏy cõc bước xĩy dựng mõy suy diễn, nhận diện CVT trong văn bản.

5.2. XằY DỰNG VỊ TỪ Vá HáM NHẬN DIỆN CHỮ VIẾT TẮT

Để xĩy dựng cơ sở luật nhận diện từ trong cĩu, bước đầu tiởn lỏ xĩy dựng cõc vị từ vỏ cõc hỏm xử lý liởn quan.

Mỗi vị từ dạng P(X), hoặc P(f(X, Y)) cụ kết quả đỷng/True nếu biến X hoặc hỏm f(X, Y) của vị từ thoả mọn điều kiện đang xờt, trong đụ X ϵ Di vỏ Y ϵ Dj, Di vỏ Dj lỏ cõc miền giõ trị đọ được xõc định từ CSDL tập chữ cõi tiếng Việt. Vị từ sẽ trả về kết quả sai/False trong trường hợp ngược lại. Từ những phĩn tợch dấu hiệu nhận biết CVT, xĩy dựng cõc vị từ xõc định vị trợ của mỗi ký tự lỏ điểm bắt đầu, điểm kết thỷc, hay nằm trong một từ.

5.2.1. Xĩy dựng cõc miở̀n dữ liệu

D lỏ tập cõc CVT (lỏ miền dữ liệu) đọ đươc xĩy dựng trong bước 1 nởu trởn. Với mỗi CVT thuộc D, cụ cõc thuộc tợnh ngữ nghĩa, tần số, lĩnh vực, tần suất xuất hiện...

V = {A.. Y} lỏ tập 29 chữ cõi tiếng Việt in hoa. A ={A.. Z} lỏ tập chữ cõi tiếng Anh in hoa.

P = {.,;:, !, ?, SP} tập cõc dấu ngắt cĩu, SP lỏ dấu cõch. N ={0.. 9}.

NA ={A, Ă, ằ, E, ấ, I, Y, O, ễ, Ơ, U, Ư} tập 11 nguyởn ĩm đơn. NAs ={Ă, ằ, ấ, ễ, Ơ, Ư} tập 6 nguyởn ĩm đơn cụ dấu.

Gọi=VAPN,* lỏ tập mọi cĩu (chuỗi) cụ thể, tỳy ý, được xĩy dựng bằng cõch ghờp lần lượt (ký hiệu ghờp/Concatenation) cõc ký tự của.

Từ đơn W(SP})* (khừng chứa SP). Vợ dụ W=’H’’ộ’’i’ = “Hội”. Một cĩu S* gồm cõc từ đơn Wi, i=1..L, với L lỏ số từ cụ mặt trong S hay độ dỏi của S khừng kể cõc dấu cõch.

5.2.2. Xĩy dựng vị tư vỏ hỏm

Một vị từ lỏ một hỏm (function) luừn cụ giõ trị trả về lỏ đỷng (true) hoặc sai (false). Bảng 5.2. lỏ vị từ vỏ hỏm được xĩy dựng cụ thể:

Bảng 5.2. Bảng vị từ vỏ hỏm

Vị tư Định nghĩa

1. Vị từ nhận diện CVT định nghĩa mới trong đoạn văn bản

BeginW(W) Xõc định từ W cụ chứa ký tự bắt đầu lỏ "(" hay khừng

EndW(W) Xõc định từ W cụ chứa ký tự kết thỷc lỏ ")" hay khừng

NumWowd(W, <=15) Vị từ xõc định từ W cụ tổng số ký tự nhỏ hơn hoặc bằng 15

CheckUpper(W) Vị từ xõc định từ W lỏ một từ viết hoa (cụ tất cả ký tự đề viết hoa)

CheckSign(W) Xõc định tất cả ký tự của W thuộc tập V \ NAs = {A.. Y} \ {Ă, ằ, ấ, ễ, Ơ, Ư}

CheckSignSpec(W) Vị từ xõc định từ W cụ thể chứa cõc ký tự đặc biệt trong tập {&, /, -,.} N={0..9}

AcronymWord(S,W) Vị từ nhận diện S lỏ chuỗi chứa chữ viết tắt W trong một cĩu đang xờt

Paragraph(X) Xõc định X lỏ đoạn văn bản

Sentence(S) Xõc định S lỏ cĩu trong đoạn văn bản

2. Vị từ xõc định văn bản đầu vỏo cụ Bảng chữ viết tắt

TableAcromyn(X) Vị từ xõc định văn bản X cụ Bảng T chữ viết tắt định nghĩa trước

3. Vị từ xõc định chữ viết tắt cụ trong bảng

AcronymTable(W, T) Vị từ xõc định W lỏ chữ viết tắt trong Bảng T cõc chữ viết tắt

4. Vị từ nhận diện từ trong cĩu

EmptyString(S) S lỏ một cĩu (string) trong văn bản đang rỗng

EmptyWord(W) S lỏ một từ đơn trong chuỗi S đang rỗng

5. Vị từ tớm kiếm CVT trởn miền dữ liệu CVT sẵn cụ

FindAcronym(W,D) Vị từ xõc định W lỏ cõc chữ viết tắt trong miền D chữ viết tắt

6. Vị từ xõc định chữ viết tắt sử dụng nhập nhằng, nhận diện ngữ nghĩa

Ambiguous(W) Vị từ xõc định W lỏ chữ viết tắt cụ nhập nhằng ngữ nghĩa

Conjecture(W) Vị nhận diện W lỏ chữ viết tắt cụ ngữ nghĩa nỏo đụ

AcronymUsed_Ok(W) Vị nhận diện W lỏ chữ viết tắt sử dụng hợp lý

7. Vị từ điều khiở̉n

EoF() Vị từ kết thỷc văn bản

EoP() Vị từ kết thỷc đoạn văn bản

Error() Vị từ bõo gặp lỗi khi nhận diện CVT

Finish() Kết thỷc

8. Xĩy dựng cõc hỏm xử lý ký tự vỏ chuỗi

Con(W1, W2,... WL) Ghờp liởn tiếp cõc từ đơn Wi, i=1..L. trả về từ ghờp. Vợ dụ: Con(‘N’, ‘V’)=”NV”

Trả về từ ghờp mọi chữ cõi đầu của cõc từ đơn W cụ trong S sau khi loại bỏ cõc dấu ngắt cĩu (quy

ConcatFirstLetter(S) tắc 1 thỏnh lập chữ viết tắt). Vợ dụ:

ConcatFirstLetter(“Hội đồng Nhĩn dĩn”) = “HĐND”

NumberAcrTable(T) Hỏm trả về số n lỏ tổng số cõc CVT đọ được định nghĩa trởn bảng T.

MaxFrequency(T,W) Gõn trọng số tần suất sử dụng cõc CVT trong bảng T lỏ cao nhất bằng 1,0

Hỏm trả về chữ viết tắt W mới định nghĩa của

NewAcronym(S,W) chuỗi S bằng cõch loại bỏ ký tự đầu"(" vỏ ký tự cuối ")" của W trong cĩu S.

AcronymT(T,W) Trả về chữ viết tắt W đọ định nghĩa trong bảng T

MeanNewAcr (S,W) Hỏm trả về cĩu S lỏ ngữ nghĩa chữ viết tắt W định nghĩa trong dẫu hiệu nhận biết CVT

Khi cụ CVT định nghĩa mới (chưa cụ trong bảng

AddAcrnym(T,W) T), hỏm nỏy bổ sung CVT mới vỏo Bảng T, số CVT trong bảng T tăng lởn, bằng n + 1

MeanAcronym(T,W) Trả về cĩu S lỏ ngữ nghĩa CVT W trong Bảng T Hỏm tớm kiếm chữ viết tắt W trởn miền dữ liệu

FindAcr(D,W,S) CVT sẵn cụ D, trả về ngữ nghĩa trong cĩu S, nếu khừng tớm thấy trả về cĩu rỗng

CurentFrequency(D,W,F) Lấy giõ trị trọng số tần suất sử dụng lớn nhất của cõc CVT cụ trỳng lặp, nhập nhằng nghĩa trong D

CurentContext (D,W,C) Lấy giõ trị ngữ cảnh của CVT (thuộc tợnh lĩnh vực CVT, nguồn gốc sử dụng...) trong miền D

5.2.3. Nhận diện hiện tượng nhập nhằng CVT trong văn bản

Hiện tượng nhập nhằng xảy ra khi: Một CVT thường cụ nhiều hơn một nghĩa, cụ biểu hiện hiểu lầm, mơ hồ ngữ nghĩa của CVT. Tõc động của nhập nhằng lỏm cho người đọc, kể cả người viết, hiểu lầm, gặp sai sụt, hay bế tắc.

Để khử nhập nhằng nghĩa CVT, cõc nhỏ nghiởn cứu sử dụng nhiều thừng tin của ngữ cảnh ở nhiều cấp độ (hớnh thõi, ngữ phõp, ngữ nghĩa,...) cỳng với cõc luật suy diễn ngữ nghĩa. Cõc luật suy diễn nỏy tạo thỏnh cụ thể từ thủ cừng hoặc từ qũ trớnh bõn tự động - tự động hụa, hoặc cụ sự phối kết hợp giữa chỷng. Luật suy diễn xĩy dựng bằng tay đúi hỏi cừng sức lớn vỏ khụ cụ thể bao qũt hết mọi trường hợp.

Trong văn bản, hiện tượng nhập nhằng CVT xảy ra trong cõc trường hợp: (1)Trường hợp 1: Khi cụ CVT định nghĩa mới mỏ CVT nỏy đọ cụ trong bảng

T hiện hỏnh: tức lỏ tồn tại chữ viết tắt W thỏa mọn:

NewAcronym(S,W) =AcronymT(T,W)

vỏ ngữ nghĩa chỷng khõc nhau:

MeanNewAcr (S,W) ≠ MeanAcronym(T,W)

(2)Trường hợp 2: Nếu trong trường 1 mỏ xảy ra:

MeanNewAcr (S,W) =MeanAcronym(T,W)

thớ trong văn bản cụ sự định nghĩa CVT trỳng lặp, khừng cần thiết, ta cũng cụ thể coi lỏ nhập nhằng định nghĩa, sử dụng CVT trong văn bản.

văn bản, tức lỏ cõc vị từ sau đĩy cụ giõ trị True: NumWowd(W, <=15),

CheckUpper(W), CheckSign(W), CheckSignSpec(W). Xõc định khả

năng W lỏ CVT; vỏ nếu khừng tớm thấy W trong bảng T vỏ khừng cụ định nghĩa trước đụ, thớ đĩy cũng lỏ sự nhập nhằng, khừng rử nghĩa CVT. Việc tra cứu W trởn miền D (tập CSDL CVT sẵn cụ):

a) Nếu tớm thấy cụ thể đưa ra nhận diện CVT. Trường hợp CVT cụ nhập nhằng ngữ nghĩa, ta dựa vỏo tần suất sử dụng cao nhất để cụ thể chọn CVT đề xuất, nhận diện.

b) Nếu khừng tớm thấy thớ khừng thể chỉ ra ngữ nghĩa CVT lỏ gớ, cụ cảnh bõo việc sử dụng CVT nỏy chưa chợnh xõc trong văn bản.

5.3. XằY DỰNG CƠ SỞ LUẬT NHẬN DIỆN CHỮ VIẾT TẮT 5.3.1. Xĩy dựng cơ sở luật

Một phần của tài liệu 1_ NGUYEN NHO TUY_ Toan van LA (Trang 110)

Tải bản đầy đủ (DOC)

(169 trang)
w