Phân loại các từ chƣa chuẩn hóa cho tiếng Việt

Một phần của tài liệu Nghiên cứu một số phương pháp tổng hợp tiếng nói (Trang 48 - 53)

Để đáp ứng yêu cầu này trƣớc tiên cần phải có một hệ thống phân loại rõ ràng các NSW để có biện pháp xử lý riêng rẽ với từng loại NSW đảm bảo nội dung

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

văn bản đƣợc hiểu một cách đúng đắn. Dƣới đây là bảng phân loại các NSW cho các NSW tiếng Việt.

Bảng 3-1 Bảng phân loại NSW

Nhóm Loại Mô tả Ví dụ

Số

NTIM Thời gian giờ 1:30

NDAT Ngày tháng năm 17/3/87, 1/3/2010

NDAY Ngày và tháng 17/3, 03-05/3

NMON Tháng và năm 3/88, 5/2011

NNUM Số số học 2009, 70.000

NTEL Số điện thoại 0915.334.577

NCODE Số hiệu, mã số VN534

NSCR Tỉ số Tỉ số là 3-5

NRNG Miền giá trị Từ 3-5 ngày

NPER Số phần trăm 93%, 30-40%,

NFRC Phân số 34/6, 6/145

NCOM Hỗn hợp 2x2x3, 18+, 2*3

NADD Địa chỉ Ngách 128/27/2A

NSIG Kí hiệu m2, m3

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Nhóm Loại Mô tả Ví dụ

LSEQ Dãy các ký tự ODA, GDP

GREE Số Hi Lạp I, II

LABB Viết tắt TS (tiến sĩ)

Khác

PUNC Dấu câu đọc đƣợc … ( ) [ ] „ ‟ “ ” - /

SENT Dấu phân tách câu . ? ! …

PARA Dấu phân tách

đoạn

Dấu enter

URLE Địa chỉ url, email http://soict.hut.vn

MONY Tiền tệ 2$, $2, 100 ¥,

DURA Trƣờng độ (nghỉ) “-” in scores (2-3)

NONE Bỏ qua asscii art…

Các NSW ban đầu đƣợc chia vào ba nhóm chính là nhóm Số, nhóm Chữ, và nhóm Khác.

Nhóm số đƣợc bao gồm những token có chứa ký tự là số. Nó bao gồm các loại nhỏ hơn là:

- NTIM cho việc biểu diễn giờ (“9:30” hay “9.30” hay “9h30” tƣơng ứng với “chín giờ ba mƣơi phút”)

- NDAT chỉ ngày tháng năm đầy đủ (“17/3/1987”, “17/03/1987”, “17/03/87” tƣơng ứng với “ngày mƣời bảy tháng ba năm một nghìn chin trăm tám mƣơi bảy/một chin tám bảy/tám bảy”)

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

- NDAY chỉ ngày và tháng (“17/03” hay “17/3” tƣơng ứng với “ngày mƣời bảy tháng ba”)

- NMON chỉ tháng và năm (“03/87” hay “3/87” tƣơng ứng với “tháng ba năm tám mƣơi bảy”)

- NNUM là số số học (“200.000” hay “200 000” tƣơng ứng với “hai trăm nghìn”) - NTEL cho số điện thoại (“38.68.39.39”, “38 683 939 tƣơng ứng với “ba tám (nghỉ) sáu tám (nghỉ) ba chin (nghỉ) ba chin”)

- NCODE cho dãy số chỉ kí hiệu (“mã số 999” tƣơng ứng là “mã số chin chin chin”).

- NSCR cho tỉ số (“tỉ số 2-3” tƣơng ứng là “tỉ số hai (nghỉ) ba”)

-NRNG cho số chỉ miền giá trị (“từ 2-3 ngày” đọc thành “từ hai đến ba ngày”). - NPER cho số phần trăm (“30-40%” đƣợc đọc là “ba mƣơi đến bốn mƣơi phần trăm”).

- NFRC cho phân số (“34/5” tƣơng ứng với “ba mƣơi tƣ phần năm”)

- NCOM cho những trƣờng hợp tổ hợp số phức tạp, hay những biểu thức (2x2x3 đọc là “hai nhân hai nhân ba”).

- NSIG cho những đơn vị thông dụng (“m2” đọc là “mét vuông”, “nm” đọc là “na nô mét”, “Nm” đọc là “niu tơn mét”).

Nhóm thứ hai là nhóm chữ cho những trƣờng hợp nhƣ sau:

- LWRD cho các token không thể áp dụng đƣợc luật phiên âm. Đó là trƣờng hợp của danh từ nƣớc ngoài hay các từ viết tắt gốc nƣớc ngoài mà có thể đọc lên nhƣ một từ (ghép) (“NATO” khi chuẩn hóa sẽ đọc là “na tô”).

- LSEQ cho những token đọc lên nhƣ một dãy các chữ cái (“ODA” đọc là “O dê a”).

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

- LABB cho những token là từ viết tắt và cần phải tìm dạng đầy đủ của chúng (“PV” mở rộng và đọc thành “phóng viên”).

- GREE cho các số Hi Lạp, vốn đƣợc biểu diễn dƣới dạng các chữ cái in hoa viết liền nhau (“thế kỷ XX” đọc là “thế kỷ hai mƣơi”). Việc xử lý các số Hi Lạp của các nghiên cứu chuẩn hóa văn bản trong nƣớc vẫn chƣa thực sự thành công. Khi gặp các số Hi Lạp I, II, III thƣờng bị lẫn thành dãy chữ cái.

Nhóm Khác bao gồm những trƣờng hợp:

- PUNC là các dấu câu có thể đọc lên đƣợc mà khi không đọc chúng có thể gây mất ngữ nghĩa của văn bản. Đó là: dấu ba chấm (...), dấu nháy đơn và kép („‟, “”), dấu ngoặc đơn (()), dấu ngoặc vuông ([]) (và ngoặc nhọn ({})).

- SENT là dấu phân tách các câu trong văn bản. Đó là các dấu: chấm (.), dấu chấm hỏi (?), dấu chấm cảm (!). Khi khai thác ngữ cảnh nâng cao có thể dùng tới ngữ cảnh trong một câu, hoặc dùng để làm căn cứ cho ngữ điệu đọc một câu.

- PARA là dấu trắng phân tách đoạn trong văn bản, khi gặp dấu xuống dòng thì sẽ nghỉ một chút.

- URLE là các địa chỉ hay đƣờng dẫn tới các trang mạng, địa chỉ thƣ điện tử (http://hut.edu.vn).

- MONY là các tổ hợp biểu diễn tiền tệ, vốn phong phú cả về ký hiệu và phong cách biểu diễn trong tiếng Việt (“2$”, “5.000 VNĐ” hoặc “5.000đ” hay theo cách nƣớc ngoài “$2”, “VNĐ 5.000”).

- DURA là gạch nối trong token, đƣợc hiểu nhƣ khoảng nghỉ khi đọc nhƣ “.”, “-” hay khoảng trắng “ ” trong số điện thoại (0912.456.345) hoặc tỉ số “-” (2-3).

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Một phần của tài liệu Nghiên cứu một số phương pháp tổng hợp tiếng nói (Trang 48 - 53)

Tải bản đầy đủ (PDF)

(82 trang)