Như đã trình bày ở trên, vấn đề thiếu thống nhất về vị trí đặt dấu thanh điệu và sử dụng “i” và “y” trong chữ quốc ngữ hiện nay cần phải được giải quyết càng sớm càng tốt. Nhiệm vụ của k[r]
(1)Phần mở đầu
1 Tính cấp thiết vấn đề
Từ ngày 01/01/2003, theo Quyết định số 72 Thủ tướng Chính phủ ngày 20/06/2002, mã Unicode TCVN 6909:2001 sử dụng làm mã chuẩn phạm vi toàn quốc Trước đó, ngày 15/11/2002, Bộ Khoa học Cơng nghệ Thơng tư 07/2002/TT BKHCN, theo tổ chức nhà nước, quan Đảng thống dùng mã Unicode dựng sẵn giao dịch từ 01/01/2003 Có thể nói kiện mốc đánh dấu kết thúc giai đoạn khủng hoảng mã kí tự tiếng Việt: 40 bảng mã 8-bit dùng để biểu diễn tiếng Việt máy tính
Tuy nhiên, bảng mã vấn đề nhức nhối việc biểu diễn chữ viết tiếng Việt (chữ quốc ngữ) máy tính Trong số năm gần đây, vấn đề khác lại phát gây cản trở nhiều cho việc lưu trữ, tìm kiếm văn tiếng Việt máy tính, vấn đề tả Trong có hai điểm cộm là: vị trí đặt dấu điệu thiếu thống sử dụng “y” “i”…
Trước đây, khái niệm lỗi tả thường hiểu lỗi mặt chữ viết, tức lỗi đơn mặt ngôn ngữ học Ví dụ:
Nhầm lẫn âm đầu có cách phát âm (gần) giống (đặc biệt với phương ngữ Bắc): s - x; ch - tr; gi - d - r… có cách biểu diễn khác nhau: ng - ngh; g - gh Nhầm lẫn mặt điệu nhầm lẫn cách phát âm địa phương khác
…
Tuy nhiên, tạo lập văn máy tính, người ta, ngồi lỗi mang tính ngơn ngữ học cịn mắc lỗi khác mang tính kĩ thuật Những tượng bị coi lỗi kĩ thuật tồn hạn chế máy tính (chủ yếu việc tìm kiếm, nhận dạng) trước tượng chưa thống mặt chữ viết:
Vị trí đặt dấu điệu “i ngắn” “y dài”
Các lỗi nguyên nhân mang tính vật lí khác (xảy nhập từ bàn phím)
…
Trong lỗi kĩ thuật trên, cho hai loại lỗi đầu chưa lỗi mà hậu không thống Tuy nhiên, để thuận tiện, tạm coi chúng lỗi Và khái niệm lỗi tả tạm thời chủ yếu đề cập đến lỗi mang tính kĩ thuật
Như biết, lĩnh vực sau đây, muốn hoạt động có hiệu quả, cần đến hệ thống tả chuẩn hố:
1 Tìm kiếm
2 Kiểm tra tả Tổng hợp tiếng nói
4 Nhận dạng văn (gồm văn in văn viết tay) Nhận dạng tiếng nói
Bởi vì, xét cho lĩnh vực hoạt động theo trình mơ hình sau:
Cụ thể là:
(2)Tìm kiếm Chuỗi cần tìm (nên chuẩn hố gõ)
(văn có chuỗi cần tìm chuẩn hố chưa)
- chuyển đổi chuỗi nhập vào (chuỗi cần tìm) thành hai dạng: chuẩn phi chuẩn
- đối chiếu chuỗi
Văn thoả mãn yêu cầu tìm kiếm
Kiểm tra
chính tả Văn kiểm tra chuẩn hố chưa
Chuẩn hố tả Văn
chính tả Tổng hợp
tiếng nói Văn dạng text - Chuẩn hoá văn đầu vào (chính xác chuyển sang dạng phiên âm: cơng đoạn grapheme2phoneme)
- Tổng hợp
Âm tiếng nói
Nhận dạng văn bản
Văn dạng hình
ảnh (nhị phân) - Nhận dạng- Chuẩn hố tả Văn dạng text (đã chuẩn hố tả)
Nhận dạng tiếng nói
Âm tiếng nói Nhận dạng Văn dạng
text (đã chuẩn hố tả)
Bảng 1: Một số lĩnh vực liên quan đến vấn đề tả máy tính
Để hiểu thêm hậu thiếu thống nhất, xem vài ví dụ sau: - Về hậu thiếu thống đặt dấu điệu:
Với âm tiết [hwa2] tiếng Việt “viết máy tính” theo hai cách: hồ hịa Đối với người bình thường thì, ngoại trừ cảm nhận chủ quan thẩm mĩ có, hai cách khơng có vấn đề gì, người ta đọc Nhưng với máy tính lại hai chuỗi kí tự (string) khác Bởi vì, nay, theo quy định, sử dụng bảng mã Unicode với kiểu biểu diễn dựng sẵn Theo đó, “hồ” kết hợp kí tự: h + o + à; cịn “hịa” lại kết hợp kí tự: h + ị + a
hồ == h + o + hòa == h + ò + a
Do đó, tìm kiếm, tuỳ theo cách bỏ dấu từ khố từ có tài liệu cần tìm, có kết khác Như tìm kiếm VnExpress thơng qua Google1 với hai từ khoá “hoạ” “họa”, kết ngày 28/4/2005 là:
hoạ site:vnexpress.net → 8.560 họa site:vnexpress.net → 25.100
hay VietNamNet:
hoạ site:vietnamnet.vn → 3.860 họa site:vietnamnet.vn → 3.560
Như vậy, để có kết xác, người tìm kiếm phải tìm hai trường hợp Và khơng để ý chuyện bỏ dấu mà lại tìm với hai trường hợp chắn kết tìm kiếm khơng xác
Cịn việc xếp, trường hợp danh sách cần xếp viết theo hai kiểu, phiền phức không Dưới thử nghiệm với hai chương trình xếp tuân thủ tương đối theo chuẩn xếp tiếng Việt (xem phụ lục)
Mơi trường thử nghiệm:
(3)Chương trình:
vnutf8cmp (nằm gói vnstrproc-0.2) VietPad v1.2 (ngày 14 tháng năm 2005)
Kết quả:
Ban đầu VietPad vnutf8cmp Đúng
hòa hoa hoa hoa
hồ hồ hịa hồ
hoa hoạ họa hịa
họa hịa hồ hoạ
hoại họa hoạ họa
hoạ hoại hoại hoại
hoàng hoàng hoàng hoàng
Bảng 2: Kết xếp VietPad vnutf8cmp
- Về hậu thiếu thống việc sử dụng “y” “i”
Sự thiếu thống việc biểu diễn âm /i/ theo hai cách: dùng chữ “y” dùng chữ “i” Cũng trường hợp trên, việc thiếu thống không ảnh hưởng tới khả đọc người ảnh hưởng nghiêm trọng tới thời gian kết tìm kiếm máy tính Ví dụ, tìm kiếm từ “sĩ/sỹ” VnExpress thông qua Google:
sĩ site:vnexpress.net > 92.000 sỹ site:vnexpress.net > 13.400
và VietNamNet (thông qua Google): sĩ site:vietnamnet.vn > 18.300 sỹ site:vietnamnet.vn > 5.780
Đó với trường hợp tìm với từ một, cịn tìm kiếm xác nhiều từ, ví dụ tìm từ “hoạ sĩ” người dùng phải tìm lần: “hoạ sĩ”, “họa sĩ”, “hoạ sỹ”, “họa sỹ” Cịn riêng từ “q” có kiểu viết khác nhau: q, qúy, q, qúi Và nói, hỗn loạn nguyên nhân khiến nhiều thí sinh thiếu kinh nghiệm khơng thể tìm thấy tên bảng điểm tra cứu qua mạng…
Hiện nay, tốc độ ứng dụng thành công nghệ thông tin vào đời sống ngày cao, bề rộng lẫn chiều sâu Chúng ta có nỗ lực nhằm xã hội hố tin học, xây dựng phủ điện tử lượng thơng tin số hố ngày tăng Tình trạng thiếu thống vừa nêu rào cản lớn cho trình
Do đó, việc giải thiếu thống nhiệm vụ cấp thiết 2 Đối tượng nhiệm vụ nghiên cứu
Nội dung mà khố luận hướng tới thống vị trí đặt dấu điệu sử dụng “i” ngắn, “y” dài Do vậy, đối tượng nghiên cứu khố luận hệ thống chữ quốc ngữ giai đoạn
Như trình bày trên, vấn đề thiếu thống vị trí đặt dấu điệu sử dụng “i” “y” chữ quốc ngữ cần phải giải sớm tốt Nhiệm vụ khoá luận là:
(4)Yêu cầu cho giải pháp không can thiệp, làm biến dạng kết cấu hệ thống chữ quốc ngữ Nói cách khác, khố luận không bàn tới việc cải tiến chữ quốc ngữ với tư cách nhiệm vụ nghiên cứu
Ngồi ra, riêng vị trí đặt dấu Khố luận khơng bàn tới vị trí đặt dấu bên trái, bên phải hay bên dấu phụ chữ biểu diễn âm Vì hoàn toàn thuộc lĩnh vực đồ hoạ tuỳ thuộc vào ý tưởng nghệ thuật người thiết kế phông chữ (font)
3 Phương pháp nghiên cứu nguồn tư liệu
Phương pháp chủ yếu sử dụng khoá luận phương pháp thống kê, thực chương trình phần mềm nguồn mở:
`sed' (GNU sed version 4.0.8) `grep' (grep (GNU grep) 2.5.1) vnstrproc-0.2 (http://xvnkb.sf.net)
remove-duplicated-lines.pl (D Gonze, 01/12/2003)
Về tư liệu khảo sát Chúng sử dụng hai loại tư liệu cho hai mục đích
Loại thứ dùng để khảo sát kết cấu chữ quốc ngữ Chúng sử dụng Từ điển vần tác giả Hoàng Phê làm tư liệu khảo sát Ngồi cịn có số từ điển tiếng Việt khác sử dụng với tư cách nguồn tư liệu bổ sung
Loại thứ hai dùng để khảo sát tình hình sử dụng chữ quốc ngữ nay: vị trí đặt dấu điệu, viết “i”/“y” Vì chưa có sở ngữ liệu (corpus) tiếng Việt công bố sử dụng miễn phí nên chúng tơi sử dụng máy tìm kiếm Google để lấy tư liệu khảo sát
4 Bố cục khoá luận
Khoá luận chia làm phần: Mở đầu, Nội dung Kết luận
Phần Mở đầu giới thiệu tính cấp thiết vấn đề, đối tượng phương pháp nghiên cứu, bố cục khoá luận
Phần Nội dung khố luận chia làm hai chương Trong đó: Chương giải vấn đề vị trí đặt dấu điệu;
Chương giải vấn đề thống việc sử dụng “i” “y” chữ quốc ngữ nay;
Phần Kết luận tổng kết lại vấn đề đề cập khoá luận; thảo luận thêm việc áp dụng nguyên tắc (đã xác định hai chương trước) vào thực tế Đồng thời, phần này, đưa kiến nghị vấn đề khác liên quan
(http://xvnkb.sf.net Chương Chương