1. Trang chủ
  2. » Giáo án - Bài giảng

Thống nhất vị trí đặt dấu thanh điệu. 1

4 118 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 4
Dung lượng 72,5 KB

Nội dung

Phần mở đầu Tính cấp thiết vấn đề Từ ngày 01/01/2003, theo Quyết định số 72 Thủ tướng Chính phủ ngày 20/06/2002, mã Unicode TCVN 6909:2001 sử dụng làm mã chuẩn phạm vi toàn quốc Trước đó, ngày 15/11/2002, Bộ Khoa học Công nghệ Thông tư 07/2002/TT BKHCN, theo tổ chức nhà nước, quan Đảng thống dùng mã Unicode dựng sẵn giao dịch từ 01/01/2003 Có thể nói kiện mốc đánh dấu kết thúc giai đoạn khủng hoảng mã kí tự tiếng Việt: 40 bảng mã 8-bit dùng để biểu diễn tiếng Việt máy tính Tuy nhiên, bảng mã vấn đề nhức nhối việc biểu diễn chữ viết tiếng Việt (chữ quốc ngữ) máy tính Trong số năm gần đây, vấn đề khác lại phát gây cản trở nhiều cho việc lưu trữ, tìm kiếm văn tiếng Việt máy tính, vấn đề tả Trong có hai điểm cộm là: vị trí đặt dấu điệu thiếu thống sử dụng “y” “i”… Trước đây, khái niệm lỗi tả thường hiểu lỗi mặt chữ viết, tức lỗi đơn mặt ngôn ngữ học Ví dụ: • Nhầm lẫn âm đầu có cách phát âm (gần) giống (đặc biệt với phương ngữ Bắc): s - x; ch - tr; gi - d - r… có cách biểu diễn khác nhau: ng - ngh; g - gh Nhầm lẫn mặt điệu nhầm lẫn cách phát âm địa phương khác … • • Tuy nhiên, tạo lập văn máy tính, người ta, lỗi mang tính ngôn ngữ học mắc lỗi khác mang tính kĩ thuật Những tượng bị coi lỗi kĩ thuật tồn hạn chế máy tính (chủ yếu việc tìm kiếm, nhận dạng) trước tượng chưa thống mặt chữ viết: • • • • Vị trí đặt dấu điệu “i ngắn” “y dài” Các lỗi nguyên nhân mang tính vật lí khác (xảy nhập từ bàn phím) … Trong lỗi kĩ thuật trên, cho hai loại lỗi đầu chưa lỗi mà hậu không thống Tuy nhiên, để thuận tiện, tạm coi chúng lỗi Và khái niệm lỗi tả tạm thời chủ yếu đề cập đến lỗi mang tính kĩ thuật Như biết, lĩnh vực sau đây, muốn hoạt động có hiệu quả, cần đến hệ thống tả chuẩn hoá: Tìm kiếm Kiểm tra tả Tổng hợp tiếng nói Nhận dạng văn (gồm văn in văn viết tay) Nhận dạng tiếng nói Bởi vì, xét cho lĩnh vực hoạt động theo trình mô hình sau: Cụ thể là: Lĩnh vực Đầu vào Xử lí Đầu Tìm kiếm Chuỗi cần tìm (nên chuẩn hoá gõ) (văn có chuỗi cần tìm Văn thoả mãn chuẩn hoá chưa) yêu cầu tìm kiếm - chuyển đổi chuỗi nhập vào (chuỗi cần tìm) thành hai dạng: chuẩn phi chuẩn - đối chiếu chuỗi Kiểm tra Văn kiểm tả tra chuẩn hoá chưa Chuẩn hoá tả Văn tả Tổng hợp Văn dạng text - Chuẩn hoá văn đầu vào (chính xác tiếng nói chuyển sang dạng phiên âm: công đoạn grapheme2phoneme) - Tổng hợp Âm tiếng nói Nhận Văn dạng hình - Nhận dạng dạng văn ảnh (nhị phân) - Chuẩn hoá tả Văn dạng text (đã chuẩn hoá tả) Nhận Âm tiếng nói dạng tiếng nói Văn dạng text (đã chuẩn hoá tả) Nhận dạng Bảng 1: Một số lĩnh vực liên quan đến vấn đề tả máy tính Để hiểu thêm hậu thiếu thống nhất, xem vài ví dụ sau: - Về hậu thiếu thống đặt dấu điệu: Với âm tiết [hwa2] tiếng Việt “viết máy tính” theo hai cách: hoà hòa Đối với người bình thường thì, ngoại trừ cảm nhận chủ quan thẩm mĩ có, hai cách vấn đề gì, người ta đọc Nhưng với máy tính lại hai chuỗi kí tự (string) khác Bởi vì, nay, theo quy định, sử dụng bảng mã Unicode với kiểu biểu diễn dựng sẵn Theo đó, “hoà” kết hợp kí tự: h + o + à; “hòa” lại kết hợp kí tự: h + ò + a hoà == h + o + hòa == h + ò + a Do đó, tìm kiếm, tuỳ theo cách bỏ dấu từ khoá từ có tài liệu cần tìm, có kết khác Như tìm kiếm VnExpress thông qua Google1 với hai từ khoá “hoạ” “họa”, kết ngày 28/4/2005 là: • • hoạ site:vnexpress.net → 8.560 họa site:vnexpress.net → 25.100 hay VietNamNet: • • hoạ site:vietnamnet.vn → 3.860 họa site:vietnamnet.vn → 3.560 Như vậy, để có kết xác, người tìm kiếm phải tìm hai trường hợp Và không để ý chuyện bỏ dấu mà lại tìm với hai trường hợp chắn kết tìm kiếm không xác Còn việc xếp, trường hợp danh sách cần xếp viết theo hai kiểu, phiền phức không Dưới thử nghiệm với hai chương trình xếp tuân thủ tương đối theo chuẩn xếp tiếng Việt (xem phụ lục) Môi trường thử nghiệm: • • Hệ điều hành: Linux (Fedora Core 2, nhân 2.6.10–1.771_FC2) Java: jre1.5.0_02 Chương trình: • • vnutf8cmp (nằm gói vnstrproc-0.2) VietPad v1.2 (ngày 14 tháng năm 2005) Kết quả: Ban đầu VietPad vnutf8cmp Đúng hòa hoa hoa hoa hoà hoà hòa hoà hoa hoạ họa hòa họa hòa hoà hoạ hoại họa hoạ họa hoạ hoại hoại hoại hoàng hoàng hoàng hoàng Bảng 2: Kết xếp VietPad vnutf8cmp - Về hậu thiếu thống việc sử dụng “y” “i” Sự thiếu thống việc biểu diễn âm /i/ theo hai cách: dùng chữ “y” dùng chữ “i” Cũng trường hợp trên, việc thiếu thống không ảnh hưởng tới khả đọc người ảnh hưởng nghiêm trọng tới thời gian kết tìm kiếm máy tính Ví dụ, tìm kiếm từ “sĩ/sỹ” VnExpress thông qua Google: • • sĩ site:vnexpress.net > 92.000 sỹ site:vnexpress.net > 13.400 VietNamNet (thông qua Google): • • sĩ site:vietnamnet.vn > 18.300 sỹ site:vietnamnet.vn > 5.780 Đó với trường hợp tìm với từ một, tìm kiếm xác nhiều từ, ví dụ tìm từ “hoạ sĩ” người dùng phải tìm lần: “hoạ sĩ”, “họa sĩ”, “hoạ sỹ”, “họa sỹ” Còn riêng từ “quý” có kiểu viết khác nhau: quý, qúy, quí, qúi Và nói, hỗn loạn nguyên nhân khiến nhiều thí sinh thiếu kinh nghiệm tìm thấy tên bảng điểm tra cứu qua mạng… Hiện nay, tốc độ ứng dụng thành công nghệ thông tin vào đời sống ngày cao, bề rộng lẫn chiều sâu Chúng ta có nỗ lực nhằm xã hội hoá tin học, xây dựng phủ điện tử lượng thông tin số hoá ngày tăng Tình trạng thiếu thống vừa nêu rào cản lớn cho trình Do đó, việc giải thiếu thống nhiệm vụ cấp thiết Đối tượng nhiệm vụ nghiên cứu Nội dung mà khoá luận hướng tới thống vị trí đặt dấu điệu sử dụng “i” ngắn, “y” dài Do vậy, đối tượng nghiên cứu khoá luận hệ thống chữ quốc ngữ giai đoạn Như trình bày trên, vấn đề thiếu thống vị trí đặt dấu điệu sử dụng “i” “y” chữ quốc ngữ cần phải giải sớm tốt Nhiệm vụ khoá luận là: • • Thứ nhất, xác định đâu giải pháp hợp lí, tối ưu đỡ tốn nhất; Thứ hai, đề xuất phương thức để đưa giải pháp vào thực tiễn Yêu cầu cho giải pháp không can thiệp, làm biến dạng kết cấu hệ thống chữ quốc ngữ Nói cách khác, khoá luận không bàn tới việc cải tiến chữ quốc ngữ với tư cách nhiệm vụ nghiên cứu Ngoài ra, riêng vị trí đặt dấu Khoá luận không bàn tới vị trí đặt dấu bên trái, bên phải hay bên dấu phụ chữ biểu diễn âm Vì hoàn toàn thuộc lĩnh vực đồ hoạ tuỳ thuộc vào ý tưởng nghệ thuật người thiết kế phông chữ (font) Phương pháp nghiên cứu nguồn tư liệu Phương pháp chủ yếu sử dụng khoá luận phương pháp thống kê, thực chương trình phần mềm nguồn mở: • • • • `sed' (GNU sed version 4.0.8) `grep' (grep (GNU grep) 2.5.1) vnstrproc-0.2 (http://xvnkb.sf.net) remove-duplicated-lines.pl (D Gonze, 01/12/2003) Về tư liệu khảo sát Chúng sử dụng hai loại tư liệu cho hai mục đích Loại thứ dùng để khảo sát kết cấu chữ quốc ngữ Chúng sử dụng Từ điển vần tác giả Hoàng Phê làm tư liệu khảo sát Ngoài có số từ điển tiếng Việt khác sử dụng với tư cách nguồn tư liệu bổ sung Loại thứ hai dùng để khảo sát tình hình sử dụng chữ quốc ngữ nay: vị trí đặt dấu điệu, viết “i”/“y” Vì chưa có sở ngữ liệu (corpus) tiếng Việt công bố sử dụng miễn phí nên sử dụng máy tìm kiếm Google để lấy tư liệu khảo sát Bố cục khoá luận Khoá luận chia làm phần: Mở đầu, Nội dung Kết luận Phần Mở đầu giới thiệu tính cấp thiết vấn đề, đối tượng phương pháp nghiên cứu, bố cục khoá luận Phần Nội dung khoá luận chia làm hai chương Trong đó: • • Chương giải vấn đề vị trí đặt dấu điệu; Chương giải vấn đề thống việc sử dụng “i” “y” chữ quốc ngữ nay; Phần Kết luận tổng kết lại vấn đề đề cập khoá luận; thảo luận thêm việc áp dụng nguyên tắc (đã xác định hai chương trước) vào thực tế Đồng thời, phần này, đưa kiến nghị vấn đề khác liên quan Ngoài ra, khoá luận có phần Phụ lục, bao gồm số mô hình âm tiết tiếng Việt, chữ quốc ngữ (được biểu diễn dạng biểu thức quy – regular expressions), danh sách âm tiết tiếng Việt dạng chữ viết ... quốc ngữ với tư cách nhiệm vụ nghiên cứu Ngoài ra, riêng vị trí đặt dấu Khoá luận không bàn tới vị trí đặt dấu bên trái, bên phải hay bên dấu phụ chữ biểu diễn âm Vì hoàn toàn thuộc lĩnh vực đồ... khoá luận hệ thống chữ quốc ngữ giai đoạn Như trình bày trên, vấn đề thiếu thống vị trí đặt dấu điệu sử dụng “i” “y” chữ quốc ngữ cần phải giải sớm tốt Nhiệm vụ khoá luận là: • • Thứ nhất, xác định... Tình trạng thiếu thống vừa nêu rào cản lớn cho trình Do đó, việc giải thiếu thống nhiệm vụ cấp thiết Đối tượng nhiệm vụ nghiên cứu Nội dung mà khoá luận hướng tới thống vị trí đặt dấu điệu sử dụng

Ngày đăng: 18/12/2015, 01:03

TỪ KHÓA LIÊN QUAN

w