1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bước đầu ứng dụng tin học để bảo vệ và khai thác di sản thư tịch cổ việt nam tin học hán nôm

61 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 11,11 MB

Nội dung

Muốn thong tin hố, cấn phục chế và chụp tha nhỏ mới tiên sử dụng Phụ bản 4: Giới thiệu hệ chương trình quản lí chứ Nơm Việt Nam Hệ thống gồm nhiều tệp chương trình viết bằng ngơn ngũ Pas

Trang 1

ĐỀ TÀI KHOA HỌC CẤP NHÀ NƯỚC GIẢI DOAN 1991 ~ 4995

BUOC DAU

UNG DUNG TIN HOC

DE BAG TON VA KHAI THAC

THU TICH CO VIET NAM (TIN HOC HAN NOm)

- Bao cdo tom tat

> Tong quan vé ky thuat - Các phụ bản

MÃ SỐ :

CHỦ NHIÊM ; NCV NGỘ PHỦ LONG

CO QUAN VIEN NGHIEN CUU HAN NOM

TRUNG TAM KHOA HOC XA LOL

VANIIAN VAN QUOC GIA

Trang 2

CƠNG HỒ NÃ AGT CHỦ NGHĨA

VIỆN NGHIÊN CƯÚ HẢN NƠM ĐỘC Lập < TỰ DO = HẠNH PHÚC 3

be TAD TIN HOC

Hà Nội ngày 1ã tháng 04 nam 1994

BAO CAO TOM TAT

TONG KET DE TAL TIN HOC BAN NOM (1992 - 1994)

Để tài "Tín học Hản Nơm" cĩ tên gọi đẩy dủ là" Bước đẩu ứng dung

Tia hoc để bảo tổn khai thác di sản thư tịch cổ Việt Nam”Là một để tới

nghiên cứu khoa học độc lập cấp nhà nước được thành lập từ thúng ¿ nàn, 1992, kết thúc vào quý 2 năm 1994, do Viên Hân Nĩrp đăng cai củ trì, dưới Khoa học xã hội và Nhân văn Quốc gia Sau hai năm

ni dã hồn thành nhiệm vụ để ra Nay tổ chú

+ những kết quả đã đat được, nêu mớt số kính

sự chủ quản của Trung tâm

tiển hành nghiên cứu, để t nghiệm thu và báo cáo tổng k

nghiệm và kiến nghị vrình các cơ quan quản Wi cấp trên DẦN Ý BẢO CÁO Phần L: Kiếm điểm các cơng việc chính mà để tài đã lam

+ Học tập cỗi biến phần mềm đánh chữ Hán cho người Việt 2 Xây dụng cơ sở bạn đầu cho Ngăn bàng đũ liu [an Nom,

4 - Vẽ chữ Nơm trong máy, đưa chữ Nơm tbam gia bằng mã chuẩn Quốc tế

4, Soạn thảo hỗn hợp chit Han Nom với chứ Quốc ngữ

Quét ánh sách Hiần Nơm dể lưu trừ

Phần II: Một số kinh nghiệm và kiến thức thu được về khua học cơng nghệ và về quản b

Phân IIE:Kết luận kiến nghị về hướng triển khai và nghiên cứu tiếp tục

CÁC PHỤ BẢN

Phụ bản 1: Biểu thị cách vẽ một chữ rượng hình trong may Unb

Phụ bản 2; Phiếu mơ tả một tấm bia để quản lí

Phụ bản 3: Thể hiện việc dùng cơng nghệ mới để phục chế một vẫn bia cỉ

Phụ bản 4: Giới thiệu hệ chương tình quản lí chữ Nơm Việt Nam

Thụ bản 5: Bảng chứ Nơm chuẩn Việt Nam được Quốc tế cũng nhánCTCVN- 3773

(Nop riêng như hổ sơ kĩ thuật kèm Bao cáo "Tổng hợp)

Phụ bản 6: Báo cáo {dụ kiến] về nhiệm vụ xảy dựng bĩng chữ Nơm điện tử Phụ bản 7: Mã hố và thể hiện chứ Nơm trên máy tỉnh

(xem chương 11 Báo cáo Tổng hợp),

Phụ bản 8: Yêu cầu đối với các ch/mình phẩn mềm sẽ viết trong nam 1993

Phụ bản 9Quyết định š3-CPcủa Chính phủ về chữ viết các đân tộc thiểu số

Pbụ bản 16: Bước đầu xây dựng Nuun hang do feu Han Nom ( xem chương ìIT Báo cáo Téng hyp)

Trang 3

CHÚ THÍCH SƠ LƯỢC CAC PHU BẢN

phụ bản J: Biểu thị cách vẽ một chữ lượng hình trong máy tỉnh

(Trước khi vẽ trên máy, cần tạo đáng bằng thủ cơng trên giấy Kẻ

ơ, để người thao tác theo đủ, xám chữ trên ma trận điểm Ma

trấn này do nhĩm để tài viết chương trình tạo ro)

Phụ bản 2: Phiếu mơ tả một tấm bia để quản lí

(Sơ đổ mơ tả lược thuật thơng tin theo đụ kiến của chương trình hợp tác khoa học giữa Việt Nam Trung Quốc và Pháp)

Phụ bản 3: Thể hiện việc dùng cơng nghệ mới để phục chế một văn bia cổ

(Khuơn khổ các tim bia thường to cao, chữ bị mờ, Kho doe Muốn thong tin hố, cấn phục chế và chụp tha nhỏ mới tiên sử dụng) Phụ bản 4: Giới thiệu hệ chương trình quản lí chứ Nơm Việt Nam

(Hệ thống gồm nhiều tệp chương trình viết bằng ngơn ngũ Pascal va FoxPro

để quản ti, về thêm, nhập chứ, tra cứu và soạn thảo chử Nơm)

Phụ bản 5: Bang chit Nom chuẩn Việt Nam dược Quốc tế cơng nhận (TCVN ( Bảng này gồm hơn 2000 chứ Nơm của dân tộc Kinh đưa 74 xĩt đợt 1 Sau đây Việt Nam cũng như các nuớc khắc sẽ sưu tấm và bổ sung thêm),

5773)

Phụ bản 6: Báo cáo {du kiến) về nhiệm vụ xáy dựng, băng chữ Nơm điện tử

( Đây lí báo cáo dự kiến của nhĩm để tài Hình bay tude Tiểu

ban Mã Chuẩn Quốc Gia, và gửi tới các nhà Khoa học và cơng

nghệ trong và ngồi nước để xin ý kiến), vào cuồi bổ: 1992.dau năm 1993 )„

Thụ bắn 7: Mã hố và thể hiện chủ Nơm trên máy tỉnh

(Dây lì báo cáo thục tế khảo sắt thử nghiệm và triển khai vẻ chủ Nom bing cơng nghệ của Việt Nam để tham giá bảng mã chuẩn quốc tế, và đã dược quốc tế chấp nhận)(Xem chương 1Í Báo cáo Tổng hop}

Phụ bản 8: Yếu cấu đối với các chitrinn phan mém sé viet trong năm 1993 (Đây lị thơng báo nội bộ của nhĩm để tài cĩ tính chất gọi š và đất hồng cho các nhà lạp tinh Vier Nam gải quyết Kết god co thé ca sai lệch một chú so với dự kiến này, nhưng cuối cùng

các chương tình đếu chạy tốt cĩ mơi số điểm vượt mức, và các

thuật giải cĩ nhiều sáng {a0 so với du kiến)

Phụ bản #:Quyết định 53-CPcủa Chính phủ về chứ viết các dân tộc thiểu Số, Hội đồng Chính phủ giao nhiệm vụ cho Uỹ Bạn Khoa học xã hội Bỏ Giáo dục, Bộ Văn hố, phối hợp với Uỷ Ban Nhân dân các địu phương

trong việc giữ gìn và phát triển văn hố chữ viết của các đân

tộc thiểu sé

Phụ bản 10; Báo cáo về bước đầu xây dưng Ngắn hàng dữ liệu Hán Nơm,

(O day chỉ nếu một số vấn để chưng, khơng trình bẩy kĩ thuật của

hé FoxPro, vi đã cĩ nhiều tài liều giới thiếu vể hệ này)

Phụ bản 1L: Bản in thủ một từ điểu của Từ Diễn Hân Viết dưới Windows, ( Hiện nay chưa cĩ bộ chứ Nom cho Windows, mdi chỉ cĩ chữ Lm và

chủ Việt nhàng ương hệ này, Viên Hán Nơm dã dùng dể soạn thảo

và in Từ điện song ngữ Hián Việt)

Phụ bản 13; Bản in ! trang sách Hán Nơm gốc quét lưu bằng, Scanner

( Chúng tơ: thử quế: Seanner và lưu các trang tho "Nhat ki trong

từ" để in wan anh vé chit trong Windows)

Trang 4

"

NOI DUNG BAO CÁO

PHAN 1: KIEM DIEM CAC HANG MUC DE TAL

1) VIỆC CẢI BIÊN PHAN MEM DE DANH DUOC CHE HAN TREN MAY TINH CUA VIET NAM ;

(cơng việc này chú yếu được tiến hành trong năm 1992/à năm mở đẩu của dẻ tài - Khi mới thành lập để tài, Việt Nam cịn bị cấm vận, các cơ sở in ẩn xuất bản trong nước cẩn cĩ chứ Hán nhưng khơng nơi nào làm dược trên máy

Lúc đĩ muốn cĩ chữ lần phải mua máy tính với giá khoảng 3000 USD một dẫn, và bị phụ thuộc vào cấu tạo phẩn cứng chế tao sẵn của nước ngồi (giá máy tính Trường Thành của Trung Quốc đem sang tiển lâm chào bàng tại hội chợ ở Việt Nam cũng tương đương như vậy) Cĩ những cuốn từ điển rất cần in chữ Han nhưng vì khơng cĩ chứ để in, nên Nhà xuất hản phải bỏ chứ Hán, chỉ in tồn phiên âm chứ Việt ( như cuốn Từ điển của Giáo sư Nguyễn Lân)

Để tài đã đi đầu trong việc học tập và cải tạo phần mềm để phục vụ soạn

thao in dn chit Han ở trong nước (Đến nay khơng những Viện Hán Nơm sử dụng kết quả này, mà nhiều nơi khác cũng dã sử dụng kết quả đĩ.Bỏ chữ Hán "mềm hồn tồn' đã đánh được trên ếc máy tính nhỏ của Việt Nam như AT-286, chú khơng bất buộc phải đừng các đần máy to, đất tiên )

Vì việc tạo kí tự 2 byte là một việc khĩ chỉ cĩ một sẽ rước nám được

kĩ thuật này, vì vậy họ giữ độc quyển khơng phổ biển các chương tình nguồn cho nên mục tiêu mà để ti đãng kí sẽ đạt tối là cải biên phần mềm xản cĩ tạo bơ soạn thảo đưới DỌS, để tụo diểu kiên cho chữ Han vào được nhiều hệ ứng dung của Viết Nam, và cĩ thể truyển thơng, giao tiếp, hồ nhập được, chứ khơng phải chỉ dùng trong một hệ soạn thảo với một cĩ chứ š định (đo qhà sẵn xuất cùng cấp Dễ tài cũng khơng chủ Đương táo ra mơi hệ mới hồn tồn, mà chỉ cĩ người Việt Nam sử dụng Yêu cẩu cải biên một hệ do người khác đã làm và nắm giữ bí mật là một việc khĩ đối với nhà lập trình Thêm nữa vì là bước đầu, nên để tài định hướng làm tư liệu thơ là chỉnh (việc lam dep chi Han, chứ Nơm là cẩn thiết nhung sẽ nh sau vì ta chưa cĩ các cơng cụ đủ mạnh ( Tốc độ xử lí của hẻ Windows-3.0 con cham, tính năng chưa ổn định )} nên để tài chỉ đám nghỉ mở rộng úng

dụng tối vài hệ trong mơi trường DOS cũng đã cẩn cố gắng nhiều Dởi với

hệ thống máy MAC là một hệ mạnh, tuy rất tiên tiến, những giá cịn đất gấp yuổi máy IBM ở Việt Nam rất hiếm người dùng Nếu tụ làm ra sản phẩm chỉ

ding được trong hệ này thì chắc sẽ khơng cĩ ai sử dung, và nếu dàn máy của

tt bị “trục trac" sé khơng cĩ người "cứu ứng" cho Đĩ là những khĩ khan do cẩm vận, cỗ lập về cơng nghè thơng tin gây ra

Tuy vậy, với sự nỗ lực cao của các nhà lập trình, chẳng những các yêu

cầu phục vụ làm tư liêu thơ đểu dạt được, mà hiện nay chúng tơi thấy việc làm cho các vân bản cổ điển của tổ tiên được in ra càng ngày càng đẹp củng Tất cẩn thiết, vì nĩ cũng gĩp phẩn tích cực trong việc in ẩn bảo tổn và làm tăng giá trị các mật của văn hố phẩm Việt Nam, do đĩ chúng tơi cử gắng đầu tư thêm cơng sức, bất đầu tiến vào Windows lí một hệ thống mới, phúc tạp hơn ( Phụ bản I1 là in thử 1 từ điều của Từ điển song ngữ Hảãn Việt dưới Windows)

Định hướng như vậy, cho nén từ đấu chúng tơi đã tổ chức khảo sát: rộng

Trang 5

-4-

MSWORD, NOR TON,NE,PCTOOLFOXRASE, FORTRAN, VENTURA SIDEKICK,

cộng hơn 10 hệ , và đã chọn 2 hệ cơ bản tính nâng trội để phát tiển là

Eoxbase và PE2, Đĩ là 2 hệ phù hợp với định hướng xây dụng cơ sở dứ liệu

Nhờ khảo sát mà trình độ kí thuật của người làm việc cĩ tiến hộ từ chỗ

chưa hiểu cơ chế hoạt động của chữ tượng bình trong máy tính, hoặc chỉ sử

dụng mốt cách thụ động, nay đã biểu được mot phan cơ chế ấy, và sau một

năm nghiền cứu đã cải tiến bộ cơng cụ, làm tăng tốc đĨ soạn thảo, tạo ro

cách đánh chứ Hán dé dang cho người Việt Nam (dùng tiếng me để để gọj chữ

Hán); ban đầu bộ chữ Hán chỉ dùng được trong loại tệp cơng vấn (text Íil€), chỉ đùng trang một hệ soạn thảo đo nhà sản xuất cung cấp là hệ CWI, chi in được ra máy in kim, với dạng chứ thơ, chưa iø ra mấy ín laser với đạng chữ

mịn, dep được đến nay đã cĩ thể đánh trong tệp cơ sử đử liệu {Data

file), dánh tong vùi hệ khác nhau, kể cả trong Turbo Pascal và Norton 18

những hệ rất phổ biến và để dùng nhất ở Việt Nam, đồng thời in được ra máy

ín Laser dưới mơi trường DOS Đá là những cải tiến tích cực nhằm phố cập

hod ung dung Tin hoc trong nude, gop phần làm tăng về đẹp các văn hố phẩm

cỗ điển của Việt Nam

Cuối năm 1992,hệ điều hành DOS-5.0 được phổ biến vào Việt Nam.chúng tơi đã tiếp nhận nĩ, vận dụng các kí xảo nhằm nâng cấp chữ Hán, đưa vào DOS 5.0, va tim cách khai thác vùng nhớ dự trữ 384 KB tại mé trên của bộ nhớ quy ước, đồng thời nghiên cứu áp dụng các biện pháp khác về tối ưu hố bệ

thống để khai thác các tài nguyễn hệ thống do, DOS 3.0 ma ra

“Theo tài liệu của hãng sản xuất phần mềm Ÿ-Thiên thì chứ Hán do họ củng cấp khơ sử dụng trong các hệ DOS cao ( sau version 3) [tiết ].ï của rải liên hướng dẫn cĩ nĩi rõ điểu này], thục tế các hệ DĨ§ 40 và 4.1 mà nhiều nơi thử nghiệm khí đưa chứ Hán vào thì may bj treo và mất con trỏ Vì muốn khai thác những mặt mạnh của DOS-5.0 nên nhĩm nghiền cứu để tài đã tìm cách nhúng chữ Hán vào DOS 5.0 và đã thành cơng nhờ phương pháp thay đổi tếp cẩu hình mới Như vậy là ta đã cĩ thể chủ động đưa chit Han đi iên thee kip bước tiến của hệ điều hành mới, khơng phải mua thêm phiền bản mới củu nhà

Sản Xuất:

Cuối năm 1992 cũng hình thành định bướng, xác định yêu cầu kĩ thuật của các hạng mục can bản mà để tài sẽ phải làm trong năm 1993 là vẽ chứ Nơm, xây dung Ngan shang đứ liệu, soạn thảo song ngử Hán Việt đưới DOS đồng thời mua sim trang bị thích hợp để làm việc (Lúc này máy AT-486 ư Việt Nam cịn rất hiếm, giá mộc đàn, theo tạp chí Thơng tin Tín học, tới 14.000 LJSD), vì vậy chúng tơi chưa thể cĩ nhứng cơng cụ tốt để nghiên cứu thủ

nghiệm

- Sản phẩm phần mềm cän bản của giai doạn này là tếp y

đủ" gồm 13.900 chứ Hán với các cách má hố khác nhau, dùng eu chữ Hán trong máy theo phiên âm lainh Bác Kinh, theo ám Hán Việt “tƒ điển" này ín ra được hơn 300 trang

Trong 2 nam qua, ngày 1ừ lúc để tài tìm được cách sử dụng hộ chữ llâm.d cĩ nhiều cơ quan đơn vị yêu :cầu phổ biến cho họ sử dụng, để tài đá hưởng dẫn và đáp ứng kịp thờiCho đến nay hệ này đã được cải biến nhiều vũ sỉ

dụng ổn định tại Viên Hán Nom, di duge ding để huấn luyện trong "Nỗi bộ

ẩn phẩm của Viện như soạn thảo bổ sung phản chữ lián các hị

sách "Di sản Hán Nêm'(3 tập): " Tổng tập van học Việt Nanf(Háp) Các nhà khoa hằng Việt Nam”, "Bằng tra chứ Hán" trong giáo trình dạy Hán ngủ "Thụ văn Hội Tan Dàn" in Tạp chí Lián Nơm, Tap chí Thương mại Tap chí Cộng sản,

à soạn thảo một sử hợp đồng vận thư trao đổi kinh tế và văn hố giữa Viết

Trang 6

giận:

(Phần hướng dẫn sử dụng rất giản dị, ngắn gon, chủ yếu là hướng đẫn trực

tiếp thao tác trên máy các hệ soạn thân đã cổ)

2) XÂY ĐỰNG CƠ SỞ BẠN DẦU CHO NGÂN HÀNG DỮ LIỆU HÁN NOM

- Mụe tiêu cuối cùng nhằm tới là dùng Tin học để quản lí khai thác tồn

điện kho tư liệu viết bang chữ cổ của Việt Nam

-Trong 2 năm qua, để tài đã cho nhập máy hơn 4.500 bản mơ tả tĩm tất nội dung các đơn vị sách Hán Nơm hiện cĩ mật tại kho sách chính của cả nước

là Viện Hán Nom (số này bao gồm các tác phẩm chủ yếu phản ảnh lịch sử văn hố Việt Nam đã được sưu tầm từ trước nâm 1945 cho tới nay), và 11.000 đơn vị vàn khắc [an Nom (hiến vật là các bia đá, chuơng đồng, biế ral

rác trên khấp nước, cĩ nơi thì biện vật cịn giữ được, cĩ nơi thì hiện vật

dã bị tiêu huỳ trong thời gian vài chục nảm chiên tranh vừa qua, ở Viện Hán Nơm chỉ giữ được bản in ráp lại trên giấy mỏng ) Tổng số văn bản thư tịch cổ cĩ trong kho là 3 vạn đơn 3

văn khắc là hơn 3 vạn đơn vị dự

tính số lượng chưa sưu tẩm cũng tương dương số cĩ trong kho Như vậy vẻ số lượng tư liệu cịn chưa đưa vào máy để quản l nhiều gấp 8 lần số đã đưa

à chưa tính đến yêu cẩu đi sâu lược thuật "vét cạn" thơng tín trong hàng triệu trang văn bắn,

Như vậy cơng việc mà để tài làm mới đạt mức độ thủ nghiệm quản lí, muốn

m khai thưc hiện quản lí cẩn phải làm nhiều các việc chuẩn bị hổ sơ

trước khi nhập máy, và việc nhập tư liệu vào máy Việc triển khai cuản lí

cẩn cĩ một dự án riêng kéo đài trong nhiều nằm

- Tĩm lại: về lĩnh vực này, dẻ tài đã đạt được kết quả như dư kiến dé ra vỀ số lượng các tư liệu nhập máy, với 8 yếu tổ thơng tin cơ bản „ tạo thành

Version 1.0 (phiến bản đấu tiên) cho Ngắn hàng di Wu Tin Nom con Việt Nam)

- Cấu trúc kho đữ liệu được tổ chúc theo "hẻ thống mở" cho phép hổ sung them nhiều đơn vị văn bản mới sưu tầm thêm (gọi là nổi đài theo chiều doc), đẳng thời cho phép tích luỹ thêm (chèn thém) những thơng tin của don vị vân bản cũ mới khai thác hoc phát hiện thêm Cách làm này thích hợp với đối tượng quản lí là kho sách Hán Nơm, và cũng là điểm khác với cách

quân lí một kho sách hiện đại (chẳng hạn một ban ghi mơ tả thơng tin vẻ một

tấm bia của Viên Hán Nưm, như dự kiến ở phụ bản 2 sẽ khơng chỉ gầm 8 yếu tố

như bản mơ tả về một cuốn sách hiện đại mà cĩ thể sẽ cĩ đẩy đủ các

tên người, tên quan trọng của Việt Nam được ghi trong bia, cĩ thể cĩ

cả ảnh chụp tấm bia, và danh mục các tài liêu các bài nghiên cứu đã viết tấm bia đĩ Hiện nay, trình độ quản lí và lược thuật của Viện Hán Nơm mới làm được 8 yến tổ, thì để tài hãy quản ií tới đĩ, sau này, cĩ điể kiện sẽ lược thuật Kí thêm),

~ Về tốc độ tìm kiếm : muốn tìm một đơn vị bị kí hay sách cổ, và xem qua nội dung tĩm tất trên máy, chỉ cẩn vài phút đồng bố (với số tư liệu đã

nhập máy tương đương 10.000 trang sách )

- Về kĩ thuật : Đã viết được một số chương trình rự động hố từng phần trong cơng việc nhập liệu, xuất liệu, hiếu đính, sửa chữa, đổi mã, trụ cửu

Trang 7

-6-

- Hệ phần mềm chính mà chúng tơi chọn và sử dụng cho Ngân hàng này là FoxPro 20 So với hệ ORACLE mà Thư viện Bác Kinh sử dụng (chủ yếu dùng

cho sách chữ Hán), thì FoxPro khong manh bang, Tuy vậy chúng tơi van chon

FoxPro vi những lễ sau đây ;

Thứ nhất, ORACLE là hệ quản trị dữ liệu mạnh cĩ dùng mạng, nhưng hệ này vàn Việt Nam cham va cing địi hỏi trang thiết bị đất tiền (trị giá cài

đặt tồn bộ để cĩ thể khai thác được là 5 triệu USD, lại cẩn dùng máy Mini,

là vượt quá xa khả năng đầu tư của nước ta cho một cơ sở như Viện ơm), trong khi đĩ hệ FoxPro ré tién hơn, đang được dùng phổ biển ở Việt Nam, và đến nay chúng ta đã dưa được chữ Quốc ngữ và chứ Hán Nơm vào đĩ Sau đây sẽ chỉ cẩn tăng cường thiết bị thêm một chút (dùng máy AT-

486}, ta cúng cĩ thể quản lí và khai thác tư liệu cĩ hiệu qua, dat được mục

đích,

Thứ bai: Hé FoxPro cing đang được cải tiến, mạnh đẩn lén để tương hợp

với các hê khác Như vậy ta cĩ thể yên tâm sử dụng hệ này, nếu sau này cỏ

điều kiên nối kho dữ Hệu với mạng Quốc gia, cẩn chuyển sang dùng ORACL

thì cũng khơng đến nỗi xa lạ lắm,

(Tỉnh năng manh trong việc quản lí của hệ FoxPro cũng da được dùng để

thiết kế hệ quản lí chữ Nơm, được giới thiệu ở Phụ bản 4 kèm theo đáy) - Những giải thữặt và kĩ nâng mà để tài tích luỹ được về xảy dựn khai thác Ngân hàng đứ liệu Hán Nơm cĩ thể đồng gĩp vào quỹ kiến thức giải thuật về xử lí kí tự Quốc ngữ của Việt Nam Bởi vì để tài khơng phải chỉ cẩn giải quyết đơn thuần các vấn dé của chữ Hán mà cịn phải giải quyết những vấn dẻ của chữ Việt trong quan hệ huà nhập với chứ Hán khi sử dụng trong Ngan hang di lieu (van dé hod nhập chữ Hián và chứ Việt trong một hẻ soạn thảo sẽ dược để cập ở mục dưới)

( Quá trình xảy dựng Ngân hàng dữ liệu Hán Nơm được nêu trong Phụ bán 10)

3) VÉ CHỮ NÊM TRONG MAY , ĐƯA CHỮ NƠM THAM GỊ

BANG MA CHUAN QUOC TE

- Chứ Năm là một thìa khố quan trọng dể mở ra khai thác kho đi sản

vấn hố thành văn mấy nghìn năm của dân tộc ta, nĩ chiếm tới 1/3 số chữ trong kho chữ tượng bình Biết bao nhiêu tên người, tên đất trong Jịch sử van hố Việt Nam - những tên đất cổ Việt Nam như iàng Duổi, kẻ Gốm, làng Me, lang Bậu, cẩu Đơ xuất hiển thường xuyến trong thư tịch

nhưng hiện nay khơng một hệ phẩn mềm nhập ngoại nào cĩ du chit Nom cho

ta dùng để khai thác kho sich Han Nom, vi vay ta phải cĩ chữ Nĩm để sử dụng

„ Vì vậy việc nước ta bỏ phiếu ủng hộ ISO với yêu cầu đưa chữ Nơm của Việt Nam tham gia bang ma chudn quốc tế cĩ 2 ý nghĩa :

giới thiệu di sản văn hố truyền thống của Viết Nam ra

thế giới (từ chỗ thế giới cơng nhận chữ viết cổ tiến tới cơng nhân di sản

văn hố của Việt Nam sẽ là 1 bước tất yếu); Bảo đảm quyền tổn tại bình đăng

của chữ viết cổ Việt Nam với các thứ chứ viết khác cả văn hố nhân

loại.Việc này càng cấp thiết vì chứ Nơm dang bị nhịp sống hiện dai day vin quên lãng, trong khi chúng ta đang cẩn phục hưng nến văn hố truyền thủng giàu tính nhân đạo của Dân tộc

bý Nhụ cấu về truyển thing biện đại địi hỏi xố bỏ cấm vận thơng tin

"trên thực tế", và Việt Nam cẩn được sử dụng những tiến hộ về cơng nghẻ xử

Íí các thứ chủ của các nước lắng giểng trong máy của mình

Trang 8

endif

- Kết quả boạt động khua học của để tài về lĩnh vực này là :

a/ Đề tài đã hồn thành việc vẽ chữ đợc 1 (đồ là một yêu sầu bất, buộc nếu muốn tham gia chuẩn quốc tế Thực hiện yêu cầu này của ISO dé

chứng minh nước ta cĩ khả năng làm được chứ tượng hình; và chứng minh rang

kho chứ UNICODE chưa đủ chữ, nước tú cĩ thể đĩng gĩp bổ sung), và làm thủ tịc đăng kí tham gia hé chudn UNICODE và ISO ( Muốn được tham gia th:

bang chữ Nơm phải được cơng nhận là chuẩn của Quốc gia, mọi yếu cầu bắt

buộc thứ 2) Bảng chữ Nơm phần 1 đưa ra đã được Hội nghị Quốc tế của nhĩm cơng tác làm mã chuẩn họp lần thú 2 tại Hà Nội từ 28/2/1994 đến 4/3/1994 chính thức chấp nhận

Đây là một thành cơng chung của giới khoa học Việt Nam (cĩ đĩng gúp củu anh chị em Việt kiểu yêu nước, cĩ sự hợp tắc tích cực của các chuyến giả Tin học và Ngữ học Việt Nam ở trong và ngồi nước, của Chương trình Diên tử Tím học KC-01 Các chuyên gia mã thám các cần bỏ của Tổng cục Tiêu chuẩn

Đo lường và chất lượng đã làm việc khẩn trường nhiệt tình, dưới sự chỉ dạo sát sao, kịp thời của Bộ Khoa học Cơng nghệ và Mơi trường, của Trưng Tâm KHXH và Nhân văn Quốc gia, chuẩn bị kỉ càng, phối hợp chật chế, tổ chúc tốt hội nghị IRG-2 tại Hà Nội nên đạt được kết quả trên)

b¿ Ngồi ra để tài tồn tạo được mot hệ phẩn mềm dùng để tiếp tục sưu

tầm , vẽ thêm chữ Nơm , soạn thảo và in chế bản chữ Nêm

Thơng qua việc chúng ta lấn đầu tiền tham gia hợp tác xảy dung thành cơng một chuẩn khoa học cơng nghệ Quốc tế, tr cĩ thể rút ra những

kinh nghiệm bổ ích cho việc tham gia các chuẩn Quốc tế tiếp theo, dể hiện

đại hố cơng nghệ và kinh tế Việt Nam

Sản phẩm nghiên cứu của khâu cơng việc này gồm ;

1/- Danh mục hơn 2000 ehử Nơm chuẩn được Hội nghị gu

nhận (xin xem Phụ bản 5) :

2/-Hệ quản lí chit Nam (suu tam,bd sung, tra cứu, soạn thản chứ N

Việt Nam), Đây là tiền thân của Từ diễn điện tử chữ Nơm Hẻ phẩn mềm này

nằm trong máy gồm nhiều chương trình, dung lượng khoảng 4 MB

Tài liệu giới thiệu hệ này là phụ bản số 4 đính kèm

3/-Trước đĩ, để tranh thủ ý kiến các nhà khoa học trong và ngồi nước, chúng tơi cũng đưa ra bản báo cáo "Xác định nhiêm vụ xây dụng bang chit Nom chuẩn dang điện tử", gửi tới các nhà khoa học, và sau đĩ thu dược 27 ý kiến đĩng gĩp để sửa chữa bảng Nẽm chuẩn 1 của Việt Nam trước khi trình Nhà nước

cơng bộ làm bảng chuẩn chính thức để tham gia vào bảng mã chuẩn quốc tổ

{van ban này được ghí trong Phụ bản 6 đính kèm)

4/- Kết quả nghiên cứu đặc thù chứ Nơm trên máy tính duge néu trong Phu ban 7

lưu ý nh

1- Nhờ sự cơng nhận của Quốc tế lâm cha tì cĩ tư cách pháp nhân,(Quốc tẻ cơng nhận và giành chỗ đứng hợp pháp cho chữ Nơm của Việt Nam) cịn viết thể hiện các chứ viết của mình dưới dạng điện tử như thể nào thì các quốc

gia phải tự làm Để bảo đâm làm trọn vẹn cơng tác bảo tổn di sẵn văn hố

của dan toc, chang tơi kiến nghị Nhà nước giao cho một cơ quan khoa học tiếp lục sưu tẩm "cạn kiệt " các chứ Nơm, khơng những của dân tộc Kinh, mà

cả chứ cổ của các dân tộc anh em khá để bảo vệ, Căn làm thành một Từ điển

Trang 9

nghién cuusuac bin va gidl thiew van hi giới (Hiên này hệ mã chuẩn ISO đang ứng đụng tồn diễn)

- Quyết định $3-CP của Chỉnh phủ về ebữ viết của các dân tĩc thiểu số coi tiếng nĩi và chữ viết của các đân tộc là tứ sản và vốn quý của cic

dan we Việt Nam: Chính phủ rất quan tâm tối cơng tác bảo vẽ khai thác phát huy di sẵn văn hố chữ viết của các dân tộ giao nhiệm vụ cho ngành

Khoa học Xã hội ngành Giáo dục và Văn hố phối hợp với Uỷ Ban Nhân dan các tỉnh thực hiện việc này Nhưng các ngành hữu quan chưa cĩ điều kiêu sử

dụng nang luc manh mé của Tin học để phục vụ nhiệm vụ đĩ Chúng tới nhĩ

ring trong bối cảnh hiện nay các ngành liên quan nên xúc tiến việc ứng

dụng Tin hoe trong việc bồi sinh và phát triển vấn hố của các đân tộc,

trong đĩ chử viết của các dân tộc cẩn được chuẩn hố sớm trong avy tinh

(Quyết định 53-CP được dính kèm ở Phụ bản số 9),

ĩ truyền thống của Việt Nam rủ thể n hồn thiện và sip được triển khai

4) TẠO MỘT HỆ SOẠN THẢO HON HỢP CHỮ HÁN,

CHU NOM VÀ CHỮ QUỐC NGỦ,

~ Nhụ cẩu về in ẩm xuất bản từ điểnnhu cấu lưu trử tư liệu

trong mấy cẩn thiết cĩ mộ hệ soạn thảo như vậy Để tài đã đạt chủ dẻ này thành một hạng mục nghiên cứu Qua nghiên cứu thử nghiệm đã dĩ điển xác định được rắng : muốn dea chit Che Hain, cht Nom vào máy, phải dùng hé mã chấp dõi (l6 bit),cịn chữ Việt thì cĩ thể dùng hệ mã Ế bic Nhưng tiếng Viet phổ thơng và chữ các dân tộc thiểu số Viết Nam dã latinh hố lại dùng các vẫn ghép nguyễn án và phu âm liển nhau do vậy mộc sổ kỉ tự Viết đúng sác nhan để thành vấn sẽ tạo ra tình thể 2 mã 8 bử đứng sát nhau tạo thành

1 mã l6 bit, trùng hợp với 1 mã 16 bít của 1 chứ Hán hoặc l cha Nom gay ra hiện tượng “dính chủ ", cịn gọi là "kì bình quái tự" (chử kì quái xin xem ví du ở Phụ bản sé 1)

Muốn dùng 2 loại chữ này trong một lúc, phải cĩ cách ghép font hợp lí, tránh các vị trí gây ra trùng mã

Kết quả nghiên cứu cải biên của để tài là đã tạo ra được một hệ thống soạu thảo gọi là "Hán Nơm lêm thời J" (HINLTT), đánh dưới ĐOS gồm cA chi Han

,chữ Nơm và chữ Quốc ngứ Hệ này dùng font chứ Việt 24x24 nên chưa dược

đẹp,mịn, cẩn dược cải tiến thẻm để cho việc in dược đẹp hơn, và thẻm chứ

Việt hoa cĩ đấu 7

Chúng tơi đặc tên "Lâm thời " là cĩ ý chờ đợi một hệ mã 2 byke hồn chỉnh gơm cả chữ Viết, chứ Nơm của Việt Nam đã vào chuẩn quốc tế ISO cũng với các thứ chứ khác của thể giới, cĩ thể dùng dust moi he điều hành, chi khơng riêng gì dưới DOS

s) vic Quér ANH SACH ITAN NOM DE LUU TRU

~ Mục tiêu chung là lưu trử nguyên dang cdc văn bản cổ làm tài liệu tham

khảo cho các cơng trình khoa học liên quan tới lich sử vân hố và lịch sử dân tộc Việt Nam ( Văn bản gồm chứ viế, bản đồ và các hoạ tiết),

- Khi thành lap để tài thì giá cả, thiết bị và cơng nghệ lưu ảnh bằng đĩa quang của thế giới cịn đất (giá mộc hộ thiết bị phí tư liệu lớn đĩa quang CD-ROM tới vai tram nghìn USD, riéng mot đầu đọc trị giá gần 4000 USD) nền chưa phổ đọng Để tài mạnh đạn đặt vấn để thứ nghiệm lưu ơủ

trong dia ti (ed đụng lượng nhỏ) để sao này cĩ điểu kiện sẽ triển khai ứng dung wen dia quang cĩ sức chứa lớn Việc lưu tử tồn bộ kho di sản cổ

Trang 10

~9-

bảng phương tiện Túi học là mộc nhú cầu cấp bách để vừa bảo vệ, vừa khai

thắc dí sản vận hố theo phương pháp hiến đại (tiên lợi hơn, rẻ tiễn han

so với phương pháp thủ cơng kết hợp dùng Microfilm cổ điển Hiện này mết

bộ thiết bị giú tư liệu vào đỉa quang giá khoảng 15000 USD, và mat dae doe

giá 700 USD)

- Kết quả thử nghiệm cho thấy:

1/ Cĩ thể lưu trử các nguyên bản thư tịch cổ theo phương pháp quét Scanner nguyên dạng các trung sách gốc

3⁄ Cĩ thể lấy ra đọc và in đ dang (in nguyéu dang hoặc biến tận sửa chữa thêm), cĩ như vậy mới đâm bảo tính chân xác khoa học của các tư liệu mà Việt Nam cơng hố,

3/ Muốn tìm kiếm cẩn thành làp được mốt liên hệ giữa hệ thơng tư liệu

bằng chứ Quốc ngữ và hệ thống lưu trữ từng ảnh

4/ Tốc độ truy nhập trên địa cứng là bình thường, người sử dụng cĩ thể chấp nhận dược; Muốn quét được các châu bản cẩn cĩ máy quết scanner màu.}

3/ Việc quét lưu ảnh cũng là một hướng đi của Tìn học thế giới, nhầm tiết kiệm chỉ phí trang cổng tác tàng thư, lưu trữ Hiện nay mỗt nấm dẻ làn)

lạnh cả một kho sách rộng 750 mét vuơng chúng tả phải tốn phí hàng trăm

triệu dồng tiến điện, nếu thu kho sách äy vào vai tram dĩa quang thị diện

tí cẩn bảo vệ sẽ rất nhỏ hẹp,

Hiện nay nhiều thư viện lớn trên thế giới đã sử dung CD-ROM dé chứa gác thơng tin mái

(Ÿhụ bản số 12 là Bản ín | trang sách Hán Nơm gốc quét lưu bằng Scanncr)

PHAN U: MOT SỐ KINH NGHIỆM VÀ NHÂN THỨC MỚI

KILOA HOC CƠNG NGHỆ LY

1) Dây là bước đầu đội ngũ cần bộ khoa học kỹ thuật Việt Nam tiếp căn với

ngành cũng nghệ hiện dại, đang tiến triển với tốc đị rất nhanh tuy ta chưa

đt dược các đình cao, nhưng cũng đã cĩ được những hiểu biết cơ sở để ứng dụng cĩ hiệu quả trong cơng tác, giải quyết được một SỐ vấn để của nước i Chúng tơi thấy cẩn tiếp tục theo tỏi sát ác thơng

tin tới nhất và cẩn tăng cường học tàp đào tạo để kịp thời nắm lấy những

tiến bỏ của ngành khoa học cơng nghệ này và ứng dụng ngày cảng cĩ hiệu quảphục vụ sự nghiệp xảy dựng kinh tế và văn hố của Tổ quốc trong giui

đoạn hiện nay

( Bài báo " Cơng nghệ thơng tín, một thách thức nghiệt ngâ các nước nghều" của P1S Nguyễn Trọng đã nĩi lên nhụ cầu cấp bách của nước ta phải vượt lên VỀ mặt cơng nghệ thơng tín - xin đính kèm ở cuối báo cáo),

2) Chúng ta đang đi sau nhiều nước phát triển vì vậy cần cĩ chiến lược

thích hợp, để cĩ thể "đi tất, dé tn cong site, (chang han khong har kiếm lợi trong việc chế lạo phần cứng và phần mềm cơ sở, mà nền đầu tư nhiểu vào

nghiên cứu ứng dụng để đạt hiểu quả cao; Cẩn cố gắng tham gia vào cúc chuẩn

quốc tế để trắnh việc đi vịng, tốn kém

3) Da số các ứng dung Tin học vĩ giá trị thường là các ứng dụng liên nganh (ngân hàng, tài chính, ý tế, bàng khơng, bưu điện, địa chấu.) các

ngành kinh tế vàn hố khoa học liên quan sẽ được thụ hưởng thành quả về năng suất và chất lượng cao do Tín học dem lại Vì vậy các ngành ấy cẩn củ chuẩn bị tạo điệu kiến và hợp tác chat ché

Trang 11

-

4) "Phan mém là yếu tổ quyết định" các nhà sản xuất máy tính và các hãng sản xuất phẩn mềm lớn của thế giới chỉ làm được những cơng cụ rất chung, muốn phát triển rộng khấp bọ phải dưa vào đội ngủ phản mém "địa phương,

Chính nhờ ứng dụng vào những lĩnh vực cu thể, mới nảy ra các nhụ cầu và

các cải tiến hữu ích (Việc sắp xếp chứ Việt là đậc thù riêng của Việt Nam, hệ thống chữ cải Viet, cha Nom và các chứ dân tộc khác của Việt Nam như chữ Thái Tây, chứ Khơme Nam Bộ cũng là những yêu cầu cụ thể mà như cầu khoa bọc Việt Nam đạt ra để Tín học bố trợ giải quyết) Năng lực của Tin Rọc vốn cĩ tiểm tầng những khá năng lớn , nhưng nếu ta khơng “đặt hàng xhúng yêu cấu thì các nhà ký thuật Tìn học cũng khơng chế rao, khơng khái thác

tới khả năng ấy Dây cũng chính là nguyễn nhân dân tối chủ trường của để tài sử dụng 1 phẩn kinh phí để "kích thích" sw phat triển của Tin học trong nước chứ khơng hồn tồn "nhập ngoại" hoặc thuẻ nước ngồi làm phẩu m trọn gĩi cho mình

ể dào tạo : Là một ngành khoa học tiến bộ rất nhanh, nếu khơng cĩ học tập đào tao thi khong thể tiếp thu dược những thành tựu mới

Với năng lực và số chuyển gia am hiểu vấn để khá hạn chế trong thời gian tiến hành, Để tài đã tổ chức đào tạo phổ cập cho 20 cán bộ ngành lần Nom, và hướng dẫn cho cán bộ giảng dây của trường Đại học Ngoại ngữ và Sư phạm ngoại ngứ đã trao đổi kinh nghiệm và mơi số cơng ty, và cử vở xuất bản, hướng dẫn luận án tốt nghiệp cho một số sinh viên Tin bọc Cúc cần bỗ kỹ thuật tham gia để tài cũng du ghe rác buổi giới Hiệu chiến lược và sản phẩm của vấc cơng ty nước ngồi và dự các tuần lễ Tìn học, diễn tử Wung nước theo đối các tạp chí chuyên mơn để cập nhật kiến thức

Nhìn chung, trong 2 nám, thời gian ngắn, phải tập trung sức giải quyết

© vấn đè cấp bách, cơng tắc đào tạo mĩt đối ngũ chuyên gia cĩ trình độ chuyên sâu vẻ chủ để này để cung cấp cho nhụ cầu chung, chúng tơi mới làm được ít Mong rằng sắp tới đây, Nhà nước chú ÿ đu tư chủ đào tạo ‘Tin

học nĩi chung, trong đĩ cĩ chú ý tới tin hoc Tan Nom

6) Về hợp tác quốc tế: Trong thời gian qua, chúng tơi đá hợp tác với nhĩm Việt kiếu ở Mỹ trong việc xây dựng bằng chứ Nơm chuẩn để đăng ký tham gia bảng mã chuẩn quốc tế, Đĩ là các hợp tác gĩp sức cùng làm vì cơng trình quữ gia, quốc tế, cơng trình này mang tính chất hẻ thơng, chuẩn bị cơ sở

dể thăm gia bộ mã thơng nhất tồn cẩu, chứ chưa cĩ hợp tác để làm ra các cơng trình hoặc sản phẩm ứng dung cụ thể phát huy tiểm nang của Khoa hoe xả hội và nhân văn

Chúng tơi cũng đã tiếp xúc và trao đổi sơ bộ với các giám đốc kỳ thuật

của vác thư viện sau:

Thư viện Quốc gia Uc: Thư viên Quốc hội Mỹ

"Thư viện Viễn đơng bác cổ Pháp

Thư viện trường Đại học Cornell My

Liên hiệp thư viên đại bọc Bắc Mỹ và Canada

Trang 12

`

PHẦN HI- KẾT LUẬN VÀ KIÊN NGHỊ :

{ Căn cứ trên những sản phẩm cụ thể và những kết qủa nghiên cứu đã dat dược, chúng tơi xin nẻu những kết luận và kiến nghị cụ thể như sau)

1 - Dây là lấn đầu tiên chúng ta chế tạo dược bộ chứ Nơm điện tử, đưa việc quản lý tư liệu Hán Nơm theo kịp trình độ của thể giới (sử dụng phương

tiện Tin học hiện đại, tử đây mở ra triển vọng mới vẻ trao đổi thong tin

van bản lần Nêm giữa nước ta với các quốc gia dùng chứ tượng hình trong khu vực, vù với thế giới( tử nay nĩi tới Ì hệ phẩn mềm xử lí chữ Nom là

cĩ hàng vạn chữ Hán trong đĩ)

2 - Ban phím chứ Nơm đã giúp cho cơng việc soạn thảo văn ban [fin Nom

tiến kịp trình độ quốc tế vẻ soạn thảo bằng máy tính, kế thừa được những thành qua nghiên cứu của trong nước, bảo đảm tính sử dụng đế dàng phù hợp

với thơi quen của người Việt Nam, gĩp phần thúc đấy nhanh quá trình phổ cấp

đào tạo và ứng dụng Tin hye trang nud

3 - "Tự điển điện tử Han Nam" là một cơng cụ tốt dùng để tra cứu, nghiên cứu các tài liệu Hến Nơm Đến nay, các nhà nghiên cứu đã cĩ trung tay một cuốn tự điển dễ đàng tra cứu, cĩ nhiều cơng nâng độc đáo hơn hản sở với tự điển bằng giấy muốc đ

Tự điển này cĩ thể đĩng vai trù tài liệu hỗ trợ giáng đạy chữ Hún Nơm chủ thế hệ trẻ Nếu được bổ sung hồn thiện them phan phat âm thì cĩ thể

biển nĩ thành một cơng cụ tra cúu sinh động, phục vụ các chương trình địch

nĩi Mặc đẩu là mot sản phẩm trọn vẹn của để tài, song do đặc thù của

cơng tác nghiên cứu sưu tẩm đồi hỏi những người làm tự điển vẫn đành cho các nhà sưu tắm nghiên cứu cĩ điều kiện bổ sung cấp nhật những kiến thức mới, khám phá mới vào tự điển đĩ một cách để dàng

4 ~ Với bộ font chữ Nơm điện tử, để ti đã gây được một tiếng v trên trường quốc tế : Lần đấu tiên thế giới biết được chúng ta hồn tồn cĩ khả năng thơng tin hố kho đi sản van hod viết bằng chữ tượng hình của

Việt Nam, một bộ phận kho tàng văn húá của nhân loại cịn chưa được khai thác và giới thiệu rộng rãi,

Việc tổ chức chuẩn hố quốc tế ISO cơng nhận bảng chit Nom 1 trong hồi

nghị IRG-2 tháng 3/1994 tại Hà Nội là một sự xác nhận thành cơng của để

tìi khơng chỉ ở phạm ví trong nước mà cơn ở phạm vị quốc tế và khu vực

Sự cổ gắng này của để từ đã tạo được cơ sở kỹ thuật để kịp thời đưa

di sản chữ viết cổ của đân tộc vào kho tăng trí thúc của nhân loại, giành

chỗ đứng cho cha Nom ngang hàng với các hệ chữ viết của các nến văn mình

khác Kể từ nay, wong thoi dai phat triển của Tin học và truyền thơng,

thế giới càng cĩ diéu kiện tìm hiểu những giá trị tỉnh thần cao quý của dân tộc Việt Nam qua kho di sản ván hố chứ viết cổ được thơng tin hố

Mặt khác Việt Nam được hưởng những tiến bộ kỹ thuật và, cĩ quyển, cĩ khả

năng thực tế để khai thác nguẩn thơng tin trì thức to lớn mà nhân loại

Trang 13

= Bs

Giải quyết thành cơng những vấn để kỹ thuật cơ bản như mã hố, chuẩn

hố, thể hiện cbứ viết trong máy là đã xố bỏ trên thực tế những sự ngắn

cách vẻ truyền thơng giửa nước ta với thế giới

§- Bộ khung Ngân hàng dứ liệu Hán Nơm với các tư tiêu ban đầu nhập vào, tạo nên Version 1.0 cia Ngân hàng, là một sản phẩm ?ìn học , lầu đầu

tiên được dùng để quản lý kho từng di sản thư tịch cổ Việt Nam.Tuy chưa

nhập máy đẩy đủ những dử liệu Hán Nơm hiện cĩ ,nhưng bộ khung cũng đã báo quát được một bộ phận nịng cốt của kho di sản, đĩ là số sách cơn bản của kho sách sưu tẩm được từ trước năm 194ã tới nay, và phần lớn các văn ba rải rác trên mọi miển đất nước Tu đây ,các nhà khoa bọc cỏ thể bổ

sung.di sâunâng cao và khai thác kho di sản này bằng các nhường tiên

hiện đại

Các giải thuật, cách tổ chức đữ liệu để cĩ thể xử lí tự động hod trong

việc quản lí một Ngân hàng dữ liệu Hán Nơm mà để tài xây dựng cũng được

vận dụng để quản lí Tự đến chứ Hản,tự điển chữ Nơm đạng điện tử

Các chương trình tiện ích khác như sắp xếp, đổi mã, biên tập hiệu đính

n bản chữ Việt là những chương trình tối, cĩ ý nghiấ tăng năng suất lao động đáng kể, đồng gĩp vào kho kinh nghiệm xử lí chứ Việt

6- Hệ soạn thảo song ngữ Hần.Nơm/Việt là một sản phẩm cĩ tính sáng tạo (lấy tiếng mẹ đẻ, tiếng Việt hiện đại lầm hệ quy chiếu số mơi để xứ lí

chữ Hán chử Nơm) Đây là hệ soạn thâo đẩo tiên ở Việt Nam do để tải tạo 7ú, cĩ đặc điểm là một hệ "mềm hồn tồn" ( khơng phu thuộc vào phần cứng cửa

nước ngồi), vừa đảm bảo hiển thị song ngữ trên màn hình, vừa dưa rủ máy

in kim vA may in laser lam chế bản được, vừa đánh dược trong các tếp văn bản (text file), vừa đánh được trong các tệp cơ sở dữ liệu (đãta file), Về bàn phim soạn thảo, nĩ kế thừa được cách gõ relex truyền thống dể soạn chữ

Việt, đồng thời cũng dùng cách gỗ telex để gọi chữ lián Nơm Cách sử dụng

khơng phúc tạp, đo vậy cĩ súc phổ cập cao Việc nhúng chứ Việt với chủ Han chủ Nơm nhằm tạo cơng cụ phục vụ mục tiêu “kuỷnh hố" kho dĩ sản | Nom

Nếu được cải tiến nâng cao thêm, cĩ thể dùng để soạn thảo các từ điển cĩ 7 thứ chữ khác nhau là : Trung Quốc, Nhật, Quốc ngữ, Anh, Pháp, Latinh

Bắc Kính, chú âm quốc tế), và cĩ thể làm thêm TrueType font, sti dung wong

Windows để in chế bản với các kiểu chứ ngày cảng đẹp hơn

7-Hệ quản trị dứ liệu ảnh chụp sách Hán Nơm được xây dụng trén ngơn ng Foxpro trong Windows là một bước nghiền cứu thử nghiệm thành cơn mỏ ra khả năng lưu trứ tồn bộ kho di sản với ảnh chụp nguyên đạng bản gốt của nĩ Nếu thục hiện được việc này chúng ta cĩ phần yên tâm trong cơng tác bảo về di sản, vì khả năng chụp nguyên bản vào đĩa quang là nằm trong tim tay, Những vấn để đạt ra là: liệu cĩ thể lấy ra nhanh và giữ được nguyên dạng để bảo đảm tính chán thực của các "chứng từ gốc" ấy hay khơng? Việc dọc bản chụp và bản in trên máy cĩ thé thay cho tiếp xúc với hán gốc được khơng, đổi với các ban to như tấm bia thì xử lý ra sao ve Van để đĩ đã bước đầu được trả lời qua thực nghiệm

Từ lâu Nhà nước đã quan tâm và cĩ đầu tư cho việc sưu Tổm bảo vệ kho di sản vân hố quý giá của đân tốc ta, và chú trọng tới các nhiệm vụ nhân hẳn

để bảo tổn (để phịng bất trấc xảy ra), và khai thác nội dụng thư tịch

Trang 14

-13-

điểm được Ngày nay với nhúng phương tiên mạnh, chúng ta cĩ thể nghĩ tới

hồn thành trọn vẹn cơng việc sưu tẩm quản lý nội dung kho dị sản quý gií trong khoảng 5-10 năm tới, nếu cĩ trang bị đủ mạnh ( trước hết cĩ thẻ sưu tẩm và nhân lên thành nhiều bản lưu trong CD-ROM, dé ở nhiều nơi để phịng

mất mát và để cho nhiều người, nhiều ngành cĩ thể cùng khai thác Việc này

cĩ thể làm được sớm Cịn việc latinh bố tồn điện sẽ làm dan dan, va sé

thuận lợi hơn nhở khâu sưu được Tin học hố, và các cơng cụ phục vụ sau này cũng sẽ tốt bơn) (chẳng hạn : các nhà nghiên cứu khoa

học cĩ thể ngồi ở nhà đọc được tồn bộ kho sách khi nĩ đã nhập vàu mấy và nổi với mạng thơng tin quốc gia Như vậy hiệu quả khai thác sẽ cao hơn)

8 - Dây là lần đầu tiên đơi ngũ cán bộ khoa học kỹ thuật của Việt Nam tiếp cận với một ngành khoa học cơng nghệ hiện dại , đang tiến lén với

tốc độ nhanh, nhưng họ cũng bắt kịp những tiến bộ ấy, và đem kết quả phục

vụ cho phu cẩu phát triển của đất nuớc Năng lực và nhiệt tình của họ là khơng thể phủ nhận, chỉ cẩn cĩ sự quan tâm thiết thực, sự Kinh dao và tổ chức đúng đán của Dảng và Nhà nuốc, sẽ tạo điều kiện tốt để họ tự đem những

tiểm năng chất xám phục vụ cho sự nghiệp đổi mới củu Đất nước do Pang lãnh

đạo ~

9- Mật khác, để tài cũng là nơi thử sứclà một " mảnh đất dụng vơ", và là ngọn cị tập hợp những cán bộ cĩ núng lực và nhiệt tình cống hiến Thơng qua cơng việc, đã làm cho họ nhận thức sâu thêm về ÿ nghĩa, giá trị lớn mũi ‘Tin hoe ¢d thé đem lại cho khoa học và cơng nghệ của đất nước : ngồi những

vấn để của thế giới kĩ thuật và kinh đoanh, cịn cĩ những việc cẩn làn để

phục vụ cho sự nghiệp phục hưng nền văn hố của Dân tộc, do vậy Dể tài đã

được nhiều người làm khoa bọc xã hội cũng như khoa học cơng nghệ quan Lâm ‘Tiém năng Tin bục trong nước được kích thích nhữ hoạt động trao đổi,

khoa hoc va "đất hãng", yêu cẩu làm việc cụ thể,

Nhìn chưng tốc độ chuyển giao cơng nghệ là nhanh: khoảng thời gian từ

khi nghiên cứu tới khí đem kết quả ứng dụng vào thực tiễn cơng việc, rất ngắn Nhúng thành viên tham gia để

i cing tưởng thành trong qué trinh triển khai thực hiện để tài Nho tinh thin nỗ lực kiên trì học hỏilao độn nghiêm túc, xác định hướng đi dúng đắn nén để tài đã hồn thành cơng việt mot cách kịp thời và cĩ hiệu quả

10 - Dây là Bảng tiêu chuẩn số 0] của Việt Nam được ISO chấp nhân,

tức là một sản phẩm khoa học đầu tiến của Việt Nam dạt tiêu chuẩn quốc tế

-S§ư kiện này cho phép các nhà quản lý khoa học cơng nghệ rút ra những kinh

nghiêm khi tổ chức xây dụng tiếu chuẩn khác tham gia với quốc tế, đẻ

hơà nhập, và nắng cao, hiện dại hố nén kinh tế kỹ thuật nước nhà Trong việc xảy dựng chuẩn này, để tài đã cĩ đĩng gĩp tốt vẻ mất kỹ thuật

1] - Thành cơng này là một ví dụ về sự hợp tác của các lớp cán bộ

(mà và trẻ, am hiểu chữ viết cổ đại và Tìn học hiện đai), của các nhà

khoa học người Việt ở trong và ngồi nude, vi cĩ sự chỉ đạu sát sao của các cơ quan quản lí và chức nãng nhà nước suốt quá trình từ khi thành lập

triển khai để tài,

12 -Sự ủng hộ của các ngành liên quan như quốc phịng, nội vụ, văn huá củng cĩ tác dụng tích cực tới Hội nghị quốc tế IRO, Em cho ban hè thế giới hiểu ta hơn, đĩ là kết quả khách quan mà để tài cĩ gĩp phan dem lai cho uy tín quốc giá

Trang 15

- 14-

KIẾN NGHỊ

Trong tình hình tiến bộ nhanh chống của cơng nghề thơng tín, cần cĩ dài

ngũ đồng đảo cán bộ chuyên gia đủ trđnh độ bất kịp những tiến bộ db, để

khai thác cĩ hiệu quả mọi nguồn thong tin tri thức của thế giới nhàm xây dựng đất nước hiện đại Trên cơ sở những kết quả đã dạt được, và căn cứ vào những cơng việc cẩn tiếp tục hồn chỉnh , chúng tơi dễ nghị với Trung tâm Khoa bọc Xã hội và Nhân Văn Quốc gia kiến nghị với Nhà Nước và cúc cũ quan pire quan:

1/-Để nghị Nhà nước, Bộ Khoa học Cơng nghệ và Mơi trường cĩ biện pháp khuyến khích ứng đụng ngay những kết quả của để tài vào việc suu tẩm, bin

vệ và khai thác thư tịch cổ, tiếp tục cải tiến hồn thiện nâng cao chất

lượng sản phẩm

2/-Để nghị Nhà nước khuyến khích phổ cập ngay những kiến thức về Tin hoc Hán Nơm (về phương phẩy soạn thảo văn bản, phương phúp tìm kiếm khai thác tư liệu thơng tin trê -) cho các học sinh tại các cơ sở đào tạo tan Nơm, Trước mất cĩ thể cho phép kết hợp với chương trình Tin hoc phố thơng

để phổ cập việc sử dụng máy tỉnh trong việc giảng đạy Trung văn va Tin van

3/-Giao cho Viên lIán Nơm tở chúc nghiên cứu mã hố chữ viết cổ của các dân tộc ở Việt Nam trang may tính, kịp thời đảng kí vào bảng mã chuẩn của thế giới, nhằm bảo vệ dĩ săn văn hố quý báu của các dân tộc ở Việt Nam lao cho Vien Han Nom xay dựng kho tư liệu CỦ-ROM cho các dạng thư cổ

Giao cho Viên liần Nơm tổ chúc nghiên cúu xáy dựng chương trình địch máy văn bản Han Nơm- Việt

6j-Cơng việc mới phát sinh trong năm nay là tao font chi Nom 96x96 dễ hồn chỉnh thủ tục gia nhập ISO

Chỗ nhiệm Để tài

Tin hoe Han Nom

Trang 16

BE TAI TIN HOC HAN NOM - BAO CAO TONG KET TONG QUAN VE KY THUAT

(Bảo cáo này nẽu mạc tiêu chung, yêu cẩu chung,va một số giải pháp đã vận đựng trong quá trình tiến hành nghiên cứu 1992-1994 ] Xuất phát tờ hại MỤC TIE! lâu dài:

1) Ding tin hoc để bảo tổn quản lý và khai thác thư tịch cd (Han nom):

latinh hố kho sách Hán Nơm của Việt Nam

2) Tiến lên chia xế nguồn thơng tín của thế giới đặc biệt ghi bằng chữ tượng hình

) Để tài đã để ra những VU] CÀ cơ bản nhụ sau, căn cứ vào

mục tiêu để ratrong hồn cảnh, mơi trường xã hội Việt nam đang địi hơi

xố bỏ sự cơ lặp, cảm vận, vươn ra hồ nhập với thế giới c thơng tin

; {để đáp ứng cả 2 mục tiều) cẩn cĩ hị ếu biết về cư chế xử lý chữ

tượng hình trong máy tính Cĩ hi cơ chế ấy mới cĩ thể thừa hưởng được kết quả nghiên cứư»của bên ngồi, chủ động cải tạo phần mềm theo yêu edu của mình và dùng nĩ để khai thác thơng tịn Nếu khơng hiểu rõ, hoặc chỉ biết sử dụng thụ dộng, thì tuy cũng cĩ thể soạn thâu được văn bản và in ra, nhưng khơng thể cải tạo được Vì yêu cầu này nên để tài phải khảo sái các hệ phẩn mềm ng dụng và các hệ điều ban , cùng cơ chế xử lý chú tượng hình 2 byte trong các hệ đĩ

Muốn chía sẽ khai thác nguồn thơng tin của thế giới phải theo đõi sự phát triển của cơng nghệ thơng tin theo hướng xử lý ký tự tượng hình và dự đốn buộc đường tương lai của hướng này Vì khi thành lập để tài, những ứng Gung vẽ vấn để này chưa nhiều Nhìn tước những bước tiến và xu thể tie lời của xử lý ký tự 2 byte sẽ dan tới những quyết dịnh chọn lựa đủi

biện pháp cải tạo và những bước đi cĩ tính chất đĩn ưước hộc là "chà đợi chiến lược”

= CAU 2: Xuất phát từ mục tiêu tàng thư, lưu trữ, quản lý khai thác thư 6 Viel nam „ sẽ dẫn đến những dinh bưởng ưu tiền chọn lựa như sau p Cẩn tạo được chứ nơm trong máy Dú là một yêu cầu tất yếu,khĩng thể coi ià cơng việccĩ cũng được, mà khơng cĩ cũng được" (Vị tên người tên đất trong văn bản Việt Nam cĩ rất nhiều chữ Năm Hiện nay khơng một sắn

phẩm phần mềm nào nhập từ bên ngồi cĩ thể cung cấp đủ chữ Nơm đê thể hiện được đủ chữ Nơm trong văn bản của Việt Nam, mà nếu thiếu cái đồ thì khơng

nĩi tổi chuyện quản lý khai thác thư tịch cĩ bằng Tin hoc Mat khác, việc đưa chủ Nơm vào kho chữ tế cũng là mốt dip để giới thiệu và giành lấy cho chữ viết cố của Việt Nam cùng các di sản viết bãng

thứ chứ đĩ một địa vì xứng đáng, ngang hàng với chữ viết của các nến vàn hố khác, đảng thời bảo tổn vinh viên các chữ viết cỏ đĩ trong "Bộ nhớ chung của thế giới, khiến cho nhân loại khơng lãng quên nĩ, trong khí

Trang 17

see

2) Hướng chủ đạo là xây dựng dẩn dần một ngân hàng đứ liệu Hán Nơm (Ưu tiên nghiên cứu hê quản trị cơ sở dứ liệu thỏ chứ khỏng ưu tiền chủ trương mua font chữ dẹp để làm chế bản Việc làm đẹp chữ Nơm sẽ được tiến hành sau )

3) Đối tượng khai thác chủ yếu là kho sách cổ, dẫn tối ưu tiên chụn phẩm

mềm dùng chứ phổn thể chứ khỏng phải là chữ giản thể (chứ giản thể được phổ biến sau năm 1949)

YÊU CẬU 3:Xuất phát từ thực tế Việt nam hiện nay là: mợi hoạt động trao ỗi thơng tín văn bản đểu dùng chứ quốc ngử (Chử Việt hiển dại ) Vay mọi tin hiệu, mọi thơng tin, muốn cho mọi người Việt nam sứ dụng dé đàng déu phải gán với chứ Quốc ngứ (Tức là các chữ Hán, Nơm phải cĩ thể nhúng được

với chữ Quốc ngữ hay là các giao điện, đổi thoại với người dùng của chương

trình cần là chữ Quốc ngữ, hỗ gẩn Quốc ngữ cho hợp thĩi quen của ngưừ Việt nam) Dây cũng là yêu cẩu về ứnh phổ cập, dễ sử dung, để học, đối với các phần mềm tin học

Nhĩng được chứ Quốc ngữ với chữ Hán, chứ Nơm là tạo được cơng cụ phụe vụ nhiệm vụ "Latinh hố kho di sản Hán Nơm theu nhiều cấp độ của tạ, E

một nhiệm vụ lâu đài mà ta phải tự làm lấy,

-Nghiên cứu để úng dung trên nhúng máy nhỏ, do thưc tế "Bước đầu ứng dung

tin học "của nước tavà hồn cảnh đang bị cẩm vắn,thiếu các thiết bị

cao cấp cĩ tính nâng mạnh (Ví dụ đĩa quang ,bộ xử lý 486 cịn rất đất,

hệ điều hành Windows chưa ổn định: các hệ ORACLE và UNIX chưa được nhập vào Việt Nam Tù đĩ dẫn đến việc "Quết ảnh sách Hán Nơm" nhưng lưu trự thủ vào đĩa cứng nhỏ chứ chưa cĩ bộ đọc ghỉ trên CD-ROM

YEU CAU 5: "Thod man xu thế hồ nhập"

Tuy ra đời trong hồn cảnh bị cấm vận và lac hau vé thơng tn, nhưng chúng ta cũng nhìn thấy xu hướng tất yếu là Thơng tn Tin học sẽ tiến túi sự hồ nhập kỹ thuật ở cấp độ tồn cầu Vì vậy mọi cải tiến phải dí theo hướng đĩ , tất cả phải chuẩn bị cho ngày đĩ Chính vì thế mà ngay từ dấu để tài đã nghĩ tới việc dang ký tham gia vào bảng mã chuẩn UNICODE va ISO dau rang lúc đĩ chựa hình dung hết cơng việc cụ thể sẽ phải làm những gi(trong quá trình tiến hành nghiên cứu chúng tơi thấy làm sẵn phẩm để

ding trong nội bộ, so với sản phẩm làm để tham giá truyền thơng quốc tế cĩ

những yêu cầu và những phẩn việc cụ thể khác nhau Để tài đã phải tính tốn

và thiết kế để cĩ thể dung hồ, thoả mãn được các yêu cầu khác nhau, thám chí là đối nghịch nhau )

e số đrša MỘT SỐ GIẢI PHÁP ĐÃ THỰC HIỆN pf pAp ỨNg YÊU CẤU VÀ ĐẠT HỤC TIỂU ĐẾ Ra 1) VẤN ĐỂ KHẨO SÁT LỰA CHỌN PHẨN HỂM, LUA CHON HƯỚNG CẢI TẠO PHẨN HẾM

~ Trong tình hình thực tế: cĩ thể mua được phẩn mềm cĩ chữ Hán, nhưng nhà sản xuất chỉ bán cho các chương trình đã dịch ra mã máy (chứ khơng bao giờ họ cung cấp chương trình nguồn, viết bàng các ngơn ngữ cĩ thể hiểu

được, và ho quy định chỉ sử dụng để soan thảo và ín ra mấy im khujn trong loại tệp văn bản (tỨc là file text) với khổ chứ đất cổ định (to gấp 2 hoặc gã! 4 cẻ chuẩn), dùng đổng loạt một cổ cho tồn văn bản, bát kẻ dủ là

Trang 18

tiêu để, để mục hay câu văn thường [như trong hé CWI], VA nbit sin xuất cũng đặn rằng hệ này chỉ dịng dưới DOS thấp (DOS-3.2 hay 3.3)

Nhà sân xuất cũng khố chật font chữ cơ bản, khơng cho phép bổ sung sửa chữa gì vào đĩ (vì xét ra font ấy củng đã to hết cố, chiếm gần | Mega bytes) Nhà sản xuất cũng tạo hộ gỗ theo các phương án thích hợp với ngưửi bản ngữ (Trung Quốc) là "cha Am phù hiệu" (bua, phua, mua, pua ), "Thường Hiệt, "Hàng hệt

Để tài đã làm được việc cải tiến một phẩn mềm chứ Hán để sử dụng như sau:

~ Viết chương trình can thiệp vào font: sửa chứ trong font, về lại, vẽ thêm chữ

- Đưa chữ Hán tir trong 1 hé CWT ra DOS, vào các hệ phổ biển dế sử

dụng như Norton, Turbo Pascal 3, nhập vào DOS.5, đưa ra máy in lascr - Tạa được cách đánh chữ Iián thích hợp với người Việt

- Chữ Hán dùng được trong máy nhỏ của Việt Nam (với máy AT- 286 cũng soạn thảo được)

2- VẤN ĐỂ vẽ cnt NOM VA DUA cui NOM THAM GIÁ VÀO BĂNG MA CHUẨN quốc TẾ

Nhờ nắm được cơ chế làm chữ tượng hình, để tài đã viết các chường,

trình thâm nhập can thiệp vào font cơ hẳn, vẽ thêm chữ, tạo ra 2 font chi Nom cổ 15 để hiện hình và cớ 24 để điều khiến in, Hai loại trên cĩ thể dùng để chế bản; riêng font Nơm 24 cịn dùng đẻ đăng ký giành chỗ trong UNICODE đợt đầu Nhờ sự giúp đỡ của các ph Tín học Việt kiểu lại Mỹ, và các cự quan, các nhà làm chuẩn kỹ thuật Thịng tìa trong nước nên việc đáng kí chứ

Nơm vào hãng mã chuẩn Quốc tế đã đạt được thành cơng bước đầu: Tiểu ban ma

chuẩn đồng ý kiến nghị IŠO mở rộng cột thứ 4 trung bảng mã chuẩn chu chữ Nơm của Việt Nam

Như trên đã nĩi: việc vẽ chữ Nom dé ding trong nước đã phải thoả mãn thêm các yêu cẩu 2 và 3 là : vào bệ quản trị đũ liệu và nhúng với chủ

Việt Việc tham gia UNICODE, trên nguyên tắc đã cĩ đáp úng yếu cẩu

thoả mãn xu thể hồ nhập Ở đây để tài phải giải quyết mâu thuần giữa yêu

ìu của ISO là sấp xếp tồn bộ theo trất tự số nét và trát tự 244 bo olin từ điển Khang ÏH, cịn yếu cẩu của ta là xếp theo ABC vấn quốc ngũ; UNICODE dịi hỏi nộp sản phẩm trọn vẹn ngay một lúc, cồn ta thì s dan,tim thém

được chữ mới tới đâu thì vẽ tới đĩ Vì vậy phải chia thành các version

để bổ sung đẩn cho phù hợp với đợt bổ sung của quốc tế Chủ trương

nghiên cứu ghép mã, ghép chữ vừa đáp ứng kịp thời yêu cẩu đưa ra xem xét của 1SQ, để chúng ta khơng bị lỡ thời cơ vừa giải quyết được vấn dé do thiểu điểm mã mà gây ra tình huống căng thẳng gay cấn khí ta mới xin gia nhập bảng mã UNICODE

- Dé dam bao via co sin phẩm nộp vừa cĩ cơng cụ dùng, trong thời giản hệ mã UNICODE va iSO chưa được chính thúc phổ biến, để tủ đã giải quyết bằng cách gán tạm mã RJG-š cho các chứ Nơm, đồng thời gán lại mã li

dưới dạng Decimal (kí mã thập phân) cho tất cả các chứ Hán và chữ Nom đã cổ; tạo nén một hệ má Hán Nơm thống nhất, liên tục cĩ thể quản ii dược

trong kho (chờ tới khi ma ISO đã phổ biến thì ta sẽ chuyển má các sản phẩm sang hệ ISO), Việc tan một hệ mã riêng như vậy cũng đáp ứng cúc yêu cầu bổ gung chữ sẽ sưu tẩm về sau của tà Sở dĩ cẩn gan lại mã B1ư-5 dưới dang Decimai vì dưới hệ điểu hành DOS vốn cĩ cơ chế nhập chữ vũo vị trỉ con trị bảng cách đánh phím Alt + con số trên bàn phím số, cho nên nếu tà lỡ tay xố mất một chú nào đỏ trong kho chữ thì 1a cĩ thể khơi phục lại nĩ

một cách dé dang, hoặc cĩ thể đánh dược một chữ khĩ tìm vào văn bản nhị sử

dụng một tù điển điện tử để "nhác vở ",

Trang 19

-4-

~ Trong Font chi Nom nay ta cing đành vị trí chủ chữ Quốc ngữ ở

những miễn nào mà vần Quốc ngữ đi qua

~ Dựa vào thĩi quen đánh chứ Quốc ngữ trên máy tính theo phường pháp gỗ telex là phương pháp dễ học dễ làm nhất, dé rat đã dùng mã (ciex

xâu gọi các chứ Hán và Nâm Quy tắc này cũng cho phép sử dụng tiết kiệm hỗ nhớ (nếu khi nào ta khơng cần đánh chữ Quốc ngứ thì ta khơng tải bộ gỗ Quốc ngữ vào, nhưng vẫn đánh được chữ Hán chứ Nơm, và khi dĩ lượng bộ nhú

đồi hỏi cấp phát sẽ giảm di dành chỗ để chạy chương trình thường trú)

3-VẤN ĐỂ XÂY DỤNG NGÂN HÃNG DỮ LIỆU

~ Sau khi giải quyết được vấn để xử lý ký tự Hán Nơm trên tệp vấn

ban (text file) thi edn phat nghién cứu để đưa chủ tượng hình vào hệ quản

trị dữ liệu làm cơng cụ thể hiến, mơ tả vàn bản, Việc dưa chữ Hán cha Nom vào hệ quản trị dữ liệu đồi hỏi kỹ xảo phúc tạp hơn là đưa vào hệ soan thảo

trén tép van ban (text file)

- Định hướng vào s Ie

những giới hạn co hẹp về sử dụng tài nguyên bộ nhớ Chẳng hạn:

+ Bỏ nhớ quy ước chỉ cĩ 640 KB, nhưng phẩn dành cho hệ quản trị CSDL FoxPro tối thiểu địi hỏi gẩn 300 KH bộ nhớ cho hệ chương trình ấy thường trú chứ Hán thường trú chiếm gén 200 KB, chữ Viết thường trú chiếm gần 20 KB; Khi vân hành cịn cĩ sự bành trướng thém ra ví đụ bộ nhớ

cẩn dành chỗ cho các menu, các cửa sổ v

+ Do đồ phải cất bớt một số tiên ích như: sối sửa lỗi chính tá chữ

Việt trong hệ cất bớt phẩn chữ hoa cĩ đấu trong tiếng Viết và và bộ gõ chứ Nơm đưa vào phải là bộ gỗ ghép vì nĩ nhỏ bơn bộ gỗ tổ hợp sẵn các chữ đã ghép

- Một nhu khác của vấn để lưu trữ sách cổ mà Tín học cĩ thể

vươn tới là lưu ảnh sách cổ Diểu này thế giới phải giải quyết bang

cơng nghệ CD-ROM Dé thi đĩ nghiên cứu cả hai cách quản lý lưu trổ: báng ky tr (Character) va phương pháp quét lưu ảnh

- Việc lưu trữ bằng kỹ tự cĩ tác dụng quản lý tìm kiểm nhanh, khủi

thác những mặt mạnh của hệ quản trị dữ liều Vấn để là chọn hệ nào để làm,

dễ học, rẻ tiến, cĩ thể cải tiến, cá thể đưa chứ Hán, chủ Quốc ngú vào dượ Chúng tơi đã chọn hệ FoxPro thich hop với các yêu cẩu kể trên „xà trong bước đầu triển khai đã ứng dụng để quản lý được 4500 sách và 11.500 đơn vị văn khắc Hán Nơm.Iê này cũng đang được cải tiến cho mạnh hơn lên

- Về sử dụng ngơn ngứ lập trình ứng dụng

+ Hể tài đã giải quyết mối quan hệ giữa tệp cơ sở dứ liệu và tệp

vân bản Chuyển đữ liệu qua lại giửa tệp dự liệu và tệp văn bàn, viết

chương tình tìm kiếm và thay thé wong tép cơ sở dứ liệu, viết chương tình sửa lỗi, sửa mã cho các tếp cơ sở đứ liệu, viết các chương trình chuyến mã qua lai giứa các hé soạn thảo chữ Việt cho người dùng, và chương trình sắp xếp chứ Việt theo mã chuẩn quốc gia Việt Nam

Tĩm lai:Là một đơn vị đẩu tiên thuộc ngành Khoa học xã hội nghiên cúu ứn: đụng Tìn học, trong hồn cảnh thiếu kính nghiệm và bị cấm vận, với một th dụng hẻ quản trị dữ liệu là phải chấp nhận gian pgấn, để tài đã khảo sát, đã đật ra và giải quyết được các vấn để cứ

bản của bước đầu ứng dụng Tin học để bảo vê và khai thác di sản Hán Nơm như

tạo chữ Nơm, xây dựng hệ soạn thảo Hán Nơm-Việt với bộ gõ thích bựp và bộ mã nhúng bai ngữ an tồn dưới DOS, tao thuận lợi cho việc đưa ván

bản vào xử lý trong máy; xây dựng được khung ban đầu cho Ngân hàng đữ

Trang 20

in phdm Jam thém nam

( Những thử nghiệm ứng dung dưới Windows là s

chỉ là hước đi rất ngắn,

ngồi kể hoạch, là 'vượt mức" đã đăng ký, và mị chưa cĩ nhiều kinh nghiệm.)

m VỀ TRIỀN VỌNG,VÀ CÁC VẤN ĐỀ TỔN TẠI : 1) Những sản phẩm cửa để tài cĩ thể dem vào ứng dụng ngay trong nước:

af Dé soan thảo và in ẩn văn ban Han Nom Viet

b¿ Để làm các Từ dién co chd Han, cht Nom, che Vidi trong may tinh,

phục vụ tra cứu, nghiên cứu khoa học cj Để dạy và học chữ Hán chữ Năm

gý Để lưu trữ bảo tổn thư tịch Han Nom

2) Đối với yêu cẩu giao tiếp quốc tế

a/Chúng ta đã cĩ được cơng cụ dể cĩ thể bước đầu hợp tác quủc tế trong nghiên cứu khoa hocnhư đồng gĩp thêm chữ vào kho chữ tượng bình của thế giới, đồng thời tranh thủ những tiến bộ về cơng nghệ thơng tin của thế giới và cung cấp những luận chứng khoa bọc chủ sự nghiệp Tïn học hố, hiện đại hố kinh tế của quốc gia, nếu được nâng

cao thêm cĩ thể đưa vào truyền thơng liên quốc gia

b/Cĩ thể đùng vào những ứng dụng cao cấp bơn, như làm dep chinhan

đang, dịch máy Việc này yêu cầu phải nâng cao thêm

3) Cần mở rộng ứng dụng và tiếp tục cải tiếu: Nhờ mở rộng ứng dụng cĩ

thể phát hiện thêm những nhược điểm và yéu cẩu dé cải tiễn, nâng cao

chất lượng sản phẩm đã làm ra

4) Căn cứ trên các kết quá đã dat được, căn cứ trên hướng đi và nhiệm vụ

lâu đài cĩ đối chiếu với tiến bị kí thuật Tin bục biện nay, sau khi

xuá bỏ cấm vận, chúng tơi xin nêu một gợi ý như sau :

a/~ Để nghị Trung tâm Khoa học Xã Hội và Nhân văn quốc gia kiến

nghị với Nhà Nước đầu tư chiều để tiếp tục nghiên cứu và khui

thác, ứng dụng những thành quả của Tin học Hián Nĩm của trong nước và thể giới vào nghiên cứu khoa học ( Hình thức cĩ thể là mơi dư án hốc một Uỷ Bạn dịch thuật liên quốc gia ) làm một đẩu mối thực hiện nghị quyết 49/CP của Chính phủ.Ở day sé tap hợp các chuyến gia của 2 ngành Tin hoc va Han Nom hoc để phối hợp hoạt động, vừa

nghiên cứu vừa khai thác

b/-Những nhiệm vụ cĩ thể triển khai tiếp |

+ Hồn thành việc mã hố chữ Nơm của người Kinh, chứ Nom Tay cht: Thái cổ, chữ Chàm cổ, bịp thời đăng bí vào bảng mã chuẩn của thé giới

+ Lam đẹp cho các chữ viết cổ đĩ

+ Xây dựng các từ điển điền tử sang văn tự như Hán Việt Nơm-quốc

ngữ đưa vào sử đụng tra cứu, và phục vụ cho các chương trình dịch máy

+ Quết lưu tồn bộ kho sách Hản Nơm vào CD-R ø lưu nhân bản và khải thác theo kĩ thuật mới, để phịng mất mắt di sâu

+ Xây dụng các chương trình địch máy song văn tụ

cổ Trang bitể chức gọn nhẹ nhưng đủ sức để làm việc,

+ May tính Pentium hoặc Power P€ áp dụng cơng nghề RISC tốc dõ củo + Sử dụng cùng nghẻ "cum dẫu cứng" dạt tốc đồ cáo

+ May doc vi ghi CD-ROM

Trang 21

PHỤ BẢN SỐ 1

+ trong lao Zo TẢnh trọng trạnh chấp nã

ngo lao giữa cưữ Hấn vÀ chữ Việt

Trang 22

PHU BAN SO 2

PHIẾU MO TA VAN BIA VIỆT NAM ĐỂ QUAR LE

1/-8ố: 20957 2/- Số cũ: - 3/- Loại: rên giáo, văn hố

4/-Tên bia: (viết hoa đâm) CÀN NI SƠM HƯƠNG NGHIÊM TY BI MING

5/~ Niên đại: Ngày 10 tháng 1 năm 1325 (Năm Giáp thin, niên hiệu Thiên

Pha Dué Vi năm thứ 5, Tháng 12 ngày mồng 4}

6/-Tên cũ: như trên

7/-Tên Việt: Văn bia chùa Hương Nghiêm núi Cân Wi

8/-Người soạn: chưa rõ Theo nồng Xuân Hãn, người soạn là sư Pháp Bảo trên

thật, quê quán, nšm sinh, năm mất đếu chưa rỏ)

S/-Noi để(Địa điểm nay) : xá Thiệu rung,huyện Thiệu Hố,tỉnh Thanh Hoa 10/-(BTA DANH CỔ : kể 4 cấp hành chính ghì trong hia)

11/-Wơ$ lưu giữ: Thác bản lưu giữ tại Viện nghiên cứu Han Nom

12/-Người viết chữ: cnua rõ

13/-Người khắc chữ: Ngưởi khác lại, vác năm 1126 -Ìa Lê Buán Danh,người xã

An Hoạch, huyện Đơng Sơn, Thanh Hố

„ 14/-Kiển chữ: chữ khải khắc châm, đọc tử trên xuống, từ phải sang trải Tình trạng thác bản: Ban rập tit bia khắc lại, bị mờ nhiều chữ 15/- Chất liệu: nả

16/-Hình thức: mhổ c#o Inge rong ams

‘TU THEN cHOT

17/-Tên người: bạo Dung, Le céaz, Đỉnh Tiên Hồng, Lê Đại Hành, uy Thai Tơng, Đạo Quang, Lưu cơng, [¬ý] Thanh Tong, Minh Hiểu Boang đế, Thuy Thành Cơng chúa, Lý Cơng, Thiếc, Tỏ, Lê Văn Nghỉ, tính Trạm, Lễ Huân Danh,

18/-Ten et: can wi, Heong nghiện, Gia Vệ, ái Châu, Cửu Chân, trinh Nghiêm, Minh Nghiên, Vũ Long, na za, Kim Cốc, NgẺ Huyện giang, Vương Thành, Thứu Đài, Lư Giang, Khải cise (thơn) niên Hào, (xã) An Hoạch, (thơn) Nhuê (cha); [giap) Bối Lý,(đấm) è L6i;tgiáp) Viên Đàm, 19/-8ự kiện: vam lại chua, Thời kỳ: Nhà tý (1016-1225)

20/-Tên quan tước: | cổu cÄ quan TƯỚC,DANH HIỆU VÀ THUẬT NGỮ cổ

Trấn quốc bộc xạ, ĐĨ quốc ¿ịnh sứ, Kim từ quang lộc đại phu, quản giới, Hồng để, Thiến chủ, Trường iac, pai hình, Thải phố, Nhập nội nệi thị sảnh

a do +: phe, Cùng dịch gứ, Đại tướng quản,Thượng trụ quốc

khai quốc cơng, Thái Phê kỉ lang, Thiên Phủ Duệ Vũ, Bảo Thái, Thực ấp, Thực phong 21/-Chữ Hồm Khĩ Thiển sự Dac Dung, xuấc thân từ đơng họ lớn cĩ uy vọng nhiều Số dịng 31 Số chữ 1300, „kiểm niệu t

dei,tro tri ở Kính đề,giác ngộ lẽ sắc khơng, vận động các nhân vật nổi tiếng Si như Thái mh Bam, Thai ay Lý Thường Kiệt, Thuy Thanh „ trùng tụ chủa Phật, soạn khắc van bia dé lim truyền mí

23/-Sách tham khảo: te¿a văn đã được chép lại trong cuốn “Bi_van“va cuốn “Ly Thương KÍết sau đã được phiên âm, và địch ra tiếng Việt 24/-Thy mic tham khảo

BỈ văn, bản sao chép ky hiéc vav 1167, sách đã mất,

Trang 24

PHỤ BẢN SỐ ¿

GIỚT THIỆU SƠ LƯỢC HỆ QUAN TRỊ CHỮ NƠM DẠNG ĐIỆN TỪ

(TIỀN THÂN CỦA TỪ ĐIEN CHỮ NƠM ĐIỆN TỪ )

TĨM TẾT BÀI TỐN

TIẾT 1

~ Làm 1 bệ cơng cụ để sưu tấm, mã hố các chữ Wơm của Việt Nam, để tra cite goạn thảo chi Nom trên máy tính, in xa bing may in kim vay may in laser, Tinh trang thiết bị biến cĩ là: máy tính IBM, PC AT-286, AT-386, hệ điều hành Me.Dos, phần mếm để kiếm là ET2 (Ÿ Thiên) và Foxpro 2.0,Foxbase

- Mẫu chữ để vẽ :lấy trong các thư tịch cổ Việt Nan, bước đầu lấy ở hai tử điển xuất bản gần đây nhất và tương đối nhiều chữ là TĐCN (Từ điển chi Nom -Vũ Văn Kính) và BTCH (Bảng tra chữ Nơm - Nhả xuất bản Khoa học Kã hội,do

nhĩm Hồ Lê biên soạn)

TIẾT 2 : GIỚI THIỆU SƠ LUỢE CẤU TRÚC DƯ LIỆU

(Cấu trúc - các trưởng của tẹp chủ đạo)

- Tên tệp : NOMDD.DBF (wam Gay 4a)

~ Cĩ các trưởng sau: Kiếp độ rộng le Mor (mã quốc tế) character

2- N (nguồn cũng cấp cht) € =—- 3— MARSC (mã ascii, Big 5) ¢

4- CHU (hinh choy c

5~ AHV (âm Hăn Việt - Ar némjc 1 6- BO (bd - phần nghĩaj c = cum (cum - phẩn am) e 8- ARHAC (các ấm Nơm khác) C 9- BOSX (bệ Khang Hỉ, để xắp sếp) € — 10-SHB (96 hiệu của nộ Khang Wi) ¢ 11-V2B (vị trí: bội c 12-MDC (mã đầu chối) c 13-6NET (số nét của cnữ) ¢ 6 6 8 5 0 8 40 (chữ cĩ nhiều âm) 0 3 1 2 3 aa-b2 (để đánh đấu khi cẩn) € 15-D82 (trường đảnh đấu thứ 2)C 16-THUCGHEP(tên toả phụ thực ghẽp)C ~ 17-78 (tổng số) Niner! 32

(+ Phụ lục SỐ 3 là in thử 13 trường của tep NOMDD.Đ2SF; ,ẩược dang dé minh hoa cho cấu trúc của tếp DBF chủ đạo của hệ

Lưu ý : mỗi record dùng dé m6 ta O1 chit Nom

TIẾT 3: GIẢI THÍCH Ý NGHĨA CÁC TRƯỜNG, TÁC DỤNG VÀ CÁCH XỬ LÝ

1/ MỘT (MÃ QUỐC TẾ): trường này ghi các mã U+ và V+ trong bảng mã DNICƠnI

giành cho chữ Hán và Nơm U là en3 Unicode đã cĩ, V là chữ Năm thuẩn Viện, Trưởng này giữ quan hệ tương thơng giữa mã Unicode và hệ riêng

dụng (bệ Ý THIÊN]

Trang 25

~3~

2/ N (NGUỮM) trưởng ghỉ nguồn gốc các chữ trong các tử điển, gồm 1 chữ hoa

đứng đầu kèm san lá 4 kí tự số, chữ hoa đứng đầu là viết tất tên các tác

giả đã mơ tả chữ Nơm trong từ điển của họ, cae chit sé la the tit che trong

từ điển đĩ “8' là chữ do nhĩm ơng Nguyễn Quang Hồng mơ tả, 1° La chit do nhĩm ơng Hồ 14 (Bảng tra chữ Nêm) mơ tà "W' là chữ do ơng Ngơ Thanh Nhân nơ tả,trích chọn ở tử điển Vũ vấn Kính)

¬ Trường hợp Nhân và Lê cùng mơ tả một chi thi dem kỹ hiểu N+ chứ số

chuyển sang trưởng AKHAC (vi trưởng ay rộng 40 kí tự, cịn thửa ch}

~ Nếu Lê nơ tả trúng lập thì cũng đem bớt l ký hiệu chuyển sang trưởng AKHAC, ghi la ‘NL’

- Lêm nhự thế vì Bang tra chữ Nơm của zê cĩ số lượng nhiều hơn cả, cĩ đánh

sẽ liên cục, cĩ thể đơng làm văn bản nén (text de base) để khảo dị so sánh, kiểm tra để phơng bổ sĩt chữ

- C6 65 record mA sau chữ số con thém chữ "b" ở do la cae vecerd lie, vì 1 trưởng ARunc khơng đủ “chổ để ghỉ các ấm dọc khác nhau của chữ ấy, vậy

phải thêm 1 record nữa để cĩ thén chỗ mà ghỉ am

3) MAASC: MA ASCII CUA CHI (gh: theo hệ thập phân, bằng sác can số từ ©

đến 9¡ Nếu lỡ tay lãm mất hình chữ, ta cĩ thể khơi phục bang cach da phím alt và đánh con số ở khu vực đách đã 2 con số Chỉ ím sổ , bên phia tay phả: chữ sẽ hiện ra sẻ thể 4) CHỮ (HÌNH CHỮ): Trưởng "chữ" để rộng tới 6 kỉ tự, để phong

cĩ chữ ghưp bằng 3 tồ 16 bit , ví dụ chữ “guée gidn thé", người ta viết lá (“hai nhày hai bên, chữ vương ở giữa" XẶC ), thi xố: tồ gồm 2 bytez ,3 toa là 6 bytes

= Ta cĩ thể đếm xem trong tệp NOMDD.DEF cĩ bao nhiều record cé chi lea! ghép (4 bytes) bing lệnh Foxpre sau: COUNT FOR LEN (ALZTRIM(CHU} (ENTSR) ¡ ta sẽ nhân được xết guả 5) AHV (AM HAN VIET): một an Han viet riêu biểu, hay được dịng nhấ> đổ gọi chữ này

6) BỘ (BỘ NĨI CHUNG): cnủ ý rằng khả: niệm "bội

rộng, nĩ dùng để gh: am che toa chi “phan nghĩa'

tồ gợi âm sủa chữ ấy (toa agi am được di trường “cum") thee thei quen trao đểi miệng với nhau, muốa mơ và mộc chữ, người te bay nĩi chữ ấy gốr bộ gì ghếp với ám gì sĩ hàn ý nắng "bộ ghỉ phẩn nghĩa, "âm" gai gợi âm chỉ ra cach đọc của chit ay T6m Lai chúng xơi cố gàng phan « rang NGMDD DBE cảa chữ Mơm, dối lập với Nom thành 2 phấu cĩ thể ghi ấm cho đễ mỏ tẻ ít“ (sốt là Vi dụ chữ "cột" gồm "bộ mộc",

‘gai cho ta dos ra am ‘cot ' mẻ chữ 8âo chứa cĩi te

chữ "lui" gốm “bO tdov,"am 16i" (iui là lui gát, là đi bằng chân,

Trang 26

n 1đ TH a.’ Gee vàng VỆ

Hi, nhưng đã thành quen và tiện dũng để mơ tả chữ, nên cũng chấp nhận Ví dụ chữ "nhẽ" được mơ cd là "bộ lí, âm nhĩ", nhưng bệ '“Li' (chuẩn } thi

khơng cĩ chữ "ngọc" ở bên Hoặc là chữ "Giúp" mơ tả là "bộ trợ am chấp" „ thì thực ra khơng cĩ bộ "trợ", trong phần ghỉ nghĩa chỉ cĩ bộ "lực" là dang được ghỉ , vì vậy muốn sắp sắp xếp cho hợp lí ta phải để chữ "giúp" vào bộ "tực" ĐỂ giải quyết việc sắp xếp này ta cĩ trường BO9X (B6 sáp x xếp, làm,

nhiệm vụ đĩ (Chữ "giúp" sẽ được ghỉ BOSX của nĩ lá lực) * ted mgt

i Seah

= Vige tach doi một chữ thánh BỘ (ghi nghia) vacwm (ghi am quen dung, chợt nhận và đọc ngay được; sẽ tiện lợi cho việc tra cứu nhanh + - Khi cảm một văn bản hay một chữ mã người đọc chưa biết người sáng tác ra nở

định gán cho âm gì, nghĩa gì, thì cĩ thể tra cứu trên cơ sở biết được am

của từng bộ phận của nĩ, mà việc này thì tương đối

= Chương trinh TRNOM.PRG (tranom.prg) lam theo cảnh cơng index va cho phép

để bộ trước cụm sau, hoặc cụm trước bộ sau đếu tìm ra chữ,

~ chương Non PRG),

vé cach dua xâu gọi (xâu (Ầm kiếm) vào trong ở đây người sử dụng phải gõ ân telex của "bộ và cụm đính liễn nhau" (khơng để khoảng cách hay đấu cộng ở giữa) nh LƯN.ĐRG (lâm ví lũng tương tự, coy cĩ khác ` 7+ CUM (ĐÃ NĨI Ở TRÊN) 8~ AKHAC (ÂM KHÁC):

Nhân, Hồng đã mƠ tả, mơ tả thiếu ẩm, các ăm ấy đếu ghỉ vào đây, ghỉ các âm khac nhau của một chữ má Lá, này» sơa đưa vào một số ấm "tiện đọc tức

Ngồi ra Long (ngư

thời" (trơng thấy chit dé, người ta khơng cấp suy nghĩ nhiều, cớ thể đọc ngay ra âm đối

Sự thêm thất này phẩm phục vụ cho việc tìm kiểm va go chữ vào Vấn bản

được nhanh, chử khơng phải là âm "chuẩn" mã một từ điển nào trước đã mê tả 4 ARHAC, kiểu Character se được thay thể NOMDD.DBF dược nhỏ bở:, er réng 40 ki doc

= trong tuong lai, ed thé trata

bing truong atom, kiểu Memn,Šể cho độ lên của t

kiểu

vị kiếc trưởng Meme e

tự vẫn khơng chữa hế 4 cố 18 KỈ tự, cên wong Charac nhiều cách các âm của một số chữ má nĩ

- Trong trưởng này cũng cĩ các số niệu chữ được chuyển tử trưởng N sang nếu cĩ nhiều nguồn mỗ tả c ấy ,nhữ đã nĩi ở phần trếc

9- BOSX (BỘ SẮP XẾP) nảy chính lá "bộ" theo quy địch của tử diển Khang

ai ma Ucicode và 1o đã lấy iar chads để sắp xếp kho chữ tượng bình

Đối với kho chit Nom ray, đầy lã trưởng ghi phiên âm tiên việc theo kiểu telex cải Đệ Khang Hí đĩ

- Trưởng này quan hệ mật thiết với trưởng SHR (SẼ hiệu bội,

- Trong 214 bộ Khang Hỉ cĩ ¡8 gặp bộ trúng âm Hán Việt với nhau nền phả

ghỉ thêm các chữ số kém sau để phan biệt (va chỉ ghỉ kỉ tự !1*' hoặc

eT Te

wehd2"(@) (chi cat déaj; "vat"(ÄMj (chỉ lơng chím,phân biệt với “va2" oF)

{chi may, mtay v v Vé chi tiết xim xen trong tệp B214.đb£

Trang 27

~Sau khí chạy chương trình SUABOSX.PRG(sửa bộ sắp xếp) thì các cht wom trong tập NOMDD.DBT sẽ được phân loại và quy về số hiệu bộ Khang Hì của nĩ Chỉ cơn chờ thêm yếu t6 số nét là cĩ thể làm lệnh sORI để xếp các chit ay theo trật tự mà TSo quy định Lệnh sắp xếp ấy được viết như sau:

SORT ON SHB, SNET to NOM_ISO (Enter)

- Lưu ý rằng việc gan giá trị cho trường posx va vige-dém nét vẫn phải do con người lam thủ cơng, và phải làm cho chính xắc (tất nhiên nhĩm tác giả c6 cố gắng tối da, song chưa dám nhận rằng đã định bộ cho mọi chữ được hồn

tồn chính xác, vì việc nây rất khỏ),

~:sau khi sắp xếp thì các bộ đặc biệt (dùng riêng trong chữ Nơm của việt

Nam) sẽ nổi lên trên vi nĩ khơng thuộc bộ nào trong 214 bộ Khang Bi

Tám (8) bộ đãc biệt của Việt Nam mà chúng tơi bước đầu phân lập được xa là : Mháy'Œ#C Cự (phải)@B ,Cự (trên) ca Of, ving vai trái €

(vvt) —,Nhấy kếp phải (np) 22 ,Mháy trái (nk) >2 ,Kim trái (ct) YD

~ Tác giả hệ này ehưa muối

vet này ta cĩ thể dễ đăng nhận biết khi muốn thống kẽ hoặc khi xếp loại,

khí chọn lọc cáo chữ Nơm chuẩn Việt , cho nên ching tei chua gan gi veo

trường BOSX của các chữ ấy Nếu muốn xếp Vào 8Ộ Khang Bí cản chữ ấy thí

quy các chữ này về bé Khang Hi, vi dya véo dâu cũng cĩ thể suy tử cách cấu rạo chữ,rằng người đặt ra chứ ấy muốn cho nể xang nghĩa gì 10) SHB (SỐ HIỆU BỘ) đã nĩi ở trên,

11) VIB (VI TRI BO) chi vị trí của bộ ấy ở đấu hay cuối chữ (chú ÿ rang chi ghi khí nĩ ở vị +rí đầu hay cuếi mã thêi, nếu bệ nằm ở giữa chữa thì

khơng gh:! Trường này củng với trường OSX va trường mọc (mã đầu cuối)

phục vụ cha việc tự động hĩa một phẩn cơng việc đánh mã đầu cuối

= Đo cách xác định mã đấu cuối cĩ đặc điển riêng, mộc bộ nào để nếu để ở đấu chữ'shì mã đấu của cá chữ được ghỉ bằng 1 kỷ hiệu này, ca nếu để ở cuối thi mã cuối của cả chữ ấy lại được ghỉ bằng 1 ký hiệt khac

W{ dạ cũng là bộ điểu, nhưng khi ghèp vàc với chữ khác : + Nếu điểu đứng đấu chữ, thi mã đấu của cả khối chữ sẽ 4 + Néu digu dimg eudi ch®, thi ms cudt cla cd knéi chit sé 1a ohh

~ Trường này cĩ thể cĩ 3 mã lá *d' (đểu) 'e“ (cuổi) hoặc bị trống

12) MDC (MÃ ĐẦU CUỔI): dã nĩi ở 1L

Việc quy nạp mã đầu cuối được ghi văn vất ở phụ luc 4

13) SNET (S6 NET), đã nĩi ở trưởng 9 Trưởng SMET nảy phục vụ việc sắp xếp

kho chữ thè trật tự do 1so quy định ac việc sưu tấm và vẽ chứ cẩn tiến

hành keo đải, khêng thể chờ eưu tấm đả nết mọi chữ xong rấi mới xếp trật

Trang 28

-5-

14) VÀ 15): DZ VÀ DZ2 (DANE DAD, DANH DAU 2)

Mai trường này phục vụ nhu cấu hiệu đính, biên tập Khi làm thủ cơng, hoặc

chạy chương trình, tủy theo sự cẩn thiết, ta cĩ thể cho đảnh đấu 1 số

œecord nào đĩ, rồi chọn phơi lên hoặc copy các record đánh dau ra tệp khác

v.v Huốn đảnh đấu thì trước khi làm việc cần xố trường ấy bằng lệnh Replace all dz with ‘

Muến phoi céc record da đánh dấu bing ‘+’ chẳng bạn ta dũng Lệnh Brow norgri for dz = ‘*’

26) VA 17): THUC GHÉP VÀ TS (TỔNG SỐ) Hai trường nảy phục vụ cơng việc

thống kê nhanh các bộ thực ghép chương trình TRG2.PRG (thống kế chữ ghép

2 toa): chương trình này dung lénh Total cla Foxpro, chạy nhanh, che ra

ất quả thống kê số bộ nĩi chung và bộ thực ghép nĩi riêng trong vài phút

18) DỰ KIẾN CĨ THỂ SỬA CẤU TRÚC CHO HOP LY HOW cĩ thể thêm trường FL

(phân loại) để ghi phân loại các tồ : tồ nảo chuyên để ghép trước , toa

nao chuyên ghép sau Lam như vậy để phục vụ cho việc mà hoa tu dang

GIỚI THIẾU SƠ LƯỢC VAI CHUUNG TRÌNH DỊCH VỤ, VA VAI TEP DBF KIEM TRA DUNG PHU TRỢ CHO TEP CHỦ ĐẠO,

3) Do dac diém các trường (field) hữu quan trong tép DEF chủ (HOM.DBF-

déu dũng ký tự ascrt chuẩn để ghi sự sai sốt trong cach ding mã telex ¿ ghi âm Việt'1á khĩ tránh khỏi và khé kiểm tra được bằng mắt thương hậm chạp vá mất nhiều cơng sức tự động hố việc sốt xết

„ và lại việc kiểm tra bằng

„ vi vậy cẩn cĩ các tệp DBF ĐỔI CHIẾU dé gin

phát hiện đánh đấu các lỗi chỉnh tả telex Vi dụ chữ "tiến" đăng lẽ mã teios

phải ghí la "lieens", nhưng đánh nhấm vao 14 “lienx", tai chương trình kiểm

tra sé dank dau và phơi lên

Tép VCRUAN.DBF chita hon 6090 tir dot

am tiếng Việt đánh theo kiểu telex ¡ tệp BOCHU.DBE (Bộ chung] cá 214 tên bệ (Khơng cĩ chữ số :„ số Z chỉ tiết như tệp B21£.DBFj, cĩ các chương trình SORELA.prg, sobo.prg, Soatbo.prg

làm nhiệm vụ phát niện cac ché danh sai telex

Tệp Chương rrình RDATQUA.PRG phát hiện các xâu đài qua 8 #3 tự trong cả trường đơn xáu và trường de xau ( Lu ý rằng một tử đơn âm của tiếng Việt d¿ đảnh bằng mã telex cũng khơng tạo ra một xả đãi quả 8 kỉ tự, đỏ là một dặc điết của "Tử" tiếng Việt khác với "tứ" trong sác ngơn ngữ chau Ba

thể vận đụng khi thiết kế câu trúc dit 2

mà ta

2) Đo cẩn sắp xếp theo trật sự Khang HÍ nên cĩ chương trinh B2:4.PRG

đi kem tẹp BZ14.DBE ,cac trường BOSX va SHE trong tập chủ đạc như đã kế ở tiết trị

3) Ngồi

a/ Các chương trình lấy chữ nản tử kho chữ Hàn để ghép thành chữ Nơm, he

lay chit nan dung vhẳng làm wơm (như chương trinh LVa.PRG va LVN PRG}

b/ Các chương trinh giữ quan hệ tương thơng với mA UNICODE va =50 kai cáo

bằng mã ấy cĩ điểu chỉnh thay đổi vị trí các điển

Trang 29

~6-

các bệ gỡ theo các yêu cầu khác nhau (tuỳ theo ta muốn soạn thảo một #ile DBF hay file TEXT ) Chương trình RATRBOX PRG, LOCTRBOX.PRG, LOCLAI.PRG 1 ¥a tập TRUOCBOX.DBE phục vụ cho mục dich nay

Tim lai: với tệp NOMDO.DBF lắm cơ sở, tạo thêm một số tệp DBF dich vụ

giữ nhiệm vụ kiểm tra, và một số chương trình PRG để làm việc, chúng ta

xẽ quản lý kho chữ Nêm theo hưởng tích cực, làm thêm được các cơng việc như 1~ sưu tấm, vẽ thêm, ghép thêm chữ wom

2- Mã hố chúng theo các cách khác nhau để tra cửu cho nhanh, sốt xét xem xem chữ não cấn vẽ thì sẽ vẽ bổ sung, tận dụng được chữ cũ để ghép được thành chữ mới thị ghép,

3 - Đặt tương thơng với mã quốc tế 180 4 - Thống kê, nghiên cứu, phân tích,

5 - Đưa chữ vào bộ gõ để soạn thao va in ẩn,

+

Đĩ là những nhiệm vụ và ứng đụng mức thấp của hệ quản lỷ chữ Nơm, đướởi pos

CÁC TÁC GIẢ

1~/ Thiết kế hệ thống : Ngơ Thể Long

2/- Tháo chương thực Chỉ + Nguyễn Vẫn Huơn ,Ngĩ TT 3/- Vẽ chữ + Ngê Thể tân ,Nguyễn Minh Khánh „

Nguyễn Thi Ha, Hoang Văn Ram

4/- cố vấn Tin học : Pạs Tiến Sĩ Nguyễn Xuân Huy

CĂN CỨ Cơ Sử

( Hệ này đựa trên nến tang và cho phép của các phần mềm sau day =}

1/-Hẽ điểu hành HS-DoS Version 3.0 dén Version 5.0 2/-Hê Quản trị cơ sở dữ lá:

3/-Fant chit Han của hệ Ý THIEN (E2)

4/ Chữ Nêm dược chọn vẽ theo các tải Liệu mĩ tả chủ yếu sau đây +

a/- mừ piển chữ Nêm - Vũ Văn Kinh Sài Gịn 1971

b/- Bang tha chữ Nêm -Nxb Khoa học xã hội - Hà Nội 1972 xEro 2.0 THOT GIAN 1/-Hồn thành tháng 12 năm 1993 ,tạt 2/~Chạy DEMO tại Hội nghị qu IRG-2 tại Hà Nội tỉ Hà Nội KHÍ NĂNG CỦA HỆ CHO PHÉP - Vẽ ,ghep tạo ra 10000 mặt chữ Nơm ~ Soạn +

Trang 30

TƯ LIỆU THAM KHAO

** — Thao thống kê chưa chính xác lắm , chỉ trong 13000 ch Hán của hệ

Ý Thiên, các bộ ghép đã được sử dụng với tấn số cao, như sau: Be Tần số Tấn số Bộ Tấn số (ar oi = tf tan 2à 642 gt sẽ 506 khẩu are ` Bree 18s pend 226 vat 27 (trúng 299 Amich 298 A xich 79 Jb nghiễn 97 Gtnach se BS myer os

PHỤ LỤC '1 ; đưa ra 4 ví dụ (các cựn "âm! L4 ,"Bì"Ÿ,"Cạp»“Ê, ,"chuy"#)

chỉ cần 1 cụm ghép với các bộ khác cĩ thể tạo ra hơn 20 chữ Hản khác nhau

Các nhà Lam code và lâm Font cân xem xẽt thực tế này va bạo điểu kiện

để người sử dụng cĩ thể ghép chữ ,sáng tạo ra chữ mới,mà xhơng đơi hỏi cấp

thêm mã Đĩ Là một để nghị xây dựng đổi với bộ code chuẩn của Iso

PHỤ LỤC 2 : đưa ra các Bộ cĩ tấn số cao đã thực ghép hoặc cĩ

kho chữ Nơm (Tệp NOMDD.PBF)

trong

PHỤ LỤC 3 : IN 13 TRƯỜNG CỦA TEP NOMDD.DBF DE GIỚI THIỆU CẤU TRÚC CÚA Tp

nảy và các chữ chọn ín là các chứ ghép 4 bytes)

PHU LUC 4 ; Gigi thiêu tốm tất cách mã hố "ĐẤU cĩ?” ,nột cách gọi khác của "giản đị đu nhập pháp" trong phương án mã hố Thuong Hist

giành cho những người khong biat phat am chit 1a gi vẫn đánh được chữ Hán

RAT MONG QUÝ VỊ GĨP Ỷ KIẾN ĐỂ HỆ NÀY HOẠT PONG TOT HON NHĨM TÁC GIẢ

Trang 32

PHY LUC 1~B crxiy 18 2k

Trang 34

PHY LUC OI (TM 13 TRƯỜNG TRƠNG TỆP “NƯMDD.DBF' CỦA HỆ QUAN TRỊ CHỮ NƠN ,CHỮ 4 BYTES)

MỢr| N | se Jen ARV | AKHAC Bo: cux oe ica [8

na |ananf oma [cha] Am Am Nêm Bộ cụm | ma fsa | hye} ran

18© | bê] ascii Hán dau nát | ghép | sở

(82516008464 W |ưlMU@K mo chaellÌ thư my giữđún 7

(M680164622 Elbdw dawnj thaanr thynge Kier han rÌổPkhau Ì '

IB2i0flơ5 Tủ KZehapj - phanj bmmjN mà- - -phạj i

VSOGFL1808 168+ 76 IE uoong uoong uoongs HH khaaur — uoong

UBSAFL2522 160+ 98 IE boon boon bon buoong —-khaaur — boon

IBMB253 108244 lế traes = tracs chacs xvowe) khaaur traes

U680E12788 1674210 4 ki} kij gaayd caayj wooed kid

US6ABL30820176+204 #zbbao — bao bwơwu bieeu bacutrungf bao

US891L3053 1654108 FA trieeu) trieeuj cheos N ý trieeuj yrilay( UGIOAL3326 180+ 84 7S byes bes hues bwej = tam =—sbwes.«—pwl2#taan( UGSDGL3343 172198 [BE thawn) thaamj saanj chaj thư —thaanj œ]2thurl UGSDELE346 1734181 fF aan = aan ava oo thư aan gal2ethur | US13FL4353 170+237 He bieeur —bieeur beos nguyeet} bieeur bvl3nguyeetj(

UG9BELASL8 1764169 fF coots coats coat} , 900} = coots (hliqm@@j(

WAODDLS837 1844179 Tk ddoongr ddoongr ddongr roongkhaaur —ddoongr rglé*khaaur ( WHĨMILEB 174245 HR langr — langx leangs fangr tucs lane ml?due

Vi2F5LG876 189+180 GZ boone bong? vung vungx thuyr boogf sjl#4huyr( 1

ViSSDLIG27 1854189 ff yeems — yeens wows y wen ykaby! VASBDLTO45 1632112 ER loi — loi lui suửr tues —ddieenf rv20stucs(

US43BL7763 224+ 87 HBF ows ews cwa eas kin cs co thin’

UOB8OLG345 165+108 #2 trieeu) trieeuj chao) ney triseuj nrlf2ngw(

Trang 36

THUYẾT MINH VỀ MÃ ĐẦU CUỐI

-Đây là cách đánh "Giản đi du nhập pháp ” theo phường án mã hố

"Thương Biệt 'của Đài Loan

-Nguyên tắc xem xét để quy mã là chỉ cẩn xét qua cụm nét đầu tiến và cụm nét cuối cùng tạo thành mỗi chứ khối vuơng

-Số lượng chân gán hay mã gản cĩ thể dùng là 26 chữ cái Latin chứ khơng phảf là #@ cọn số từ 0 đến 9 Sead

-Quy tác liên rưởng để gán các cụm vào các chân mã được chia loại như sau

ahù chữ a đến chữ g là triết lí Joại" : gốm a nhật ;hị nguyệg oS kim wd:imoe 3 ethuy ; fXhoA pg tf

b/-Tù chứ h đến chữ n ding su han hao gần dạng với chữ Latinh của cúc

cum chữ Hán Như chữ h gồm £#Ð nét phẩy nghiêng, xiên vào của chữ A

“huà ý nét khởi đầu Bud bd “trúc nét lận cùng điển hình như nết cuối chứ 'sam32) Chú ¡ tương trưng cho -eée nét chim chữ “I gdm những nết sổ đứng và cĩ xuyên qua một cụm no do m dùng để gắn các nét nằm ngàng và hơi chếch lén giống chữ 'phất—` viền về

- từ chữ ø đến chứ r thuộc "nhân thân luại (loại gợi ý về thân thể

con người Jgán chu những bộ 'nhâm”{ (người);tàm,¿'(tim,lồng)ƒ,

4ã tử # + (tay)/khẩu' |? _ (miệng)

di-Từ chứ S đến chữ y cũng mơ phủng hình dạng bao hao giồng nhau giữa chữ cái Latinh với các cụm,nết theo một cách nào đĩ Như chữ T dược

dùng để gán các cụm nét cản đối ( chăng hạn bộ “hảu đầu * và "thảo n cát ho ‘Son’, 'giệt (vì các bộ đĩ cĩ nết mĩc lên giống chữ U ), chứ V gồm bộ 'bốc đứng) và 'bốc nằm ngàng+, do đĩ bộ 'ngơnh và chứ Man hước mã Y ẽ - Riêng mã Z dùng dé làm việc khác

* Tuy cách mã hố này khá hay „nbưng tất nhiên khơng thể để dàng quy mã cbo mọi nét một cách đút khốt và nhanh chĩng ,đơi khi sự liên tưởng diễn địch din t đi hơi xạ so với thối quen nhận nét trước đâyuì thể ta cĩ thể khĩ nhận ra mã gán Ví dụ như các cụm nét được coi là bộ 'nhân” và gần cho chữ cái 'o là một dẫn chúng Vì vậy cẩn cĩ sự cố gắng học tập ghỉ nhớ liên tưởng chiếm lĩnh riêng của từng người Jam sao "học thuộc lịng

nhận mã thất nhanh ,thì việc sử dụng mã đẩu cuối để gọi chữ mới thật cĩ

hiệu quả

Trang 37

PHU BAN SO 6

DE TAL TIN HOC BAO CAO VE NIDEM VE | i,

HAN NOM XAY DUNG BANG CHU NOM CHUAN,DANG DIEN TU ĐÀN Ý BẢO CÁO : - Dẫn nhập Phan 1: Tĩm tắt các đầu viếc cần làm

1 Lập danh mục kho chữ Nơm thuần Việt

2 VẺ chữ trong máy và chuyển giao dig han cha UNICODE va ISO, 3 Đưa vào ứng dụng thử để hồn thiện

4 Định hướng nghiên cứu tiếp theo

Phan 2: Gai ý về các vấn để «khoa bọc cận nghiên cứu

1 Vẻ tiêu chuẩn chọn lọc chữ

2 Vẻ vẽ chữ Cách vẽ :Poseript hay Bitmap 2 -lĩnh cân đối của chứ, lượng chứ đưa vào tệp font

Vấn để phát sinh khi dùng chủ Nơm xen với chử Việt hay là " chữ Việt nhúng vào hé chit 2 bytes",

Đĩ lớn của các tếp font, và các chương trình quản lý bộ nhớ mã hố 6 Vấn để sắp xếp 7 KẾT LUẬN SƠ BỘ

we

~ DẪN NHẬP :

Thực hiện nhiệm vụ "Ứng dụng Tìn học để báo vệ và khai thác dị sản văn hĩa ghỉ bảng chứ viết cổ của Việt Nam, Dé tai Tin hoc Tan Nom ohan nhiệm vụ đột xuất là xây dựng dang điện tử cho kho chữ Nơm cổ, ( Mã hố

trong máy tính để sử dụng nội bộ, và trình Nhà nước ban hành chuẩn hố , để

xin tham giá giành chỗ trong bảng mã chuẩn quốc tế LINICOIDE và JSO { Mã trao đổi thơng tin dùng cho mọi loại chữ viết trên thể giĩi)

Việc tham gia vào bảng mã quốc tế của chữ Việt va chit Nom xố bổ sự "cẩm vận" và sự đĩng của võ lý đối với cơng việc trao đổi thơng tin hiện đại của đân tộc ta, tạo vị Đí bình đẳng với các ngơn ngữ khác, làm cha chứ viết của dân tộc ta được chuẩn hố để hưởng được mọi thành tựu của tiến bộ khoa học kỹ thuật như: chế bản, nhận dang, phiên địch, truyền thơng v.v vừa đáp ứng nhu cầu mở cửa để giao lưu, học hỏi bạn bè của nhan dan ta ding thời tạo cơ hội để dưa vào bảo lưu vĩnh viễn những giá trị tinh thin của đân tộc ta trong bộ nhớ chung của nhân loại Làm cho việc tìm hiểu vân hố quá khứ của ta bớt khĩ khân trong hồn cảnh các lớp người hiện nay muốn tìm hiểu truyền thống nhưng ngày càng iL người dọc được chứ cổ của

lân tộc mình

Trang 38

wed NHIỆM VỤ XÂY DUNG BANG CHU’ NOM DANG ĐIỆN TỦ Phẩn I ; Tĩm tất các đầu việc cần làm 1 Lập danh mục kho chứ tương hình thuần Việt (hay là chứ thuần Nơm)

2, chọn các chữ Thuần Nơm trong vàn bản cổ Việt Nam (phần này chủ

yếu dựa vào nhĩm cơng trình "từ điển chứ Nớm" do Giáo sư Tiến sĩ Nguyễn Quang Hồng làm chủ biến cung cấp) b, So sánh với các từ điển chủ Hán để loại đi các chử cùng dạng

Sơ sánh với khu chữ Hán trong máy tỉnh để loại bỏ các chủ đã cĩ

d, Phan loại và sắp xếp (loại chứ phải vẽ mới tồn điện, loại lấy

được một số bộ nét của chủ Hán, loại chỉ thêm dấu phụ: xếp theo trật tự số nét, va chia ra uu tiên 1, ưu tiên 2 vv )

©, Xác định số chứ cẩn giành chỗ trong bang chuẩn Quốc 16 UNICODE và ISO, a 2 Thue th vẽ chữ trong máy và chuẩn giao cho ISƠ đúng han,

a, Vẽ khoảng 2 nghìn chữ trong máy trên lịnt cĩ 24 và font cổ 15

(om 24 để phủ hợp với may in 24 kim, font 18 để phù hợp với tia quét

điện tử),

Ð, Làm thành địa mềm và gắn các loại mã (pổm : Nơi mã, địa chỉ vật lý và các loại mã truy nhập gọi ra từng chữ) để gửi cho UNICODE và 1SO, © Tổ chức hội thảo, trao đổi ý Kiển và tham gia làm thủ tục xin dang ky gianh chd trong bang ma UNICODE va ISO

3 Đưa _vao ing

thuật

-dung thỷ để hồn thiện và xác đỉnh các thỏng số kỹ

£, Thử sử dụng trong soạn thảo và in nháp, in laser các chứ Nơm mới về cùng với chứ Hán trong cùng một văn bản

b, Thử su dung cht Ném và Hán cùng với chữ Việt trong cùng một văn bản,

© Thủ sử dụng chữ Nơm và Hán Việt trong vài hệ phần mềm khác nhau

4 Định hướng nghiện cứu tiếp thea

a, Tao ra mot bỏ cơng cụ để tiếp tục sưu tẩm được càng nhiều cần hay các chứ Nơm mới phát hiện, để lưu hành nội bơ và bổ sung vào Version đợt sau của bằng mã chuẩn quốc tế,

b, Hồn thành một bộ trợ giúp soạn thảo đa ký tự gồm Hán Nom, Việt, latinh trên máy tỉnh

©, Lãm ếc chương trình dịch mã giủa hệ thống mã Hún Nêm của ra với các hệ mã chữ Hán khác của Trung Quốc để cĩ thể doc được các chữ viết theo các he của họ (Hiện nay phía Đài loan Singapor cĩ tới § hệ nỗi mã như IBMI S00, Vuong An, Cong Hoi, BIG-FIVE, Ÿ Thiền, cịn Trung Quốc lục đặu, chúng ta mới biết cĩ mã hệ Tây Sơn, và cịn shưa biết mã hệ Bắc Kinh Thương Hiải,

Trang 39

« Be

Phần II : Một số gợi ý về các vấn để cẩn nghiền cứu trong khí xây dụng bộ

: chứ Nơm đạng điệp tử:

1 Về tiêu chuẩn chọn lo

- Đối với các quốc gia đang dùng chữ tượng hình thì việc chuẩn hố dua trên kết quả thống kê tần số sử dụng của các chữ để quyết dịnh Hio loại bỏ những chữ ít dùng - thậm chí cịn quy định : học sinh cấp nào thì học bao nhiêu chứ làm như thể là "tiết kiệm" là "kinh tế” Nhưng chữ Nơm của Việt Nam khơng thể áp dụng cách ấy được vì : Nếu loại bỏ chữ ít dùng thì loại bỏ hết Cịn chọn chứ hay dùng thì : những chử gấp nhan nhản trong các văn bắn lại là chữ để bọc, người ta thuộc ngay, khơng cẩn thiết dùng cơng cụ tra cứu Các nhà nghiên cứu trong và ngồi nước đăng chờ đợi một cuốn từ điển cĩ đủ chủ Nơm kế cả chữ thường dùng va chit it ding Và chữ nào càng ít gặp khĩ nhớ, khí cẩn, người ta tra mù gi quyết được chỗ mắc thì người ta càng qui

~ Ta cũng phải chọn các chủ tiêu biểu cho một số quy luật tạo che Nơm của người xưa

2 Về vệ chữ, cĩ các vấn để như sau ; 4, Cĩ bai cách vẽ, chọn cách nào ?

- Cách thế nhất ¡ goi là kiểu chữ vectơ hay chữ Poseript : Nhà lập

trình dùng tồn các phương trình tốn học tạo hình các cung trịn; đoạn

thẳng, và đường clip, của tùng chữ, vẻ sẵn ra và gắn mã khi gỗ phím may sẽ về ra chữ ấy Cách làm này cho ta chữ đẹp và mịn, nhưng căn nhiều bỏ nhớ tốn nhiều cơng lập trình, và sử đụng kĩ thuật cao cấp hơn mà trước mát ta khơng chuẩn bị kịp, về tốc độ gọi chữ ra rất chậm (chứng tả thấy hệ xếp chi Ventura, dimg eh Poscript, nén chỉ gọi các font chứ Latinh vào thơi mà cũng rất lâu)

- Cách thứ hai : tao lont bimmap (chứ ma trận), thực chất JA ding

thủ cơng xăm các hình chữ trên ma trận kẻ sẵn bằng 6 cá rõ: cách làm nị khi tạo chứ tuy cũng chậm, tốn cơng, nhưng tương đối dễ làm, chiếm bộ nhớ ít và gọi ra nhanh, dễ sử dụng Trong tình bình hiến nay, chúng tơi chọn cách này, UNICODTt cũng yêu cầu trao font chữ Nơm kiểu này cho họ

b, Về tính cân đối của chữ (Chữ Nơm là loại chữ tượng bình cẩn vé trên ma trăn lớn gấp đổi các con chứ Latinh nên phải dùng cách ghép 2 mà trận (vì vậy mà cơng gọi là loại chữ 2 byte}

Chữ Năm về cơ bản cũng được tao thành từ cúch ghép các bộ phân của chữ Hán, cho nẻn cẩn vẽ sao cho khi im ra mồn hình, ra giấy người tá cĩ thể nhân rà được các bộ phân cấu thành của chứ ấy (dá là điều đương nhiền nếu khơng thì khơng dọc ra chữ gì cả)

Trang 40

4

bảo tỉnh cân đối trong từng chữ (tình thể này cĩ khác với khi dùng bút

viết trên giấy , chữ viết trên giấy cĩ thể vượt ra ngồi khuơn một chút

cũng khơng sao Trong máy nếu nét nào, điểm chấm nào vượt ra ngồi khuơn là bị xến cụt mất) Vẽ xong mỗi chữ cẩn đưa ra tùng dịng để ăn chỉnh mức dùng, sao cho mức đồng khơng bị khấp khểnh, và từng chứ Nơm đứng giữa dịng chứ tượng

hình trơng cũng hài hồ, khơng xây ra hiện tượng xơ lệch về một phía hồ dính nhau, hoặc chữ to chữ bé, chứ béo chữ gầy

~ Lưu ý mỗi chứ vẽ riêng trong 2 font : font 24 và font 15 (hai font này khơng cỏ quan hệ bội số với nhau, nên khơng thể dùng chương trình tụ động hố nhân đơi hoặc mượn hình của nhau, mà phài vẽ riêng) và

phải đảm bảo chúng ở cùng cự ly, ( cùng vị trị vật lý trong font) dé chit

hiện trên màn hình và chữ ở trong văn bản im ra khơng lệch nhau (hiên hình chữ nào, in ra đúng chứ ấy) Nếu gập phải những vị trí ding cho mã điều khiển thì phải đời chữ đi chỗ khác

© Vẻ số lượng chứ Nơm dưa vào mỗi tếp font

Số này.tuỳ thuộc vào các yếm tố sau :

1/ Số mã chập đơi (2 bytes) cịn chưa dùng tới

2/ Sức chứa của bộ nhớ vị h quần lý

3/ Cĩ sử dụng xen kế với chữ Việt hay khơng tệp font chữ của hệ thống

an đáy là vài số liêu tham khảo

* Tổng số má chập về lý thuyết là 256 x 256 = 65.536 má Phải trữ ra

- Các mã diểu khiển thấp và cao, khơng được chấp với mã khác, và khơng cĩ chúc năng để hiện chữ gồm 62 x 255 15.810 mã

- Các tổ hợp do 2 chứ Latinh hoặc các dấu chẩm cấu cịn sở, đấu tốn học sơ cấp dúng cạnh nhau (Khơng được phén vẽ vào) gồm 128 x 128

16.384 mã

- Các tổ hợp Latinh đúng tước và ASCII mở rộng đứng sau (đã giành

cho hệ Latinh và để làm lệnh cha may hiểu, Khơng được vẽ vào)gồm 128 x 128 = 16.384 ma ~ Các tổ hợp được phép 16.958 Trong số đĩ, ta cĩ t

1/ Tuyển lấy số chữ Hán thưởng đúng £ 7.006 chữ

2/ Lắt thêm vẫn Việt $ 3.306 chit 3/ Vẽ chit Ném # 5.006 chữ

4/ Con chữ để dự trữ cho các việc khác Ÿ — ¡.656 chữ

* Trên thực tế người ta đã vẽ 14000 chữ Hán và đã khố cúng tệi!

Ngày đăng: 05/10/2023, 21:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w