ĐỀ TÀI KHOA HỌC CẤP NHÀ NƯỚC GIA! DOAN 1991 - 1985
De tai:
BUOC DAU
UNG DUNG TIN HOC
DE BAO TON VA KHALI THẤC THƯ TỊCH CỔ VIỆT NAM
` (TIN HOC HAN NOM)
kee
MASG
CHỦ NHTEM : NCV, NGO THE TONG
CĨ QUAN — : VIÊN NGHIÊN CỨU HÁN NOM LRUNG TÂM KHOA HỌC XÃ HỘI
VÀ NHÂN VĂN QUỐC GIÁ
1£/11/4
Trang 2IL MI 1V VỊ, VI VI 1X 1 1 Nv VỊ, I thờ im > - Phương án tạo hộ MỤC LỰC MỞ ĐẦU Xuất xí đề nh cấp thiết của đề thí Khả năng thực thị Mục tiêu đỀ tà Noi dung nl
Phương pháp nghiên cứu cù Kết quả cân phải dạt
Khả năng ứng dụng thực tế Hiệu quả kính tế văn hố
CHUONG | DAG DIEM CUA THU f1GH GỖ VÀ CHU VIET CO VIET NAM
- Thu tịch cổ chứa đựng vốn văn hố truyền thống quí giá của dân tộc ta Thực trạng hiện nay của kho Đặc thù Đặc thù về yêu cầu hào lưu, khai thác bằng tín học Kết luận CHUONG It, MA HOA VA THE HIEN CHU NOM TREN MAY TINH Các thể chữ Hán và chữ Nơm lữ Nơm diện từ Mã hố chủ Nom
Ban phim soạn thảo văn hàn Hán Nơm
Ghép chữ Quốc ngít vào hệ soạn thảo văn bản Hân Nom Kết luận
CHUONG Ill NGAN HANG DU LIEU HAN NOM
Sự tương thích với các hệ phần mềm của ngân hàng dũ liệu
“Thuật giải tìm kiếm, ứng dụng vào một ngàn hàng dĩ liệu Hán Nơm Vi dụ áp cụng thuật giải xây dụng tệp quản ý văn khắc Hán Nơm Quản lý ảnh thư tịch Hán Nom
Trang 3A
BAO CÁO TONG KET DE TAL "BƯỚC ĐẦU ỨNG DỤNG TIN HOC
DE BAO TỔN VÀ KHAI THAC DI SAN THU TỊCH CỔ VIET NAAT" [ TIN HỌC HÁN NƠM ]
CHƯƠNG MỞ ĐẦU
1 XUẤT XÚ CỦA ĐỂ TÀI :
- Viên nghiên sứu ¡án Nởm là một cơ quan nghiền cứu khoa hoc thuệc khối nghiên cứu Khoa học xá hội và nhân văn Viện cĩ chức nàng sưụ tấm, bảo quân và khai thác các đi sắ: thư tịch cổ cịn lại trên phạm vị cả nước
đủ khí thành lấp tới nay, Viện tiên hành các cơng tác sưu tim, quản lí,
khai thác theo phương pháp truyền thong, để cung cấp tư liêu cho các ngành
nghiền cứu khe học xã hội, nhưng với lao đơng thủ cơng, hiệu đả và chả
lượng các sản phẩm đưa ra cịn bị hàn chế do cĩ sư c lâm chạp, Jang phi MỊ
Số ngành khác trong nước cú nhu cầu sử dưng bộ ckữ tượng hình để ià ứa các Sách y học, và tử điển phục vụ giáo dục và khoa học, nhưng trong nước khơng cĩ nơi nàa nghiên cứu để đấp ứng, Trước tỉnh hình thức te đồi hải, ` cán bồ của Viên Hđán Nêm dã cùng với các chuyên viên am hiếu Tin hoe của các ngành khác rự nghiên cức tìm hiểu, với sự tre giúp của Rộ Khoa học cone nghệ và mỗi trường, và Chương trình Điện tứ Tâm học cấp Nhà rước C 0L đã đi tới xảy dựng thành một để tài nghiên cứu kooa hoc va XẺ hoạch, cĩ tổ chức 1I- TINH CAP THIET CUA DE TAL
l2 Khối di sin ma Wien Hin Nom cĩ trách nhiệm quản lí và khai thi: tài sản vẫn hố của đân tộc tản mạn Khấp nơi, rất cấp phải thu thấp,
quốn và khat thác để phục vụ đường lỐi xây dưng niến vàn 10ủ mới, nhưng vì nhigu li do, trong do li do quan trọng la thư tích được việt bang thi chu
tổ về di hộ phân được định hình tren giây gỗ (cellulose), để quá làu
trong ciểu kiện bãn quản kém lại đ người đoe đợc, nền dang bị hao mơn hưý hai, mất mất, và lăng quêm' Nếu Khong làm kíp thời thì sẽ xây ra ngày sơ mất mát di sản nghiêm trọng
2) La mot quốc gia cĩ vị trí quan trong trong kh vue Wong Nam Á nền văn
hod Mu dé của ta gắn bĩ với văn hố của Khu vực Sáu nhiều thập kỳ đấu
tranh giảnh được độc lặp, thống nhết và giải phĩng Tổ quốc, nước ta bước
vào “hời kì canh tân mĩ của đổ giáo lưu và xảy dụng Trao đĩi thơng tin ;ä
một đùn bây quan trọng hồ trụ cho sự nghiệp phát triển của mọi quốc gia É vêO lắc nước ia cẩu cũ các cơng cụ giao lưu với khu vực, thì là bị hàng rào cấm vận ngân căn sự du n¡ập các cơng nghệ mũi nhơn Chính vị Hage Sheng ngudi làm Khoa hoc của Việt Nam phải "tự thân vận động" tìm
hiểu mặt Kĩ thuật của tơng nghệ này để khỏi bị tụt hâu goa xa wii thé i
) Ngoai nhiing van dé ed tin chét toần quốc như trên xét vẻ ng lực ol gl chuyến gia, và đổi trọng cẩn giải quyết, để tài sả tập hợp, huy Hong rịng rãi cán bỏ thuộc các ngành khác nhau, nên sản được quan iam ở
cẩn độ quốc gia
Trang 4
IH- KHẢ NĂNG THỤỰC THỊ
Nhin tng quit, dưới con mất của Tỉ: học, tất of các cơng viec nghiên cứu của Viên đểu cĩ thể qui về hai thao tác chính là " VÀO và RA "
{ INEUT và OUTPUT) của Ti học, nhưng dạng thức dữ liệu của "dâu vào" và “dau ra' cĩ nhiều chủng loại và cấp độ khác nhau, cần cĩ sự phối-hợp của
chuyên gia ngành ngữ văn (Hán Nom) va chuyên gia Tin học thì sẽ dân dén giải quyết được Tin học phi fatin (non-latin)
thành, và đạt mội số thành tựu, ta đi sâu, cĩ thể tt
và kinh nghiệm của người đi trước Thêm nda, những diéu ta mong muon làm cũng gần giống điểu mong muốn của các nhà nghiên cúu khoa học xã hỏi trên thể giới mà nhiều chuyên gia Khoa học Việt Nam đi ra nước ngồi
trau đổi đã từng biết ngũ trong nước ít nhiều cũng đã cd, Mi-cdc le trên, chúng tơi cho rằng để tài này cĩ tình khả thi thể giới mới hình n thu những thành tựu
TV- MỤC TIẾT: CỦA ĐỂ TÀI:
Xay dung co sơ ban đấu cho việc du nhấp và phát triển cơng nghệ tin học phí laiiuh ở Việt nam, eu thé:
i- Trang bị một e2 sở nghiên cứu ứng dụng tin học chuyên xử lí kỉ tụ tượng hình ở Việt Nam, đào tao đội ngũ cán bộ ban đầu cao việc này 2- Nghiên cửu dua chi Han,
chi Nom vio máy tính để soan thảu, ic ấn,
quan fi cing voi cha Viet hier dai
NOI DUNG NitFEM VU CUa DE TAL
tC Nghien cau dng dung x Ii van ban chy Han, ch Nom trên phương tiện
tin học ở Viết Nam
2- Bước đấu tin hoc hố cơng tác nghiên cửu vàn bản cổ Việt Nam
â- Đào tạo đội ngũ cáu bộ cĩ khả nàng lâm viếc chuyên xử E văn bản chữ
tượng hình
VI-PHƯƠNG PHÁP NGHIÊN CỨU CỦA ĐỂ TÀI;
- Kết hợp nghiên cúu cơ bản về văn từ Hán Nơm, với nghiên cứu cơ bản
về tin học, tiến thu kinh nghiệm và thành quả của thể giới Hẹp tác với
quốc tế để giải quyết những vấn để củn thiết,
VH- KẾT QUÁ CẨN PHẢI ĐẠT :
1) Sử dụng và cải tiến tiến phẩn mềm đánh chữ Hán trên máy tính,
2) Đưa chủ Nom cia Viet Nam vào kho từ vụng trong máy Lập trình để Soạn thảo và ín ẩn các joại chữ tượng hình (Hán + Nơm) cùng với chữ Việt hiện đại, tạ thành cơng cụ phần mềm cho các ứng dụng,
3) Bước đầu tin học hố cơng tác nghiên cứu văn bản cổ Viết Nam ; dua các nội dung thư tịch vào máy để quản lí và khai thác,
Trang 5
Vill- KHA NANG UNG DUNG THUC TE;
~ Trude mit : ung dụng để soạn thảo và lưu trữ các văn bản chứ Hản, chủ Nom ~ Tuong lai: mé réng ra cde vay dung Kae ngodi viee scan 1 1X- HIỆU QUÁ RINH TẾ, VĂN HỐ :
1) Đáp ứng nhủ cầu ín ấn phẩm cẩn eé chử Hán chit Nom thơng thường phục vụ phát triển văn hố, khoa học và giáo duc, của trọng nước, khơng phải đem ra nước ngồi thuê
2) Mở ra khả năng chia xế, khai thác nguồn thĩng tin của thể giới ghi bảng chứ tượng hình phục vụ phụ cầu tao đổi kinh tế và văn hố với các nước " đồng văn " trạng khu vực,
3) Mở ra khả năng hợp tác quốc tế về phát triển cơng nghệ thơng tin
với các nước này,
Trang 6CHƯƠNG I
DAC DIEM CUA THU TICH C6 VA CHU vier CỔ VIỆT NAM
1)» Thr tich cổ chứa đựng vốn văn hod truyén thống quý giá của dân tộc ta :
lệt Nam là đi sản của một nến văn hố ban dia
phát triển trắt hàng ngàn nêm, từng chíu ảnh hưởng của 3 nên vši hơi hin của thể giới đã cĩ chữ viết là Trung Hoa, Ấn Độ, Á-rân, cho nến chữ viết để lại trên thư tịch cổ của ta tới nay gồm 3 lnại là chứ Nêm (Nơm của người
Kinh, Nom Tay, Nơm Dao), chủ Thái, chữ Khøme và chứ Chùm Tuy nhiên chủ Hán và chứ Nom là loại thư tịch chiếm lÿ trong lớn nhất
Nội dùng thư tịch chứa những giá trị tỉnh thẩn cao quý vẻ đạo lí làm
người, nhúng tr liêu về trì thức, kinh nghiệu đơàu kết xảy dựng và quản lý đất nước của tổ tiên ta Tổng số thư tịch sẽ là kho "chúng từ gốc" vẻ chủ
quyển đất nước của cơng đồng các dân tộc Việt Nam
~ Vừa qua thể giới cơng nhận một số danh nhân vất: hố của dân tĩc tú đã cĩ cổng hiến tích cực với nền van hố nhản loaj như Nguyễn Iu, Nguyễn Trãi, Hổ Chí Minh Điểu đáng cné ý là
tác phẩm hay nhất của các vị ây sảng
tác bằng chữ Việt (Nơm và Quốc ngữ) Bằng sử liệu tử trong kho thư tịch rẻ, chúng tu dã chứng minh cho thế giới thấy rêng chủ nghĩa nhân đạo Việt Nam rất cau: từ cách đây 50U năm người Việt Nam đã tha bồng 10 van hàng binh:
vit “trai chiếu hoa" cbo đồn quản bại tị
tung gây rấi nhiều tội ác với đân tạ
n rút về nước, mặc đấu chúng đã
= Thư tịch cổ cũng chứng minh rằng: các đân tốc thiểu số ỏ nước :ø luơn tham gié lịch cực vào cơng cuộc bảo vệ biên cương trong thời kì hồ bình,
và đồn kết chặt chế với người Kinh chiến đấn chống các cuộc xâm lược từ bên ngồi
- JTuyển thống ham hoc boi, tự lực lự cường, tương thân tưởng ái trong
lãng xĩm và cơng đồng cử đân được phi lại rất nhiều trên bi kỉ
~ Rất nhiều tên đất Việt Nam được ghi chép bằng chữ Nơm trong bi ki va
sách về,
{ Hàng ngàn mốc giới điển cau, trong bản đổ cĩ tên gọi kiểu Âu như
Béatrice, Hélene, Blisabete ma người Phép đã đổi đầt trong thời gián họ tạm chiếm, thì gần đây Nhà nước ta đã đổi lại để khẳng định chủ quyếi
bảo vệ tính dân tộc của các tên đất đĩ)
và
e nghiên cho biết 80% chữ Nơm Tày là mượn tử chữ Nâm của người Kinh, và rất nhiều truyện thơ Nom đã tùng fam say mé bao thé bệ người Viết như Tống Tran Cúc Hoa, Phạm Tải Ngoc Họa, Truyền Kiểu, Thạch Sanh đã được địch ra thơ chứ Thái Điều đĩ chứng tơ : từ lúc chưa cĩ `
chủ Quốc ngữ thì tểng Việt, va do dé cht Nom [ cong cụ giao tiếp chung,
Trang 7+ be
- Với những truyền thống tất đẹp kể trên nếu được phát huy và bổi dưỡng, nhất định đân tộc ta sẽ vượt qna được mọi thử thách để tiến lên, và sẽ cĩ vi trí xứng đáng trong nên văn mình cỏa nhân loại
2- Thực trạng hiện nay của kho đi sản thư tịch cổ :
Hiện nay, Viện Hán Nơm thực hiện nhiệm vụ được Nhà Nước giao cho: tiếp
tục sưu tầm, bảo quản và khai thắc khối di sản đĩ Những cái ngày nay cịn
giớ được chỉ là một phẩn rất nhỏ cịn sĩt lại của quá trình huỷ hoại do n nhiên, đơ con người cố ý hoặc " vơ ý" lãng quên
= Trong lịch sử, nhiều lẩn tài sản văn hố chứ viết của nước ta đã bị
huỷ boại: thời Trấn, người Chiếm Thành đã sào đốt phá sinh thanh Thang _ Lang, sách vỏ ra tro ¡ sau kbi nhà Hồ bị thất bại vua Minh Thành Tổ ra
lệnh phả huỷ hết vạch mọi hiện và: mang chữ," khơng được để sốt lai một chữ nào"; các cuộc nội chiến thời Lê thời Mạc đã bao lên thiếu huỳ cung điện, kho sách, và " sách vũ hị vt đẩy đường phổ
~ Đến thửi cân đại, vì ngườ: ta mài theo Tây học, khơng
niên đem bản chủ người phất quat, làm khuơn đúc nội, vào làm bội giây; Dịa để thì đập phá để nung vơi làm cổi , bắc cẩu ao
Nha nude tạ rất chú ý
bảo tổn và phát huy nhũng di sản văn hố của dân
tĩc Đã cĩ những chính sách cụ thể Nhưng Ở một số nơi vẫn cịn những hiên
tương vỏ ý thức phá huỷ di tích lịch sử, di val mang cht hoặc do thiên tạ, địch boạ, sở di sản cịn chưa thu thập vẫn tiếp tục bj hao mon, md:
mat
De vậy, yêu cầu củp bách dạ: ra Íà phải sưu tẩm những văn bản tản mát,
rải rác ở nhiều nơi, tập trung về một chỗ để bảo vệ giám định và khai thúc
Cơng viếc đĩ đối hổi kinh phí lớn, và nếu chỉ làm bảng sức lao động thủ cơng như trước, thì khịng biết tới bao giờ mới xong, trong khí đĩ hiện
tương mất mắt cứ hàng ngày hàng giờ điền ra Một yêu cầu cần cấp nữa là
phải nhân bản những văn bản đã sưu tẩm duoc dem bảo quản ở nhiều nơi mơi mật để tao điểu kiên thuận lợi cho người nghiên cửu, khai thác, khơng phải
trực tiếp cấm vào hiên vật nhằm kếo dài tuổi thọ của nguyên bản, (vì
chủng đếu là giấy mơng): một khác để để phịng tai hoa xảy ra, mất nơi này, thi nơi khác vấn cịn Những việc trên đểu thuộc khả năng của cơng nghệ thơng tin cĩ thể hỗ trợ giải quyết « 3 - Dặc thù của chữ Hán trong thư tịch + Nam +
Chữ Hán được dùng khá nhiễu trong các thư tịch cổ Việt Nam, nhiều chữ Hán được mượn dùng nguyên xi làm chữ Nơm Chit Nom thuộc cừng một loại
với chứ Hần, nhưng khơng phải chỉ là chữ Háa
~ Người Việt Nam xưa khơng xác định ring ho chi ding mot pin mio cia chữ Háu để làm chữ Nơm, mà lấy tất cả những chứ cĩ thể lấy, ngồi ra, chủ nào chưa cĩ thì vẽ thêm, Vì vậy mà kho chứ Nơm tuy cĩ báo gồm nhiều chữ Hán, nhưng khơng phải chỉ cĩ chữ Hián là đủ Hiện nay khơng một phin mém chữ Hán nhập ngoại nào cĩ đủ số chữ cần thiết cho vie bin Han Nơm (Tổng số chit Nom hiện chưa sưu tẩm hết, đã cĩ tối 6000 mặt chứ mới cẩn về thêm)
Trang 8
s6
T3à đã biết chứ Hân, nhưng các nhà khoa học đến phải học thêm chữ Nơm thì mới hiểu được văn bản cổ của Việt Nam, bởi vì hàng vạn các chữ tượng hình trong văn bản đã được dùng với tự cách là chữ Nơm, phải hiểu theo nghĩa
Nam
~ Tuy đơi với quốc gia ta hiện nay chứ Hán khơng cịn được dùng tùm cơng cụ giao tế chính thức và quan trọng như thời trước, nhưng 6 tong auc vùng đồng bào gốc Hoa, hay ở một số quốc gia lắng giếng với tạ,,Chứ Hián
vẫn cịn là một cơng cụ giao tiếp Vì vậy, ta cẩn phát triển cơng cụ này để khi cẩn cú thể sử dụng phục vụ việc trao đổi văn hố và kinh tế với một số nước trong khu vực, tuy sổ quốc gia khơng nhiều nhưng sổ đãn lại chiếm tới
1/3 thế giới, vừa cĩ nhiều điểm tương đồng với ta, vừa cĩ thể là bạn hang
và thị trường lớn của tạ
4) Đặc thù về yêu cẩu bảo lưu, khai thác băng tin học :
Để cĩ thể đem sức mạnh của Tín học phuc vụ nghiên cúu, khai thác các
tài liệu ghỉ bằng chữ Hán, chi? Nom, trong tình hình hiện nay, cẩn chú trọng
vào 2 vấn để sau đây
s/- Vấn để mã chứ và hình chữ :
~- Muốn dimg máy tính đễ xử lí, nghiên cứu văn bản Hún Nơm thì phải thể hiến được chữ Hán và chit Nom trong máy únh ( vàn bản Việt Nam cĩ nhiều tên người, tên đất bảng chứ Nơm, vì vậy ngồi chủ Hán, phải vẽ chữ Nêm)
- Các chữ Nâm vẽ thêm phải cồng cớ với chứ Hán cĩ sẵn trong khĩ, vì chúng thường được đùng xen lẫn với nhau,
~ Muốn bảo về về khai thác lâu đài di sản văn hố của đân tộc, và giới
thiệu với quốc tế, chứ Nơm phải tham gia vào bảng mn chuẩn quốc tế để được
tơn trọng, đành chỗ Trình độ thơng tin của quốc tế cũng khơng như trước nữa
bi- VỀ mặt tầng thư, lưu trấ +
- Trên cơ sử các cơng cụ xây dựng được, phải xây dựng Ngân hàng dữ liệu
Han Nom dé quan lí cà hiện vật, cÁ nội dung, đồng thời lưu trú, tìm kiểm và khai-thác theo phương pháp hiện đai{Ngân bàng sẽ gồm nội dịng thư tịch Han Nom và các bộ cơng cụ dạng điện tốn, bảng tra tham khảo, phục vụ việc khai thắc đi sản đĩ.) ~ Phải cĩ cách luu trữ ảnh chụp nguyên bản để bảo lưu đi sản như báo vệ các "chứng từ gốc" 5) Kết luận chương :
Di sản thư tịch cổ cĩ nhiều loại chữ, nhưng chu [lan va chit Nom chiếm tỷ lẽ lớn nhất và cẩn giải quyết trước, Việc nảo vệ di sản thư tịch cổ để bảo vẹ vốn vàn hố truyền thống là cấp bách
Hải việc vẽ chứ Nơm và xây dựng Ngân hàng đỡ liệu là 2 việc cơ bản cẩn lam trong bude dau ing dung Tin ho
Một điều lưu ý là : dây là lấn đầu Tin hoc đước ứ xã hội Ấp đụng một cơng nghệ mới bao giờ
niệp đá quen làm việc với phong cách củ
sụ mới cẩn dưa vào đẩn đẩn, phải dé sử dụng, mí
g đụng vào Khoa hoe ũng khĩ khăn, lớp cần bộ trung
được đào tạo lại những sơng
Ĩ sự giao tiếp thên thiên giữa về người, đến mức "trong suốt" đối với người dùng Đĩ là những việc khĩ
Trang 9
ofa
CHƯƠNG H
MÃ HỐ VÀ THỂ HIỆN CHỮ NỊM TRÊN MÁY TÍNH
[ Chương này cĩ 5 tiết nhỏ như sau :
1~Các thể chữ Hán và chứ Nơm
2-Phương án tạo bộ chớ Nơm điện tử 3-Mã hố chữ Nơm
4- Bàn phím suạn thảo văn bản Hán Nơm
§-Ghếp chữ Quốc ngữ vàu hệ soạn thảo văn bản Hán nơm
6-Kết luận chương.]
1/-CÁC THẺ CHỮ HÁN VÀ CHỮ NƠM
Lịch sử phát triển của các thể chứ Hán trên sơ sở chữ tượng hình Ở
Trung Quốc trải qua hàng nghìn với nhiều cách viết khác nhau Cho đến nay cĩ thể khái quát thành 4 thể chính là Chân thể, Thửo thể, Triện thể và Lệ thể Trên cơ sở 4 thể chính này đã nảy sinh ra nhiểu thể phụ như: kiấc thể, phỏng Tống thể, Hành khải thể vv (Xem hình 1) Đại đa số các văn bản viết bằng bút lịng đều cĩ thể qui về Khi hoặc tương tự : Minh thể ;
Lê thể thường thấy trong các van bản cĩ tính chất bat doa, thi boa, Cac đấu ẩn thường ding thé rien
Tuy nhiên cĩ thể thấy rằng kể từ khi việc ăn oat trở thành cơng nghệ in ẩn xếp chữ chì và đặc biệt là sau Ngũ Tứ vận động thì các sách vỡ, nội dung văn bản quan tụng, dom tir giao dich „úểu sử dụng, cho TA
viết hơn so với thể Lê thư ;cịn vẻ như diện kĩ thuật đúc chữ hoặc khắc chứ cĩ lẽ đúc chữ Minh thể dễ dịng và tiên lợi hơn chữ Khải vì trong việc tạo Khuơngtạo nếtngười ta ít phải mất cơng trau chuốt những đường cong lượn nhỏ tỉnh ví Điểu này cũng giống với văn tự Quốc ngữ : các trang văn ban dem in người ta ít dùng kiểu chữ viết tay, tuy rằng nhìn kiểu chữ này
đẹp hơn, mềm mại hơn, Về mật thể hiện thì Minh thể khơng những vẫn dâm bảo
cấc nét và đắng điện gấn với
viết bằng hút lơng từ nghìn đời mà cồn # (bàng ngang cột dọc) trên tồn hộ vã bản Những người thợ khắc gỗ thì cầm thấy dễ khắc chứ Minh thể hơn là chứ
Khải thể, trang khi đĩ aig, búi lắng viết chữ Minh thể lại quá khĩ khăn vì
chữ Khải thì thật là thuận Gen
trong thời kỉ Pháp thuộc (Bia cơng đức, văn tự điển thể các làng
đều thể hiện thea dang thể Khải và các thể tương tự, mặc dù thời kì đĩ người Việt Nam đã biết tới thể Minh thể đang thỉnh hành ở Trung Quốc Sung điểu co bản là các văn ban Han Nom ở ta nầu hết là số lượng nhàn ban ít,
chưa cẩn tới một cơng nghệ ín ấn đúc chứ chì sản xuất hàng loạt như ở Trung Quốc Như vậy cĩ thể thấy nét khác biệt co bản trong việc xuất bản các vàn tự ở Trung Quốc và các văn tụ Hán Nơm ở Việt Nam là: Các văn tự cú Trung Quốc đã chuyển từ ín giấy giĩ, in khắc gỗ sang dúc chứ chì: cịn
văn ban Han Nom của ta cho đến nay
Trang 10aR
2/-PHƯƠNG ÁN TẠO BỘ CHỮ NƠM ĐIỆN TH
Thập kỉ cuối cùng của thế kỈ 20 này tiến bộ kĩ thuật thế giới được
đánh đấu bang một cuộc cách mạng vĩ đại trong ngành in ấn: đố là việc
chuyển từ cơng nghệ xếp chứ chì sang cơng nghệ xếp chứ điện tử Mộ: danh
mục nghề nghiệp - nghé xếp chứ chì - rất độc hại đã sớm cướp đi tuổi đời,
tuổi nghề của mấy thế hệ người lao động cha truyển con nối mà các Khoa học
về bảo hộ lao dộng tiên tiến nhất mới cách đây vài ba năm cịn gian khổ Gm biện pháp chống nhiễm độc cho ngành inathì đến ay đã bị xố số „Ngành ín ở các nước sà cả ở Việt Nam đã rất nhanh chĩng chuyển từ cơng nghệ đúc chứ chì sang cơng nghệ "đúc chứ điên tủ” Chính trong hồn cảnh này, đổi với thể hiện in ấn chứ Nom, sé that là điên rổ nếu như cĩ ý định thu lại đồng chì cũ để bất dầu dic chit Nom chỉ Con đường đã vạch ra rõ ràng
la: ch Nom cia ống bà ta sẽ phải bỏ qua giai đoạn đúc chứ chì mà tỉ thẳng tử chế độ in vấn khác gỗ lén việc "dúc chữ điện tử"
Như đã nêu trên, chứ Nơm trong các văn bản Hán Nơm đe số là chữ Khải
thư (kiểu chữ viết bút lơng), do đĩ cơng việc định thể cho chữ Nơm trong
khuơn khổ để tài này được dat ra la kin dau tiên, Để bảo đảm cho việc un ấn tải hiên tốt rác vấn bản và để đăng cho việc làm chữ diện tử, ngay từ
đầu để tài đã chọn thể Minh thể để thể hiện chư Nơm,
Như vậy bộ chữ Nơm điện tử đầu tiền của nước ta sẻ cĩ dang Minh thé
Chúng tơi thấy cẩn phải nhãn mạnh rằng cụm từ "Chữ Nơm điện tử” nều ra ở đây khơng phải là ngẫu nhiên tùy tiện lý do là vì đây là lẫn đẩu tien chúng ta tạo ra một bộ chữ Nĩm để đành cho việc in ẩn hàng loạt Thời điểm tiến hành tạo chữ lụi điển ra trong thập kỷ hế mạc ngành đúc chử chì, do đĩ việc tạo chữ Nơm hiện nay khơng cĩ cứ may được kế thừa kinh nghiệm đúc chữ Nưm chì mà vốn dĩ là khơng cĩ Như vậy là chỉ cĩ chế tạa chữ Nam ma cy
thể là chữ Nơm điện tử chứ khơng cĩ việc chế tạo chữ Nơm chỉ
Cấn tạo chữ Nom của tả dựa trên cờ sử ghép các bộ, cụm chữ Hán Vì vậy để tú đã dùng phơog chữ Minh thể cúa hệ ÿ thiên gồm hơn 13000 chữ Hán để tạo chữ Nơm Dể lào đâm nhn cẩu thể hiện trên đàn hình và in ra mấy in phải vẽ 2 phơng chữ Nom dang bitmap co 15x15 {dùng cho màn hình) và cớ 24x24 (dùng cho máy im) Các bước tiến hành vẽ font 24 là như sau:
1-Phân tích các radical tạo thành chứ Nơm
2-Xác định các bộ, cụm, thành tố co bản của chữ Hán cĩ thể ghép thêm để
Tạo thành rừng chữ Nơm hồn chỉnh
3-Ghép các bộ, cụm, thành tố của một hay nhiều chứ Hán để tạo thùnh từng ch? Nom Như vậy sơ đổ khối để tạo 1 chứ Nơm là như sau:
( xem sơ đổ khối ở hình vẽ 2_ }
Bướ 1 và bước 2 hồn tồn phải làm trén giấy bút với tư duy của con người (đây là giai đoạn trước máy vì máy tính khơng cĩ khả nang trợ giúp
các nghiên cứu viên phải cĩ kình nghiệm và hiểu biết cả về Hán lẫn Nom để xác định radical chính sẽ sử dụng) Các bước tiếp theo cĩ thể đùng chương trình tự động hố từng p5ẩn (cĩ kết hợp sử dung con tố và hàn phim trong việc xâm hình chứ, tỉa sửa các nét chưa vừa ý}
Chương trình vẽ font 24 là chương trình cơ bản để hồn thành nhiệm
Trang 119-
Quá trình nghiên cứu ïỉ mỉ cấu woe fort 24 nay dB cho phép dé tai trực tiếp can thiệp thẳng tới các thành tố của từng chữ lián (Xác định vị trí
sửa chứ đĩ trong font để truy nhập, trích từng nưành hoặc copy ra màn hình
cả chú) để cất sửa và lắp ghép, tạo thành một chứ Nơm
Hình số 3 nêu một ví du về việc tạo chữ Nơm từ hai thành tổ chứ Hún
~ Nhìn vào hình vẽ này mà phản tích ta thấy: ie #
ca Nom BEF (mối) được hợp thành tù chữ Trùng, XS và chữ A Midi
Nhưng
từ mảnh ch 1⁄2 ma trận,
Qua kinh nghiệm sử dụng và phản tích thấy rầng nên Jay chd Trang 1/3
ghép với chữ Mỗi 2/3 la via dep
( Cae hình 4, 5, 6 Ja phin DEMO ce ban cha ede bude ghép cae Radical, stra font chứ và kiếm tra font chủ trên mấy tink.)
ứ Trằng to bay Trùng bé (lấy từ mảnh chiếm 1/2 ma trận Bay 1/4 ma trân ?) Chủ Mỗi Hỹ từ MỖI 3/3 m trận hay lấy từ
Đi với font 15, vì đã số lont 24 nèn dé đấy nhanh lốc độ vẽ font, để từi là sử dụng một thủ thuật sáng tạo là sửa chứa từ font 24 bảng một
biện pháp được gọi là phương pháp 'tút mành fonL 24.Chương trình tra so Độ font 15 bằng phương pháp rút mành nĩi trên (Phụ lục ) đã cho phép tac được một bộ font 15 nhấp, tuy khơng gọn đẹp, song văn bảo đảm hình dạng "hao hao" của một chữ Nơm cĩ thể nhận biết được trên mãn hình Một chương trình sửa fent Lễ (Phụ lục _.)đưa các chữ đĩ phĩng te ra mân hình và cho
phép các nghiên cứu viên sử dụng cou Đỏ, ban phim để tín sửa từng chứ đã
vẽ,nháp đĩ Cách làm này cĩ thuận ¿ợi hơn là vẽ tồn điện một chứ trên một
ma trần trơng rỗng, chữa cĩ một nét phác thảo sơ bộ làm chỗ dựa,
Phương pháp "Rút mãnh font 24" được nêu ở phụ lục Số 3/- MÃ HỐ CHỮ NĨM Như đã nêu rrên, hang ÿ Thiên xếp 13994 chứ Hán vào vùng mã 2 byte như sa: 1, vùng tù A440 đến C67E cĩ 5401 chứ 2, vùng tử C940 đến F9D$ cĩ 7652 chữ 3, Vùng từ F91236 đến F9FE cĩ 4l chữ
vùng mã từ 8140 đến AOFE là các doạn trống và cĩ thể chứa hơn 500) thêm vào Để tài đã gin cde ma cia ving trong nay cho si chi Nom được tạo Trật tự gắn mã được cơn nhắc theo 3 phương
J, Theo số nết (từ ít tối nhiều)
2, Theo bộ, cụm (giống cách chía bộ thủ của chứ Hán),
3, Theo vấn chữ quốc ngữ (đủ phát âm của Việt nam mà thành)
Trang 12
~10-
chất vấn đế này đã nãy sinh và việc giải quyết là khơng đơn giản
Nếu như chúng ta chế mới hồn tồn hộ chữ Hến & Nơm thì việc gần má cho từng chữ Hán và chữ Nom sẽ hồn tồn da ta bố trí Song vì thứ nhất là
khuơn khổ và kinh phí để tài cĩ han, thú hai là văn tự Nom của ta sẽ phải
hồ nhập trao đổi với các văn tư thưển Hán ở trong và ngồi nước, chính vì vay chiing ta đã thừa nhận cách gán mã của hệ Ý Thiên cho J3094 chữ Hán, Như
vậy để nghiên cứu phương án gần ma cho chit Nom để tài đã phải nghiên cứu
trất tự gần mã của người Trung Quốc
Khác với việc sắp xếp các ký tư 8 bít là theo vấn tiếng Anh ABCD việc
sấp xếp các chữ tượng hình 16 bịt thuộc vế khuơn khổ sắp xếp trật tự của mã 2 byte Sử dụng chương Irình tự viết để kiếm tra trật tự sắp xếp mã
byte theo thi ty tang din (ir A440 trở đị chúng tơi thấy chữ Hân được số xếp theo trật tự bộ thủ và số nét chứ khơng phải theo trật tự phát âm
Bang 1a trích 1 phần kết quả nghiên cu tat ty sap xếp chứ Hán do chương trình cung cấp
Từ sự phát hiện này, lúc đầu chúng tơi nghĩ rằng cĩ lễ việc sắp xếp chữ
Nơm của chúng ta cũng sẽ nên tuân theo cách sắp xếp chữ Hán là gọn hơn cả Nhưng nếu lam như vậy thì sẽ gây khĩ khăn cho việc xuất bản các tÈ điển Nêm - Quốc ngữ của ta sau này, bởi vì từ sau khi cĩ chứ Quốc ngữ, các từ
điển của ta thường xếp theo vấn quốc ngữ kể cả từ điển Hán Việt ( Ví dụ Từ n liắn Việt của Đào Duy Anb, Nguyễn Văn Khơn đếu sắp xếp theo
Quốc ngữ Các sách khác, nếu khơng xếp theo vấn quốc ngữ thì bọ cũng, cĩ J hãng tra Quốc ngữ kèm theo) Việc này đã thành mộ: :hối quen, thành truyền thơng sắp xếp trong các Thư viện ở Việt Nam Nếu then ám Quốc ngử
thì chữ, Số: (họ Ngơ) và chữ Z*ố, (cấy Ngơ) phật được sấp xếp cạnh nhau rất
dễ tim những nếu sắp xếp bỏ thủ, sẽ làm cho hai chữ này phải cách xa nhau hàng trăm trăng giấy
“Trang khi đĩ vì vùng chữ Nêm nằm riêng biệt khổi vùng chữ Hán nên cho dù nếu tuân theo cách sắp xếp của chứ Hán thì chữ nĩi én cing khong cĩ cách nào đứng liễn với nhau được,
Để dung hồ 2 giải pháp sắp xếp nêu trên và tìm lời thốt cho vấn để SORT cơ sở dữ liệu văn tự Hản Nơm: trong tương lại, để tài đã đi tới cách
giải quyết như sau:
Sắp xếp vùng chứ Nơm theo bộ tnủ vii cum (phương án 1)
Sắp xếp vững chữ Nơm theo phát âm Quốc ngứ (phương ấn 2)
- Tạo một đle DBF gồm tập hợp các chứ Hán và chữ Nơm theo các tường cụm, bộ, phát &n để giúp cho viếc SORT cơ sở dử liệu sau này
Với cách giải quyết này, để tài đã đảm bảo nhiệm vụ cơ bản cho việc SORT Cơ sở dể liệu Hán Nom ma khơng cẩn chú ý tới việc gán mã cụ thể chỉ cad Nom Cho dù trong tường lại cĩ thể UNICODE sẽ thay đổi vị trí tone bằng mã chữ Nêm hoặc các nhà ngơn ngữ bở sung them chit Nom thi vin dé SORT văn được đảm bảo chính xác Cĩ thể nĩi dây là một giải pháp rất hữu Liệu
của để tài nhằm đâm bảo cho kếi quả của để tài được ứng dụng nhanh chúng
ai
Tĩm lạt
Trang 13xi»
214 bộ thủ của Trung Quốc Dựa vào trật tự này để người ta kiểm tra từng chữ của các nước đưa vào hệ thống mã chuẩn quốc tế, Cồn trật tự trình bài
và sử dụng của Việt Nam là vấn quốc ngữ của các chứ Nơm và chữ Hiền Trại tự trong font giành riêng cho chứ Mơm mới sưu tẩm là trật tự truy nhập ngấu nhiên FIFO Dé dung hồ và đáp ứng được 3 yếu cẩu trên, chúng tơi
tổ chức một hệ quản lí chú Nơm (với các chương trình tiện ích) phuc vụ
việc đĩ v
(Xin xem trong phụ bản số _4_— giới thiệu về hệ này.)
4i- BẦN PHÍM SOẠN THẢO VĂN RẤN HẤN NƠM
So với việc soạn (hảo văn bản Quốc ngữ trên máy tính thì vấn để lựa chọn một phương pháp soạn thảo văn bản Hán Nêm trên máy tính cĩ nhiều vấn để phải cứu xét Người Trung Quốc gọi vấn dé này là "Trung vận du nhập
pháp": đĩ là qui tắc phim cho hé soạn thảo chứ tượng bình
Chữ quốc ngữ của ta chỉ gồm các chứ cái latin ghép vấn lai với nhau
Song từ ? năm qua đã tổn tại và lưu bành tới hàng chục qui tắc bàn phím
của nhiều nhĩm tắc giả khác nhau, lun cho việc phổ cập tin học của tả nhiều lúc, nhiều nơi dã vấp phải nhứng khĩ khăn đáng kể Thực chất của sự "trăn trố" về qui tae ban phím tiếng Việt chỉ là ở chủ đặt các đấu tượng than những phường án khác nhau được nêu ra như "đánh đẩu trước, đánh dấu sau" (Hệ soạn thảo VnLab) "đánh chứ trước, bỏ đấu sau (Hệ sồn thảo VNI) và
‘Luy vay cho đến nay thì qui tắc bàn phím đánh theo mã điện 1n là được ta chuơng nhất Cĩ lẻ đây vẽ là gui tác tối ưu và là cuối cùng ch hệ soạn thấp tiếng Viet
Nĩi như vậy để thấ phải ngay từ đấu đã nhiều năm thử nghiệm
rằng tuy chi | vấn để đơn giản như vậy nhưng khơng
định được cách giải quyết tối ưu, mà phải trải qua
Về phía chữ tượng hình thì "Hang liệt du nhập pháp" được người Trung Hoa ra chuộng hơn cả, nhất là các nhân viên dánh máy Bản chất của "du nhập pháp" này là việc dùng các mổ số toạ độ của bàn phím tiếng Ảnh gán cho các thành tố của chữ Hán Khi đánh thì gõ phim đưa chữ ra cửa số ở đáy mịn hình, rối chọn chứ đặt vào "vãn bản" (trong máy) So với các "du nhập pháp" khác như "Chủ âm du nhập pháp", "Ihủ vĩ má du nhập pháp" v.v thì "Hàng, liệt du nhập pháp" bảo đảm tỷ lệ đơn trị cao, người soạn thảo chỉ phải lựa chụn mỗi lần một chứ trong số 4,5 chữ được đưa ra dưới dầy màn hình để đặt vàn văn bản Cịn các phương án kháctrung bình họ phải chon tới 25 chủ n tượng đổng mã (tức là lệ đơn trị của các phương ấn này thấp) Với cách phân tích như trên, ngày từ lúc đổu để tài đã cĩ toan tính xây
dựng qui tắc ban phim chứ Nơm :heo quy tốc Hàng liệt của người Trung Quốc vì đĩ là cách tân tiến hơn cả Tuy nhiên qua một thời gian thử nghiệm than dị của để thí về phương pháp này lại cho thấy kết quả ngược lai: nhiều em
lọc sinh hệ Trung văn và ngay cả những người làm cơng tác nghiên cúu cĩ liêu quan tối chữ Hán cũng cảm thấy "mệt mỏi" khi sử đụng phương pháp Hùng
liệt Như vậy cĩ thể kết bán được rằng phương pháp gắn mã Hàng liệt chỉ
Trang 14-12-
“Chem vao dĩ sự arn hiểu vổ cách viết chữ Han của người Việt Nam Đình thường
và ngay cả 1 số nhà nghiên cứu cĩ kinh nghiệm Ta chug đẩy đủ, chưa cĩ thơi quen viết theo tự chuẩn mực, cho nên khi viết chữ lián thường xây ra Hien tượng viết “rải cựa" (Cách viết bằng bút trên giấy, dù cho cĩ
viết "trái cựa" đị nữa, người tạ vẫn cĩ thể tạo được chữ trên giấy, nhưng
dùng bàn phím máy tính, nếu "gõ trái cựa" sẽ khơng cho ta hình chữ mong muốn mà máy lại đưa ra những chủ khác hoặc máy báo rằng khơng sĩ chữ dy Bang
cho thấy kết quả của việc "gỗ chủ trếi của" qua ví dụ chữ Bè) nếu Số Theo mã thành (5 'ngồi trước trong sau’ <H?L>thi được chứ Phong, nếu
fo ma than w "trong trước ngồi sau '<l?H> thì khong 12 chữ Như vậy vấn để cịn lại là phải tan đụng phương pháp gỗ Telcx của hàn ấy,
phím chữ Việt để thể hiện chữ Nom Song vi cac vin bản khơng đơn thuần chỉ
Thứ Nĩm mà cịn thường cĩ cả chit Han lâu với chi Nom, vi vay cẩn phải lầm qui lắc bàn phím cho cả 1A094 chu Han mia Cong viée dược giải quyết theo 3 bước:
1 Làm theo qui tắc với bàn phin cho 3000 chế Nơm phổ biế:
2 Làm qui tác với bàn phim cho 7000 chữ Hán phổ biến trong van tự Liên Nẽm
3 Tổng hợp cả 2 qui
trên thành qui tắc bàn phím Han Nom
VỆ mặt kỳ thuật Tin học,cơng việc cân bản để tạo bàn phím đánh chữ
Han Nom là ở chỗ tạo lập một fle cĩ cấu trúc (file of record), fife này
được tài ngay vào từ đấu kbi khỏi dịng hệ soạn thảo Han Nơm, Các dn
hiệu nhập vào từ bàn phím sé tham chiếu tới file này để xác định tổ hợp mã,
2 byte của chứ, từ đây lại tham chiếu tiếp vào bơ font chữ Hán của hệ Ý
thiên và hộ Font chữ Nom cha dé tai tuo ra
Mặc dù về mặt kỹ thuật để xây dựng quy tắc bản phím chữ Nưm khơog phải
là cố phức tập, song ý tưởng xây dụng guy tắc Dan phím chữ Nom theo phuong én g6 telex Ja mot § trig Adc dao, rat phis hop vo! cong te soan thio Han Ném Uu diém ci qui tac ban phim nay 1a:
1 Rấi đề dùng, phù hợp với thối quer gỗ telex là phương án tiên đến mà người Việt hiện đại ưa đùng trong soạn thản bằng máy tính
2 SỐ chữ tượng hình bị trịng láp ít hơn hãn so với "chú âm đù nhập pháp" của Trung Quốc vì rằng phổ âm vị của Việt Nam rong hơn âm vì của Trang Quốc ( Việt Nam cĩ tán cùng m, cĩ phụ âm đ, cĩ 6 thanh, cịn Trung
Quấc khơng cĩ, vì vậy, nếu dùng tổng số âm Hán Việt để phân phổi cùng miệt
sổ lượng hình chứ Hân thì tỉ lệ số chứ Sng âm đưa ra cửa sẽ để lựa chọn
mỗi lấn sẽ dược giảm bốt }
3 Người khơng biết nĩi tiếng Trung Ĩ\ Trung Quốc, và khơng giỏi chứ Nịm ce
phiên âm và hiết so mẫu, nhất chữ
%, hoặc ngay cả khơng biểu chữ nh được văn bản nếu cĩ
§ị- GHÉP CHỮ QUỐC NGỮ VÀO HỆ SOẠN THẢO VĂN BẢN HAN NOM
Mác dù việc ghép chữ Viết vào hệ s áo van ban Han Nom chi ia mot
bước mở rộng của để tài, song ngày từ đầu để tài vẫn coi đầy là 1 nhiệm vụ cán phải hồn thành
Trang 15
-13-
Thực vậy, các vấn bia Hần Nơm cổ ra đời từ trước khi cĩ chứ Quốc ngữ do đĩ khơng hể tổn tại các hình thức ghép quốc ngữ với chit Han Nom Mat 86 văn bản Hán Nơm ra đời vào những ngày đấu của sự bành trướng của nr ba phương Tây vào Việt Nam (thí dụ như các văn bản trao đổi giữa tiểu Nguyi với các quan chức nước Pháp, hoặc các thương gia nước Anh ) thì việc ghép các văn tự tiếng Pháp, Anh (văn tự Latin) voi -chd tượng hình là khơng cĩ gì phải quan tâm, bởi vì theo bằng ASCH thì tất cả*tõ họp các
chữ lan với nhau khơng bể trùng với bất kỳ tổ hợp 2 byte của chữ tượng hình theo mã BIG-5,
Trong máy ứnh, hệ chứ Việt (Quốc ngữ) 8 bít ngồi "24 chữ
tiếng Anh sẵn cĩ trên bàn phim lại cĩ tới 134 kí tự mang dấu (dấu mũ và
dấu thanh) cần phải được gán mã thếm( tức là cẩn gianh thêm chỗ Các nhà Tin học Việt Ngữ đã tơn trọng bảng mã ASCI chuẩn, khơng cải biên, khơng sửa chứa gì vào các chữ cái ở đây(mặc dấu ở đồ cĩ vài kí tự ít đùng boặc nấu như khơng dùng tới trong Việt ngữ), sở đĩ như vậy la vì họ muốn tận dụng các mã kỉ Lự ấy trong soan thảo và trong điểu khiển máy ( để làm cá lệnh cho máy hiểu") Như vậy chỉ cịn vùng ASCII mổ rơng (cĩ mã từ 128 đến
255)là cĩ thể sử dụng để tạa chữ mới Vùng ấy lại chỉ cịn cĩ 128 vị trí mã,
do đĩ các nhĩm chuyên gia Tín bọc người Viết phải đã gần tất các cả các mâ ở vùng ASCH mở rộng cho chữ Việt (Đương nhiên họ phải bố tất cả các ký tư đổ họa) mà vẫn khơng đủ chỗ Vì vậy Diệt số hệ soan thảo chứ Việt đã phải bổ trí chủ Việt xâm phạm vào vùng má điểu khiển cĩ trị số nhỏ hơn 32 Trong trưởng hợp như vậy các hệ này chỉ đùng được trong một giới hạn rể: hẹp trong một hệ soạn thảo ván bản nhất định, hồn toim khơng cho phếp hồ nhập chữ Việt với chữ Hán Nơm, bởi vì luơn luơn xảy ra hiện tượng mội vấn ghép 2 kỹ tự tiếng Việt sẽ cĩ mã 2 byte trùng với 1 chữ tượng linh nào dấy,
Nếu như Driver màn hìmh chỉ phục vụ cho việc thể hiện chữ 2 byte thì rơ
vùng số khơng thể biện được chữ Việt đối với máy in cũng vậy, mặc đủ đế cĩ lont chữ Việt cho mền hình và cho mấy im
Sau khi xem xét tất cả các khả nàng nhúng chứ Việt vào bệ chữ Hián sẵn cĩ, chúng tơi thấy cĩ 3 hướng giải quyết như sau: 5
“1/- thiết kế lại phần mếm driver màn hình của hệ Ý Thiên để đảm bảu hiện đủ các vấn ghép tiếng Việt cĩ vị trí lớn bơn 128 wong bảng mã ASCH 2/- Tan bo Font chữ Việt 2 by
3/- Gán lai vj tri ASCII cho các chữ Viết cĩ đấu để đảm bảo cho các vin ghép tếng Việt khơng trùng với chữ Har 2 byte
Phương án thứ nhất chúng tơi loại bỏ ngay từ đấu vì lí do việc tạo một drwe màn hình đồi hỏi khả nbiểu cơng sức can thiệp vào hệ thống nhằm khiú
thác một đối tượng chưa hể biết Hơn nữa, cho dù cĩ dé cong site dé fins
bang được, thị chỉ giúp ích cho khả nang thé hiện, mà khơng giúp chư khả
ming nghiên cứu tiếp tục trong các bẻ cơ sở dữ liệu, mà điểu này mới là
căn hắn
Phương ấn thứ 2 cĩ lẽ hay hơn cả, vi trong tương lai, kho chữ điện tử quốc tế chắc chấn sẽ quản lí các mã 2 byte này là chính, Phương án này khá
dễ làm về mặt ,kĩ thuật, tiện cho cá việc thể hiện trén mãn kình và may in
“Thế nluang, cũng như phương án 1, phường án này khĩ đảm bảo cho việc đi vào
cơ sử dữ Hệu, hởi vì hảng chữ Viết chuẩn của chúng ta lại là chữ 8 hú
chứ khơng phải 16 bít
Trang 16-14-
các chữ Việt cĩ dấu, Về thực chất cịa phương pháp này là xảy dựng một hộ *ASCI tiếng Việt nhằm đấm bảo trước hết các yêu cấu tối thiểu của để tài
t
- Hiện rõ chữ Nơm và chữ Quốc ngữ trên màn hình - In được ra các loại máy Ín
7 Bho đầm cho vấn để tìm kiếm dễ dàng trong các cơ sở dữ liệu Hán Nom Tuy nhiên, trong giai đoạn hiện nay, khi mà các vị trÌ trong pang ma
chuẩn quốc tế của cá chữ Nơm và cbứ Việt vẫn cịn chưa được xác định cụ thể,
thì bộ (ASCI chứ Việt mà để tài tạo ra chủ cĩ ý nghĩa lâm thời (vấn vì đụng được để hồ nhập với chứ Hảm, cũng là làm thời trong Khí mã, UNICODF Và HO chưa được phổ biến chính thức), vi vậy mà chúng tơi goi Đằng này là
bộ mà "Lâm thei 1", Song song voi việc biên tap bo ma Lam thời 1, để tài lộ làm sấn các chương trình dich ma (Convert) dé cho phép biến đổi mềm đếu từ hệ mã Lâm thời J sang các hệ mã khác như mã Chuẩn Quốc gia, mã Bked, mã
VNI mã 1SO nhằm dé dang cho việc xử lí các văn bản đã đưa vào máy tỉnh
bằng các hệ soạn thảo khác nhau,
6- KET LUAN CHUONG :
|e Dé tat di wo duce mot bộ cơng cụ vẽ chữ Nơm và gần mã chữ Nơm ding
trong khuơn khổ để tài và cĩ thể tiếp tục sử dụng cho bước triển khai ứng
dụng để tài (vẽ thèm chữ, và gán thêm mã)
2- Quy tốc soạn thảo bằng bàn phim theơ âm Hún Việt là hết sức thuận Déo cho người Viết sử dụng CỔ thể ứng dụng ngay từ báy giờ chương trình san
thảo này vn cổng việc khổng lồ của Viện là due tư Hệu bị kí sách Han
Nom vao Inu tris 6 dia từ
3- Số chit Nom da vé (hon 2000 chi) cia để tài chỉ là nhằm phục vụ cấp,
tốc cho hội nghị IRG-2 để quốc tế cơng nhận clr Nom của Việt Nam, là bước
đấu ứng dụng thể hiện chữ Nơm trên máy tính điện tử và phù hợp với yêu cầu để tài đất ra Dể tiếp tục bổ sung kho chữ điện tử nay cẩn phải sửa lai khá nhiều chữ, nhất là các chứ thuộc dạng ghép trái phải tỉ lệ rađiczl wai = 1/3, radical phai= 2/3
cĩ sự tham Khảo với các chuyên gia Hán Nơm vế dạng và nét bộ chủ Nơm điện tử đấu tiên này Bước này khơng cầu phải thực hiện trước khi tiên hành triển khai ứng dụng, vì quy tắc gắn má của đế tài đã hồn tồn cho pháp 2 việc nĩi trên cĩ thể tiến hành độc lập với nhau, khơng ai phải chữ ai
Trang 1718-
CHƯƠNGH
NGAN HANG DU LIEU HAN NOM
1) SỰ TƯƠNG THÍCH VỚI CÁC HỆ PHẦN MEM Cia NGAN HANG Diy LIEV HAN NÊN
A ~ Với mục tiêu thơng tin bố kho dí sản Hĩn Nơm của Việt Nam là
chính, kết bợp chuẩn bị kiến thức và cơng cụ để cĩ thể chỉa vẻ khai :hấc
cguổn thơng Ho của thể giới ghi bằng chứ tượng hình và hình ảnh, để tài từng bước khảo sát nghiên cứu đặc thù của đối tượng mà mình cẩn quản lý và tìm hiểu các giải thuật khả dĩ áp dụng
những nghiên cứu lý luận về quản trị e1 số dữ liệu của Xơ cũ và gấn đây các hang phản mềm lớn của Mỹ đã cho ra địi các hệ quản tị dỡ liệu trên máy nhỏ Các hệ này càng ngày cồng được cải tiếu, như Dbase 2, IDpase 3, Dhase 4, Foxbase, Foxplus, Clipper, Rbas, Foxpro 1, Foxpro 2.x, Superbase, Paradox, Oracle, vv la những hệ cĩ thế đùng trên máy vi tính độc lập va sau, G6 din
đẩn chúng được cải tiến dùng trong mạng máy vi tính Tổ chức văn
hố giáo dục của liên bựp quốc(UNISCƠ) cũng cho ra đời hệ quản lý thu viện fe CDS/ISIS dễ sử dụng và " khơng phải trả tiến bản quyển ”
Qua nghiên cứu thực tế đối tượng kho sách Hún Nơm và tham khảo so sánh tính năng của các hệ quản trị dữ liệu, chúng tơi thấy như sau :
= Di lieu Tin Nêm bao gồm nhiều loi
pha các dồng họ và các đơn vị hành chính cĩ cấu trúc hình mỏ hình "phân cấp", sách vở bi ký chứa nhiều tư liệu cĩ thể vi tích ra các tếp cĩ cẩu trúc ứa đạng Mếu sử dụng ở mức thấp cĩ th mơ hình quan hệ " (1/1) để quản ly, nhưng lén rức cao thì nảy
" mơt nhiều "và "nhiều một " { ví dụ một cuốn sách cĩ nhiều tác giả, - một
tấm bia ghi tên nhiều người ) Ngồi ra việc quản lý cả kho sách cổ nếu đã thơng tin hố triệt để thì cĩ yêu cẩu chụp nguyên dạng tất củ các trang
sách đĩ để bảo tổn, ời sử dụng cẩn thể dọc ục Hiếp mọi trang trên máy tính Hiện nay dử liệu FoxPro 2.5 đùng trường kiểu GEN (general) dé chia cde dữ Héu Ảnh]
- Từ hồn lệt Nam (lúc để tài bất đấu cho tới hiện
nay) chỉ cĩ các máy nhỏ (thường là AT-286, nay cĩ 1 máy AT 386 chn AT-486 chưa cĩ), cơng tác phản tích dữ iiệu trước khí nhập máy mới làm được ít
Vì vậy, việc chọn hệ nào cho thich hợp với ứng dụng bước đầu, va tac điều kiên mổ rộng di sâu về sau là cẩn thiết Chúng tơi phải chọn một hệ
mềm đéo để sửa đổi cấu trúa, dễ bổ sung đử liệu, để khai tÌ dể sử đụng và lại rẻ tiền
- Sau Khi so sánh, khảo sát chúng tỏi đã chọn hệ FoxPro 2x làm hệ cơ dụng, Hệ này cĩ mấy ưu điểm nổi bật sau đây ¡
Trang 18sim
©) FoxPro Luơn được cải tiến, cĩ kế thừa thành tựu cũ từ Dbase, Foxbasc và nâng cao lên dẩn Việc này làm che chỉ phí học tập, đào tạo đỡ tốn kém người sử dụng cĩ thể tự họ, nâng cao kiến thức lên đấn,
đ) Nĩ hứa hẹn cho phép lưu trử ảnh chụp sốc trang
lý kèm tiếng nĩi khi đưa vào Windows (version 2.5) đ) Ngơn ngữ lập trình dễ bọc, (các lớp đào tạo ở Việt Nam đều cĩ dụy hệ này) e) Cài đặt gà sử dụng khơng phức tập
Ä Việc "rất" dữ liệu qua hú từ hệ này với các hệ khác được thị
kế tốt do đĩ đâm bảo để đàng trong việc trao chuyển đứ liệu giữa cde he
quản trị dữ liêu ( ví dụ cĩ thể chuyển tài liệu qua hạ giữa FoxPro 2x với các hệ Lotus 12.3, Visical, Arees hofic Oracle, hoac CDS/ISIS)
Sơ với cáo hệ liển thấu của nĩ mà người Việ: Nam quen sử dụng như Dbase, Foxbase thủ đã cĩ những cải tiến rất rõ rệt như ;
- Tăng khả năng xứ lý và tìm kiếm trong trường memo (trudng memo
của FoxPre cĩ thể chia ra từng dịng, cĩ thể liệu trong đủ,
trong khỉ Foxbase thì khơng làm được như vậy)
~ Tiết kiệm vùng nhớ nhờ trường Memo được tổ chức theo kiểu mới: cần tối đâu cấp phát tới đỏ (ở Foxnase, mỗi xhi dung trường memo, thì hệ thống cấp phát tối thiểu là 512 byte, mặc cầu chỉ để ghí vài ký tự )
- Cĩ thể dưa ra mãn hình vài cửa sổ khác nhau, để người sử dụng được dọc nhiều trang tư liệu khác nhau trưc tiếp trên màn hình trịng mor lúc trong khí đĩ hệ CDS/ISIS chưa chờ phép thực hiện điều đĩ một cách dễ đăng
- Tốc dộ xử lí đã dược cải tiến rõ rệt nhờ áp dụng kỹ thuật Rhussnorc „ - Và điểu quan trọng là hiện nay để tài đã nghiên cứu dua duce cht Hán chữ Nom vao-trong EoxPro 20 bh Han Nom va xi
1/~ THUẬT GIẢI TÌM KIEM UNG DUNG VAO MOT NGAN HANG DU LIBU HAN Wor
[Vi du quản }i văn khắc Hán Nom ]
1/- Viện Hán Nơm cẩn quản lý hơn 2 vạn bản rập văn bia mà hiện vật (bía đá khắc chữ Hân Nám nằm rải rác ở các địa phương) Những hiệp vật là chứng từ gốc về văn hố Nội dung của chúng được in rập trên giấy mỏng đem về lưu trủ tại Viên Hán Nom, Các bản rập này vừa là đối tượng nghiên cúu
khai thác, vừa là tài liệu, là bản im của hiện vật trên giấy (cĩ thể gấp lại cha gor)
2/- Các nhà khoa học và quản lý thường cẩn tìm hiểu nội dung của
chúng (hoặc các địa phương cẩn khai thác đi sân đã mất của họ, đơi khi cẩn
tìm hiểu từng chứ, tùng hoa văn của các thế kỳ trước để lại trên tấm bị
) Người tới mượn đọc cần đưa vào các thơng từ ban dau, vi du: yeu
cho xem 1 tém bia Ư nơi nào đĩ (cĩ tên xã, huyện, rỉnh); hộc yêu cầu chủ xem 1 tấm bia do tác giả nàn đú (đã hiết tên) soạn, hoặc yên cẩu chủ xen lại một tẩm bia cĩ phí nièn hiệu nào đĩ Cũng cĩ khi củn in ra 1 danh mục tốm tắt nội dung của tất cả các bia đị: Tây Sơn (iừ năm 1789 đến 1402) chẳng hạn Tuỳ yêu cẩu, mà người quản lí kho sách sẽ đáp ứng,
3/- Một cơ sở dứ liệu như vậy cẩn khơng gian nhớ khống 12 Mega byte trên
địa từ nên để ở 1 tệp duy nhất thì quan lí thuận tiện nhất “Tuy nhién do
điểu kiện hạn chế về rmấy nhơ, mơt máy tỉnh thường sử dụng vùo nhiều viếc khác nhàu, các ở đĩa thường "đẩy cúng" đở liệu, muốn cổ riột khoảng trống
như vậy để làm việc cẩn phải nên thưởng xuyên các tếp để dễ sao lưuxoi
Trang 19
-a7-
bớt tệp mổ, giành khoảng trống dé sip xếp và lam việc, Cơng tắc bảo vẻ
dữ liệo cũng đồi hỏi sao lưu thường xuyên các lộp đứ liệu ra đía miểm để
phịng ngàa bất trắc, như hồng hĩc và vi-rut Vi vậy nếu để ở một tếp lớn
thi chin những việc tìm kiếm sé cham chap, mà cịn gây khĩ khăn cho view sao lưu thường xuyên Do.đĩ chúng tơi phải cắt ra thành 4 tệp nhỏ, - mỗi tệp cĩ it trường hơn để dễ quản lý ( Các tẹp đĩ thường cĩ l trường chung là số
hiệu bín để thực hiện quan hệ liên kết khi tìm kiếm trên máy và để chỉ chỗ
hiện vải ở trong kho
Sơ để khối của giải thuật
khối tức đã lược bỏ nhiều chí tiết rườm rà như cho hiệ dấu bản ghỉ ) im kiếm được nêu dưới đây: ( nĩi sử đố n màn hình, đánh Ví dụ sử đổ khối giải thuật tìm xem van bia (tra then tic gia) >> Vào mở tập TGI = oS khơng — s{thoe tae qia)>———> [r đổi cách tăm ~ thấy ¬yy danh du reco ’ + mở tên biadn, Khởi động chương trình ha cách tin đếnh đâu và phơi + copy ra tếp khác k
Ghi chủ : Sơ đồ này cơng dùng cho chương trìn3 tìm xem văn bia
theo niên hiệu nhưng mục 1 sẽ lä mở tếp niên đại (ND) và mục 2 là tìm
theo niên hiểu
Trang 20-18-
Sí- Mơ tả bằng lời và phân tích sơ đổ khối cửa giải thuật
a/ Vào tìm kiếm : (chon Meou hoặc khởi chạy chương trình tìm kiếm) tuỳ ý người sử dụng: cĩ thể tìm theo tác gia, tìm theo niễn đại, huge tim phân tích theo từng yếu tổ cẩn biết ( niên hiệu soạn bia, _ tên xã huyện năm dương lich vv ) tức là chon phương pháp tìm Chọn theo lối ấn phím chọn menu:
by Nếu chọn tìm theo hệ thống sẽ mở tệp TG1.DBF và xuá
trắng trường Dz (để chuẩn hị đánh đấu) Sau đĩ tự động xếp têu Lác giá hẳn,
lênh Imdex để tìm kiếm tên tác giả được nhanh
~ Nếu tìm thấy tên tác giả sẽ đánh dấu sao (*) vào trường Dz và tiếp tục từn xem tác giả đĩ cịn soạn văn bia nào nữa khơng, nếu cĩ thi máy sẽ đánh dấu vào trường J2 của tất cả các băn ghỉ của tác giả đĩ ~ Nếu khơng thấy sẽ thơng báo: Khơng thấy tơn tác giả đĩ và thốt ra để người sử dụng tìm theo cách kEác,
c/ Seu khi tìm thấy và đánh đấu xeng, hệ thống sẽ chuyển sang mở
lgp Biadd (ở dây cĩ ghi đấy đủ các yếu tổ thống tin da người tụ để tơm tất, nhập vào đĩ, kèm ng ki của tấm bia) Hé thing se dem các xế hia đã đánh đấu ở bên tệp TƠI làm cần cứ, so sánh với trường đơn vị ở tệp Biadd, nếu bản ghi nà trùng số đơn vị với số hiệu đấng xí đã được đánh
dau chon ở bên tệp Tác giả thì phơi nội dụng tơm tất của tím bia dỏ ra cửa sổ „ Cĩ bao nhiều bia của tác giả ấy he thống sẽ lấn lượt phơi nội dụng lồn hết
dị Sau cùng sẽ phơi lại một lần dưới đạng BROW rồi thốt ra
dj Loc nay người sử dụng cĩ thể chọn lạc các bản ghi đã đánh ấu
ở tệp Biadd và ra lơnh in not dung dé ra may im bode copy ra mot (ep du trữ bảng thủ cơng
“ un khoyét diém cách tổ chức giải thuật này:
a/ Đầy chỉ là một ví dụ về tìm kiểm văn bia trong kho, chưa phải là cách hay nhất, nhung nĩ thích bợp với trình độ phâm tích, nạ thơng tin và máy nhỏ như hiện này của Viện Hán Nom
b/ Riêng cơng đoạn œ hệ FoxPro 2Ú cho phép cĩ 2 cách giải quyết 1- Dũng ngơn ngữ văn da cĩ cấu trúc (Select-SQL) tá cĩ thể tao được mốt tép tạm thới trong bộ nhú, phơi lén mịn hình cho xem nhưnẸ khi đĩng tếp là, tếp ấy bị xố luơn, khơng lưu lại để sử dung Tẹp ủy cơng khơng cho phép sửa chứa
2- Dùng phương pháp liên kết 2 tệp (lệnh Set Relation) dé tạo ra ep mdi
Chúng tơi chếp nhận cách thú nhất nhưng tiển thêm ¡nột buốc: - Dễ tuý người xử dụng định lều: muốn jn ra thì copy tếp Tam za rơi khắc rồi sửa chữa và in ẩn SỐ df chon cach 1 vì tp! Tạm được tạo ra trùng hộ nhớ nên khơng tốn vịng nhớ trên dia via tháo tác với 1 tệp Ương bộ nhứ sẽ
nhanh toa vúi 1 tệp trên di
Trang 21Hà
trở thành quan hệ 1 nhiều Thật vây: trong thực tế, nếu chí để dữ liệu ở 1 vếp lớn thì khơng giải quyết được trường hợp ! tấm bia do nhiều người gái cơng, hoặc Ì tấm bia cĩ chép nhiều chủ để, hoặc cĩ nhiểu tên người khi đĩ
ta khéng thể đặt các tên người bình đẳng vớt nhau trước thao tác tìn: kiểm,
vi mỗi bản ghí chỉ cĩ 1 chỗ ghi tối ưu cho một yếu tổ thơng tin đĩ là vị ìu tiên trong trường nếu đĩ là trường Charaeter
đý Các tài liệu khác như sách Hán Nơm sồ nội dung tổng hợp,pbức tấp hơn, cơng sẽ được tổ chúc theo lối phản tích ra nhiều tệp để việc quản Ti
được gọn nhẹ
đ/ Những chương tơnh biên tập, đổi mã chữ Việt được thiết kế trên eœ số các trường dữ liệu là trường memo (tức tệp *.FPT đi kèm với tệp DBF) sẽ lêm giảm đến mức tối thiểu cơng sức thiết kế các ch
địch vụ ví dụ cu thé Ja hệ thống đổi mẽ đã được thiết kế then
sao" như dự kiến
e/ Với thiết kế nhỏ gọn thích hợp, để tài cĩ thể phục vụ cho cơng
tác điểu tra đi sản văn hĩa cổ Nhà nước giao cho Viện Hán Nom, Néu duoc
cải tiến thêm, Ngân hgàng dữ liệu Hán Nơm đựa trên ngơn ngố FoxPro 2x c6 thể phục vụ cho các yêu cầu ngày càng phong phú phúc tập, theo đời hồi của
cơng tác nghiên cứu khoa học
UJ- VÍ ĐỤ ẤP DỤNG THUẬT GIẢI XAY DUNG TEP QUAN Li VAN KHAC HAN NGM
Từ kết quả khảo sát phẩn mềm EoxPro đối chiếu với yêu cấu và kha nang phản tích thơng tín đứ liêu r nay, chúng tơi thiết kế hệ quản bị dữ
liệu bằng FoxPro 2.0 ding cho Ngân hang du lieu Han Nom Version 14) của
ngân hàng này (ví dụ hệ quản lý bid) cĩ cấu trúc như seu :
- giới thiện cấu trúc các tệp quản lí văn khắc Hán Nơm:(để làm mẫu)
1/- Tệp BIAFI.DBE ( Bia phản tích.DBP) cĩ cấn trúc như sau:
én trường kiểu độrộng
„ 1- Số bia NT G6 dang kf tai thy vien Han Nom) 2 Loại đi tích == C15 (dink, chia, dén miéu, te dudng.van chi)
3- Ten di tích € 25 (tên gọi của di tích)
4- Tên văn bân € 35 (iẽn đẩu để khắc trên trấn bia) ›
5- Năm tạo C7 (mầm đương lịch,ứnh đổ: từ niên hiệu)
6- Niên hiệu € 25 (rên niên hiệp tao bia) 7- Xã C 18 (tên xã khi rập bia)
&- Dz € 2 (ưường đánh đấu tự động) 9 D2 C 2 (trường đánh đấu thủ cơng) 10- Luyện C 15 (iên huyện Khi rập bia)
Trang 22"=¬
3/- Tẹp NDI.DBEF ( Niên đại DBE ) cĩ cẩu trúc như sau
Số bia N7 (số đăng kỹ trong thư viện) Niên hiệu € 18 (rên niên hiệu)
Năm N7
Dz € 2 (trường đánh dấu Ly động)
3/- Tẹp TG1.DDE ( Tệp tác giả bia ) cĩ cấu trúc :
Số bia N 7 (oi dang kj trong thu vien) Tác giá € 20 (iên tác gia) Dz c 2 4l- ‘Yep Badd DBF (Bia déy đủ) cĩ cứu trúc như sau Dz € 1 trường đánh dấu NDRiéng M 10 ghi nhing thong tin tong hop về 1 tam bis Dz2 €1 trườap đánh dấu thứ 2 Đơn vỊ N_ 6 số đáng ký của Lim bia ND N 10 nội dùng Iv- QUAN Li ANH THƯ TỊCH HÁN NƠM
Dac điển quý gi của thư tịch cổ Hán Nơm khác hẳn với một số sách vỏ
thơng thường khắc ( ví dụ giá cả hàng bố, danh mục hố chất hoặc các sác]! hiện đại đã xuất bản hùng ;oạt.) ở chỗ người đùng thường củn được xein và so sánh các nguyên bản Quả vậy : sau khi xero bản địch ra chữ Việt, hoặc Xem bản sao lại văn bản đưới dạng file text của dữ liêu trong ngân hàng,
người đọc muốn xem bút tích của đanh nhân đã tạo ra vân bản đĩ, | ho:
tra so sánh hình đạng tổng thể hoặc từng nét chữ, để xác định tính thực
giả đúng sai của văn bản, Chính vì vậy viếc quản lí tư liệu ảnh trong mây, cho phếp người ding Khong phải trực tiếp cểm vào hiện vát vẫn đọc dược nguyên bản, là một nhu cầu thực sự mà để tài cẩn phải tiến hành nghiên cứu lam cho được
Để thực hiện nhiệm vụ này, để thi dã tiền hành ghếp các tile ảnh vào cde file text trong cling mot co sở đử liệu Cách làm này thuận tiền cho người dùng hơn, - và đương nhiên cũng tốn cơng hơn so với cách làm truyền thống là quản lí file text riêng, He ảnh riêng
Tồn bà cơng việc đước tiến hành thử nghiệm bước đấu với tấp Thật kỉ trong th" cla Bác Hồ
Các bước cơng việc là như sau:
1= Dùng Scanner quét phẩn chư Han vin ef 2- Dũng chế độ goạn thảo vấn bản nhập nơ 3- Viết chương trình quan fi
Chúng tới dịng hệ quản tị CSDE Foxpro for Windows dé quản li khối d 'iêu liên hợp ảnh-text này
Trang 23= 21s
Dị việc lưu trừ ảnh cĩ yếu cẩu lớn vẻ khơng gian nhớ trên đĩa Quỏi ảnh 1⁄2 trang A4 cẩn Khoảng 500 bytes), vì vậy phương án quết ảnh tồn bộ kho sách nguyên bản sẽ chỉ thự thị được khi được trang b c c vật nang tín
cĩ sức chứa lớn như CD-ROM, Diểu đĩ chúng tơi sẽ để cập ở tết dưới đầy y- KHA NANG NEN NGAN HANG DU LIEU VAO CD-ROM: ý
Trong thế kỉ này, - nhờ tiến bộ
tạo ra 3 hình thức lưu trữ ác nguồn thơng tin từ liêu quỹ giá của mình nhanh của Khna học kĩ thuật, nhân loại đã
3 Lim trữ bằng giấy: các tài liệu vẻ phát minh
thưậc các văn bản pháp quy của Nhà nước Loai này chứ+đẩy các kho hw trí lớn và là bản gốc cấn được bảo quản Tuy ting thé ma nĩ được phép huỷ đi sau một thời hạn nhất dịnh để cho tộng kho
áng chế, bí quyết kĩ
2 Luu trữ bang Microfilm, Mieroiiche Loại này đã tiến bộ hơn loại
trên vì thu nhỏ được khơng gian lưu trữ, tăng số lượng văn bản hảo quản
3í- Lựu trữ bằng CD-ROM (Compaek Dhk - Read only Memory: đĩa nên để ligu, chỉ cho phép đọc) Eoal này thu hẹp khơng gian xử dụng lại cực nhỏ,
và tiến bộ hơn hai loại trên ơ chỗ vừa lưu trữ được bản gốc trong khơng gian nhỏ, vita tất Hện lợi trong việc nhân bản và khai thác thơng tin bằng phương tiện hiện đại
Người ta cũng đã xây đựng các định chuẩn cơng nghệ quốc tế cho lĩnh vue ny dé dip ứng nhu cầu sử dụng CD-ROM ng phổ biển của nhiều ngệnh kinh tế, van hod va khoa học
4/- Kha thư tịch cổ Việi Nam thuộc loại tư liệu quý, cẩn bảo quản tốt bản gốc bằng giấy (hạn chế người dùng tiếp xúc với biện vật để kéo dài tuổi thọ
của nĩ), lạ cẩn nhân bản để bảo quản ở nhiểu nơi và khai thác „, giới
thiệu ra thể giới, nên cĩ thể và cần sử dụng cơng nghệ CD-ROM tiên tiến fay dé dap ứng các yêu cấu nĩi trên
5- Để tiến hành lưu trử di ligu Han nom tren CD-ROM cẩn phải
a/-Trang bị cơng cụ hồn chỉnh từ viếc quét hình, nén hình vào CÍ)-ROM cùng với các tư liệu Character chỉ đẫn tìm nhanh ( trước đây vài năm các
thiết bị như vậy giá cả rất đất, hiện nay giá cả đã ha xuống đếu múc cĩ thể chấp nhận được)
bí Lược thuật nội dụng tư liệu dưới dạng kí tự (Character),
- Với uình độ hiến đại của cơng nghệ thơng tin, người ta khơng chỉ phân loại thơng tin một cách sơ sài như thời trước là chịc ra sách vở vẻ
Văn, Sử, Địa, triếu Tơn giáo v, mỗi loạ: tượng trưng bảng một chứ
cái mà cẩn xây dựng một loạt "từ khố" để lược thuấ: nội dung thong tie
với các từ khế, phuc vụ việc tìm kiểm bằng máy cho nhanh Cơng việc lược
thuật chong tin cia ting văn bản cố nơi dung tổng hợp và gần các từ khoả quả thất đơi hẻi các chuyên gia thư viện phải cĩ trình dộ cao mới la được
Với kho dử liêu tổng hợp chưa được khai thác như kho đi sản Hin Nom cing cẩn đẩu tơ nhiều cơng sức cho việc này Thực tiễn ki thuật cơng bất luc
Trang 24-2-
Noung phép tim “nhị phan’ chỉ áp dụng được: cho các du liệu dịng Character (trong FoxPro I phép tạo các tếp INDEX), Nếu dứ liệu là tín hiệu
ảnh thì khơng cĩ cách nào tạo INDEX cho ảnh được Vậy chỉ cĩ thẻ đồng mh inh quan Le, tir trong trường Character mi tan INDEX dé tim kiếm và tỏ sang các bức ảnh liên quan mà thơiCác búc Anh đĩ sẽ là các trang sách Hán
Nộn: Dé là một Bí quyết để lưu ảnh trong CD-ROM,
Vi- KẾT LUẬN CHƯƠNG :
1 So với kế hoạch để ra là xây dựng bộ khung ban đấu cho ngân hàng du Leu Han Nom, trén cơ sở kho sách tại Viên, để tài đã cho nhập máy và quản Ï
thơng tín sở lược nội dung của
~11000 đơn vị văn khắc Han Nom, ~ 4.400 đơn vị sách cổ
- Số tư liệu nhập vào, và in ra tương đương với 10.000 trang sách
2 Các hệ quản lí này chạy dưới ĐOS, đúng như Kế hoạch, dễ sử dụng, cho
phấp bố sung, nàng cao và đĩ sâu hơn trong việc ghí thêm các thơng Un Mới của các đối tượng thư tịch trên Việc lim kiếm thơng tin tơ Tả tường đốt thuận tiên, nhanh nhẹn
3 Một số cơng việc đã phải gấp rút tiến hành ngồi dư kiến lúc đầu của Dé tài vì sự phát triển nhanh chĩng của các nhu cầu ứng dụng tin học trong đĩ phẩn lưu trữ ảnh đưới Windows là một ví dụ
Trong khuơn khổ cĩ hạn củu để tài các chương trình tiện ích mà để tài đã cụng cấp vẫn cẩn phải tiếp tuc sải tiến Song với những chương tình nay vin di dam bảo khá: thác thơng tin phục vụ nhiêm vụ điểu tra cụ bản má
Nhị Nước giao cho Viên Hán Nêm
Qua sử dụng, sẽ cải tiến dân cả chương trình, thiết bị và vật mang tít
Trang 25
sa
KẾT LUẬN CHUNG VÀ KIẾN NGHỊ :
( Căn cứ trên những sẵn phẩm cự thể và những kết qủa nghiên cứu đã đạt được, chúng tơi xin nêu những kết luận và kiến nghi cụ thể như sau):
1 - Đây là lần đầu tiên chúng ta chế tạo được hộ chữ Nơm điện tử, dưa quản lý tư tiệu Hán Nơm theo kịp trình độ của thế giới (sử dụng phượng,
tiện Tim học hiện đại), từ dây mổ ra triển vọng mới về trao đổi thơng tin
văn bản Hân Nơm giữa nước ta với các quốc gia dùng chữ tượng hình trong khu vực, và với thể giớL( từ: nay nĩi tới 1 hệ phần mềm xử lí chữ Nộm là cĩ hàng van chữ Hán trong đĩ)
+ - Bàn phím chứ Nơm để giúp cho cơng việc soạn tháo văn bản Hán Nơm tiến kịp trình độ quốc tế về soạn thảo bằng máy tính, kế thừa được những,
thành quả nghiên cứu của trong nước, bảo đâu tính sử dụng để đăng phù hợp với thĩi quen của người Viet Nam, gop phan thúc đẩy nhanh quá trình phổ cáp, đào tạo và ứng đụng Tin học trong nước
3 - "Tự diễn điện tử Hán Nơm" là mộ: cơng cụ tốt dùng, để tra cứu, nghiên zứu các tài liệu Hán Nơm Đến nay, các nhà nghiên cứu đã cĩ trong,
tay mot cudn tự điển để đàng tra cửu, cĩ nhiều cơng năng độc đáo hơn hẳn so với tự điển hằng giấy truớc day
Tự điển này cĩ thể đồng vai trị tài liệu hỗ tro ging day chit Han Nom
cho thế hệ trẻ Nếu được bổ sung hồn thiện thêm phần phát âm thì cĩ thể
biển để thành một cơng cụ trả cúu sinh động, phục vụ các chương trìch địch
nĩi Mặc đầu là mộ: sản phẩm trọn vẹn của dễ tài, song da, đặc thù của
đng tác nghiên cứu sưu tẩm đời hỏi, người lầm tự điểu vẫn dành cho
các nhà sưu tâm nghiên cứu cĩ điều kiến bổ sung cập nhất những kiến thức
mếi, khám phá mới vào :ự điển đĩ một sách dễ dàng :
4- Với bộ [ont chứ Nơm điện tử, để tủ đã gây được một tiếng vang, trên truờng quốc tế: Lần đầu tiếu thể giới biết đuợc chúng ta hồn tồn cĩ khả năng thơng tin hoa kha di san van hoa viết bằng chữ tượng hình của 'Việt Nam, một bộ phận kho tầng văn hố của nhân loại cịn chưa đuợc khai thác và giới thiệu rơng rãi
'Việc tổ chức chuẩn hố quốc tế ISO cơng nhận bảng chữ Nơm 1 trong hội
nghị [RG-2 thắng 3/1994 tại Hà Nội Jà một sự xác nhận thành cơng của để tài khơng chỉ ở phạm vị trong nước mà cịn ở phạm ví quốc tế và khu vực
Sự cố gắng này của để vài đã tạo được cơ sở kỹ thuật để kịp thời dựa di sản chữ viết cổ của dân tộc vào kho tầng trí thúc của nhân loại, giành chỗ đứng cho chữ Nơm ngang bàng với các hệ chứ viết của các nền văn minh Khác, Kế từ nay, trong thời đại phát triển của Tìm học và truyền thơng,
thể giới càng cĩ điều kiến tìm hiểu những giá trị tính thần cao quý của
dần tộc Việt Nam qua kho di sẵn văn hố chữ viết cổ được thơng tin hố
Mặt khác Viê: Nam được hưởng những tiến bộ kỹ thuật và, cĩ quyền, cĩ khúi
nàng thực tế để khai thác nguồn thơng tín trí thức tạ lớn mã nhân loại
Trang 26-24-
Giải quyết thành cơng những văn để kỹ thuật cơ bản như mã hố, chu?
hố, thể hiện chữ viết trong máy.Jà dã xố bổ trên thịt tế những sư ngăn
cách về truyền thơng giữa nước ta với thể giới
5- Bộ khung Ngân hàng dữ liệu Hán Nơm với các tư liệu ban đổi
vào, tạo nên Version 1.0 của Ngân hàng, là một sản phẩm Tìn học „
Tiên được dùng để quản lý kho tăng đi sẵn thư tịch cổ Việt Nam.Tuy chưa
nhấp máy đẩy đủ những dứ liệu Hán Nơm hiện cĩ ,nbưng bộ khung cũng đã bạn quất được một bộ phận nịng cốt của kho di sản, đĩ là số sách cân ban
Goa kho sách sưu tấm được từ trước năm 1945 tới nay, và phần lớn các văn Địa rài rếc trên mọi miễn đất nước, Tử đây ,các nhà khoa học cĩ thể bổ
sung,ởi sâu nâng cao và khai thác kho đi sản này bằng các nhượng tiện
hiện đại
Các giải thuật, cách tổ chức để liêu để cĩ thể xử lí tụ động hố trong
việc quản lí một Ngân hàng dữ liệu Hán Nom mà để tài xây dựng cũng được Vận dung để quan ï Tự đến chit Han,ty điển chữ Nơm dạng điện tử `
e chương trình tiện ích khác như sáp xếp, đổi mã, hiên tập hiệu đính van ban chi Viet ih những chương trình tốt, cĩ ý nghiá tăng năng suất lao
động dáng kể, đồng gĩi vào kho kinh nghiệm xử lí chữ Việt
'&- Hệ soạu thảo song ngữ Hán Nơm/Việt là một sản phẩm cĩ tính sắng tạo (ấy tiếng mẹ đề, tiếng Viêthiện đại làm hệ quy chiếu số một để xử lí
chữ Hán chứ Nom), Day la hg soạn thảo đầu tiên ở Việt Nam du để tài tạo ra, cĩ đạc điểm là một hệ "mềm hồn tồn" ( khêng phụ thuộc vào phẩn cứng của nước ngồi), vừa đảm bảo hiển thị song ngữ trên màn hình, vừa đưa ra máy in kim va may in laser làm chế bản được, vừa đánh được trong các tệp van ban (text file), vừa đănh được trong các tệp cơ sở dữ liệu (data file) VE
bàn phím soạn thảo, nĩ kế thừa được cách gỗ tclex truyền thống để soan chữ
Việt đồng thơi cũng đừng cách gỗ telex để gọi chứ Hán Nơm Cách sử dung
khơng phức tạp, do vậy cĩ sức phố cập cao Việc, nhúng chữ Việt với chữ,
Hầu chữ Nơm nhằm tạo cơng cụ phục vụ mục tiêu "latinh bố" kho đí sẵn Hán Nom
Nếu được cải tiến nâng cao thém, cĩ thể dùng để soạn thảo các từ điển cố 7 thứ chữ khác nhau lề : Trung Quốc, Nhật, Quốc ngữ, Anh, Pháp, Letinh
'Bắc Kinh, chú âm quốc tế), và số thể làm thêm, TrueType font, sử dụng trong Windows để in chế bản với các kiểu chú ngày càng đẹp hơ
3-Hệ quần trị dú liệu ảnh chụp sách Hán Nơm được xây dựng trên ngơn ngữ Foxpro trong Windows là một bước nghiên cúu thử nghiệm thành cịng, mổ ra khả nãng lưu trổ tồn bộ kho di sản với ảnh chụp nguyên dạng bản gốc của nĩ Nếu thực hiện được viêc này chúng tá cĩ phẩn yên tâm trong cơng
tác bảo vệ di sẵn, vì khả năng chụp nguyệc bản vào đĩa quang là nằm trong tấm tay, Nhớng vấn để đặt ra là: liệu cĩ thể lấy ra nhanh và giữ được
nguyên đạng để bảo đảm tính chân thực của các "chứng tù gốc" ấy hay khơng”:
Việc đọc bản chụp và bản in trên, máy cĩ thể thay cho tiếp xúc với bản gốc được khơng, đối vái các bản to như 1 tẩm bia thì xử lý ra san vxv Vấn
để đĩ đã bước đầu được trả lời qua thực nghiệm Từ lầu Nhà nuốc đã quan tâm và cĩ đầu tư cho việc sưu tẩm bảo về kho đi sin van hoa quy gia cla dan toc ta, và chú trọng tới các nhiệm vụ nhân bản
để bảo tồn (để phịng bất trắc xảy ra), và khai thác nội dung, thư tịch (Latinh hố tồn bộ kho di sản ) với thời gian cổ gắng một vài thận Ky
Toy nhiêa thời giao đã trơi qua mà cơng viết cĩ dường như khơng dứt
Trang 27
wo 8n
điểm được Ngày nay với những phương tiện mạnh, chúng ta cĩ thể nghĩ tới
hồn thành trọn vẹn cơng việc sưu tẩm quân lý nội dung kho di sản quý giá
trong khoảng 5= 10 năm tới, nếu cĩ trang bị đủ manh ( trước hết cĩ thể sưu
› và nhân lên thành nhiều bản liu trong CD-ROM, nơi để phịng
mất mát và để cho nhiều người, nhiều ngành cĩ thể vùng khai thác, Việc này
cĩ thể làm được sớm, Cịn việc latinh hố tồn diện sẽ làm dần dần, và sẽ cĩ thuận lợi hơn nhớ khâu sưu tẩm bảo quản đã được Tin học hố, và các gong
cụ phục vụ sau này cũng sẽ tốt hơn) (chẳng hạn :_ các nhà nghiên cứu khoa
học cĩ thể ngồi ở nhà đọc được tồn bộ kho sách khi nĩ đã nhập vào máy và nối với mạng thơng tin quốc gia, Như vậy hiệu quả khai thác sẽ cao hơn)
8 - Đây là lần đầu tiên đội ngủ cán bộ khoa hoc kỹ thuật của Việt Nam
n với một ngành khoa học cơng nghệ hiện đại, đang tiến lén với
; độ nhanh, nhưng họ cũng bắt kịp những tiến bộ ấy, và dem kết quả phục
yu cha nhu cầu phát triển của đất nước Năng lực và nhiệt tình của họ là khơng thể phủ nhận, chỉ cẩn cĩ sự quan tâm thiết thực, sự lãnh dạo và tổ
chức đúng đản của Dáng và Nhà nước, sẽ tạo điều kiện tốt để họ tự dem những,
tiểm năng chất xám phục vụ cho sự nghiệp đổi mới của Đất nước do Đảng lãnh đạo 9- Mặt khác, để tài ing Tà nơi thử sức,là một " mảnh đất dụng võ", và là ngọn cờ tập hợp những cán hộ cố năng lực và nhiệt Gnh cổng hiến Thong qua cơng việc, đã làm cho họ nhập thức sâu thêm về ý nghĩa, giá trị lớn mã
Tin hoc cd thé dem lại cho khoa học và cơng nghệ của đất nước : ngồi những,
vấn để của thể giới kí thuậ:, và kinh doanh, cịn cá những việc cẩu làm đi phục vụ cho sự nghiệp phục hưng nền văn hố của Dân tộc, do vậy Để tài đã
dược nhiều nẹt làm khoa học xã hội cũng như khoa học cơng nghệ quan Lâm Tiém nang Tin học trong nước được kích thích nhờ hoạt động trao đổi
Khĩa học vũ "đạt hàng", yêu cầu làm việc cụ thể,
Nhĩn chung tốc độ chuyển giao cơng nghệ là nhanh: khoảng thời gian từ
khi nghiên cứu tới khi đem kết quả ứng dụng vào thực tiễn cơng việc, rất
ngắn
Những (hành viên tham gia để tài cũng trưởng thành trong quá trình
triển khai thực hiện để tài: Nhờ tỉnh thần nỗ lực kiền trì học hỏi.lao động nghiêm túc, xác định hướng đi đúng đắu nên để tài đã hồn thành cơng việc
một cảch kịp thời và cĩ hiệu quả
10 - Dây là Bảng tiêu chuẩn số 01 của Việt Nam được ISO chấp nhận,
tức là một sản phẩm Khoa học đầu tiên của Việt Nam đạt tiêu chuẩn quốc tế Sự kiện này cho phép các nhà quản lý khoa học cơng nghề rút ra những kinh
nghiém khi tổ chức xảy dựng cáẻ tiêu chuẩn khác tham gia với quốc tế, để
hĩã nhập, và nâng cao, hiện đại hấ nền kinh tế kỹ thuật nước nhà Trong
việc xây dựng chuẩn này, để tài đã cĩ đồng gĩp tốt về mặt kỳ thuật
11~ Thành cơng này là một ví dụ về sự hợp tác của các lớp cán Độ (già và trẻ, am hiểu chữ viết cổ dai va Tin học hiền đại), của các nhà khoa học người Việt ở trong và ngồi nước, và cĩ sự chỉ đạo sát sao của
c cơ quan quản lí và chức năng nhà nước suốt quả trình từ khi thành láp, và triển khai để t
12 - Sự ủng hã của các ngành liên quan như quốc phịng, nội vụ, văn hố vv cũng cĩ tác đụng tích cục tới L]ội nghị quốc tế IRG, làm cho ban be
thế giới hiểu ta hơn, đồ là kết quả khách quan mã để tài cĩ gĩp phần đem
Trang 28-26-
KIẾN NGHỊ
Trang tình hình tiến bị nhanh chĩng của cơng nghệ thơng tin, cần cĩ đội ngũ đơng đảo cán bộ chuyên gia đủ trình độ bắt kịp nhúng tiến bơ đĩ, để khai thác cĩ hiệu quả mọi nguồn thơng tin trí thức của thể giới nhằm xây dựng đất nước hiện đại, Trên cơ sỏ những kết quả đã đạt được, và căn cứ vào những cơng việc cẩn tiếp tue hồn chỉnh, chúng tơi để nghị với Trung tâm
Khoa học Xã hội và Nhân Văn Quốc gia kiến nghị với Nhà Nước và các cơ qua: hữu quan:
1/-Để nghị Nhà nước, Bị Khoa học Cơng nghệ và Mùi trưởng cĩ biến pháp khuyến khich ứng dụng ngay những kết quả của để tài vào việc sưu tắm, bảo
vệ và khai thác thu tịch cỔ, tiếp tục cải tiến hồn thiện năng cao chất
lượng sản phẩm:
2i- Để nghị Nhà nước khuyến khích phổ cập ngay những kiến thức về Iïn học Hán Nơm (về phương pháp soạn thảo văn bản, phương pháp tìm kiếm khai thác từ liệu thơng tín trên máy ) chơ các học sinh tại cát cơ sở đào tạo Hán
Nơm Trước mất cĩ thể cho phép kết hợp với chương trình Tìn học phổ thơng để phổ cập việc sử đụng máy tính trong việc wing day Trung văn va Han van
3/-Giao cho Viện Hán Nơm tổ chức nghiên cứu mã hố chủ viết cổ: của các cân tộc ở Việt Nam tong máy tính, kịp thời đăng kí vào bảng mã chuẩn của thể giới, nhằm bảo vệ di sẵn văn hố quỷ háu của các dân tốc ở Việt Nam
4/-Giao cho Viên Hán Nớm xây dựng kho tư liệu CD-ROM cho các dang thư tịch cổ,
S/-Giao cho Viên Hán Nơm tổ chức nghiền cứu xây dựng chương trình dịch máy
van ban Han Nêm- Việt,
6/- Cơng việc mới phát sinh trong năm nay là tạo font chữ Nơm 96x96 để hồn
hinh thủ tục gia nhấp ISO
Chủ nhiệm Đề tài Tin học Hán Nom
Trang 31+22
3 DE TAI TINHOC HAN NOM
HÌNH 3
GIA] DOAN PHAN TICH CAC RADICAL’ CHO CHU NOM
Trang 3230
bE TAITIN HOC HAN NOM
HÌNH 4
GIAL DOAN GHEP CAC RADICAL TREN MAY TINH
Trang 33on DE TAITIN HOC HAN NOM HINT 5 GIAL DOAN SUA FON 24 CHU NOM DA.GHEP TREN MÁY TÍNH Mau ki ta Meung sua ki ta 1234567890123456 76901234 RSRREDEEPSEEEIS
CHUONG TRINH SUA POH.24 CHO HE CHU Nor HUONG DAN SU DUNG = 2 "pung sac phim ngà cen de di chuyen con cho
Trang 35HÌNH #
BANG 1: TRAT TU GẦN MÃ 2 BVTE CỦA CHỦ HÁN THEO PHÂN TÍCH CỦA ĐỂ TÀI
— ASCII LBK AHV B0 BOSX SHB CUM MDC
#Ủ 165*l8l reng nhưng thủ thải 0Ơ nhưng s5
PN 165+182 pa2 bat thú thil 064 bats ae
$b 165+183 pu bộc thủ thi] 964 boocs say
Ƒ£ 165*184 chỉ xích cên cân 089 xichs hy E4 165*185 dan4 đán nhật nhật 072 ddans zm 7Í 165188 zhu2 truật nộc mộc 075 truaatj] Íc 3# 165+l87 ben$ bản nộc nộc 075 banr dm A 185+183 weid vị mộc mộc 075 vii id FR 165+189 nod mat mộc mộc 675 matj độ #Á 165+190 zha2 trát mộ mộc 75 trats du E 165⁄191 zheng4 chính nhất nhất 001 chỉnhs mm
†‡ 165+192 mu nấu vơ vơ2 080 voo wi
& 165*193 nin2 dân thị chil, l3 đan rp
& 1652194 di3 dé thi chil 113 ddeer = hm
tA 187218 zhong tùng tâm tâm 061 coorg pi
FY 167217 jie4 - giới sua quai 082 qua Ít # 167⁄218 wo — ngã phiết phiết 004 ngay hi ‡b 1674219 chao sao thủ — thủ: 084 Lhieeur ah Hf 1674220 kane4 kháng thủ thủi 064 cang sp FE 1674221 douÄ — đầu thủ — thủi 6064 ddaaue qj
j# 16222 Ji4 kĩ thủ thal 064 chỉ qe
$e 1071223 fu2 — phù tho = thal = «064 phu ap
PR 167+224 jue2 quyết thủ thủ] 064 quyeets qk
48 167+225 niu3 niu thủ thỏi 064 swur ag
Trang 36ŸM yam B=
_# §H#XW