1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bước đầu ứng dụng tin học để bảo tồn và khai thác thư tịch cổ việt nam

36 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

ĐỀ TÀI KHOA HỌC CẤP NHÀ NƯỚC GIA! DOAN 1991 - 1985

De tai:

BUOC DAU

UNG DUNG TIN HOC

DE BAO TON VA KHALI THẤC THƯ TỊCH CỔ VIỆT NAM

` (TIN HOC HAN NOM)

kee

MASG

CHỦ NHTEM : NCV, NGO THE TONG

CĨ QUAN — : VIÊN NGHIÊN CỨU HÁN NOM LRUNG TÂM KHOA HỌC XÃ HỘI

VÀ NHÂN VĂN QUỐC GIÁ

1£/11/4

Trang 2

IL MI 1V VỊ, VI VI 1X 1 1 Nv VỊ, I thờ im > - Phương án tạo hộ MỤC LỰC MỞ ĐẦU Xuất xí đề nh cấp thiết của đề thí Khả năng thực thị Mục tiêu đỀ tà Noi dung nl

Phương pháp nghiên cứu cù Kết quả cân phải dạt

Khả năng ứng dụng thực tế Hiệu quả kính tế văn hố

CHUONG | DAG DIEM CUA THU f1GH GỖ VÀ CHU VIET CO VIET NAM

- Thu tịch cổ chứa đựng vốn văn hố truyền thống quí giá của dân tộc ta Thực trạng hiện nay của kho Đặc thù Đặc thù về yêu cầu hào lưu, khai thác bằng tín học Kết luận CHUONG It, MA HOA VA THE HIEN CHU NOM TREN MAY TINH Các thể chữ Hán và chữ Nơm lữ Nơm diện từ Mã hố chủ Nom

Ban phim soạn thảo văn hàn Hán Nơm

Ghép chữ Quốc ngít vào hệ soạn thảo văn bản Hân Nom Kết luận

CHUONG Ill NGAN HANG DU LIEU HAN NOM

Sự tương thích với các hệ phần mềm của ngân hàng dũ liệu

“Thuật giải tìm kiếm, ứng dụng vào một ngàn hàng dĩ liệu Hán Nơm Vi dụ áp cụng thuật giải xây dụng tệp quản ý văn khắc Hán Nơm Quản lý ảnh thư tịch Hán Nom

Trang 3

A

BAO CÁO TONG KET DE TAL "BƯỚC ĐẦU ỨNG DỤNG TIN HOC

DE BAO TỔN VÀ KHAI THAC DI SAN THU TỊCH CỔ VIET NAAT" [ TIN HỌC HÁN NƠM ]

CHƯƠNG MỞ ĐẦU

1 XUẤT XÚ CỦA ĐỂ TÀI :

- Viên nghiên sứu ¡án Nởm là một cơ quan nghiền cứu khoa hoc thuệc khối nghiên cứu Khoa học xá hội và nhân văn Viện cĩ chức nàng sưụ tấm, bảo quân và khai thác các đi sắ: thư tịch cổ cịn lại trên phạm vị cả nước

đủ khí thành lấp tới nay, Viện tiên hành các cơng tác sưu tim, quản lí,

khai thác theo phương pháp truyền thong, để cung cấp tư liêu cho các ngành

nghiền cứu khe học xã hội, nhưng với lao đơng thủ cơng, hiệu đả và chả

lượng các sản phẩm đưa ra cịn bị hàn chế do cĩ sư c lâm chạp, Jang phi MỊ

Số ngành khác trong nước cú nhu cầu sử dưng bộ ckữ tượng hình để ià ứa các Sách y học, và tử điển phục vụ giáo dục và khoa học, nhưng trong nước khơng cĩ nơi nàa nghiên cứu để đấp ứng, Trước tỉnh hình thức te đồi hải, ` cán bồ của Viên Hđán Nêm dã cùng với các chuyên viên am hiếu Tin hoe của các ngành khác rự nghiên cức tìm hiểu, với sự tre giúp của Rộ Khoa học cone nghệ và mỗi trường, và Chương trình Điện tứ Tâm học cấp Nhà rước C 0L đã đi tới xảy dựng thành một để tài nghiên cứu kooa hoc va XẺ hoạch, cĩ tổ chức 1I- TINH CAP THIET CUA DE TAL

l2 Khối di sin ma Wien Hin Nom cĩ trách nhiệm quản lí và khai thi: tài sản vẫn hố của đân tộc tản mạn Khấp nơi, rất cấp phải thu thấp,

quốn và khat thác để phục vụ đường lỐi xây dưng niến vàn 10ủ mới, nhưng vì nhigu li do, trong do li do quan trọng la thư tích được việt bang thi chu

tổ về di hộ phân được định hình tren giây gỗ (cellulose), để quá làu

trong ciểu kiện bãn quản kém lại đ người đoe đợc, nền dang bị hao mơn hưý hai, mất mất, và lăng quêm' Nếu Khong làm kíp thời thì sẽ xây ra ngày sơ mất mát di sản nghiêm trọng

2) La mot quốc gia cĩ vị trí quan trong trong kh vue Wong Nam Á nền văn

hod Mu dé của ta gắn bĩ với văn hố của Khu vực Sáu nhiều thập kỳ đấu

tranh giảnh được độc lặp, thống nhết và giải phĩng Tổ quốc, nước ta bước

vào “hời kì canh tân mĩ của đổ giáo lưu và xảy dụng Trao đĩi thơng tin ;ä

một đùn bây quan trọng hồ trụ cho sự nghiệp phát triển của mọi quốc gia É vêO lắc nước ia cẩu cũ các cơng cụ giao lưu với khu vực, thì là bị hàng rào cấm vận ngân căn sự du n¡ập các cơng nghệ mũi nhơn Chính vị Hage Sheng ngudi làm Khoa hoc của Việt Nam phải "tự thân vận động" tìm

hiểu mặt Kĩ thuật của tơng nghệ này để khỏi bị tụt hâu goa xa wii thé i

) Ngoai nhiing van dé ed tin chét toần quốc như trên xét vẻ ng lực ol gl chuyến gia, và đổi trọng cẩn giải quyết, để tài sả tập hợp, huy Hong rịng rãi cán bỏ thuộc các ngành khác nhau, nên sản được quan iam ở

cẩn độ quốc gia

Trang 4

IH- KHẢ NĂNG THỤỰC THỊ

Nhin tng quit, dưới con mất của Tỉ: học, tất of các cơng viec nghiên cứu của Viên đểu cĩ thể qui về hai thao tác chính là " VÀO và RA "

{ INEUT và OUTPUT) của Ti học, nhưng dạng thức dữ liệu của "dâu vào" và “dau ra' cĩ nhiều chủng loại và cấp độ khác nhau, cần cĩ sự phối-hợp của

chuyên gia ngành ngữ văn (Hán Nom) va chuyên gia Tin học thì sẽ dân dén giải quyết được Tin học phi fatin (non-latin)

thành, và đạt mội số thành tựu, ta đi sâu, cĩ thể tt

và kinh nghiệm của người đi trước Thêm nda, những diéu ta mong muon làm cũng gần giống điểu mong muốn của các nhà nghiên cúu khoa học xã hỏi trên thể giới mà nhiều chuyên gia Khoa học Việt Nam đi ra nước ngồi

trau đổi đã từng biết ngũ trong nước ít nhiều cũng đã cd, Mi-cdc le trên, chúng tơi cho rằng để tài này cĩ tình khả thi thể giới mới hình n thu những thành tựu

TV- MỤC TIẾT: CỦA ĐỂ TÀI:

Xay dung co sơ ban đấu cho việc du nhấp và phát triển cơng nghệ tin học phí laiiuh ở Việt nam, eu thé:

i- Trang bị một e2 sở nghiên cứu ứng dụng tin học chuyên xử lí kỉ tụ tượng hình ở Việt Nam, đào tao đội ngũ cán bộ ban đầu cao việc này 2- Nghiên cửu dua chi Han,

chi Nom vio máy tính để soan thảu, ic ấn,

quan fi cing voi cha Viet hier dai

NOI DUNG NitFEM VU CUa DE TAL

tC Nghien cau dng dung x Ii van ban chy Han, ch Nom trên phương tiện

tin học ở Viết Nam

2- Bước đấu tin hoc hố cơng tác nghiên cửu vàn bản cổ Việt Nam

â- Đào tạo đội ngũ cáu bộ cĩ khả nàng lâm viếc chuyên xử E văn bản chữ

tượng hình

VI-PHƯƠNG PHÁP NGHIÊN CỨU CỦA ĐỂ TÀI;

- Kết hợp nghiên cúu cơ bản về văn từ Hán Nơm, với nghiên cứu cơ bản

về tin học, tiến thu kinh nghiệm và thành quả của thể giới Hẹp tác với

quốc tế để giải quyết những vấn để củn thiết,

VH- KẾT QUÁ CẨN PHẢI ĐẠT :

1) Sử dụng và cải tiến tiến phẩn mềm đánh chữ Hán trên máy tính,

2) Đưa chủ Nom cia Viet Nam vào kho từ vụng trong máy Lập trình để Soạn thảo và ín ẩn các joại chữ tượng hình (Hán + Nơm) cùng với chữ Việt hiện đại, tạ thành cơng cụ phần mềm cho các ứng dụng,

3) Bước đầu tin học hố cơng tác nghiên cứu văn bản cổ Viết Nam ; dua các nội dung thư tịch vào máy để quản lí và khai thác,

Trang 5

Vill- KHA NANG UNG DUNG THUC TE;

~ Trude mit : ung dụng để soạn thảo và lưu trữ các văn bản chứ Hản, chủ Nom ~ Tuong lai: mé réng ra cde vay dung Kae ngodi viee scan 1 1X- HIỆU QUÁ RINH TẾ, VĂN HỐ :

1) Đáp ứng nhủ cầu ín ấn phẩm cẩn eé chử Hán chit Nom thơng thường phục vụ phát triển văn hố, khoa học và giáo duc, của trọng nước, khơng phải đem ra nước ngồi thuê

2) Mở ra khả năng chia xế, khai thác nguồn thĩng tin của thể giới ghi bảng chứ tượng hình phục vụ phụ cầu tao đổi kinh tế và văn hố với các nước " đồng văn " trạng khu vực,

3) Mở ra khả năng hợp tác quốc tế về phát triển cơng nghệ thơng tin

với các nước này,

Trang 6

CHƯƠNG I

DAC DIEM CUA THU TICH C6 VA CHU vier CỔ VIỆT NAM

1)» Thr tich cổ chứa đựng vốn văn hod truyén thống quý giá của dân tộc ta :

lệt Nam là đi sản của một nến văn hố ban dia

phát triển trắt hàng ngàn nêm, từng chíu ảnh hưởng của 3 nên vši hơi hin của thể giới đã cĩ chữ viết là Trung Hoa, Ấn Độ, Á-rân, cho nến chữ viết để lại trên thư tịch cổ của ta tới nay gồm 3 lnại là chứ Nêm (Nơm của người

Kinh, Nom Tay, Nơm Dao), chủ Thái, chữ Khøme và chứ Chùm Tuy nhiên chủ Hán và chứ Nom là loại thư tịch chiếm lÿ trong lớn nhất

Nội dùng thư tịch chứa những giá trị tỉnh thẩn cao quý vẻ đạo lí làm

người, nhúng tr liêu về trì thức, kinh nghiệu đơàu kết xảy dựng và quản lý đất nước của tổ tiên ta Tổng số thư tịch sẽ là kho "chúng từ gốc" vẻ chủ

quyển đất nước của cơng đồng các dân tộc Việt Nam

~ Vừa qua thể giới cơng nhận một số danh nhân vất: hố của dân tĩc tú đã cĩ cổng hiến tích cực với nền van hố nhản loaj như Nguyễn Iu, Nguyễn Trãi, Hổ Chí Minh Điểu đáng cné ý là

tác phẩm hay nhất của các vị ây sảng

tác bằng chữ Việt (Nơm và Quốc ngữ) Bằng sử liệu tử trong kho thư tịch rẻ, chúng tu dã chứng minh cho thế giới thấy rêng chủ nghĩa nhân đạo Việt Nam rất cau: từ cách đây 50U năm người Việt Nam đã tha bồng 10 van hàng binh:

vit “trai chiếu hoa" cbo đồn quản bại tị

tung gây rấi nhiều tội ác với đân tạ

n rút về nước, mặc đấu chúng đã

= Thư tịch cổ cũng chứng minh rằng: các đân tốc thiểu số ỏ nước :ø luơn tham gié lịch cực vào cơng cuộc bảo vệ biên cương trong thời kì hồ bình,

và đồn kết chặt chế với người Kinh chiến đấn chống các cuộc xâm lược từ bên ngồi

- JTuyển thống ham hoc boi, tự lực lự cường, tương thân tưởng ái trong

lãng xĩm và cơng đồng cử đân được phi lại rất nhiều trên bi kỉ

~ Rất nhiều tên đất Việt Nam được ghi chép bằng chữ Nơm trong bi ki va

sách về,

{ Hàng ngàn mốc giới điển cau, trong bản đổ cĩ tên gọi kiểu Âu như

Béatrice, Hélene, Blisabete ma người Phép đã đổi đầt trong thời gián họ tạm chiếm, thì gần đây Nhà nước ta đã đổi lại để khẳng định chủ quyếi

bảo vệ tính dân tộc của các tên đất đĩ)

e nghiên cho biết 80% chữ Nơm Tày là mượn tử chữ Nâm của người Kinh, và rất nhiều truyện thơ Nom đã tùng fam say mé bao thé bệ người Viết như Tống Tran Cúc Hoa, Phạm Tải Ngoc Họa, Truyền Kiểu, Thạch Sanh đã được địch ra thơ chứ Thái Điều đĩ chứng tơ : từ lúc chưa cĩ `

chủ Quốc ngữ thì tểng Việt, va do dé cht Nom [ cong cụ giao tiếp chung,

Trang 7

+ be

- Với những truyền thống tất đẹp kể trên nếu được phát huy và bổi dưỡng, nhất định đân tộc ta sẽ vượt qna được mọi thử thách để tiến lên, và sẽ cĩ vi trí xứng đáng trong nên văn mình cỏa nhân loại

2- Thực trạng hiện nay của kho đi sản thư tịch cổ :

Hiện nay, Viện Hán Nơm thực hiện nhiệm vụ được Nhà Nước giao cho: tiếp

tục sưu tầm, bảo quản và khai thắc khối di sản đĩ Những cái ngày nay cịn

giớ được chỉ là một phẩn rất nhỏ cịn sĩt lại của quá trình huỷ hoại do n nhiên, đơ con người cố ý hoặc " vơ ý" lãng quên

= Trong lịch sử, nhiều lẩn tài sản văn hố chứ viết của nước ta đã bị

huỷ boại: thời Trấn, người Chiếm Thành đã sào đốt phá sinh thanh Thang _ Lang, sách vỏ ra tro ¡ sau kbi nhà Hồ bị thất bại vua Minh Thành Tổ ra

lệnh phả huỷ hết vạch mọi hiện và: mang chữ," khơng được để sốt lai một chữ nào"; các cuộc nội chiến thời Lê thời Mạc đã bao lên thiếu huỳ cung điện, kho sách, và " sách vũ hị vt đẩy đường phổ

~ Đến thửi cân đại, vì ngườ: ta mài theo Tây học, khơng

niên đem bản chủ người phất quat, làm khuơn đúc nội, vào làm bội giây; Dịa để thì đập phá để nung vơi làm cổi , bắc cẩu ao

Nha nude tạ rất chú ý

bảo tổn và phát huy nhũng di sản văn hố của dân

tĩc Đã cĩ những chính sách cụ thể Nhưng Ở một số nơi vẫn cịn những hiên

tương vỏ ý thức phá huỷ di tích lịch sử, di val mang cht hoặc do thiên tạ, địch boạ, sở di sản cịn chưa thu thập vẫn tiếp tục bj hao mon, md:

mat

De vậy, yêu cầu củp bách dạ: ra Íà phải sưu tẩm những văn bản tản mát,

rải rác ở nhiều nơi, tập trung về một chỗ để bảo vệ giám định và khai thúc

Cơng viếc đĩ đối hổi kinh phí lớn, và nếu chỉ làm bảng sức lao động thủ cơng như trước, thì khịng biết tới bao giờ mới xong, trong khí đĩ hiện

tương mất mắt cứ hàng ngày hàng giờ điền ra Một yêu cầu cần cấp nữa là

phải nhân bản những văn bản đã sưu tẩm duoc dem bảo quản ở nhiều nơi mơi mật để tao điểu kiên thuận lợi cho người nghiên cửu, khai thác, khơng phải

trực tiếp cấm vào hiên vật nhằm kếo dài tuổi thọ của nguyên bản, (vì

chủng đếu là giấy mơng): một khác để để phịng tai hoa xảy ra, mất nơi này, thi nơi khác vấn cịn Những việc trên đểu thuộc khả năng của cơng nghệ thơng tin cĩ thể hỗ trợ giải quyết « 3 - Dặc thù của chữ Hán trong thư tịch + Nam +

Chữ Hán được dùng khá nhiễu trong các thư tịch cổ Việt Nam, nhiều chữ Hán được mượn dùng nguyên xi làm chữ Nơm Chit Nom thuộc cừng một loại

với chứ Hần, nhưng khơng phải chỉ là chữ Háa

~ Người Việt Nam xưa khơng xác định ring ho chi ding mot pin mio cia chữ Háu để làm chữ Nơm, mà lấy tất cả những chứ cĩ thể lấy, ngồi ra, chủ nào chưa cĩ thì vẽ thêm, Vì vậy mà kho chứ Nơm tuy cĩ báo gồm nhiều chữ Hán, nhưng khơng phải chỉ cĩ chữ Hián là đủ Hiện nay khơng một phin mém chữ Hán nhập ngoại nào cĩ đủ số chữ cần thiết cho vie bin Han Nơm (Tổng số chit Nom hiện chưa sưu tẩm hết, đã cĩ tối 6000 mặt chứ mới cẩn về thêm)

Trang 8

s6

T3à đã biết chứ Hân, nhưng các nhà khoa học đến phải học thêm chữ Nơm thì mới hiểu được văn bản cổ của Việt Nam, bởi vì hàng vạn các chữ tượng hình trong văn bản đã được dùng với tự cách là chữ Nơm, phải hiểu theo nghĩa

Nam

~ Tuy đơi với quốc gia ta hiện nay chứ Hán khơng cịn được dùng tùm cơng cụ giao tế chính thức và quan trọng như thời trước, nhưng 6 tong auc vùng đồng bào gốc Hoa, hay ở một số quốc gia lắng giếng với tạ,,Chứ Hián

vẫn cịn là một cơng cụ giao tiếp Vì vậy, ta cẩn phát triển cơng cụ này để khi cẩn cú thể sử dụng phục vụ việc trao đổi văn hố và kinh tế với một số nước trong khu vực, tuy sổ quốc gia khơng nhiều nhưng sổ đãn lại chiếm tới

1/3 thế giới, vừa cĩ nhiều điểm tương đồng với ta, vừa cĩ thể là bạn hang

và thị trường lớn của tạ

4) Đặc thù về yêu cẩu bảo lưu, khai thác băng tin học :

Để cĩ thể đem sức mạnh của Tín học phuc vụ nghiên cúu, khai thác các

tài liệu ghỉ bằng chữ Hán, chi? Nom, trong tình hình hiện nay, cẩn chú trọng

vào 2 vấn để sau đây

s/- Vấn để mã chứ và hình chữ :

~- Muốn dimg máy tính đễ xử lí, nghiên cứu văn bản Hún Nơm thì phải thể hiến được chữ Hán và chit Nom trong máy únh ( vàn bản Việt Nam cĩ nhiều tên người, tên đất bảng chứ Nơm, vì vậy ngồi chủ Hán, phải vẽ chữ Nêm)

- Các chữ Nâm vẽ thêm phải cồng cớ với chứ Hán cĩ sẵn trong khĩ, vì chúng thường được đùng xen lẫn với nhau,

~ Muốn bảo về về khai thác lâu đài di sản văn hố của đân tộc, và giới

thiệu với quốc tế, chứ Nơm phải tham gia vào bảng mn chuẩn quốc tế để được

tơn trọng, đành chỗ Trình độ thơng tin của quốc tế cũng khơng như trước nữa

bi- VỀ mặt tầng thư, lưu trấ +

- Trên cơ sử các cơng cụ xây dựng được, phải xây dựng Ngân hàng dữ liệu

Han Nom dé quan lí cà hiện vật, cÁ nội dung, đồng thời lưu trú, tìm kiểm và khai-thác theo phương pháp hiện đai{Ngân bàng sẽ gồm nội dịng thư tịch Han Nom và các bộ cơng cụ dạng điện tốn, bảng tra tham khảo, phục vụ việc khai thắc đi sản đĩ.) ~ Phải cĩ cách luu trữ ảnh chụp nguyên bản để bảo lưu đi sản như báo vệ các "chứng từ gốc" 5) Kết luận chương :

Di sản thư tịch cổ cĩ nhiều loại chữ, nhưng chu [lan va chit Nom chiếm tỷ lẽ lớn nhất và cẩn giải quyết trước, Việc nảo vệ di sản thư tịch cổ để bảo vẹ vốn vàn hố truyền thống là cấp bách

Hải việc vẽ chứ Nơm và xây dựng Ngân hàng đỡ liệu là 2 việc cơ bản cẩn lam trong bude dau ing dung Tin ho

Một điều lưu ý là : dây là lấn đầu Tin hoc đước ứ xã hội Ấp đụng một cơng nghệ mới bao giờ

niệp đá quen làm việc với phong cách củ

sụ mới cẩn dưa vào đẩn đẩn, phải dé sử dụng, mí

g đụng vào Khoa hoe ũng khĩ khăn, lớp cần bộ trung

được đào tạo lại những sơng

Ĩ sự giao tiếp thên thiên giữa về người, đến mức "trong suốt" đối với người dùng Đĩ là những việc khĩ

Trang 9

ofa

CHƯƠNG H

MÃ HỐ VÀ THỂ HIỆN CHỮ NỊM TRÊN MÁY TÍNH

[ Chương này cĩ 5 tiết nhỏ như sau :

1~Các thể chữ Hán và chứ Nơm

2-Phương án tạo bộ chớ Nơm điện tử 3-Mã hố chữ Nơm

4- Bàn phím suạn thảo văn bản Hán Nơm

§-Ghếp chữ Quốc ngữ vàu hệ soạn thảo văn bản Hán nơm

6-Kết luận chương.]

1/-CÁC THẺ CHỮ HÁN VÀ CHỮ NƠM

Lịch sử phát triển của các thể chứ Hán trên sơ sở chữ tượng hình Ở

Trung Quốc trải qua hàng nghìn với nhiều cách viết khác nhau Cho đến nay cĩ thể khái quát thành 4 thể chính là Chân thể, Thửo thể, Triện thể và Lệ thể Trên cơ sở 4 thể chính này đã nảy sinh ra nhiểu thể phụ như: kiấc thể, phỏng Tống thể, Hành khải thể vv (Xem hình 1) Đại đa số các văn bản viết bằng bút lịng đều cĩ thể qui về Khi hoặc tương tự : Minh thể ;

Lê thể thường thấy trong các van bản cĩ tính chất bat doa, thi boa, Cac đấu ẩn thường ding thé rien

Tuy nhiên cĩ thể thấy rằng kể từ khi việc ăn oat trở thành cơng nghệ in ẩn xếp chữ chì và đặc biệt là sau Ngũ Tứ vận động thì các sách vỡ, nội dung văn bản quan tụng, dom tir giao dich „úểu sử dụng, cho TA

viết hơn so với thể Lê thư ;cịn vẻ như diện kĩ thuật đúc chữ hoặc khắc chứ cĩ lẽ đúc chữ Minh thể dễ dịng và tiên lợi hơn chữ Khải vì trong việc tạo Khuơngtạo nếtngười ta ít phải mất cơng trau chuốt những đường cong lượn nhỏ tỉnh ví Điểu này cũng giống với văn tự Quốc ngữ : các trang văn ban dem in người ta ít dùng kiểu chữ viết tay, tuy rằng nhìn kiểu chữ này

đẹp hơn, mềm mại hơn, Về mật thể hiện thì Minh thể khơng những vẫn dâm bảo

cấc nét và đắng điện gấn với

viết bằng hút lơng từ nghìn đời mà cồn # (bàng ngang cột dọc) trên tồn hộ vã bản Những người thợ khắc gỗ thì cầm thấy dễ khắc chứ Minh thể hơn là chứ

Khải thể, trang khi đĩ aig, búi lắng viết chữ Minh thể lại quá khĩ khăn vì

chữ Khải thì thật là thuận Gen

trong thời kỉ Pháp thuộc (Bia cơng đức, văn tự điển thể các làng

đều thể hiện thea dang thể Khải và các thể tương tự, mặc dù thời kì đĩ người Việt Nam đã biết tới thể Minh thể đang thỉnh hành ở Trung Quốc Sung điểu co bản là các văn ban Han Nom ở ta nầu hết là số lượng nhàn ban ít,

chưa cẩn tới một cơng nghệ ín ấn đúc chứ chì sản xuất hàng loạt như ở Trung Quốc Như vậy cĩ thể thấy nét khác biệt co bản trong việc xuất bản các vàn tự ở Trung Quốc và các văn tụ Hán Nơm ở Việt Nam là: Các văn tự cú Trung Quốc đã chuyển từ ín giấy giĩ, in khắc gỗ sang dúc chứ chì: cịn

văn ban Han Nom của ta cho đến nay

Trang 10

aR

2/-PHƯƠNG ÁN TẠO BỘ CHỮ NƠM ĐIỆN TH

Thập kỉ cuối cùng của thế kỈ 20 này tiến bộ kĩ thuật thế giới được

đánh đấu bang một cuộc cách mạng vĩ đại trong ngành in ấn: đố là việc

chuyển từ cơng nghệ xếp chứ chì sang cơng nghệ xếp chứ điện tử Mộ: danh

mục nghề nghiệp - nghé xếp chứ chì - rất độc hại đã sớm cướp đi tuổi đời,

tuổi nghề của mấy thế hệ người lao động cha truyển con nối mà các Khoa học

về bảo hộ lao dộng tiên tiến nhất mới cách đây vài ba năm cịn gian khổ Gm biện pháp chống nhiễm độc cho ngành inathì đến ay đã bị xố số „Ngành ín ở các nước sà cả ở Việt Nam đã rất nhanh chĩng chuyển từ cơng nghệ đúc chứ chì sang cơng nghệ "đúc chứ điên tủ” Chính trong hồn cảnh này, đổi với thể hiện in ấn chứ Nom, sé that là điên rổ nếu như cĩ ý định thu lại đồng chì cũ để bất dầu dic chit Nom chỉ Con đường đã vạch ra rõ ràng

la: ch Nom cia ống bà ta sẽ phải bỏ qua giai đoạn đúc chứ chì mà tỉ thẳng tử chế độ in vấn khác gỗ lén việc "dúc chữ điện tử"

Như đã nêu trên, chứ Nơm trong các văn bản Hán Nơm đe số là chữ Khải

thư (kiểu chữ viết bút lơng), do đĩ cơng việc định thể cho chữ Nơm trong

khuơn khổ để tài này được dat ra la kin dau tiên, Để bảo đảm cho việc un ấn tải hiên tốt rác vấn bản và để đăng cho việc làm chữ diện tử, ngay từ

đầu để tài đã chọn thể Minh thể để thể hiện chư Nơm,

Như vậy bộ chữ Nơm điện tử đầu tiền của nước ta sẻ cĩ dang Minh thé

Chúng tơi thấy cẩn phải nhãn mạnh rằng cụm từ "Chữ Nơm điện tử” nều ra ở đây khơng phải là ngẫu nhiên tùy tiện lý do là vì đây là lẫn đẩu tien chúng ta tạo ra một bộ chữ Nĩm để đành cho việc in ẩn hàng loạt Thời điểm tiến hành tạo chữ lụi điển ra trong thập kỷ hế mạc ngành đúc chử chì, do đĩ việc tạo chữ Nơm hiện nay khơng cĩ cứ may được kế thừa kinh nghiệm đúc chữ Nưm chì mà vốn dĩ là khơng cĩ Như vậy là chỉ cĩ chế tạa chữ Nam ma cy

thể là chữ Nơm điện tử chứ khơng cĩ việc chế tạo chữ Nơm chỉ

Cấn tạo chữ Nom của tả dựa trên cờ sử ghép các bộ, cụm chữ Hán Vì vậy để tú đã dùng phơog chữ Minh thể cúa hệ ÿ thiên gồm hơn 13000 chữ Hán để tạo chữ Nơm Dể lào đâm nhn cẩu thể hiện trên đàn hình và in ra mấy in phải vẽ 2 phơng chữ Nom dang bitmap co 15x15 {dùng cho màn hình) và cớ 24x24 (dùng cho máy im) Các bước tiến hành vẽ font 24 là như sau:

1-Phân tích các radical tạo thành chứ Nơm

2-Xác định các bộ, cụm, thành tố co bản của chữ Hán cĩ thể ghép thêm để

Tạo thành rừng chữ Nơm hồn chỉnh

3-Ghép các bộ, cụm, thành tố của một hay nhiều chứ Hán để tạo thùnh từng ch? Nom Như vậy sơ đổ khối để tạo 1 chứ Nơm là như sau:

( xem sơ đổ khối ở hình vẽ 2_ }

Bướ 1 và bước 2 hồn tồn phải làm trén giấy bút với tư duy của con người (đây là giai đoạn trước máy vì máy tính khơng cĩ khả nang trợ giúp

các nghiên cứu viên phải cĩ kình nghiệm và hiểu biết cả về Hán lẫn Nom để xác định radical chính sẽ sử dụng) Các bước tiếp theo cĩ thể đùng chương trình tự động hố từng p5ẩn (cĩ kết hợp sử dung con tố và hàn phim trong việc xâm hình chứ, tỉa sửa các nét chưa vừa ý}

Chương trình vẽ font 24 là chương trình cơ bản để hồn thành nhiệm

Trang 11

9-

Quá trình nghiên cứu ïỉ mỉ cấu woe fort 24 nay dB cho phép dé tai trực tiếp can thiệp thẳng tới các thành tố của từng chữ lián (Xác định vị trí

sửa chứ đĩ trong font để truy nhập, trích từng nưành hoặc copy ra màn hình

cả chú) để cất sửa và lắp ghép, tạo thành một chứ Nơm

Hình số 3 nêu một ví du về việc tạo chữ Nơm từ hai thành tổ chứ Hún

~ Nhìn vào hình vẽ này mà phản tích ta thấy: ie #

ca Nom BEF (mối) được hợp thành tù chữ Trùng, XS và chữ A Midi

Nhưng

từ mảnh ch 1⁄2 ma trận,

Qua kinh nghiệm sử dụng và phản tích thấy rầng nên Jay chd Trang 1/3

ghép với chữ Mỗi 2/3 la via dep

( Cae hình 4, 5, 6 Ja phin DEMO ce ban cha ede bude ghép cae Radical, stra font chứ và kiếm tra font chủ trên mấy tink.)

ứ Trằng to bay Trùng bé (lấy từ mảnh chiếm 1/2 ma trận Bay 1/4 ma trân ?) Chủ Mỗi Hỹ từ MỖI 3/3 m trận hay lấy từ

Đi với font 15, vì đã số lont 24 nèn dé đấy nhanh lốc độ vẽ font, để từi là sử dụng một thủ thuật sáng tạo là sửa chứa từ font 24 bảng một

biện pháp được gọi là phương pháp 'tút mành fonL 24.Chương trình tra so Độ font 15 bằng phương pháp rút mành nĩi trên (Phụ lục ) đã cho phép tac được một bộ font 15 nhấp, tuy khơng gọn đẹp, song văn bảo đảm hình dạng "hao hao" của một chữ Nơm cĩ thể nhận biết được trên mãn hình Một chương trình sửa fent Lễ (Phụ lục _.)đưa các chữ đĩ phĩng te ra mân hình và cho

phép các nghiên cứu viên sử dụng cou Đỏ, ban phim để tín sửa từng chứ đã

vẽ,nháp đĩ Cách làm này cĩ thuận ¿ợi hơn là vẽ tồn điện một chứ trên một

ma trần trơng rỗng, chữa cĩ một nét phác thảo sơ bộ làm chỗ dựa,

Phương pháp "Rút mãnh font 24" được nêu ở phụ lục Số 3/- MÃ HỐ CHỮ NĨM Như đã nêu rrên, hang ÿ Thiên xếp 13994 chứ Hán vào vùng mã 2 byte như sa: 1, vùng tù A440 đến C67E cĩ 5401 chứ 2, vùng tử C940 đến F9D$ cĩ 7652 chữ 3, Vùng từ F91236 đến F9FE cĩ 4l chữ

vùng mã từ 8140 đến AOFE là các doạn trống và cĩ thể chứa hơn 500) thêm vào Để tài đã gin cde ma cia ving trong nay cho si chi Nom được tạo Trật tự gắn mã được cơn nhắc theo 3 phương

J, Theo số nết (từ ít tối nhiều)

2, Theo bộ, cụm (giống cách chía bộ thủ của chứ Hán),

3, Theo vấn chữ quốc ngữ (đủ phát âm của Việt nam mà thành)

Trang 12

~10-

chất vấn đế này đã nãy sinh và việc giải quyết là khơng đơn giản

Nếu như chúng ta chế mới hồn tồn hộ chữ Hến & Nơm thì việc gần má cho từng chữ Hán và chữ Nom sẽ hồn tồn da ta bố trí Song vì thứ nhất là

khuơn khổ và kinh phí để tài cĩ han, thú hai là văn tự Nom của ta sẽ phải

hồ nhập trao đổi với các văn tư thưển Hán ở trong và ngồi nước, chính vì vay chiing ta đã thừa nhận cách gán mã của hệ Ý Thiên cho J3094 chữ Hán, Như

vậy để nghiên cứu phương án gần ma cho chit Nom để tài đã phải nghiên cứu

trất tự gần mã của người Trung Quốc

Khác với việc sắp xếp các ký tư 8 bít là theo vấn tiếng Anh ABCD việc

sấp xếp các chữ tượng hình 16 bịt thuộc vế khuơn khổ sắp xếp trật tự của mã 2 byte Sử dụng chương Irình tự viết để kiếm tra trật tự sắp xếp mã

byte theo thi ty tang din (ir A440 trở đị chúng tơi thấy chữ Hân được số xếp theo trật tự bộ thủ và số nét chứ khơng phải theo trật tự phát âm

Bang 1a trích 1 phần kết quả nghiên cu tat ty sap xếp chứ Hán do chương trình cung cấp

Từ sự phát hiện này, lúc đầu chúng tơi nghĩ rằng cĩ lễ việc sắp xếp chữ

Nơm của chúng ta cũng sẽ nên tuân theo cách sắp xếp chữ Hán là gọn hơn cả Nhưng nếu lam như vậy thì sẽ gây khĩ khăn cho việc xuất bản các tÈ điển Nêm - Quốc ngữ của ta sau này, bởi vì từ sau khi cĩ chứ Quốc ngữ, các từ

điển của ta thường xếp theo vấn quốc ngữ kể cả từ điển Hán Việt ( Ví dụ Từ n liắn Việt của Đào Duy Anb, Nguyễn Văn Khơn đếu sắp xếp theo

Quốc ngữ Các sách khác, nếu khơng xếp theo vấn quốc ngữ thì bọ cũng, cĩ J hãng tra Quốc ngữ kèm theo) Việc này đã thành mộ: :hối quen, thành truyền thơng sắp xếp trong các Thư viện ở Việt Nam Nếu then ám Quốc ngử

thì chữ, Số: (họ Ngơ) và chữ Z*ố, (cấy Ngơ) phật được sấp xếp cạnh nhau rất

dễ tim những nếu sắp xếp bỏ thủ, sẽ làm cho hai chữ này phải cách xa nhau hàng trăm trăng giấy

“Trang khi đĩ vì vùng chữ Nêm nằm riêng biệt khổi vùng chữ Hán nên cho dù nếu tuân theo cách sắp xếp của chứ Hán thì chữ nĩi én cing khong cĩ cách nào đứng liễn với nhau được,

Để dung hồ 2 giải pháp sắp xếp nêu trên và tìm lời thốt cho vấn để SORT cơ sở dữ liệu văn tự Hản Nơm: trong tương lại, để tài đã đi tới cách

giải quyết như sau:

Sắp xếp vùng chứ Nơm theo bộ tnủ vii cum (phương án 1)

Sắp xếp vững chữ Nơm theo phát âm Quốc ngứ (phương ấn 2)

- Tạo một đle DBF gồm tập hợp các chứ Hán và chữ Nơm theo các tường cụm, bộ, phát &n để giúp cho viếc SORT cơ sở dử liệu sau này

Với cách giải quyết này, để tài đã đảm bảo nhiệm vụ cơ bản cho việc SORT Cơ sở dể liệu Hán Nom ma khơng cẩn chú ý tới việc gán mã cụ thể chỉ cad Nom Cho dù trong tường lại cĩ thể UNICODE sẽ thay đổi vị trí tone bằng mã chữ Nêm hoặc các nhà ngơn ngữ bở sung them chit Nom thi vin dé SORT văn được đảm bảo chính xác Cĩ thể nĩi dây là một giải pháp rất hữu Liệu

của để tài nhằm đâm bảo cho kếi quả của để tài được ứng dụng nhanh chúng

ai

Tĩm lạt

Trang 13

xi»

214 bộ thủ của Trung Quốc Dựa vào trật tự này để người ta kiểm tra từng chữ của các nước đưa vào hệ thống mã chuẩn quốc tế, Cồn trật tự trình bài

và sử dụng của Việt Nam là vấn quốc ngữ của các chứ Nơm và chữ Hiền Trại tự trong font giành riêng cho chứ Mơm mới sưu tẩm là trật tự truy nhập ngấu nhiên FIFO Dé dung hồ và đáp ứng được 3 yếu cẩu trên, chúng tơi

tổ chức một hệ quản lí chú Nơm (với các chương trình tiện ích) phuc vụ

việc đĩ v

(Xin xem trong phụ bản số _4_— giới thiệu về hệ này.)

4i- BẦN PHÍM SOẠN THẢO VĂN RẤN HẤN NƠM

So với việc soạn (hảo văn bản Quốc ngữ trên máy tính thì vấn để lựa chọn một phương pháp soạn thảo văn bản Hán Nêm trên máy tính cĩ nhiều vấn để phải cứu xét Người Trung Quốc gọi vấn dé này là "Trung vận du nhập

pháp": đĩ là qui tắc phim cho hé soạn thảo chứ tượng bình

Chữ quốc ngữ của ta chỉ gồm các chứ cái latin ghép vấn lai với nhau

Song từ ? năm qua đã tổn tại và lưu bành tới hàng chục qui tắc bàn phím

của nhiều nhĩm tắc giả khác nhau, lun cho việc phổ cập tin học của tả nhiều lúc, nhiều nơi dã vấp phải nhứng khĩ khăn đáng kể Thực chất của sự "trăn trố" về qui tae ban phím tiếng Việt chỉ là ở chủ đặt các đấu tượng than những phường án khác nhau được nêu ra như "đánh đẩu trước, đánh dấu sau" (Hệ soạn thảo VnLab) "đánh chứ trước, bỏ đấu sau (Hệ sồn thảo VNI) và

‘Luy vay cho đến nay thì qui tắc bàn phím đánh theo mã điện 1n là được ta chuơng nhất Cĩ lẻ đây vẽ là gui tác tối ưu và là cuối cùng ch hệ soạn thấp tiếng Viet

Nĩi như vậy để thấ phải ngay từ đấu đã nhiều năm thử nghiệm

rằng tuy chi | vấn để đơn giản như vậy nhưng khơng

định được cách giải quyết tối ưu, mà phải trải qua

Về phía chữ tượng hình thì "Hang liệt du nhập pháp" được người Trung Hoa ra chuộng hơn cả, nhất là các nhân viên dánh máy Bản chất của "du nhập pháp" này là việc dùng các mổ số toạ độ của bàn phím tiếng Ảnh gán cho các thành tố của chữ Hán Khi đánh thì gõ phim đưa chữ ra cửa số ở đáy mịn hình, rối chọn chứ đặt vào "vãn bản" (trong máy) So với các "du nhập pháp" khác như "Chủ âm du nhập pháp", "Ihủ vĩ má du nhập pháp" v.v thì "Hàng, liệt du nhập pháp" bảo đảm tỷ lệ đơn trị cao, người soạn thảo chỉ phải lựa chụn mỗi lần một chứ trong số 4,5 chữ được đưa ra dưới dầy màn hình để đặt vàn văn bản Cịn các phương án kháctrung bình họ phải chon tới 25 chủ n tượng đổng mã (tức là lệ đơn trị của các phương ấn này thấp) Với cách phân tích như trên, ngày từ lúc đổu để tài đã cĩ toan tính xây

dựng qui tắc ban phim chứ Nơm :heo quy tốc Hàng liệt của người Trung Quốc vì đĩ là cách tân tiến hơn cả Tuy nhiên qua một thời gian thử nghiệm than dị của để thí về phương pháp này lại cho thấy kết quả ngược lai: nhiều em

lọc sinh hệ Trung văn và ngay cả những người làm cơng tác nghiên cúu cĩ liêu quan tối chữ Hán cũng cảm thấy "mệt mỏi" khi sử đụng phương pháp Hùng

liệt Như vậy cĩ thể kết bán được rằng phương pháp gắn mã Hàng liệt chỉ

Trang 14

-12-

“Chem vao dĩ sự arn hiểu vổ cách viết chữ Han của người Việt Nam Đình thường

và ngay cả 1 số nhà nghiên cứu cĩ kinh nghiệm Ta chug đẩy đủ, chưa cĩ thơi quen viết theo tự chuẩn mực, cho nên khi viết chữ lián thường xây ra Hien tượng viết “rải cựa" (Cách viết bằng bút trên giấy, dù cho cĩ

viết "trái cựa" đị nữa, người tạ vẫn cĩ thể tạo được chữ trên giấy, nhưng

dùng bàn phím máy tính, nếu "gõ trái cựa" sẽ khơng cho ta hình chữ mong muốn mà máy lại đưa ra những chủ khác hoặc máy báo rằng khơng sĩ chữ dy Bang

cho thấy kết quả của việc "gỗ chủ trếi của" qua ví dụ chữ Bè) nếu Số Theo mã thành (5 'ngồi trước trong sau’ <H?L>thi được chứ Phong, nếu

fo ma than w "trong trước ngồi sau '<l?H> thì khong 12 chữ Như vậy vấn để cịn lại là phải tan đụng phương pháp gỗ Telcx của hàn ấy,

phím chữ Việt để thể hiện chữ Nom Song vi cac vin bản khơng đơn thuần chỉ

Thứ Nĩm mà cịn thường cĩ cả chit Han lâu với chi Nom, vi vay cẩn phải lầm qui lắc bàn phím cho cả 1A094 chu Han mia Cong viée dược giải quyết theo 3 bước:

1 Làm theo qui tắc với bàn phin cho 3000 chế Nơm phổ biế:

2 Làm qui tác với bàn phim cho 7000 chữ Hán phổ biến trong van tự Liên Nẽm

3 Tổng hợp cả 2 qui

trên thành qui tắc bàn phím Han Nom

VỆ mặt kỳ thuật Tin học,cơng việc cân bản để tạo bàn phím đánh chữ

Han Nom là ở chỗ tạo lập một fle cĩ cấu trúc (file of record), fife này

được tài ngay vào từ đấu kbi khỏi dịng hệ soạn thảo Han Nơm, Các dn

hiệu nhập vào từ bàn phím sé tham chiếu tới file này để xác định tổ hợp mã,

2 byte của chứ, từ đây lại tham chiếu tiếp vào bơ font chữ Hán của hệ Ý

thiên và hộ Font chữ Nom cha dé tai tuo ra

Mặc dù về mặt kỹ thuật để xây dựng quy tắc bản phím chữ Nưm khơog phải

là cố phức tập, song ý tưởng xây dụng guy tắc Dan phím chữ Nom theo phuong én g6 telex Ja mot § trig Adc dao, rat phis hop vo! cong te soan thio Han Ném Uu diém ci qui tac ban phim nay 1a:

1 Rấi đề dùng, phù hợp với thối quer gỗ telex là phương án tiên đến mà người Việt hiện đại ưa đùng trong soạn thản bằng máy tính

2 SỐ chữ tượng hình bị trịng láp ít hơn hãn so với "chú âm đù nhập pháp" của Trung Quốc vì rằng phổ âm vị của Việt Nam rong hơn âm vì của Trang Quốc ( Việt Nam cĩ tán cùng m, cĩ phụ âm đ, cĩ 6 thanh, cịn Trung

Quấc khơng cĩ, vì vậy, nếu dùng tổng số âm Hán Việt để phân phổi cùng miệt

sổ lượng hình chứ Hân thì tỉ lệ số chứ Sng âm đưa ra cửa sẽ để lựa chọn

mỗi lấn sẽ dược giảm bốt }

3 Người khơng biết nĩi tiếng Trung Ĩ\ Trung Quốc, và khơng giỏi chứ Nịm ce

phiên âm và hiết so mẫu, nhất chữ

%, hoặc ngay cả khơng biểu chữ nh được văn bản nếu cĩ

§ị- GHÉP CHỮ QUỐC NGỮ VÀO HỆ SOẠN THẢO VĂN BẢN HAN NOM

Mác dù việc ghép chữ Viết vào hệ s áo van ban Han Nom chi ia mot

bước mở rộng của để tài, song ngày từ đầu để tài vẫn coi đầy là 1 nhiệm vụ cán phải hồn thành

Trang 15

-13-

Thực vậy, các vấn bia Hần Nơm cổ ra đời từ trước khi cĩ chứ Quốc ngữ do đĩ khơng hể tổn tại các hình thức ghép quốc ngữ với chit Han Nom Mat 86 văn bản Hán Nơm ra đời vào những ngày đấu của sự bành trướng của nr ba phương Tây vào Việt Nam (thí dụ như các văn bản trao đổi giữa tiểu Nguyi với các quan chức nước Pháp, hoặc các thương gia nước Anh ) thì việc ghép các văn tự tiếng Pháp, Anh (văn tự Latin) voi -chd tượng hình là khơng cĩ gì phải quan tâm, bởi vì theo bằng ASCH thì tất cả*tõ họp các

chữ lan với nhau khơng bể trùng với bất kỳ tổ hợp 2 byte của chữ tượng hình theo mã BIG-5,

Trong máy ứnh, hệ chứ Việt (Quốc ngữ) 8 bít ngồi "24 chữ

tiếng Anh sẵn cĩ trên bàn phim lại cĩ tới 134 kí tự mang dấu (dấu mũ và

dấu thanh) cần phải được gán mã thếm( tức là cẩn gianh thêm chỗ Các nhà Tin học Việt Ngữ đã tơn trọng bảng mã ASCI chuẩn, khơng cải biên, khơng sửa chứa gì vào các chữ cái ở đây(mặc dấu ở đồ cĩ vài kí tự ít đùng boặc nấu như khơng dùng tới trong Việt ngữ), sở đĩ như vậy la vì họ muốn tận dụng các mã kỉ Lự ấy trong soan thảo và trong điểu khiển máy ( để làm cá lệnh cho máy hiểu") Như vậy chỉ cịn vùng ASCII mổ rơng (cĩ mã từ 128 đến

255)là cĩ thể sử dụng để tạa chữ mới Vùng ấy lại chỉ cịn cĩ 128 vị trí mã,

do đĩ các nhĩm chuyên gia Tín bọc người Viết phải đã gần tất các cả các mâ ở vùng ASCH mở rộng cho chữ Việt (Đương nhiên họ phải bố tất cả các ký tư đổ họa) mà vẫn khơng đủ chỗ Vì vậy Diệt số hệ soan thảo chứ Việt đã phải bổ trí chủ Việt xâm phạm vào vùng má điểu khiển cĩ trị số nhỏ hơn 32 Trong trưởng hợp như vậy các hệ này chỉ đùng được trong một giới hạn rể: hẹp trong một hệ soạn thảo ván bản nhất định, hồn toim khơng cho phếp hồ nhập chữ Việt với chữ Hán Nơm, bởi vì luơn luơn xảy ra hiện tượng mội vấn ghép 2 kỹ tự tiếng Việt sẽ cĩ mã 2 byte trùng với 1 chữ tượng linh nào dấy,

Nếu như Driver màn hìmh chỉ phục vụ cho việc thể hiện chữ 2 byte thì rơ

vùng số khơng thể biện được chữ Việt đối với máy in cũng vậy, mặc đủ đế cĩ lont chữ Việt cho mền hình và cho mấy im

Sau khi xem xét tất cả các khả nàng nhúng chứ Việt vào bệ chữ Hián sẵn cĩ, chúng tơi thấy cĩ 3 hướng giải quyết như sau: 5

“1/- thiết kế lại phần mếm driver màn hình của hệ Ý Thiên để đảm bảu hiện đủ các vấn ghép tiếng Việt cĩ vị trí lớn bơn 128 wong bảng mã ASCH 2/- Tan bo Font chữ Việt 2 by

3/- Gán lai vj tri ASCII cho các chữ Viết cĩ đấu để đảm bảo cho các vin ghép tếng Việt khơng trùng với chữ Har 2 byte

Phương án thứ nhất chúng tơi loại bỏ ngay từ đấu vì lí do việc tạo một drwe màn hình đồi hỏi khả nbiểu cơng sức can thiệp vào hệ thống nhằm khiú

thác một đối tượng chưa hể biết Hơn nữa, cho dù cĩ dé cong site dé fins

bang được, thị chỉ giúp ích cho khả nang thé hiện, mà khơng giúp chư khả

ming nghiên cứu tiếp tục trong các bẻ cơ sở dữ liệu, mà điểu này mới là

căn hắn

Phương ấn thứ 2 cĩ lẽ hay hơn cả, vi trong tương lai, kho chữ điện tử quốc tế chắc chấn sẽ quản lí các mã 2 byte này là chính, Phương án này khá

dễ làm về mặt ,kĩ thuật, tiện cho cá việc thể hiện trén mãn kình và may in

“Thế nluang, cũng như phương án 1, phường án này khĩ đảm bảo cho việc đi vào

cơ sử dữ Hệu, hởi vì hảng chữ Viết chuẩn của chúng ta lại là chữ 8 hú

chứ khơng phải 16 bít

Trang 16

-14-

các chữ Việt cĩ dấu, Về thực chất cịa phương pháp này là xảy dựng một hộ *ASCI tiếng Việt nhằm đấm bảo trước hết các yêu cấu tối thiểu của để tài

t

- Hiện rõ chữ Nơm và chữ Quốc ngữ trên màn hình - In được ra các loại máy Ín

7 Bho đầm cho vấn để tìm kiếm dễ dàng trong các cơ sở dữ liệu Hán Nom Tuy nhiên, trong giai đoạn hiện nay, khi mà các vị trÌ trong pang ma

chuẩn quốc tế của cá chữ Nơm và cbứ Việt vẫn cịn chưa được xác định cụ thể,

thì bộ (ASCI chứ Việt mà để tài tạo ra chủ cĩ ý nghĩa lâm thời (vấn vì đụng được để hồ nhập với chứ Hảm, cũng là làm thời trong Khí mã, UNICODF Và HO chưa được phổ biến chính thức), vi vậy mà chúng tơi goi Đằng này là

bộ mà "Lâm thei 1", Song song voi việc biên tap bo ma Lam thời 1, để tài lộ làm sấn các chương trình dich ma (Convert) dé cho phép biến đổi mềm đếu từ hệ mã Lâm thời J sang các hệ mã khác như mã Chuẩn Quốc gia, mã Bked, mã

VNI mã 1SO nhằm dé dang cho việc xử lí các văn bản đã đưa vào máy tỉnh

bằng các hệ soạn thảo khác nhau,

6- KET LUAN CHUONG :

|e Dé tat di wo duce mot bộ cơng cụ vẽ chữ Nơm và gần mã chữ Nơm ding

trong khuơn khổ để tài và cĩ thể tiếp tục sử dụng cho bước triển khai ứng

dụng để tài (vẽ thèm chữ, và gán thêm mã)

2- Quy tốc soạn thảo bằng bàn phim theơ âm Hún Việt là hết sức thuận Déo cho người Viết sử dụng CỔ thể ứng dụng ngay từ báy giờ chương trình san

thảo này vn cổng việc khổng lồ của Viện là due tư Hệu bị kí sách Han

Nom vao Inu tris 6 dia từ

3- Số chit Nom da vé (hon 2000 chi) cia để tài chỉ là nhằm phục vụ cấp,

tốc cho hội nghị IRG-2 để quốc tế cơng nhận clr Nom của Việt Nam, là bước

đấu ứng dụng thể hiện chữ Nơm trên máy tính điện tử và phù hợp với yêu cầu để tài đất ra Dể tiếp tục bổ sung kho chữ điện tử nay cẩn phải sửa lai khá nhiều chữ, nhất là các chứ thuộc dạng ghép trái phải tỉ lệ rađiczl wai = 1/3, radical phai= 2/3

cĩ sự tham Khảo với các chuyên gia Hán Nơm vế dạng và nét bộ chủ Nơm điện tử đấu tiên này Bước này khơng cầu phải thực hiện trước khi tiên hành triển khai ứng dụng, vì quy tắc gắn má của đế tài đã hồn tồn cho pháp 2 việc nĩi trên cĩ thể tiến hành độc lập với nhau, khơng ai phải chữ ai

Trang 17

18-

CHƯƠNGH

NGAN HANG DU LIEU HAN NOM

1) SỰ TƯƠNG THÍCH VỚI CÁC HỆ PHẦN MEM Cia NGAN HANG Diy LIEV HAN NÊN

A ~ Với mục tiêu thơng tin bố kho dí sản Hĩn Nơm của Việt Nam là

chính, kết bợp chuẩn bị kiến thức và cơng cụ để cĩ thể chỉa vẻ khai :hấc

cguổn thơng Ho của thể giới ghi bằng chứ tượng hình và hình ảnh, để tài từng bước khảo sát nghiên cứu đặc thù của đối tượng mà mình cẩn quản lý và tìm hiểu các giải thuật khả dĩ áp dụng

những nghiên cứu lý luận về quản trị e1 số dữ liệu của Xơ cũ và gấn đây các hang phản mềm lớn của Mỹ đã cho ra địi các hệ quản tị dỡ liệu trên máy nhỏ Các hệ này càng ngày cồng được cải tiếu, như Dbase 2, IDpase 3, Dhase 4, Foxbase, Foxplus, Clipper, Rbas, Foxpro 1, Foxpro 2.x, Superbase, Paradox, Oracle, vv la những hệ cĩ thế đùng trên máy vi tính độc lập va sau, G6 din

đẩn chúng được cải tiến dùng trong mạng máy vi tính Tổ chức văn

hố giáo dục của liên bựp quốc(UNISCƠ) cũng cho ra đời hệ quản lý thu viện fe CDS/ISIS dễ sử dụng và " khơng phải trả tiến bản quyển ”

Qua nghiên cứu thực tế đối tượng kho sách Hún Nơm và tham khảo so sánh tính năng của các hệ quản trị dữ liệu, chúng tơi thấy như sau :

= Di lieu Tin Nêm bao gồm nhiều loi

pha các dồng họ và các đơn vị hành chính cĩ cấu trúc hình mỏ hình "phân cấp", sách vở bi ký chứa nhiều tư liệu cĩ thể vi tích ra các tếp cĩ cẩu trúc ứa đạng Mếu sử dụng ở mức thấp cĩ th mơ hình quan hệ " (1/1) để quản ly, nhưng lén rức cao thì nảy

" mơt nhiều "và "nhiều một " { ví dụ một cuốn sách cĩ nhiều tác giả, - một

tấm bia ghi tên nhiều người ) Ngồi ra việc quản lý cả kho sách cổ nếu đã thơng tin hố triệt để thì cĩ yêu cẩu chụp nguyên dạng tất củ các trang

sách đĩ để bảo tổn, ời sử dụng cẩn thể dọc ục Hiếp mọi trang trên máy tính Hiện nay dử liệu FoxPro 2.5 đùng trường kiểu GEN (general) dé chia cde dữ Héu Ảnh]

- Từ hồn lệt Nam (lúc để tài bất đấu cho tới hiện

nay) chỉ cĩ các máy nhỏ (thường là AT-286, nay cĩ 1 máy AT 386 chn AT-486 chưa cĩ), cơng tác phản tích dữ iiệu trước khí nhập máy mới làm được ít

Vì vậy, việc chọn hệ nào cho thich hợp với ứng dụng bước đầu, va tac điều kiên mổ rộng di sâu về sau là cẩn thiết Chúng tơi phải chọn một hệ

mềm đéo để sửa đổi cấu trúa, dễ bổ sung đử liệu, để khai tÌ dể sử đụng và lại rẻ tiền

- Sau Khi so sánh, khảo sát chúng tỏi đã chọn hệ FoxPro 2x làm hệ cơ dụng, Hệ này cĩ mấy ưu điểm nổi bật sau đây ¡

Trang 18

sim

©) FoxPro Luơn được cải tiến, cĩ kế thừa thành tựu cũ từ Dbase, Foxbasc và nâng cao lên dẩn Việc này làm che chỉ phí học tập, đào tạo đỡ tốn kém người sử dụng cĩ thể tự họ, nâng cao kiến thức lên đấn,

đ) Nĩ hứa hẹn cho phép lưu trử ảnh chụp sốc trang

lý kèm tiếng nĩi khi đưa vào Windows (version 2.5) đ) Ngơn ngữ lập trình dễ bọc, (các lớp đào tạo ở Việt Nam đều cĩ dụy hệ này) e) Cài đặt gà sử dụng khơng phức tập

Ä Việc "rất" dữ liệu qua hú từ hệ này với các hệ khác được thị

kế tốt do đĩ đâm bảo để đàng trong việc trao chuyển đứ liệu giữa cde he

quản trị dữ liêu ( ví dụ cĩ thể chuyển tài liệu qua hạ giữa FoxPro 2x với các hệ Lotus 12.3, Visical, Arees hofic Oracle, hoac CDS/ISIS)

Sơ với cáo hệ liển thấu của nĩ mà người Việ: Nam quen sử dụng như Dbase, Foxbase thủ đã cĩ những cải tiến rất rõ rệt như ;

- Tăng khả năng xứ lý và tìm kiếm trong trường memo (trudng memo

của FoxPre cĩ thể chia ra từng dịng, cĩ thể liệu trong đủ,

trong khỉ Foxbase thì khơng làm được như vậy)

~ Tiết kiệm vùng nhớ nhờ trường Memo được tổ chức theo kiểu mới: cần tối đâu cấp phát tới đỏ (ở Foxnase, mỗi xhi dung trường memo, thì hệ thống cấp phát tối thiểu là 512 byte, mặc cầu chỉ để ghí vài ký tự )

- Cĩ thể dưa ra mãn hình vài cửa sổ khác nhau, để người sử dụng được dọc nhiều trang tư liệu khác nhau trưc tiếp trên màn hình trịng mor lúc trong khí đĩ hệ CDS/ISIS chưa chờ phép thực hiện điều đĩ một cách dễ đăng

- Tốc dộ xử lí đã dược cải tiến rõ rệt nhờ áp dụng kỹ thuật Rhussnorc „ - Và điểu quan trọng là hiện nay để tài đã nghiên cứu dua duce cht Hán chữ Nom vao-trong EoxPro 20 bh Han Nom va xi

1/~ THUẬT GIẢI TÌM KIEM UNG DUNG VAO MOT NGAN HANG DU LIBU HAN Wor

[Vi du quản }i văn khắc Hán Nom ]

1/- Viện Hán Nơm cẩn quản lý hơn 2 vạn bản rập văn bia mà hiện vật (bía đá khắc chữ Hân Nám nằm rải rác ở các địa phương) Những hiệp vật là chứng từ gốc về văn hố Nội dung của chúng được in rập trên giấy mỏng đem về lưu trủ tại Viên Hán Nom, Các bản rập này vừa là đối tượng nghiên cúu

khai thác, vừa là tài liệu, là bản im của hiện vật trên giấy (cĩ thể gấp lại cha gor)

2/- Các nhà khoa học và quản lý thường cẩn tìm hiểu nội dung của

chúng (hoặc các địa phương cẩn khai thác đi sân đã mất của họ, đơi khi cẩn

tìm hiểu từng chứ, tùng hoa văn của các thế kỳ trước để lại trên tấm bị

) Người tới mượn đọc cần đưa vào các thơng từ ban dau, vi du: yeu

cho xem 1 tém bia Ư nơi nào đĩ (cĩ tên xã, huyện, rỉnh); hộc yêu cầu chủ xem 1 tấm bia do tác giả nàn đú (đã hiết tên) soạn, hoặc yên cẩu chủ xen lại một tẩm bia cĩ phí nièn hiệu nào đĩ Cũng cĩ khi củn in ra 1 danh mục tốm tắt nội dung của tất cả các bia đị: Tây Sơn (iừ năm 1789 đến 1402) chẳng hạn Tuỳ yêu cẩu, mà người quản lí kho sách sẽ đáp ứng,

3/- Một cơ sở dứ liệu như vậy cẩn khơng gian nhớ khống 12 Mega byte trên

địa từ nên để ở 1 tệp duy nhất thì quan lí thuận tiện nhất “Tuy nhién do

điểu kiện hạn chế về rmấy nhơ, mơt máy tỉnh thường sử dụng vùo nhiều viếc khác nhàu, các ở đĩa thường "đẩy cúng" đở liệu, muốn cổ riột khoảng trống

như vậy để làm việc cẩn phải nên thưởng xuyên các tếp để dễ sao lưuxoi

Trang 19

-a7-

bớt tệp mổ, giành khoảng trống dé sip xếp và lam việc, Cơng tắc bảo vẻ

dữ liệo cũng đồi hỏi sao lưu thường xuyên các lộp đứ liệu ra đía miểm để

phịng ngàa bất trắc, như hồng hĩc và vi-rut Vi vậy nếu để ở một tếp lớn

thi chin những việc tìm kiếm sé cham chap, mà cịn gây khĩ khăn cho view sao lưu thường xuyên Do.đĩ chúng tơi phải cắt ra thành 4 tệp nhỏ, - mỗi tệp cĩ it trường hơn để dễ quản lý ( Các tẹp đĩ thường cĩ l trường chung là số

hiệu bín để thực hiện quan hệ liên kết khi tìm kiếm trên máy và để chỉ chỗ

hiện vải ở trong kho

Sơ để khối của giải thuật

khối tức đã lược bỏ nhiều chí tiết rườm rà như cho hiệ dấu bản ghỉ ) im kiếm được nêu dưới đây: ( nĩi sử đố n màn hình, đánh Ví dụ sử đổ khối giải thuật tìm xem van bia (tra then tic gia) >> Vào mở tập TGI = oS khơng — s{thoe tae qia)>———> [r đổi cách tăm ~ thấy ¬yy danh du reco ’ + mở tên biadn, Khởi động chương trình ha cách tin đếnh đâu và phơi + copy ra tếp khác k

Ghi chủ : Sơ đồ này cơng dùng cho chương trìn3 tìm xem văn bia

theo niên hiệu nhưng mục 1 sẽ lä mở tếp niên đại (ND) và mục 2 là tìm

theo niên hiểu

Trang 20

-18-

Sí- Mơ tả bằng lời và phân tích sơ đổ khối cửa giải thuật

a/ Vào tìm kiếm : (chon Meou hoặc khởi chạy chương trình tìm kiếm) tuỳ ý người sử dụng: cĩ thể tìm theo tác gia, tìm theo niễn đại, huge tim phân tích theo từng yếu tổ cẩn biết ( niên hiệu soạn bia, _ tên xã huyện năm dương lich vv ) tức là chon phương pháp tìm Chọn theo lối ấn phím chọn menu:

by Nếu chọn tìm theo hệ thống sẽ mở tệp TG1.DBF và xuá

trắng trường Dz (để chuẩn hị đánh đấu) Sau đĩ tự động xếp têu Lác giá hẳn,

lênh Imdex để tìm kiếm tên tác giả được nhanh

~ Nếu tìm thấy tên tác giả sẽ đánh dấu sao (*) vào trường Dz và tiếp tục từn xem tác giả đĩ cịn soạn văn bia nào nữa khơng, nếu cĩ thi máy sẽ đánh dấu vào trường J2 của tất cả các băn ghỉ của tác giả đĩ ~ Nếu khơng thấy sẽ thơng báo: Khơng thấy tơn tác giả đĩ và thốt ra để người sử dụng tìm theo cách kEác,

c/ Seu khi tìm thấy và đánh đấu xeng, hệ thống sẽ chuyển sang mở

lgp Biadd (ở dây cĩ ghi đấy đủ các yếu tổ thống tin da người tụ để tơm tất, nhập vào đĩ, kèm ng ki của tấm bia) Hé thing se dem các xế hia đã đánh đấu ở bên tệp TƠI làm cần cứ, so sánh với trường đơn vị ở tệp Biadd, nếu bản ghi nà trùng số đơn vị với số hiệu đấng xí đã được đánh

dau chon ở bên tệp Tác giả thì phơi nội dụng tơm tất của tím bia dỏ ra cửa sổ „ Cĩ bao nhiều bia của tác giả ấy he thống sẽ lấn lượt phơi nội dụng lồn hết

dị Sau cùng sẽ phơi lại một lần dưới đạng BROW rồi thốt ra

dj Loc nay người sử dụng cĩ thể chọn lạc các bản ghi đã đánh ấu

ở tệp Biadd và ra lơnh in not dung dé ra may im bode copy ra mot (ep du trữ bảng thủ cơng

“ un khoyét diém cách tổ chức giải thuật này:

a/ Đầy chỉ là một ví dụ về tìm kiểm văn bia trong kho, chưa phải là cách hay nhất, nhung nĩ thích bợp với trình độ phâm tích, nạ thơng tin và máy nhỏ như hiện này của Viện Hán Nom

b/ Riêng cơng đoạn œ hệ FoxPro 2Ú cho phép cĩ 2 cách giải quyết 1- Dũng ngơn ngữ văn da cĩ cấu trúc (Select-SQL) tá cĩ thể tao được mốt tép tạm thới trong bộ nhú, phơi lén mịn hình cho xem nhưnẸ khi đĩng tếp là, tếp ấy bị xố luơn, khơng lưu lại để sử dung Tẹp ủy cơng khơng cho phép sửa chứa

2- Dùng phương pháp liên kết 2 tệp (lệnh Set Relation) dé tạo ra ep mdi

Chúng tơi chếp nhận cách thú nhất nhưng tiển thêm ¡nột buốc: - Dễ tuý người xử dụng định lều: muốn jn ra thì copy tếp Tam za rơi khắc rồi sửa chữa và in ẩn SỐ df chon cach 1 vì tp! Tạm được tạo ra trùng hộ nhớ nên khơng tốn vịng nhớ trên dia via tháo tác với 1 tệp Ương bộ nhứ sẽ

nhanh toa vúi 1 tệp trên di

Trang 21

trở thành quan hệ 1 nhiều Thật vây: trong thực tế, nếu chí để dữ liệu ở 1 vếp lớn thì khơng giải quyết được trường hợp ! tấm bia do nhiều người gái cơng, hoặc Ì tấm bia cĩ chép nhiều chủ để, hoặc cĩ nhiểu tên người khi đĩ

ta khéng thể đặt các tên người bình đẳng vớt nhau trước thao tác tìn: kiểm,

vi mỗi bản ghí chỉ cĩ 1 chỗ ghi tối ưu cho một yếu tổ thơng tin đĩ là vị ìu tiên trong trường nếu đĩ là trường Charaeter

đý Các tài liệu khác như sách Hán Nơm sồ nội dung tổng hợp,pbức tấp hơn, cơng sẽ được tổ chúc theo lối phản tích ra nhiều tệp để việc quản Ti

được gọn nhẹ

đ/ Những chương tơnh biên tập, đổi mã chữ Việt được thiết kế trên eœ số các trường dữ liệu là trường memo (tức tệp *.FPT đi kèm với tệp DBF) sẽ lêm giảm đến mức tối thiểu cơng sức thiết kế các ch

địch vụ ví dụ cu thé Ja hệ thống đổi mẽ đã được thiết kế then

sao" như dự kiến

e/ Với thiết kế nhỏ gọn thích hợp, để tài cĩ thể phục vụ cho cơng

tác điểu tra đi sản văn hĩa cổ Nhà nước giao cho Viện Hán Nom, Néu duoc

cải tiến thêm, Ngân hgàng dữ liệu Hán Nơm đựa trên ngơn ngố FoxPro 2x c6 thể phục vụ cho các yêu cầu ngày càng phong phú phúc tập, theo đời hồi của

cơng tác nghiên cứu khoa học

UJ- VÍ ĐỤ ẤP DỤNG THUẬT GIẢI XAY DUNG TEP QUAN Li VAN KHAC HAN NGM

Từ kết quả khảo sát phẩn mềm EoxPro đối chiếu với yêu cấu và kha nang phản tích thơng tín đứ liêu r nay, chúng tơi thiết kế hệ quản bị dữ

liệu bằng FoxPro 2.0 ding cho Ngân hang du lieu Han Nom Version 14) của

ngân hàng này (ví dụ hệ quản lý bid) cĩ cấu trúc như seu :

- giới thiện cấu trúc các tệp quản lí văn khắc Hán Nơm:(để làm mẫu)

1/- Tệp BIAFI.DBE ( Bia phản tích.DBP) cĩ cấn trúc như sau:

én trường kiểu độrộng

„ 1- Số bia NT G6 dang kf tai thy vien Han Nom) 2 Loại đi tích == C15 (dink, chia, dén miéu, te dudng.van chi)

3- Ten di tích € 25 (tên gọi của di tích)

4- Tên văn bân € 35 (iẽn đẩu để khắc trên trấn bia) ›

5- Năm tạo C7 (mầm đương lịch,ứnh đổ: từ niên hiệu)

6- Niên hiệu € 25 (rên niên hiệp tao bia) 7- Xã C 18 (tên xã khi rập bia)

&- Dz € 2 (ưường đánh đấu tự động) 9 D2 C 2 (trường đánh đấu thủ cơng) 10- Luyện C 15 (iên huyện Khi rập bia)

Trang 22

"=¬

3/- Tẹp NDI.DBEF ( Niên đại DBE ) cĩ cẩu trúc như sau

Số bia N7 (số đăng kỹ trong thư viện) Niên hiệu € 18 (rên niên hiệu)

Năm N7

Dz € 2 (trường đánh dấu Ly động)

3/- Tẹp TG1.DDE ( Tệp tác giả bia ) cĩ cấu trúc :

Số bia N 7 (oi dang kj trong thu vien) Tác giá € 20 (iên tác gia) Dz c 2 4l- ‘Yep Badd DBF (Bia déy đủ) cĩ cứu trúc như sau Dz € 1 trường đánh dấu NDRiéng M 10 ghi nhing thong tin tong hop về 1 tam bis Dz2 €1 trườap đánh dấu thứ 2 Đơn vỊ N_ 6 số đáng ký của Lim bia ND N 10 nội dùng Iv- QUAN Li ANH THƯ TỊCH HÁN NƠM

Dac điển quý gi của thư tịch cổ Hán Nơm khác hẳn với một số sách vỏ

thơng thường khắc ( ví dụ giá cả hàng bố, danh mục hố chất hoặc các sác]! hiện đại đã xuất bản hùng ;oạt.) ở chỗ người đùng thường củn được xein và so sánh các nguyên bản Quả vậy : sau khi xero bản địch ra chữ Việt, hoặc Xem bản sao lại văn bản đưới dạng file text của dữ liêu trong ngân hàng,

người đọc muốn xem bút tích của đanh nhân đã tạo ra vân bản đĩ, | ho:

tra so sánh hình đạng tổng thể hoặc từng nét chữ, để xác định tính thực

giả đúng sai của văn bản, Chính vì vậy viếc quản lí tư liệu ảnh trong mây, cho phếp người ding Khong phải trực tiếp cểm vào hiện vát vẫn đọc dược nguyên bản, là một nhu cầu thực sự mà để tài cẩn phải tiến hành nghiên cứu lam cho được

Để thực hiện nhiệm vụ này, để thi dã tiền hành ghếp các tile ảnh vào cde file text trong cling mot co sở đử liệu Cách làm này thuận tiền cho người dùng hơn, - và đương nhiên cũng tốn cơng hơn so với cách làm truyền thống là quản lí file text riêng, He ảnh riêng

Tồn bà cơng việc đước tiến hành thử nghiệm bước đấu với tấp Thật kỉ trong th" cla Bác Hồ

Các bước cơng việc là như sau:

1= Dùng Scanner quét phẩn chư Han vin ef 2- Dũng chế độ goạn thảo vấn bản nhập nơ 3- Viết chương trình quan fi

Chúng tới dịng hệ quản tị CSDE Foxpro for Windows dé quản li khối d 'iêu liên hợp ảnh-text này

Trang 23

= 21s

Dị việc lưu trừ ảnh cĩ yếu cẩu lớn vẻ khơng gian nhớ trên đĩa Quỏi ảnh 1⁄2 trang A4 cẩn Khoảng 500 bytes), vì vậy phương án quết ảnh tồn bộ kho sách nguyên bản sẽ chỉ thự thị được khi được trang b c c vật nang tín

cĩ sức chứa lớn như CD-ROM, Diểu đĩ chúng tơi sẽ để cập ở tết dưới đầy y- KHA NANG NEN NGAN HANG DU LIEU VAO CD-ROM: ý

Trong thế kỉ này, - nhờ tiến bộ

tạo ra 3 hình thức lưu trữ ác nguồn thơng tin từ liêu quỹ giá của mình nhanh của Khna học kĩ thuật, nhân loại đã

3 Lim trữ bằng giấy: các tài liệu vẻ phát minh

thưậc các văn bản pháp quy của Nhà nước Loai này chứ+đẩy các kho hw trí lớn và là bản gốc cấn được bảo quản Tuy ting thé ma nĩ được phép huỷ đi sau một thời hạn nhất dịnh để cho tộng kho

áng chế, bí quyết kĩ

2 Luu trữ bang Microfilm, Mieroiiche Loại này đã tiến bộ hơn loại

trên vì thu nhỏ được khơng gian lưu trữ, tăng số lượng văn bản hảo quản

3í- Lựu trữ bằng CD-ROM (Compaek Dhk - Read only Memory: đĩa nên để ligu, chỉ cho phép đọc) Eoal này thu hẹp khơng gian xử dụng lại cực nhỏ,

và tiến bộ hơn hai loại trên ơ chỗ vừa lưu trữ được bản gốc trong khơng gian nhỏ, vita tất Hện lợi trong việc nhân bản và khai thác thơng tin bằng phương tiện hiện đại

Người ta cũng đã xây đựng các định chuẩn cơng nghệ quốc tế cho lĩnh vue ny dé dip ứng nhu cầu sử dụng CD-ROM ng phổ biển của nhiều ngệnh kinh tế, van hod va khoa học

4/- Kha thư tịch cổ Việi Nam thuộc loại tư liệu quý, cẩn bảo quản tốt bản gốc bằng giấy (hạn chế người dùng tiếp xúc với biện vật để kéo dài tuổi thọ

của nĩ), lạ cẩn nhân bản để bảo quản ở nhiểu nơi và khai thác „, giới

thiệu ra thể giới, nên cĩ thể và cần sử dụng cơng nghệ CD-ROM tiên tiến fay dé dap ứng các yêu cấu nĩi trên

5- Để tiến hành lưu trử di ligu Han nom tren CD-ROM cẩn phải

a/-Trang bị cơng cụ hồn chỉnh từ viếc quét hình, nén hình vào CÍ)-ROM cùng với các tư liệu Character chỉ đẫn tìm nhanh ( trước đây vài năm các

thiết bị như vậy giá cả rất đất, hiện nay giá cả đã ha xuống đếu múc cĩ thể chấp nhận được)

bí Lược thuật nội dụng tư liệu dưới dạng kí tự (Character),

- Với uình độ hiến đại của cơng nghệ thơng tin, người ta khơng chỉ phân loại thơng tin một cách sơ sài như thời trước là chịc ra sách vở vẻ

Văn, Sử, Địa, triếu Tơn giáo v, mỗi loạ: tượng trưng bảng một chứ

cái mà cẩn xây dựng một loạt "từ khố" để lược thuấ: nội dung thong tie

với các từ khế, phuc vụ việc tìm kiểm bằng máy cho nhanh Cơng việc lược

thuật chong tin cia ting văn bản cố nơi dung tổng hợp và gần các từ khoả quả thất đơi hẻi các chuyên gia thư viện phải cĩ trình dộ cao mới la được

Với kho dử liêu tổng hợp chưa được khai thác như kho đi sản Hin Nom cing cẩn đẩu tơ nhiều cơng sức cho việc này Thực tiễn ki thuật cơng bất luc

Trang 24

-2-

Noung phép tim “nhị phan’ chỉ áp dụng được: cho các du liệu dịng Character (trong FoxPro I phép tạo các tếp INDEX), Nếu dứ liệu là tín hiệu

ảnh thì khơng cĩ cách nào tạo INDEX cho ảnh được Vậy chỉ cĩ thẻ đồng mh inh quan Le, tir trong trường Character mi tan INDEX dé tim kiếm và tỏ sang các bức ảnh liên quan mà thơiCác búc Anh đĩ sẽ là các trang sách Hán

Nộn: Dé là một Bí quyết để lưu ảnh trong CD-ROM,

Vi- KẾT LUẬN CHƯƠNG :

1 So với kế hoạch để ra là xây dựng bộ khung ban đấu cho ngân hàng du Leu Han Nom, trén cơ sở kho sách tại Viên, để tài đã cho nhập máy và quản Ï

thơng tín sở lược nội dung của

~11000 đơn vị văn khắc Han Nom, ~ 4.400 đơn vị sách cổ

- Số tư liệu nhập vào, và in ra tương đương với 10.000 trang sách

2 Các hệ quản lí này chạy dưới ĐOS, đúng như Kế hoạch, dễ sử dụng, cho

phấp bố sung, nàng cao và đĩ sâu hơn trong việc ghí thêm các thơng Un Mới của các đối tượng thư tịch trên Việc lim kiếm thơng tin tơ Tả tường đốt thuận tiên, nhanh nhẹn

3 Một số cơng việc đã phải gấp rút tiến hành ngồi dư kiến lúc đầu của Dé tài vì sự phát triển nhanh chĩng của các nhu cầu ứng dụng tin học trong đĩ phẩn lưu trữ ảnh đưới Windows là một ví dụ

Trong khuơn khổ cĩ hạn củu để tài các chương trình tiện ích mà để tài đã cụng cấp vẫn cẩn phải tiếp tuc sải tiến Song với những chương tình nay vin di dam bảo khá: thác thơng tin phục vụ nhiêm vụ điểu tra cụ bản má

Nhị Nước giao cho Viên Hán Nêm

Qua sử dụng, sẽ cải tiến dân cả chương trình, thiết bị và vật mang tít

Trang 25

sa

KẾT LUẬN CHUNG VÀ KIẾN NGHỊ :

( Căn cứ trên những sẵn phẩm cự thể và những kết qủa nghiên cứu đã đạt được, chúng tơi xin nêu những kết luận và kiến nghi cụ thể như sau):

1 - Đây là lần đầu tiên chúng ta chế tạo được hộ chữ Nơm điện tử, dưa quản lý tư tiệu Hán Nơm theo kịp trình độ của thế giới (sử dụng phượng,

tiện Tim học hiện đại), từ dây mổ ra triển vọng mới về trao đổi thơng tin

văn bản Hân Nơm giữa nước ta với các quốc gia dùng chữ tượng hình trong khu vực, và với thể giớL( từ: nay nĩi tới 1 hệ phần mềm xử lí chữ Nộm là cĩ hàng van chữ Hán trong đĩ)

+ - Bàn phím chứ Nơm để giúp cho cơng việc soạn tháo văn bản Hán Nơm tiến kịp trình độ quốc tế về soạn thảo bằng máy tính, kế thừa được những,

thành quả nghiên cứu của trong nước, bảo đâu tính sử dụng để đăng phù hợp với thĩi quen của người Viet Nam, gop phan thúc đẩy nhanh quá trình phổ cáp, đào tạo và ứng đụng Tin học trong nước

3 - "Tự diễn điện tử Hán Nơm" là mộ: cơng cụ tốt dùng, để tra cứu, nghiên zứu các tài liệu Hán Nơm Đến nay, các nhà nghiên cứu đã cĩ trong,

tay mot cudn tự điển để đàng tra cửu, cĩ nhiều cơng năng độc đáo hơn hẳn so với tự điển hằng giấy truớc day

Tự điển này cĩ thể đồng vai trị tài liệu hỗ tro ging day chit Han Nom

cho thế hệ trẻ Nếu được bổ sung hồn thiện thêm phần phát âm thì cĩ thể

biển để thành một cơng cụ trả cúu sinh động, phục vụ các chương trìch địch

nĩi Mặc đầu là mộ: sản phẩm trọn vẹn của dễ tài, song da, đặc thù của

đng tác nghiên cứu sưu tẩm đời hỏi, người lầm tự điểu vẫn dành cho

các nhà sưu tâm nghiên cứu cĩ điều kiến bổ sung cập nhất những kiến thức

mếi, khám phá mới vào :ự điển đĩ một sách dễ dàng :

4- Với bộ [ont chứ Nơm điện tử, để tủ đã gây được một tiếng vang, trên truờng quốc tế: Lần đầu tiếu thể giới biết đuợc chúng ta hồn tồn cĩ khả năng thơng tin hoa kha di san van hoa viết bằng chữ tượng hình của 'Việt Nam, một bộ phận kho tầng văn hố của nhân loại cịn chưa đuợc khai thác và giới thiệu rơng rãi

'Việc tổ chức chuẩn hố quốc tế ISO cơng nhận bảng chữ Nơm 1 trong hội

nghị [RG-2 thắng 3/1994 tại Hà Nội Jà một sự xác nhận thành cơng của để tài khơng chỉ ở phạm vị trong nước mà cịn ở phạm ví quốc tế và khu vực

Sự cố gắng này của để vài đã tạo được cơ sở kỹ thuật để kịp thời dựa di sản chữ viết cổ của dân tộc vào kho tầng trí thúc của nhân loại, giành chỗ đứng cho chữ Nơm ngang bàng với các hệ chứ viết của các nền văn minh Khác, Kế từ nay, trong thời đại phát triển của Tìm học và truyền thơng,

thể giới càng cĩ điều kiến tìm hiểu những giá trị tính thần cao quý của

dần tộc Việt Nam qua kho di sẵn văn hố chữ viết cổ được thơng tin hố

Mặt khác Viê: Nam được hưởng những tiến bộ kỹ thuật và, cĩ quyền, cĩ khúi

nàng thực tế để khai thác nguồn thơng tín trí thức tạ lớn mã nhân loại

Trang 26

-24-

Giải quyết thành cơng những văn để kỹ thuật cơ bản như mã hố, chu?

hố, thể hiện chữ viết trong máy.Jà dã xố bổ trên thịt tế những sư ngăn

cách về truyền thơng giữa nước ta với thể giới

5- Bộ khung Ngân hàng dữ liệu Hán Nơm với các tư liệu ban đổi

vào, tạo nên Version 1.0 của Ngân hàng, là một sản phẩm Tìn học „

Tiên được dùng để quản lý kho tăng đi sẵn thư tịch cổ Việt Nam.Tuy chưa

nhấp máy đẩy đủ những dứ liệu Hán Nơm hiện cĩ ,nbưng bộ khung cũng đã bạn quất được một bộ phận nịng cốt của kho di sản, đĩ là số sách cân ban

Goa kho sách sưu tấm được từ trước năm 1945 tới nay, và phần lớn các văn Địa rài rếc trên mọi miễn đất nước, Tử đây ,các nhà khoa học cĩ thể bổ

sung,ởi sâu nâng cao và khai thác kho đi sản này bằng các nhượng tiện

hiện đại

Các giải thuật, cách tổ chức để liêu để cĩ thể xử lí tụ động hố trong

việc quản lí một Ngân hàng dữ liệu Hán Nom mà để tài xây dựng cũng được Vận dung để quan ï Tự đến chit Han,ty điển chữ Nơm dạng điện tử `

e chương trình tiện ích khác như sáp xếp, đổi mã, hiên tập hiệu đính van ban chi Viet ih những chương trình tốt, cĩ ý nghiá tăng năng suất lao

động dáng kể, đồng gĩi vào kho kinh nghiệm xử lí chữ Việt

'&- Hệ soạu thảo song ngữ Hán Nơm/Việt là một sản phẩm cĩ tính sắng tạo (ấy tiếng mẹ đề, tiếng Viêthiện đại làm hệ quy chiếu số một để xử lí

chữ Hán chứ Nom), Day la hg soạn thảo đầu tiên ở Việt Nam du để tài tạo ra, cĩ đạc điểm là một hệ "mềm hồn tồn" ( khêng phụ thuộc vào phẩn cứng của nước ngồi), vừa đảm bảo hiển thị song ngữ trên màn hình, vừa đưa ra máy in kim va may in laser làm chế bản được, vừa đánh được trong các tệp van ban (text file), vừa đănh được trong các tệp cơ sở dữ liệu (data file) VE

bàn phím soạn thảo, nĩ kế thừa được cách gỗ tclex truyền thống để soan chữ

Việt đồng thơi cũng đừng cách gỗ telex để gọi chứ Hán Nơm Cách sử dung

khơng phức tạp, do vậy cĩ sức phố cập cao Việc, nhúng chữ Việt với chữ,

Hầu chữ Nơm nhằm tạo cơng cụ phục vụ mục tiêu "latinh bố" kho đí sẵn Hán Nom

Nếu được cải tiến nâng cao thém, cĩ thể dùng để soạn thảo các từ điển cố 7 thứ chữ khác nhau lề : Trung Quốc, Nhật, Quốc ngữ, Anh, Pháp, Letinh

'Bắc Kinh, chú âm quốc tế), và số thể làm thêm, TrueType font, sử dụng trong Windows để in chế bản với các kiểu chú ngày càng đẹp hơ

3-Hệ quần trị dú liệu ảnh chụp sách Hán Nơm được xây dựng trên ngơn ngữ Foxpro trong Windows là một bước nghiên cúu thử nghiệm thành cịng, mổ ra khả nãng lưu trổ tồn bộ kho di sản với ảnh chụp nguyên dạng bản gốc của nĩ Nếu thực hiện được viêc này chúng tá cĩ phẩn yên tâm trong cơng

tác bảo vệ di sẵn, vì khả năng chụp nguyệc bản vào đĩa quang là nằm trong tấm tay, Nhớng vấn để đặt ra là: liệu cĩ thể lấy ra nhanh và giữ được

nguyên đạng để bảo đảm tính chân thực của các "chứng tù gốc" ấy hay khơng”:

Việc đọc bản chụp và bản in trên, máy cĩ thể thay cho tiếp xúc với bản gốc được khơng, đối vái các bản to như 1 tẩm bia thì xử lý ra san vxv Vấn

để đĩ đã bước đầu được trả lời qua thực nghiệm Từ lầu Nhà nuốc đã quan tâm và cĩ đầu tư cho việc sưu tẩm bảo về kho đi sin van hoa quy gia cla dan toc ta, và chú trọng tới các nhiệm vụ nhân bản

để bảo tồn (để phịng bất trắc xảy ra), và khai thác nội dung, thư tịch (Latinh hố tồn bộ kho di sản ) với thời gian cổ gắng một vài thận Ky

Toy nhiêa thời giao đã trơi qua mà cơng viết cĩ dường như khơng dứt

Trang 27

wo 8n

điểm được Ngày nay với những phương tiện mạnh, chúng ta cĩ thể nghĩ tới

hồn thành trọn vẹn cơng việc sưu tẩm quân lý nội dung kho di sản quý giá

trong khoảng 5= 10 năm tới, nếu cĩ trang bị đủ manh ( trước hết cĩ thể sưu

› và nhân lên thành nhiều bản liu trong CD-ROM, nơi để phịng

mất mát và để cho nhiều người, nhiều ngành cĩ thể vùng khai thác, Việc này

cĩ thể làm được sớm, Cịn việc latinh hố tồn diện sẽ làm dần dần, và sẽ cĩ thuận lợi hơn nhớ khâu sưu tẩm bảo quản đã được Tin học hố, và các gong

cụ phục vụ sau này cũng sẽ tốt hơn) (chẳng hạn :_ các nhà nghiên cứu khoa

học cĩ thể ngồi ở nhà đọc được tồn bộ kho sách khi nĩ đã nhập vào máy và nối với mạng thơng tin quốc gia, Như vậy hiệu quả khai thác sẽ cao hơn)

8 - Đây là lần đầu tiên đội ngủ cán bộ khoa hoc kỹ thuật của Việt Nam

n với một ngành khoa học cơng nghệ hiện đại, đang tiến lén với

; độ nhanh, nhưng họ cũng bắt kịp những tiến bộ ấy, và dem kết quả phục

yu cha nhu cầu phát triển của đất nước Năng lực và nhiệt tình của họ là khơng thể phủ nhận, chỉ cẩn cĩ sự quan tâm thiết thực, sự lãnh dạo và tổ

chức đúng đản của Dáng và Nhà nước, sẽ tạo điều kiện tốt để họ tự dem những,

tiểm năng chất xám phục vụ cho sự nghiệp đổi mới của Đất nước do Đảng lãnh đạo 9- Mặt khác, để tài ing Tà nơi thử sức,là một " mảnh đất dụng võ", và là ngọn cờ tập hợp những cán hộ cố năng lực và nhiệt Gnh cổng hiến Thong qua cơng việc, đã làm cho họ nhập thức sâu thêm về ý nghĩa, giá trị lớn mã

Tin hoc cd thé dem lại cho khoa học và cơng nghệ của đất nước : ngồi những,

vấn để của thể giới kí thuậ:, và kinh doanh, cịn cá những việc cẩu làm đi phục vụ cho sự nghiệp phục hưng nền văn hố của Dân tộc, do vậy Để tài đã

dược nhiều nẹt làm khoa học xã hội cũng như khoa học cơng nghệ quan Lâm Tiém nang Tin học trong nước được kích thích nhờ hoạt động trao đổi

Khĩa học vũ "đạt hàng", yêu cầu làm việc cụ thể,

Nhĩn chung tốc độ chuyển giao cơng nghệ là nhanh: khoảng thời gian từ

khi nghiên cứu tới khi đem kết quả ứng dụng vào thực tiễn cơng việc, rất

ngắn

Những (hành viên tham gia để tài cũng trưởng thành trong quá trình

triển khai thực hiện để tài: Nhờ tỉnh thần nỗ lực kiền trì học hỏi.lao động nghiêm túc, xác định hướng đi đúng đắu nên để tài đã hồn thành cơng việc

một cảch kịp thời và cĩ hiệu quả

10 - Dây là Bảng tiêu chuẩn số 01 của Việt Nam được ISO chấp nhận,

tức là một sản phẩm Khoa học đầu tiên của Việt Nam đạt tiêu chuẩn quốc tế Sự kiện này cho phép các nhà quản lý khoa học cơng nghề rút ra những kinh

nghiém khi tổ chức xảy dựng cáẻ tiêu chuẩn khác tham gia với quốc tế, để

hĩã nhập, và nâng cao, hiện đại hấ nền kinh tế kỹ thuật nước nhà Trong

việc xây dựng chuẩn này, để tài đã cĩ đồng gĩp tốt về mặt kỳ thuật

11~ Thành cơng này là một ví dụ về sự hợp tác của các lớp cán Độ (già và trẻ, am hiểu chữ viết cổ dai va Tin học hiền đại), của các nhà khoa học người Việt ở trong và ngồi nước, và cĩ sự chỉ đạo sát sao của

c cơ quan quản lí và chức năng nhà nước suốt quả trình từ khi thành láp, và triển khai để t

12 - Sự ủng hã của các ngành liên quan như quốc phịng, nội vụ, văn hố vv cũng cĩ tác đụng tích cục tới L]ội nghị quốc tế IRG, làm cho ban be

thế giới hiểu ta hơn, đồ là kết quả khách quan mã để tài cĩ gĩp phần đem

Trang 28

-26-

KIẾN NGHỊ

Trang tình hình tiến bị nhanh chĩng của cơng nghệ thơng tin, cần cĩ đội ngũ đơng đảo cán bộ chuyên gia đủ trình độ bắt kịp nhúng tiến bơ đĩ, để khai thác cĩ hiệu quả mọi nguồn thơng tin trí thức của thể giới nhằm xây dựng đất nước hiện đại, Trên cơ sỏ những kết quả đã đạt được, và căn cứ vào những cơng việc cẩn tiếp tue hồn chỉnh, chúng tơi để nghị với Trung tâm

Khoa học Xã hội và Nhân Văn Quốc gia kiến nghị với Nhà Nước và các cơ qua: hữu quan:

1/-Để nghị Nhà nước, Bị Khoa học Cơng nghệ và Mùi trưởng cĩ biến pháp khuyến khich ứng dụng ngay những kết quả của để tài vào việc sưu tắm, bảo

vệ và khai thác thu tịch cỔ, tiếp tục cải tiến hồn thiện năng cao chất

lượng sản phẩm:

2i- Để nghị Nhà nước khuyến khích phổ cập ngay những kiến thức về Iïn học Hán Nơm (về phương pháp soạn thảo văn bản, phương pháp tìm kiếm khai thác từ liệu thơng tín trên máy ) chơ các học sinh tại cát cơ sở đào tạo Hán

Nơm Trước mất cĩ thể cho phép kết hợp với chương trình Tìn học phổ thơng để phổ cập việc sử đụng máy tính trong việc wing day Trung văn va Han van

3/-Giao cho Viện Hán Nơm tổ chức nghiên cứu mã hố chủ viết cổ: của các cân tộc ở Việt Nam tong máy tính, kịp thời đăng kí vào bảng mã chuẩn của thể giới, nhằm bảo vệ di sẵn văn hố quỷ háu của các dân tốc ở Việt Nam

4/-Giao cho Viên Hán Nớm xây dựng kho tư liệu CD-ROM cho các dang thư tịch cổ,

S/-Giao cho Viên Hán Nơm tổ chức nghiền cứu xây dựng chương trình dịch máy

van ban Han Nêm- Việt,

6/- Cơng việc mới phát sinh trong năm nay là tạo font chữ Nơm 96x96 để hồn

hinh thủ tục gia nhấp ISO

Chủ nhiệm Đề tài Tin học Hán Nom

Trang 31

+22

3 DE TAI TINHOC HAN NOM

HÌNH 3

GIA] DOAN PHAN TICH CAC RADICAL’ CHO CHU NOM

Trang 32

30

bE TAITIN HOC HAN NOM

HÌNH 4

GIAL DOAN GHEP CAC RADICAL TREN MAY TINH

Trang 33

on DE TAITIN HOC HAN NOM HINT 5 GIAL DOAN SUA FON 24 CHU NOM DA.GHEP TREN MÁY TÍNH Mau ki ta Meung sua ki ta 1234567890123456 76901234 RSRREDEEPSEEEIS

CHUONG TRINH SUA POH.24 CHO HE CHU Nor HUONG DAN SU DUNG = 2 "pung sac phim ngà cen de di chuyen con cho

Trang 35

HÌNH #

BANG 1: TRAT TU GẦN MÃ 2 BVTE CỦA CHỦ HÁN THEO PHÂN TÍCH CỦA ĐỂ TÀI

— ASCII LBK AHV B0 BOSX SHB CUM MDC

#Ủ 165*l8l reng nhưng thủ thải 0Ơ nhưng s5

PN 165+182 pa2 bat thú thil 064 bats ae

$b 165+183 pu bộc thủ thi] 964 boocs say

Ƒ£ 165*184 chỉ xích cên cân 089 xichs hy E4 165*185 dan4 đán nhật nhật 072 ddans zm 7Í 165188 zhu2 truật nộc mộc 075 truaatj] Íc 3# 165+l87 ben$ bản nộc nộc 075 banr dm A 185+183 weid vị mộc mộc 075 vii id FR 165+189 nod mat mộc mộc 675 matj độ #Á 165+190 zha2 trát mộ mộc 75 trats du E 165⁄191 zheng4 chính nhất nhất 001 chỉnhs mm

†‡ 165+192 mu nấu vơ vơ2 080 voo wi

& 165*193 nin2 dân thị chil, l3 đan rp

& 1652194 di3 dé thi chil 113 ddeer = hm

tA 187218 zhong tùng tâm tâm 061 coorg pi

FY 167217 jie4 - giới sua quai 082 qua Ít # 167⁄218 wo — ngã phiết phiết 004 ngay hi ‡b 1674219 chao sao thủ — thủ: 084 Lhieeur ah Hf 1674220 kane4 kháng thủ thủi 064 cang sp FE 1674221 douÄ — đầu thủ — thủi 6064 ddaaue qj

j# 16222 Ji4 kĩ thủ thal 064 chỉ qe

$e 1071223 fu2 — phù tho = thal = «064 phu ap

PR 167+224 jue2 quyết thủ thủ] 064 quyeets qk

48 167+225 niu3 niu thủ thỏi 064 swur ag

Trang 36

ŸM yam B=

_# §H#XW

Ngày đăng: 05/10/2023, 21:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w