Từ đó, dựa vào hệ tiêu chí đã xác định và kho đữ liệu tiếng Việt có thế dựng được bảng từ cho cuốn TĐTV cỡ lớn thường được đánh giá là một phần quan trọng nhất trong toàn bộ công việc bi
Trang 1BÁO CÁO TỔNG QUAN
XÂY DỰNG LUẬN CỨ KHOA HỌC
CHO VIỆC BIÊN SOẠN
BỘ TỪ ĐIỂN TIẾNG VIỆT CỠ LỚN
ĐỀ TÀI NGHIÊN CÚU ĐỘC LẬP CẤP NHÀ NƯỚC
195
Trang 23.028-Muc luc
Phần thứ nhất - Báo cáo tổng quan
Phần thứ hai - Mục tiêu, nhiệm vự
cưa bộ Từ điển tiếng Việt cỡ lớn Phần thứ ba - Các sản phẩm của công trình
Phần thứ tư - Cơ sở lí luận của việc biên soạn bộ Từ điển
tiếng Việt cỡ lớn Phần thứ năm - Các mô hình xây dựng phần mềm cho công
Trang 3-PHAN THU NHAT
BAO CAO TONG QUAN
Tên đề tài: "Xây dựng luận cứ khoa học cho việc biên soạn bộ Từ Điển tiếng Việt cỡ lớn",
1 Nhiệm vụ được giao
(thể hiện trong bản “Thuyết minh để tài" đo Viện ngôn ngữ họ kí
1 Nội dụng công việc:
1.1 Chuẩn bị về lí luận
Tiến hành nghiên cứu cơ sở lí thuyết để xây dựng bộ maket và 10 bản thử nghiệm với yêu cầu: cụ thể khoa học, có thể áp dụng được để mở rộng phạm vi, số lượng
1.2 Chuẩn bị về bảng từ
Nghiên cứu hệ tiêu chí để xây dựng bảng từ và bảng từ chuẩn thử nghiệm trên ba vần (dạng sơ thảo) với yêu cầu: đầy đủ, khoa hợc, có tính hệ thống cao, phản ánh được hệ thống từ vựng đa dạng và phong phú của tiếng Việt, có thể áp dụng để lập bảng từ toàn bộ
1.3 Xây dựng chương trình thử nghiệm
Xây dựng hệ chương trình thử nghiệm ngân hàng dữ liệu tiếng Việt với yêu cầu: nhập, cập nhật và khai thác nhanh chóng, thông suốt, có tính
hệ thống; khai thác nhanh theo yêu cầu của người lập bảng từ và biên soạn
TD (chạy thử trên một số dữ liệu)
2 Kinh phí:
800.000.000đ (tám trăm triệu đồng) cho thực hiện để tài + 100.000.000đ (một trăm triệu đồng) cho đoàn đi khảo sát tại Cộng hoà Pháp
3 Thời gian:
Đề tài thực hiện trong hai năm từ tháng 4-2000 đến 4-2002
Trang 4II Các công việc đã hoàn thành
1 Cơ sở lí thuyết để xây dựng bộ maket và các maket đã xdy dựng Hoàn thành tập bài viết (21 bài = 372 trang khổ A4) về các vấn đề cơ
bản của từ điển tiếng Việt cỡ lớn là: Cấu trúc vi mô, cấu trúc vĩ mô vấn dé
phương ngữ, từ ngữ lịch sử, xử lí từ đồng nghĩa, ví dụ trong từ điển xử lí từ
ngữ khẩu ngữ, xử lí từ loại, thông tin ngữ pháp, xử lí thành ngữ xử lí trợ từ,
Nó đã tiếp thu được những kết quả mới nhất của từ điển học trên thế giới,
đã phản ánh được những thành tựu chung của giới từ điển học Việt Nam cho đến nay Việc ứng dụng để xây dựng bảng từ cũng như biên soạn cuốn
TĐ tiếng Việt cỡ lớn còn tuỳ thuộc nhiều vào sự tiếp thu cũng như quan
điểm của chủ biên và Ban biên tập, nhưng những cơ sở lí thuyết được đưa
2 Hệ tiêu chi để xáy dựng bảng từ và bảng từ chuẩn thủử nghiệm
- Đưa được hệ tiêu chí để xây dựng bảng từ, có thể áp dụng để xây
- Làm bảng từ thử nghiệm 3 vần ABC: Trên cơ sở các nguồn (từ điển
đã có, ngân hàng dữ liệu tiếng Việt thử nghiệm, từ mới giai đoạn 2000-
2002) đã chọn được 33.994 đơn vị mục từ (dự kiến 20.000 mục)
Đánh giá: Với các bảng từ thô đã tập hợp được từ các nguồn khác nhau, lần đầu tiên chúng ta có thể có toàn bộ kho từ vựng tiếng Việt Từ đó,
dựa vào hệ tiêu chí đã xác định và kho đữ liệu tiếng Việt có thế dựng được
bảng từ cho cuốn TĐTV cỡ lớn (thường được đánh giá là một phần quan trọng nhất trong toàn bộ công việc biên SOạn mới một cuốn từ điển) Thứ lập bảng từ cho ba vần đầu của cuốn TĐTV cỡ lớn để hình dung khối lượng
và rút kinh nghiệm
Trang 53 Hệ chương trừnh thử nghiệm Ngân hàng dữ liệu Hếng Việt:
3.1 Chương trình lưu trữ và khai thác các từ điển tiếng Việt đã có:
Hoàn thành chương trình, nhập vào chương trình § cuốn Từ điển
tiếng Việt (tổng số: 371.000 mục từ, 10.789 trang hầu hết là khổ lớn, đang
nhập tiếp một cuốn 596 trang khổ lớn) Kết quả tốt, đáp ứng được các yêu cầu tra cứu và khai thác để ra
Với chương trình này, có thể tra cứu, khai thác được các thông tin theo cá hai chiều đọc và ngang:
- Thống kê được đanh sách (theo a-b) tất cả các mục từ trong cuốn từ điển
đó
- Tra cứu được từng mục từ với tất cả các thông tin của từ đó kèm theo
- Thống kê được số lượng và hiển thị danh sách (theo a-b) các từ cùng từ loại (danh từ, động từ, tính từ, v.v.) trong cuốn từ điển đó (nếu từ điển đó
có chú giải từ loại)
- Thống kê được số lượng và hiển thị danh sách các từ cùng phong cách
(kng., phg., vch., v.v.) trong cuốn từ điển đó (nếu từ điển đó có chú giải
phong cách)
- Có phần tìm kiếm để khi đánh vào một từ bất kì, có thể biết được từ đó đã
có trong từ điển hay chưa
* Theo chiều ngang - tra cứu, đối chiếu các từ điển với nhau:
- Thống kê được bảng từ chung của tất cả các từ điển có trong chương
trình
- Tra cứu được từng mục từ với các thông tin của từ đó đồng thời trong nhiều cuốn từ điển cùng một lúc Công việc này sẽ vô cùng thuận lợi và tiết kiệm thời gian cho người biên soạn và nghiên cứu nói chung
3.2 Chương trình quản lí và tra cứu ngữ liệu tiếng Việt (ngân hàng ngữ liệu tiếng Việt):
Hoàn thành chương trình, nhập dữ liệu (tổng số 13.241.000 âm tiết,
so với kế hoạch đặt ra là 10 triệu âm tiết), quản fí và khai thác tốt, đáp ứng các yêu cầu tra cứu đề ra
Với chương trình này, ta có thể:
- Bước đầu tìm cách khắc phục "vấn để ranh giới từ trong tiếng Việt”, phản ánh phần nào mô hình kết hợp cú pháp của từ, giúp người biên soạn khai thác tư liệu ngôn ngữ nhanh với số lượng lớn gấp bội.)
_- Tìm kiếm được tất cả các ngữ cảnh của một từ bất kì trong tiếng
4
Trang 6Viét (trong pham vị ngữ liệu đã nhập vào chương trình) với các thòng tin kèm theo về xuất xứ của ngữ cảnh đó Các ngữ cảnh này khi hiển thị trên máy sẽ được chương trình tự động sap xếp theo mội trật tự nhất định
- Tìm kiếm được tất cả các ngữ cảnh của một từ trong một tác phẩm/ của một tác giả/ trong một khoảng thời gian/ thuộc một loại văn bản
(trong phạm vi ngữ liệu đã nhập vào chương trình) với các thông tin về xuất
3.3 Chương trình trợ giúp biên soạn:
Hoàn thành chương trình, đáp ứng được các yêu cầu đề ra
Với hệ chương trình này, người soạn có thể soạn định nghĩa từ điển
trên máy tính Các thông tin trong một định nghĩa sẽ được đưa vào các trường khác nhau Cách xử lí chương trình tốt, không hạn chế số lượng với
đồng âm, đa nghĩa Mỗi một trường có định dạng riêng để có thể gọi
đếm, copy và in các thông tin theo các trường đã nhập Toàn bộ nội dung
định nghĩa sau khi hoàn thành có thể chuyển sang Microsoft Word để in ấn
thành từ điển theo ¿ác quy cách đã định sắn
Với tổng thể 3 chương trình nói trên, công tác biên soạn từ điển đã
được chuẩn bị về Kĩ thuật tin học để có thể hoàn toàn tiến hành trên máy tính Người biên soạn có thể tiến hành tất cả các thao tác: tra cứu ngữ liệu tham khảo các định nghĩa của các từ điển đã có, soạn tháo định nghĩa từ điển, sửa chữa định nghĩa, trao đổi thông tin với những người cùng nhóm
biên soạn, trên máy tính, chuyển kết quả soạn thảo sang Microsoft Word
để in ấn thành từ điển Đây là kĩ thuật biên soạn từ điển hoàn toàn mới ở nước ta, lần đầu tiên được ứng dụng ở Viện ngôn ngũ học Vớt kĩ thuật này, chắc chắn công tác biên soạn từ điển (trước mắt là từ điển giải thích tiếng Việt) sẽ thuận lợi hơn nhiều so với trước đây, góp phần tiết kiệm được công sức cũng như rút ngắn được thời gian biên soạn từ điển (tất
nhiên, chất lượng từ điển là hoàn toàn phụ thuộc vào trình độ người biên
Soạn)
4 Trang thiết bị kĩ thuật:
chủ Imáy quét, Imáy in Lase, imáy ghi CD
Trang 7- Mua phần mềm nhận điện chữ Việt, đã sử dụng để quét và nhận
điện văn bản đầu vào
~ Thiết lập mạng cục bộ Nối mạng cục bộ cho 8 máy
- Nối mạng Internet và khai thác tư liệu trên mạng
`_%, Chuẩn bị về tư liệu:
5.1 Nguồn tài liệu dịch để tham khảo về lí thuyết (tổng số 648 trang
in khổ A,):
- Tập bài dịch các vấn đề liên quan đến lí thuyết biên soạn từ điển và
từ điển học, gồm !4 bài, 267 trang (dịch từ các ngữ: Anh, Nga, Trụng
quốc, Pháp)
- Tập tài liệu giới thiệu về Mạng ngữ liệu Longman (Ngân hàng ngữ liệu tiếng Anh hiện đại), 60 trang
- Tác phẩm "Từ điển học và việc phân tích khái niệm" của Anna
Wierzbiska, in tại Hoa Kỳ, 1985, (321 trang dich)
3.2 Tư liệu
- Mua 60 cuốn sách lí luận cơ bản và các từ điển ở trong nước và nước ngoài để tham khảo (có danh sách kèm theo)
- Đã mua được 40 cuốn sách tiếng Việt chọn lọc, thuộc loại có chất
lượng tốt để làm tư liệu đầu vào
- Đã mua được 471 tác phẩm các loại văn bản dưới dang chế bản để , nhập vào Ngân hàng ngữ liệu, trong đó đã đưa vào 234 tác phẩm (có danh
liệu (có danh sách kèm theo)
6 Đoàn khảo sát tại Cộng hoà Pháp
Tổ chức đoàn khảo sát (3 người) về công tác từ điển học tại Cộng hoà Pháp trong thời gian I0 ngày (tháng 5-2001) tại hai nhà xuất bản từ
điển lớn của Pháp là Hachette và Larousse Kết quả: học tập được kinh nghiệm của Pháp trong công tấc xây dựng kế hoạch và tổ chức biên soạn các loại từ điển, kinh nghiệm về việc ứng dụng thành tựu của công nghệ
6
Trang 8thong tin vao viéc xay dung ngan hàng dữ liệu ngôn ngữ cũng như vào việc biên soạn từ điển Những kinh nghiệm và bài học đó đã được ứng dụng vào
quá trình thực hiện đề tài cũng như sẽ được áp dụng vào quá trình xây dựng
kế hoạch, tổ chức biên soạn các loại từ điển sắp tới (có các báo cáo kèm
theo, in trong tập Cơ sở lí luận cho việc biên soạn bộ TĐTV cỡ lớn)
TH Đánh giá, đề xuất
- Công trình đã hoàn thành các nhiệm vụ được giao với tiến độ thực hiện tương đối tốt, đều ở các phần việc; một số phần việc hoàn thành vượt mức kế hoạch (như tư liệu cho thử nghiệm ngân hàng dữ liệu tiếng Việt:
vượt mức 3.200.000 âm tiết) Các hạng mục công việc đã hoàn thành đạt
chất lượng tốt, đảm bảo yêu cầu đề ra Các kết quả đạt được trong công
trình này có thể dùng để biên soạn cuốn TĐTV cỡ lớn trong các nam téi!
- Thực hiện thành công Công trình này không những thu được những
kết quả cụ thể nêu trên mà còn là bước tập đượt, đào tạo đối với các cán bộ
tham gia công trình về các bước tiến hành, việc tổ chức thực hiện,
~ Một số đề xuất vẻ việc xây dựng ngân hàng dữ liệu tiếng Việt: Qua
chuyến khảo sát việc làm từ điển và ứng dụng công nghệ tin học ở hai nhà
xuất bản lớn của Pháp Hachette và Larousse, chúng tôi nhận thấy: Việc xây dựng một kho dữ liệu tiếng Việt hiện đại là rất cần thiết, nhưng đây thực sự
là việc làm hết sức khó khăn, đòi hỏi rất nhiều thời gian, tiền của và tri thức Việc làm một ngân hàng đữ liệu thử nghiệm như chúng ta đang làm
hiện nay là hoàn toàn đúng hướng và đã bước đầu ứng dụng được những
thành tựu mới nhất về tin học trong công tác từ điển Nhưng với điều kiện của chúng ta hiện nay, việc đặt ra mục đích cuối cùng là một ngân hàng dữ liệu tiếng Việt nhằm đại diện cho tiếng Việt hiện đại tương tự như những ngân hàng dữ liệu của Anh, Pháp và các nước tiên tiến khác trong một vài năm là chưa thể đạt được (Ngân hàng dữ liệu tiếng Anh của Longman có hơn 100 triệu từ, gồm cả chữ viết và âm thanh, được thực hiện với kinh phí đầu tư hơn 1 triệu USD) Do vậy, để tiến tới một ngân hàng đữ liệu tiếng Việt đầy đủ, hiện đại, cần phải có những kế hoạch tiếp theo, kế thừa và
phát triển kết quả của công trình thử nghiệm nay °
Trang 9PHAN THU HAI MUC TIEU, NHIEM VU CUA TU BIEN TIENG VIET CO LON
1 Từ điển tiếng Việt cỡ lớn là công cụ cần thiết cho công cuộc
chuẩn hoá tiếng Việt trong giai đoạn hiện nay
Nhiệm vụ hàng đầu của Từ điển tiếng Việt cố lớn là làm công cụ
để tra cứu, giúp cho người sử dụng hiểu đúng ý nghĩa và dùng đúng từ
ngữ tiếng Việt ở giai đoạn hiện nay Nó sẽ cung cấp cho cán bộ giảng dạy, các nhà báo, nhà văn, các nhà nghiên cứu và cán bộ hoạt động trong các cấp, các ngành, hệ thống thuật ngữ khoa học chính xác và hiện đại của tiếng Việt Cũng qua từ điển này, người dùng có thể tìm thấy những đạng viết đúng chính tả của những từ cần phân biệt về chính tả, cách phiên âm từ có gốc nước ngoài, v.v
2 Từ điển tiếng Việt cỡ lớn là công trình phản ánh diện mạo
từ vựng tiếng Việt ở những năm đầu thé ki XXL
- Để thực hiện được nhiệm vụ này, việc xây dựng ngân hàng dữ
liệu tiếng Việt phục vụ cho việc biên soạn từ điển là rất quan trọng
Từ kho đữ liệu phong phú, 7T điển tiếng Việt cỡ lớn sẽ có điều kiện phản ánh được kho từ vựng cơ bản của tiếng Việt ở những năm đầu
thế kỉ XXI Thực hiện được nhiệm vụ này, Tz điển tiếng Việt cỡ lớn
còn có tác dụng tích cực cho việc nghiên cứu tiếng Việt nói chung
- La công cụ tra cứu, Từ điển tiếng Việt cỡ lớn còn là cơ sở cần thiết, là chỗ dựa để xây dựng từ điển các loại như từ điển song ngữ, từ điển học sinh, từ điển tiếng Việt thông dụng, từ điển đồng nghĩa, trái nghĩa, từ điển bách khoa và các từ điển chuyên ngành, v.v, góp phần
hình thành nên hệ thống các loại từ điển tiếng Việt cần thiết cho xã
hội
3 Các công việc cần tiến hành
8
Trang 103.1.Tổ chức lực lượng cán bộ
Cán bộ biên soạn từ điển gồm: _„
- Các nhà nghiên cứu, biên soạn từ điển
- Lực lượng cộng tác viên gồm chuyên gia đầu ngành các ngành
khoa học Kĩ thuật, khoa học tự nhiên và khoa học xã hội - nhân văn
- Các Kĩ thuật viên: các chuyên gia thông thạo việc ứng dụng tin
học vào ngôn ngữ học để quản lí mạng nội bộ, khal thác tin trên mạng Internet, , kĩ thuật viên có kiến thức ngôn ngữ học và sử dụng thông thạo một số phần mềm chuyên dụng trên máy tính, để giúp sửa bản
nhận đạng chữ Việt, nhận diện từ mới, chọn ngữ cảnh điển hình 3.2 Xây dựng ngân hàng dữ liệu từ điển tiếng Việt bàng công
nghệ thông tin
Khác với nhiều công trình biên soạn khác, từ điển không phải là
một công trình sáng tác Người biên soạn từ điển không tự sáng tác ra các từ và cách dùng của từ Công việc của người biên soạn từ điển là:
trên cơ sở lí luận ngôn ngữ học, dựa vào thực tế sử dụng phong phú của từ ngữ trong cuộc sống mà phân tích và khái quất, vạch ra nghĩa của từ để giúp cho người sử dụng hiểu và sử dụng đúng từ ngữ Cái
"thực tế sử dụng phong phú của từ ngữ" đó chính là nguồn dữ liệu cho
công việc biên soạn từ điển
Việc xây dựng kho dữ liệu là rất quan trọng bởi các lí do:
- Kho đữ liệu là cơ sở cần thiết để xây dựng bảng từ cho từ điển Kho dữ liện càng phong phú, vốn từ được thu thập càng nhiều, càng
đảm bảo cho sự lựa chọn, xây dựng bảng từ được khách quan, đầy đủ,
không bị sót
- Kho dữ liệu là chất liệu giúp cho người biên soạn từ điển tìm ra
các nghĩa của từ một cách đầy đủ và khách quan; đồng thời giúp cho
việc định nghĩa từ chính xác
Trang 11Để chuẩn bị cho việc biên soạn Từ điển tiếng Việt, từ những năm mới thành lập (1968), Viện ngôn ngữ học đã rất chú trọng đến công tac xây dựng kho dữ liệu tiếng Việt Bằng biện pháp thủ công, từ khâu
chọn sách báo, gạch từ ngữ, đến chép ra phiếu, với sự đầu tư kinh phí
lớn trong gần hai chục năm cùng với sự tham gia của hàng chục
_ người, cho đến năm 1985, Viện ngôn ngữ học đã xây dựng được kho
dữ liệu tiếng Việt gồm gần 3 triệu phiếu Đây là kho dữ liệu tiếng Việt lớn nhất và duy nhất ở nước ta cho đến thời điểm hiện nay Kho dữ liệu này đã phục vụ rất tốt cho Viện ngôn ngữ học trong việc biên
soạn thành công Từ điển tiếng Việt (xuất bản lần đầu năm 198B tái `
bản có sửa chữa bổ sung năm 1992, in lai các năm từ 1994 đến 1999) cũng như trong nhiều lĩnh vực nghiên cứu khác vẻ tiếng Việt Nhưng
để biên soạn Từ điển tiếng Việt cỡ lớn thì kho đữ liệu hiện nay không
còn đáp ứng được yêu cầu vì những lí đo sau:
- Thứ nhất: Kho dữ liệu này chỉ phản ánh được thực trạng từ ngữ tiếng Việt đến năm 1985 Từ 1986 đến nay, như đã nêu ở trên, là thời
kì tiếng Việt có những biến đổi quan trọng thì công việc xây dựng kho
dữ liệu lại không được tiếp tục thực hiện, do vậy thiếu hẳn dữ liệu tiếng Việt thời kì quan trọng này
- Thứ hai: Do mục đích xây dựng kho đữ liệu này là để phục vụ cho việc biên soạn cuốn từ điển tiếng Việt phổ thông (cỡ trung bình,
khoảng 40.000 mục từ) nên khối lượng mục từ của kho dữ liệu được thu thập cũng hạn chế ở phạm vi nhất định, chưa phản ánh đầy đủ thực trạng phong phú của vốn từ tiếng Việt ngay ở thời điểm xây dựng kho ngữ liệu
- Thứ ba, do hạn chế của điều kiện kĩ thuật trước đây nên kho dữ
liệu được xây dựng trên cơ sở các phiếu viết tay Vì phiếu tư liệu viết tay, chép rời từng phiếu, nên khi biên soạn từ điển, người biên soạn
10
Trang 12phải đọc, sắp xếp trên từng phiếu rời, mất nhiều thời gian, ảnh hưởng
nhiều đến tốc độ biên soạn từ điển _ „
Một ngân hàng dữ liệu tiếng Việt được xây dựng bằng công nghệ thông tin sẽ phong phú hơn gấp bội so với cách làm thủ Công trước đây, bảo đảm được tính chính xác của tư liệu, cung cấp nhiều thông tin va dap ứng nhiều yêu cầu tìm tòi, nghiên cứu theo nhiều hướng
khác nhau Những dữ liệu của nó lại dé bảo quản, éó thể nhân bản tuỳ
ý, có thể xử lí theo yêu cầu một cách nhanh chóng, thuận tiện
Do vậy, để biên soạn 7 điển tiếng Việt cỡ lớn trong điều kiện
hiện nay, kho dữ liệu tiếng Việt của Viện ngôn ngữ học cần phải được hiện đại hoá bằng việc áp dụng những tiến bộ của công nghệ thông tín
nhằm đáp ứng các yêu cầu:
- Thu thập được đây đủ dữ liệu tiếng Việt đến những năm đầu thế
kỉ XXI trên nguyên tắc sử dụng được nguồn dữ liệu đã có, đồng thời
bổ sung mới nguồn đữ liệu mà trong đó, quan trọng nhất là nguồn dữ liệu từ năm 1985 đến nay Đảm bảo có khoảng vài trăm triệu âm tiết trong ngân hàng dữ liệu tiếng Việt
- Dữ liệu được lưu trữ bằng phương tiện tin học hiện đại; có
những phần mềm ứng dụng đi kèm để có thể quản lí, khai thác nhanh
theo nhiều hướng, đáp ứng được yêu cầu biên soạn Tử điển tiếng Việt
cỡ lớn và việc nghiên cứu các bình diện khác nhau của vốn từ tiếng
Việt
3.3 Biên soạn 7 điển Hếng Việt cỡ lớn
Từ điển tiếng Việt cỡ lớn được biên soạn thed các yêu cầu chính
Sau:
1 Đối tượng và tính chất của quyển từ điển
Tủ điển tiếng Việt cỡ lớn được biên soạn nhằm phục vụ cho đông đảo bạn đọc muốn học tập, trau dồi, tìm hiểu, nghiên cứu tiếng Việt Đối tượng chủ yếu của nó giảng viên, sinh viên, các nhà nghiên cứu,
1]
Trang 13và những chuyên gia công tác ở các ngành văn hóa, khoa học v.v Từ điển được biên soạn theo tỉnh thần chuẩn hoá và giữ gìn sự trong sáng
của tiếng Việt
2 Dung lượng từ điển:
Phản ánh kho từ vựng cơ bản của tiếng Việt những năm đầu thế
kỉ XXI, do vậy dung lượng Từ điển tiếng Việt cỡ lớn sẽ có khoảng
150.000 mục từ, ước khoảng 6000 trang (cuốn Từ điển tiếng Việt
Viện ngôn ngữ học tái bản có sửa chữa bổ sung năm 2000 gồm 39
924 mục từ, 1221 trang)
3 Cấu tạo bảng từ
Để phản ánh được vốn từ vựng tiếng Việt một cách đầy đủ, Tử điển tiếng Việt cỡ lớn sẽ có một bảng từ phong phú, đa dạng, đảm bảo một tỉ lệ thoả đáng giữa các lớp từ ngữ ngữ văn với các thuật ngữ chuyên ngành, giữa từ ngữ phổ thông và các từ ngữ địa phương, giữa
các từ cũ, cổ và các từ mới, từ ngữ mang các sắc thái phong cách khác nhau, các lớp từ vay mượn từ các nguồn khác nhau, v.v Để làm được việc đó, bên cạnh việc thành lập ban biên tập từ điển, cần thành lập
các tiểu ban chuyên môn của các bộ môn khác nhau Công tác xây dựng bảng từ của từ điển sẽ đi trước một bước, ngay trong những năm đầu của dự án -
Để cung cấp được nhiều thông tin cho ban doc, Tw điển tiếng
Việt cỡ lớn sẽ có thêm phần bảng biểu, hình ảnh, hình vẽ minh hoạ ở một số mục từ, và phần phụ lục gồm tên gọi, thủ đô các nước, nhân danh, địa danh, niên biểu lịch sử, đơn vị đo lường, đơn vị tiền tệ, v.v
4 Phương pháp biên soạn
Từ điển tiếng Việt cỡ lớn sẽ được biên soạn bằng phương pháp
ứng dụng công nghệ thông tin Các biên tập viên sẽ xử lí tư liệu và soạn thảo từ điển trên máy tính Người duyệt sửa cũng sẽ duyệt sửa
12
Trang 14trực tiếp trên máy tính Các máy tính dùng để biên soạn từ điển sẽ được nối mạng nội bộ, đảm bảo cho các biên tập viên có thể khai thác được tư liệu, tham khảo được các từ thuộc vần người khác soạn thảo
Việc ứng dụng công nghệ thòng tin vào biên soạn từ điển sẽ rút ngăn đáng kể thời gian biên soạn Theo tính toán sơ bộ, nếu biên SOạn một cuốn Tỳ điển tiếng Việt cỡ lớn như dự kiến bằng biện pháp thủ công
trước đây, sẽ cần khoáng thời gian chừng 30 - 50 năm Nhưng nếu được trang bị tốt các phương tiện tin học, với cùng một số lượng người
như nhau nhưng được đào tạo tốt về tin học, sẽ rút ngắn thời gian biên
SOạn xuống còn trên dưới 20 năm, l
Để thực hiện được phương pháp biên soạn từ điển bằng ứng dụng
công nghệ tin học, cần phải giải quyết các vấn đề sau:
~ Trang bj hé thống tin học ở mức cần thiết, gồm các máy tính cá nhân, máy chủ quản lí mạng, máy quét (scanner), v.v
- Xây dựng được các phần mềm: nhập, quản lí và khai thác dữ liệu tiếng Việt; nhận dạng chữ Việt; nhận diện từ tiếng Việt: biên Soạn
từ điển tiếng Việt
~ Đào tạo được đội ngũ biên tập viên từ điển có trình độ chuyên môn tốt, có khả năng sử dụng thành thạo máy tính vào công tác biên
soạn từ điển Đồng thời cũng cần đào tạo một đội ngũ những người làm tư liệu theo phương pháp hiện đại để hỗ trợ cho cán bộ biên tập
Š Phương pháp định nghĩa
Để phân tích, vạch rõ được nội dung nghĩa từ, Từ điển riếng Việt
cỡ lớn áp dụng các phương pháp phân tích mới nhất của ngữ nghĩa
học, ngữ dụng học Với thuật ngữ khoa học, định nghĩa chủ yếu dựa
vào kiến thức khoa học về khái niệm Thí dụ được đưa vào sau lời
định nghĩa nhằm bổ sung hoặc minh hoạ cho định nghĩa, làm sáng tỏ
sắc thái, khía cạnh nào đó của nghĩa mà định nghĩa không nêu rõ hết
¬ 13
Trang 15được Các thí dụ được đưa vào từ điển này ngoài những thí đụ do người biên tập soạn ra, còn có những câu trích nguyên van trong các tác phẩm văn học, báo chí, v.v có ghỉ rõ xuất xứ
6 Chuẩn chính tả
Ban biên tập từ điển cần có quy tắc thống nhất về chuẩn chính tả được áp dụng trong từ điển trên cơ sở quy định hiện hành
Khi có Hội đồng nhà nước về ngôn ngữ, chính tả được áp dụng
trong từ điển sẽ là chính tả được Hội đồng thông qua
4 Kết quả:
4.1 Một bộ Từ điển tiếng Việt gôm 3 loại:
- Từ điển tiếng Việt cỡ vừa (khoảng 35.0000mục từ), được biên
soạn theo định hướng và phương pháp biên soạn mới
- Từ điển tiếng Việt cỡ trung (khoảng 70.000 mục từ), được biên Soạn trên cơ sở kế thừa thành quả của cuốn từ điển tiếng Việt cỡ vừa
- Từ điển tiếng Việt cỡ lớn (150.000 mục từ, khoảng 6000 trang
in), được biên soạn trên cơ sở kế thừa thành quả của cuốn từ điển
tiếng Việt cỡ trung: đầy đủ, cập nhật và đáng tin cậy, tiêu biểu cho sự
phát triển tiếng Việt hiện đại, góp phần tích cực vào công cuộc chuẩn hoá và phát triển ngôn ngữ, làm cơ sở để xây dựng và biên soạn các loại từ điển ngữ văn cũng như từ điển chuyên ngành ở Việt Nam 4.2 Một Ngân hàng dữ liệu tiếng Việt được tổ chức khoa học tiện dùng, được bảo quản và lưu giữ bằng những phương tiện kĩ thuật hiện đại, có thể phục vụ việc nghiên cứu tiếng Việt một cách toàn
diện, nghiên cứu so sánh đối chiếu các ngôn ngữ, biên soạn từ điển tiếng Việt các cỡ, các loại
4.3 Một đội ngũ cán bộ biên soạn từ điển chuyên nghiệp được đào tạo cơ bản, có khả năng nghiên cứu sâu vẻ từ điển học, ngữ nghĩa học,
từ vựng học, v.v
Trang 16PHAN THU BA
CÁC SẢN PHẨM CỦA CÔNG TRÌNH
A Các tài liệu đã in:
1.Tập tài liệu về mô hình xây dựng các phần mềm thử nghiệm:
- Cơ sở dữ liệu tiếng Việt
- Quản lí và khai thác các từ điển giải thích tiếng Việt đã có
- Tro giúp biên soạn Từ điển tiếng Việt cỡ lớn
Tập tài liệu này do cán bộ Viện ngôn ngữ soạn Đây chính là bài toán đặt
ra cho cán bộ tin học xây dựng các phần mềm chuyên dụng cho công trình
2 Tài liệu hướng dẫn sử dụng các phần mềm thử nghiệm do đối tác tin học soạn thảo sau khi hoàn tất chương trình để chuyển giao cho công trình
3 Cơ sở lí luận cho việc biên soạn bộ từ điển tiếng Việt cỡ lớn (tập hợp các bài nghiên cứu lí luận và mẫu định nghĩa từ điển) Công trình gồm các bài viết riêng lẻ nhưng được tập hợp theo chuyên đề mà đề cương được thiết kế theo yêu cầu của đề tài Công trình dày 374 trang, gồm ba phần: Phần A: Các bài viết về lí luận từ điển học và sự ứng dụng để biên soạn
từ điển tiếng Việt cỡ lớn Phần này gồm 13 bài, được sắp xếp theo vấn đề,
đi từ lí luận chung về từ điển học như định hướng chung cho cuốn TĐTV cỡ lớn, cấu trúc vĩ mô (cơ sở lí thuyết để Xây dựng bảng từ), cấu trúc ví mô, việc thu thập và giải nghĩa các đơn v‡ trong TĐTV cỡ lớn, đến những vấn
dé cụ thể như việc xử lí các lớp từ vựng theo một số tiêu chí, ví dụ, từ vung
khẩu ngữ, từ ngữ mới (cơ sở lí thuyết để thu thập các từ ngữ mới), xử i một vài loại thong tin ma TD hoc truyền thống chưa quan tâm đúng mức như
thông tin ngữ dụng, thông tin về văn hoá, ; xử lí từ đồng nghĩa, vấn để thi
dil,
Trang 17Phần B Co sé li thuyét để từ đó đưa ra một số mẫu định nghĩa (maket; có thể được tách thành bài riêng hoặc lông vào phần nghiên cứu) như mẫu định nghĩa tính từ, trợ từ, thành ngữ, các toán tử logic tình thái (số lượng
lên tới hơn 30 maket) để áp dụng cho TĐTV cỡ lớn
Phần C_ Một số vấn đề khác của đẻ tài như: báo cáo những vấn đề thu hoạch được về chuyên môn trong chuyến khảo sát tại Cộng hoà Pháp,
hướng hoạch định dữ liệu đầu vào cho khối tư liệu trong phần ngân hàng
4 Các tài liệu dịch từ tiếng nước ngoài, gồm ba tập: „
a) Một số vấn đề từ điển học Đây là tập tài liệu dịch từ tiếng Anh Nga,
Pháp và Trung về các vấn đề từ điển học nói chung và từ điển cỡ lớn nói
riêng Các tài liệu này được thu thập một cách khá công phu, gồm cả những
tài liệu lưu hành có tính chất nội bộ, ví dụ như ba tập tài liệu của Ban biên
tập cuốn Hán ngữ đại từ điển của Trung quốc, một số tài liệu được các thành viên của công trình mang từ nước ngoài về hoặc lấy về từ mạng Internet, day 267 trang
b) Cuốn "Từ điển học và việc phân tích khái niệm” của Anna Wierzbika
được dịch toàn bộ, đày 321 trang
€) Mạng ngữ liệu Longman, 60 trang, là bản dịch một tài liệu rất mới về
ngân hàng dữ liệu tiếng Anh được tổ chức nhờ ứng dụng công nghệ tin học
5 Bảng từ làm thử cho ba vần ABC của Từ điển tiếng Việt cỡ lớn gồm:
- Bảng từ đã được thu-thập vào các từ điển đã có gồm 28.657 don vi, in
16
Trang 18-Bảng từ bổ sung từ kho dữ liệu mới những năm 2000 -2002, được thu thập từ sách báo xuất bản từ những năm 2000-2002 (mới xử lí vần ABC,
chưa loại các đơn vị trùng) Bảng từ này dùng để tra trong khối đữ liệu thô, nếu có tần số lớn mới được thu thập vào từ điển tiếng Việt cỡ lớn
B Các sản phẩm lưu trong máy (sẽ được trình bày trong buổi nghiệm thu):
1.Hệ chương trình và khối ngữ liệu tiếng Việt gồm 42.000 hỏ sơ với
13.241.000 âm tiết (khoảng 26.000 đến 27.000 trang in A,) Hệ này gồm
ba phần mềm liên thông với nhau:
- Phần mềm Cơ sở đữ liệu tiếng Việt
- Phần mềm quản lí và khai thác các từ điển giải thích tiếng Việt đã
có
- Phần mềm trợ giúp biên soạn Từ điển tiếng Việt cỡ lớn (cấu trúc vi mô
của Từ điển tiếng Việt cỡ lớn)
2 Bảng từ thô tổng hợp gồm:
- Bảng từ thô gồm toàn bộ các đơn vị từ vựng đã được thu thập trong các
từ điển giải thích tiếng Việt đã có từ trước đến nay, gồm 120.000 mục (nếu
in sẽ dày khoảng 3.000 trang A,)
- Bảng từ thô bổ sung từ kho phiếu gồm 117.914 mục (đã xử lí một lần), khoảng gần 3.000 trang khổ A„
- Bảng từ thô rút từ kho ngữ liệu mới gồm 20.329 đơn vị và tần số xuất hiện trên cơ sở 45.452 bản ghi được chọn từ các ấn phẩm từ 1985-2000
:(khoảng 500 trang khổ A,)
3 Các sách tham khảo (tiếng Việt và tiếng nước migoài) và sách tư liệu để lập cơ sở đữ liệu
4 Danh sách các tư liệu để bổ sung cho cơ sở đữ liệu
3 Cac dia CD chứa các văn bản dưới dạng chế bản đã thu thập được để đưa vào cơ sở đữ liệu
Trang 196 Phan mém quan lí và khai thác các đơn vị từ vựng cùng khối ngữ liệu
gồm 45.452 bản ghi được chọn từ các ấn phẩm từ 1985-2000, có thể khai
7 Phần mềm quản lí và khai thác các đầu mục từ kho phiếu cũ cùng toàn
bộ các đầu mục và các thông tin tần số, chú nghĩa (ở các đơn vị không rÕ
nghĩa)
18
Trang 20PHAN THU TU
CƠ SỞ LÍ LUẬN CHO VIEC BIEN SOAN
BO TU DIEN TIENG VIET CO LON
- Cuốn "Từ điển học và việc
phân tích khái niệm" của
Anna Wierzbicka (321 trang)
*
1 TẬP BÀI VIẾT CØ SỞ LÍ LUẬN CHO VIỆC BIỂN SOẠN
BỘ TĐTV CỐ LỚN do các cán bộ tham gia công trình thực hiện dày
406 trang khổ A„ gồm 24 bài, chia làm ba phần: Phần 1: Các bài
nghiên cứu lí luận chưng về từ điển giải thích và từ điển giải thích tiếng Việt cỡ lớn Phần 2: Các bài nghiên cứu về mẫu (maket) của từ điển giải thích Phần 3: Một số vấn đẻ khác liên quan đến mảng lí
thuyết của đề tài Nội dung cụ thể của các phần như sau:
Phần 1 gồm các bài nghiên cứu được tập hợp theo một cấu trúc:
logic các vấn đề về một cuốn từ điển giải thích cỡ lớn: đi từ những vấn
dé chung nhất như cấu trúc vĩ mô, cấu trúc vi mô, những khái niệm
của lí thuyết ngữ nghĩa học, từ điển học hiện đại như "đơn nguyên
nghĩa", "nghĩa ngữ dụng", đến cách xử lí cụ thể trong một cuốn từ điển tường giải cỡ lớn như các thông tin, các từ ngữ mới, các ví dụ,
Bài "Định hướng biên soạn TĐTV cỡ lớn trên cơ sở xây dựng
ngân hàng dữ liệu tiếng Việt và ứng dụng công nghệ thông tin" đã đưa
ra những định hướng cơ bản của cuốn TĐTV cỡ lớn Đó là các vấn đẻ
như: Nhu cầu của xã hội, mục tiêu, nhiệm vụ của cuốn TĐTV cỡ lớn: các công việc cần tiến hành như: xây dựng lực lượng cán bộ, xây dựng ngân hàng dữ liệu tiếng Việt, cách thức biên soạn; dự kiến về thời
gian, Các định hướng này được dùng làm cơ sở để hoạch định cuốn
TĐTV cỡ lớn sẽ biên soạn
Trang 21Cấu trúc vĩ mô là vấn đề được các nhà từ điển học chú ý đến đầu tiên, bởi nó quyết định tầm cỡ và tính chất của một cuốn từ điển Bài
"Về cấu trúc vĩ mô của TĐTV cỡ lớm' đưa ra 4 đặc điểm của cuốn TDTV cỡ lớn là: - Loại cỡ; - Tính chất miêu tả chung; - Tính đồng
đại; - Cấu trúc vĩ mô xét từ hai khía cạnh: + trong mối tương quan VỚI cấu trúc vi mô, và + có tính chỉnh thể Tác giả đi sâu hơn vào cấu trúc,
vĩ mô của TĐTV cỡ lớn là việc lập bảng từ, yêu cầu xử lí các mục từ một cách có hệ thống Tác giả đã nêu một loạt các kiểu đơn vị cụ thể của TĐTYV cỡ lớn là: - các hình vị (hoặc tiếng), các từ đơn và đa tiết,
các tổ hợp và các ngữ cố định Các tiêu chí này giúp xác định được các đơn vị đầu mục của TĐTV cỡ lớn một cách tương đối nhất quán nhưng mềm dẻo, phù hợp với yêu cầu miêu tả chung vốn từ của một
ngôn ngữ thuộc loại hình đơn lập như tiếng Việt Có thể nói, vấn đề
chú ý và giải quyết cùng với việc nêu các đặc trưng về bảng từ của
TĐTV cỡ lớn, đây cũng là một điểm mới của bài viết Cũng nằm trong vấn đề về cấu trúc bảng từ là việc lựa chọn các đơn vị từ vựng mới cho một cuốn từ điển Khái niệm từ mới, nghĩa mới liên quan chặt chẽ đến tính hiện đại và bị chỉ phối bởi tính chuẩn mực của một cuốn TĐ giải thích Với cuốn TĐTV cỡ lớn, việc thu thập các đơn vi coi 1A mdi
cũng cần theo hai quan niệm nói trên Tác giả bài "Từ ngữ mới và việc thu thập, giải nghĩa các từ ngữ mới trong TDTV cỡ lớn" đã cố gắng xác định các tiêu chí thu thập và cách giải nghĩa cho bộ phận từ ngữ
này
Tiếp theo cấu trúc vĩ mô là cấu trúc vi mô, vấn đề chủ chốt thứ
hai của một cuốn từ điển Cấu trúc vi mô của TĐÐTV cỡ lớn được hình dung trên cơ sở cấu trúc vi mô của một cuén TD giải thích tiếng Việt
nói chung và trong mối quan hệ chi phối chặt của cấu trúc vĩ mô Sau khi tóm tắt những đặc điểm chung của cấu trúc vi mộ của một cuốn
TĐ giải thích tiếng Việt nói chung, dựa vào định hướng về dung lượng
và tính chất của cuốn TĐTV cỡ lớn, tác giả bài "Cấu trúc vi mô của
TĐTV cỡ lớn" đã giải quyết những vấn đề của cấu trúc vi mô: lượng thông tin được đưa vào, mối quan hệ hệ thống của các đơn vị đầu mục thông qua cấu trúc vi mô, việc phân định vốn tử tiếng Việt, việc tách nghĩa các từ đa nghĩa và xử lí đồng âm, việc đưa một số thông tin khác như các thông tin văn hoá và lịch sử, Một vấn đề mới trong lí thuyết của từ điển học hiện đại là việc mó hình hoá cấu trúc vi mô của một cuốn từ điển Tác giả đã hình dung một mô hình khái quát nhất, đầy đủ nhất cho cấu trúc vi mô của TĐTV cỡ lớn, từ đó đặt ra bài toán cho các nhà tin học giải đáp, nhằm xây dựng một phần mềm trợ giúp biên soạn TĐTV cỡ lớn Với phần mềm trợ giup nay, cing
20
Trang 22với các maket định nghĩa phụ trợ, sẽ bảo đảm tính nhất quán, tính hệ
thống cho cuốn từ điển
Cụ thể hoá cho cấu trúc vi mò của“TÐTV cỡ lớn là các bài viết về
trợ từ, về thông tin ngữ dụng, về tính từ, về các động từ tâm lí tình
cảm, về thành ngữ, về các từ ngữ khẩu ngữ,
Các bài viết khác trong phần này trình bày những vấn đề lí thuyết,
cho một cuốn từ điển cỡ lớn theo cùng định hướng cơ bản đã nêu Đó
là những vấn đề chung vẻ việc biên soạn một cuốn TĐTV cỡ lớn, chủ yếu là vấn đề thu thập một bảng từ dựa trên khái niệm ứờ trong tiếng Việt, việc giải thích nghĩa từ theo lí thuyết phân tích ngữ nghĩa hiện
đại, việc chú sắc thái và cách đùng, việc chú từ loại Tác giả bài "Một vài suy nghĩ về việc biên soạn Từ điển riếng Việt trong mối quan hệ
với Việt ngữ học” đã đưa ra những suy nghĩ về các vấn đề trên nhằm
góp thêm một tiếng nói cho "diễn đàn" từ điển học vốn ít sôi nổi ở
nước ta cũng như trên thế giới
Cũng liên quan trực tiếp đến chất lượng của một cuốn từ điển là
cách phân tích nghĩa từ Với cách nhìn của từ điển học hiện đại: cấu
trúc ngữ nghĩa của tất cả các từ có thể được mô tả bằng một siêu ngôn ngữ với số lượng từ vựng hữu hạn (các nguyên tố nghĩa) và một ngữ pháp riêng, tác giả bài "Giới thiệu các khái niệm nguyên tố nghĩa, đơn nguyên nghĩa" mong muốn sẽ ứng dụng được cách phân tích này vào việc miêu tả nghĩa cho cuốn TĐTV cỡ lớn
Thí dụ trong từ điển giải thích, một vấn đề tưởng như đơn giản và chỉ có tính chất vận dụng, thực hành, đã được nghiên cứu trong một chuyên đề riêng Bài viết "Về thí dụ trong từ điển giải thích cỡ lớn" nhằm giải quyết câu hỏi "thí dụ có quan hệ như thế nào với các thông
tin khác trong một mục từ, tức nó có vai trò, vị trí như thế nào trong
toàn bộ cấu trúc vi mô của từ điển?" Tác giả qua nhận xét, đánh giá các thí dụ trong các từ điển giải thích tiếng Việt, đã rút ra được những thiếu sót cũng như các tiến bộ nhất định của ngành 'TÐ học nước ta, từ
đó đưa ra những yêu cầu về số lượng, kiểu loại thí dụ cho cuốn TĐTV
cỡ lớn
Các bài viết khác về từ vựng khẩu ngữ và cách xử lí chúng trong
TDTV cỡ lớn, việc xử lí từ đồng nghĩa, chức năng của trợ từ, của các toán tử logic-tình thái, về những xu hướng phát triển từ vựng tiếng Việt trong khoảng mươi, mười lăm năm gần đây, về các phương thức chuyển nghĩa, vẻ lịch sử từ điển học Việt Nam, đã trực tiếp hoặc
gián tiếp bổ sung tư liệu thực tế hoặc gợi ý vẻ mặt lí thuyết để giải
quyết những vấn đẻ khác nhau cho bộ TĐTV cỡ lớn
Phần 2 gồm các bài viết về các mẫu định nghĩa Trên tư liệu
tiếng Việt, các tác giả đã đưa ra hơn 40 mẫu định nghĩa cụ thể của
tính từ, trợ từ, động từ, các toán tử logic-tình thái, các thành ngữ và
21
Trang 23các từ ngữ mang phong cách khẩu ngữ Nội dung các bài viết đi từ nghiên cứu lí thuyết (đánh giá, phân loại các đơn vị), từ đó đưa ra các
Phần 3 gồm hai bài viết báo cáo kết quả chuyến khảo sát, học tập kinh nghiệm tại Cộng hoà Pháp của ba cán bộ tham gla công trình Hai bản báo cáo cho thấy tác dụng thực tế của việc tham quan khảo sát, những kết quả và sự ứng dụng vào công trình Định hướng tư liệu đầu vào của ngân hàng dữ liệu cung cấp một cách hoạch định danh
mục các tư liệu được nhập vào NHDL Sự hoạch định này tiếp thu có
lựa chọn những tỉ lệ các thể loại tư liệu của các corpus cua cic ngôn ngữ khác, trên cơ sở đó đưa ra một ti lệ các thể loại văn bản tư liệu
tiếng Việt cho NHDL tiếng Việt - một bộ phận quan trọng trong luận
cứ khoa học của cuốn TĐTV cỡ lớn Bài "Đôi điều chiêm nghiệm về
tổ chức làm từ điển ở xứ ta" tổng kết kinh nghiệm về việc tổ chức làm
từ điển ở một số cơ sở mà tác giả có tham gia, về cách thức tổ chức
làm từ điển ở nước ta nói chung với mong muốn cải tiến cung cách, quan niệm cũng như cơ chế quản lí khoa học, đặc biệt là công việc
làm từ điển ở nước ta
Tóm lại, cơ sở lí luận và mẫu định nghĩa để biên soạn bộ Từ
điển tiếng Việt cố lớn là một hệ thống các vấn đề có định hướng, có
quy hoạch, được thực hiện nghiêm túc Các tác giả đã tiếp thu được những lí thuyết từ điển học, ngữ nghĩa học hiện đại, có thực tế biên soạn từ điển tường giải Vì vậy, các giải pháp đưa ra nhất quán, bổ
sung cho nhau, có đủ độ tin cậy, có sức thuyết phụe, làm chỗ dựa chắc
chắn cho việc biên soạn bộ từ điển tiếng Việt cỡ lớn
Nội dung của từng bài sẽ được tìm thấy trong mục lục sau
Trang 24Muc luc tap
CƠ SỞ LÍ LUẬN VÀ MẪU ĐỊNH NGHĨA CHO BỘ TỪ ĐIỂN TIẾNG VIỆT CỠ LỚN
A, Nghiên cứu lí luận 20 n2 E222 2 Định hướng biên soan từ điển tiếng Việt cỡ lớn trên cơ sở Xây dựng ngân hàng dữ liệu tiếng Việt và ứng dụng công nghệ thông tin
K** HH nh KH ng HH du 2
Bàn về cấu trúc vĩ mô của từ điển giải thích tiếng Việt cỡ lớn ll
Một vài suy nghĩ về việc biên soạn Từ điển tiếng Việt trong mối quan hệ
với Việt ngữ
Chức năng của trợ từ tiếng Việt và việc định nghĩa trợ từ trong từ điển giải
thích tiếng
Giới thiệu các khái niệm “nguyên tố nghĩa", "đơn nguyên nghĩa"
(ứng dụng trong các giải thích và mô tả ngữ
778A ng 90
Xử lí vấn để đồng nghĩa trong từ điển giải thích tiếng Việt cỡ lớn 98
Từ ngữ mới và việc thu thập, giải nghĩa từ ngữ mới trong từ điển tiếng Việt
Từ vựng khẩu ngữ và cách xử lí chúng trong từ điển tiếng Việt cỡ
16n 146
Phương thức chuyển nghĩa và tạo đơn vị từ vựng mới trên cơ sở nghĩa biểu
trưng trong giao tiếp lời nói hàng ngày Đ~ ngu 20
Về hai xu hướng trong phát triển từ vựng tiếng VIệt 216 Một vài hướng phát triển từ vựng và vấn đề chuẩn hoá 230 Giới thiệu sơ lược về từ điển và từ điển học Việt nam
23
Trang 25Mẫu định nghĩa trợ từ tiếng Việt ccceccccscsescesescsecsessecccececceceesesees Định nghĩa thành ngữ tiếng Việt
ˆ Báo cáo kết quả chuyến khảo sát, học tập kinh nghiệm tại Cộng hoà Pháp (về mặt ChUYÊH mÔI) cac ¬ 360 Báo cáo kết quả công tác tại hai nhà xuất bản Hachette và
Larousse 369
Tư liệu đầu vào của ngân hàng dữ liệu S2 2n TnnnnHnnnHn nen 379
2 CAC TAI LIEU THAM KHAO (tai liệu dịch)
2.1 TAP BAI DICH MOT SO VAN DE TU DIEN HOC
Một số vấn đề từ điển học là tập tài liệu dày 246 trang khổ A, gồm các bài đơn lẻ được lựa chọn và dịch từ tiếng Anh, Nga, Pháp và Trung quốc Các bài dịch tập trung vào các dự báo vấn đề lí thuyết từ
điển học của thế kỉ XXI, từ điển học của các nước có trình độ phát
triển cao như Anh, Pháp, Trung Quốc, Nga Những vấn đề chính được lựa chọn để dịch cũng là những vấn đề mà công trình rất quan tâm: bảng từ, cách phân tích và miêu tả nghĩa, các vấn đề về từ mới, Vì vậy chúng mang lại lợi ích rất thiết thực cho những người tham gia nghiên cứu lí luận của công trình
Trang 2610
MUC LUC Ladislav Zgusta, Ti điển học thế kỉ 21, trong tập bài Hội nghị từ
điển học Quốc tế châu á lần thứ nhất, Manila, Phillipines- 1992, Hội Ngôn ngữ học Phillipnines, Manila, 1994, (bản tiếng Anh)
é ẩ éoổØớà, Cái mới trong lí thuyết và thực tiễn của từ điển học
tiếng Anh, trong "Từ điển học Xô Viết", Nxb "Tiéng Nga” M.,
1988, (ban tiéng Nga)
Ju D Aprexian, Chan dung tir dién cia dong từ "vưiti" (ra), trong tuyển bài "Những vấn dé điều khiển học Ngôn ngữ lô gich và lô gich ngôn ngữ”, M., 1990, (bản tiếng Nga)
Lesley Brown, Từ điển tiếng Anh rút gọn mới của Oxford trén '
nguyên tắc lịch sử, Nxb Clarendon - Oxford, 1993, (bản tiếng
Anh)
Tiêu Kế Chu, Thiện Diệu Hải, Hàn Kính Thể, Vẻ vấn đề thu thập
từ ngữ của từ điển loại chuẩn, trong tap "Hội thảo khoa học về
cuốn Hiện đại Hán ngữ từ điển", 1995, (bản tiếng Trung)
A S Hornby, Một số từ trong cuốn từ điển Oxford Advanced Learners English Dictionary, tái bản lần thứ 6, chủ biên Sally Wehmeier, Nxb Dai hoc Oxford, 2000 (ban tiếng Anh)
Diéu Han Minh, Ban về từ ngữ mới và chuẩn hoá, trong tập "Dạy
học và nghiên cứu ngôn ngữ", sối 1995, tr 82-95, (bản tiếng
Trung)
A A Khamatova, Ban vé cdc xu huéng phát triển từ vựng tiếng
Hán hiện đại, trong cuốn "Những vấn đề cấp thiết của tiếng Hán”;
Viện ngôn ngữ học thuộc RAN; M., 1988, tr 46-63, bản tiếng
Nga
Cát Tây Khuyến, Cát Tố Bửu, Một chút quan điểm về ứng dụng từ
mới trong ngôn ngữ báo chí; trong tập "Dạy học và nghiên cứu
ngôn ngữ” số 2/1996, (bản tiếng Trung)
H.Z Kotelova, Bình diện lí thuyết của việc miêu tả từ điển học
các từ mới, trong tập "Bình diện lí thuyết của việc miêu tả từ điển
học các từ mới", M., 1988, tr 46-63, (bản tiếng Nga)
25
23 -39
Trang 2711 A Š Hornby, Từ điển tiếng Anh hiện hành dùng cho người trình
độ cao, tái bản lần thứ 6, Chủ biên: Sally Wehmeier, Nxb Đại
học Oxford, (bản tiếng Anh) ˆ
12 Gak, Từ mới và từ điển từ mới, trong tập "Từ mới và từ điển từ
mới”, Nxb KH Leningrad, 1983, (tr 46-63), (bản tiếng Nga)
13 Einar Haugen, Quá trình vay mượn, trong tập "Tiếng Nauy 6 Mi"
Nxb Philadenphia, 1953, (bản tiếng Nga)
14 René Lagane (cha biên), Lời nói đầu của Từ điển "Maxi
Debutants”, Nxb Larousse, Bordas, 1997, (bản tiếng Pháp)
15 Simone Delesalle, Cach xử lí các ví dụ trong các cuốn đại từ điển thuộc nửa sau thế kỉ 19, trong tập "Tiếng Pháp 106" 5/1995, tr
68-75, (bản tiếng Pháp)
2.2 TU DIEN HOC VA VIEC PHAN TICH KHAI NIEM
Tac phẩm của Anna Wierzbicka (bản tiếng Anh, 321 trang), là
một tác phẩm phản ánh những tư tưởng mới nhất của một khuynh
hướng hiện đại nhất của từ điển học Nga và thế giới mà bà là một
trong những đại diện Khuynh hướng này xuất hiện từ cuối thập kỉ 60,
phát triển ở Nga vào đầu những năm 70, nhóm tác giả tiêu biểu gồm
JU.D.Aprexijan, I.A.Meltruk và A.K Giôlkôvskj), với cách nhìn nhận
mỗi từ tham gia vào một ham từ vựng, nghĩa của từ được xác định và
miêu tả trong mối quan hệ hàm Trào lưu này lắng lại trong nửa cuối
thập kỉ 70 và phát triển mạnh trở lại từ cuối những năm 80 đến nay
Việc ứng dụng những vấn đề lí thuyết của nhóm này vào thực tế biên
soạn từ điển giải thích còn những điều cần được thảo luận thêm,
nhưng phương pháp tư duy, phân tích, miêu tả nghĩa từ một cách khoa
học và sự ứng dụng vào công tác từ điển, vào khoa học dịch may,
của họ đã được thừa nhận Một trong những thành công mới nhất của
họ là cuốn Từ điển đồng nghĩa tiếng Nga (kiểu mới) xuất bản năm
2000, được đánh giá rất cao ở Nga và nước ngoài
Trang 282.3 MANG NGU LIEU LONGMAN
Tài liệu khai thác trên mạng Tternet, dịch từ bản tiếng Anh 60
trang Đây là một tài liệu rất mới về ngân hàng dữ liệu tiếng Anh duoc xây dựng trên máy tính nhờ các phần mềm và lí thuyết tin học hiện
đại nhất NHDL này có quy mô rất lớn bao trùm hầu hết khối tiếng Anh trên khắp thế giới, sồm các khối ngữ liệu:
viết lấy từ văn học, tạp chí, báo và cả những vật liệu nhất thời như tờ rơi và bao bì Khối ngữ liệu duy niiất được cấu trúc/xảy „ dựng đại diện cho ngôn ngữ viết, phản ánh trung thực tiếng - Anh TK XX
- Khối ngữ liệu người học Longman gồm 10 triệu từ
- Khối ngữ liệu BNC (khối ngữ liệu quốc gia Anh) hon’ 10Ô triệu từ của văn bản viết và văn bản nói
Khối ngữ liệu văn bản viết Mĩ Longman 100 triéu tir
- Khối ngữ liệu văn bản nói Mĩ Longman gồm 5 triệu từ làm mẫu điển hình cho các cuộc hội thoại hàng ngày của hơn
1 000 người Mĩ thuộc các nhóm tuổi, trình độ dân tộc khác
nhau ở hơn 30 bang của nước Mĩ ‘
Các khối ngữ liệu này được lựa chọn và tổ chức thành một ngân
hàng dữ liệu Tài liệu giới thiêu tỉ mỉ cách tổ chức, thành phần công dụng và cách sử đụng, Day là tài liệu cần thiết và cùng với những tài
liệu thu thập được về ngân hàng đữ liệu (corpws) tiếng Pháp da rat
hữu ích cho công trình này
Trang 29PHAN THU NAM
CAC TAI LIEU VE PHAN MEM
A HE THONG CAC YEU CAU CUA BEN NGON NGU
' dat ra cho bên tin học xây dựng các chương trình phần mêm trong
đề tài "Xây dựng luận cứ khoa học cho việc biên soạn bộ Từ điển
Ì Yêu cầu của phần mêm xảy dựng, quản lí và khai thác ngản hàng dữ liệu tiếng Việt
lI Yêu cầu của phân mêm "quản lí và tra cứu các từ điển
giải thích tiếng Việt và các từ điển giải thích thuật ngứ chuyên
THỊ Yêu cầu của phân mêm "trợ giúp biên soạn TÐ giải thích tiếng Việt cỡ lớn"
B Hệ thống các mô hình xử lí của bên tín học, gồm:
1 Mô hình xử lí tạo cơ sở dữ liệu cho NHDL tiếng Việt
HI Mô hình thiết kế
IL YEU CAU CUA PHAN MEM QUAN Li VA KHAI THAC
NGAN HANG DU LIEU TIENG VIET
I KHO DULIEU THO:
- ngữ cảnh của từ chọn với các độ dài khác nhau:
+ ngữ cảnh tối thiểu, trước 10 âm tiết, sau LÔ âm tiết
+ ngữ cảnh trung bình, trước 20 âm tiết, sau 20 âm tiết
+ ngữ cảnh tối đa, trước 50 âm tiết, sau 50 âm tiết
Ngữ cảnh được ngắt đoạn bằng cách kết hợp yêu cầu vẻ số lượng
âm tiết và đấu chấm gần nhất
Trang 30- ngữ cảnh bất kì đều chứa hai loại thông tin kèm thêm của văn bản “đầu vào”
Kho dữ liệu thô sẽ thường xuyên được bổ sung để cập nhật
Với kho dữ liệu thô, chúng ta chưa cần đầu tư kiến thức chuyên
Số lượng tư liệu lớn, thời gian tìm kiếm của máy ráf chám, ảnh hưởng lớn tới quá trình nghiên cứu, biên soạn
II KHO DỮLIỆU TRUNG GIAN
Mục đích của công đoạn này là giải quyết vấn đề nhận diện từ
tiếng Việt để tiến hành xây dựng kho dữ liệu tỉnh
Khác với nhiều ngôn ngữ khác, ranh giới từ trong tiếng Việt không rõ ràng Về mặt lí thuyết, những quan niệm rất khác nhau về đơn vị từ trong tiếng Việt vẫn tồn tại Trong tiếng Việt, chỉ âm tiết là
có khả năng nhận diện về mặt hình thức, tức là viết liên một khối giữa hai khoảng trống giống như đơn vị từ của các ngôn ngữ biến hình Nh-
ng âm tiết có thể là từ, có thể là yếu tố tạo từ (là, đi, quốc- -gia),
nhiều âm tiết lúc là từ, lúc là yếu tố tạo từ (sạch, sạch sẽ: dự, dư thừa)
Để khắc phục khó khăn trên chúng tôi lập một danh sách đầy đủ từ ngữ tiếng Việt làm cơ sở cho máy nhận diện từ trong văn bản
Trang 31787
Danh sách từ ngữ tiếng Việt:
~ đầy đủ về các lớp từ vựng, kể cả từ cổ, từ cũ, từ đã chết từ mới dùng, phương ngữ, thuật ngữ, Đây đủ về các kiểu cấu tạo, gồm từ
đơn, từ song tiết, từ đa tiết, tổ hợp cố định, ngữ cố định, Nếu thu
thập thật đầy đủ các đơn vị từ ngữ tiếng Việt, việc nhận diện từ trong
văn bản sẽ triệt để, thuận tiện cho nghiên cứu, biên soạn Nhng với
một bản danh sách lớn tới 150.000 - 200.000 đơn vị, liệu khả năng và tốc độ làm việc của máy sẽ ra sao? Hay là bước đầu bản danh sách chỉ tập trung vào những đơn vị từ, khoảng 50.000 - 70.000 đơn vị, tạm thời gác lại những thuật ngữ chuyên sâu được biểu thị bằng các tổ hợp
định danh, kiéu tinh riết giảm nhẹ, uỷ thác thu kèm chứng từ „Trên „
thực tế, có khả năng là ở các ngôn ngữ khác ngời ta cũng chỉ xác định
tới các đơn vị từ trong ngân hàng dữ liệu
- xác định từ loại cho từng đơn vị; tách đồng âm ngẫu nhiên (đ- ường quốc lộ, đường kính), đồng âm cùng gốc (cái cày, cày ruộng)
Cố gắng xác định tính từ loại cho cả các tổ hợp (ung hoả mù, đá quả bóng), các ngữ (cánh tay phải, nghệ sĩ nhân dân, há miệng mắc quai)
để tiện cho các bước phân loại tiếp theo
- xác định từ nguyên của từ: từ gốc Hán, từ gốc Pháp, từ gốc
Anh, từ gốc các ngôn ngữ khác Đây là thông tin cố định của từ, xác
định trước sẽ thuận tiện cho khâu khai thác sau này
Đánh dấu từ loại, từ nguyên trên văn bản:
Máy tính sẽ dựa vào đanh sách từ ngữ tiếng Việt để nhận diện từ
trong văn bản, đánh dấu từ loại, từ nguyên của từ bằng phương tiện số hoá Nếu máy nhận diện và đánh dấu lần lượt từng âm tiết thì có thể gap tro ngại trong một số trường hợp Chẳng hạn, máy sẽ nhận điện đúng quốc gia là một từ, vì quốc- không phải là từ, phải có thêm -gi¿
mới là một từ theo danh sách đã cho; nhưng máy lại nhận diện đúp trường hợp ứổ quốc, tổ là một từ và :ổ guốc cũng là một từ, hoặc sau
khi đánh dấu zố là một từ, sẽ bỏ qua không đánh dấu guốc nữa Cách giải quyết: có thể phải bắt đầu từ những đơn vị gồm 4, hoặc 5 ảm tiết
và nhận diện lùi dân xuống 3, 2, l âm tiết Máy bay lên thẳng là một
đơn vị, thì các âm tiết máy, bay, lên, thẳng không đánh dấu đơn vị
nữa; ở vị trí khác, khi tính các đơn vị song tiết sẽ nhận diện được máy
Trang 32ERT
bay, và sau cùng xuất phát từ những đơn vị một âm tiết, sẽ có (nở) máy, (cò) bay, lên (gác), (nhìn) thẳng
Chuyên gia tiếp tục xử lí văn bản đã được máy đánh dấu:
- tách và đánh đấu đồng âm (kiểu đường quốc lộ, đường kính; cái
- soát lại những đơn vị không được đánh dấu dé tìm từ mới và
những trường hợp đặc biệt khác Với phương pháp này việc tìm từ mới
sẽ triệt để, khách quan vì được dựa vào khối lượng văn bản lớn và th- ường xuyên cập nhật
Khả năng tìm kiếm:
- khả năng tìm kiếm như ở kho đữ liệu thô
- tìm kiếm thêm những thông tin về tần số từ vựng, như tần số từ ˆ
vựng trong một khối đữ liệu xác định, tần số từ vựng trong một loại
văn bản, tần số từ vựng trong một tác phẩm, tần số từ vựng của một
tác giả,
II KHO DỮLIỆU TINH
Mục đích của kho đữ liệu tỉnh là nhằm khắc phục những nhược
điểm của kho dữ liệu thô; tìm chọn và xây dựng kho đữ liệu có số I- ượng vừa đủ, nhng tiêu biểu, đại điện cho sự sử dụng và hoạt động của
từ ngữ tiếng Việt
Phương pháp: Chọn dữ liệu tinh có thể tiến hành theo hai cách
Cách thứ nhất, chuyên gia trực tiếp tìm chọn ngữ cảnh tốt dựa vào kiến thức và cảm nhận của mình, như cách xây dựng kho tư liệu thủ công của Viện ngôn ngữ học (3 triệu phiếu), hay kho tư liệu Từ mới
của Phòng từ điển học (khoảng 45.000 bản ghi) Cách này tốn nhiều
công, hạn chế về số lượng, và ít nhiều mang tính chủ quan của ngời
lựa chọn Cách thứ hai, cách mà chúng tôi định sử dụng là chọn dữ
liệu tỉnh theo mô hình kết hợp cú pháp của từ trong văn bản
+ d/d tin (Nghe xong, bé tin ngay Chuyện ấy thì tôi không tin)
31
Trang 33L#ể
+ d/d tin d/d (Tdi tin ban be Ba H tin Chúa)
+ d/d tin vào/ở đ (Nó chỉ tin vào khoa học Thanh niên tin ở tong
+ d/d tin rằng/là d-đg (Tôi tin rằng anh ấy sẽ về Ai cũng tin là
nó thi dd)
+ v.v
: Chuyên gia xử lí và hoàn thiện sự phân loại của máy:
+ chọn đủ các kiểu kết hợp của một từ, trong đó mỗi kiểu đều có
- Tra cứu nhanh, phù hợp với yêu cầu nghiên cứu, biên soạn
Để xây dựng kho dữ liệu tỉnh từ kho dữ liệu trung gian, cần có sự
trợ giúp của tin học trong việc sắp xếp tự động tư liệu ngữ cảnh theo
khả năng kết hợp cú pháp
a/ Bài toán cụ thể được đặt ra như sau:
- bước một: xếp toàn bộ ngữ cảnh của X liên tục theo trật tự từ loại của từ đứng trước X (d, dg, t, đ, ); trong nội bộ từng từ loại thì
trật tự xếp là theo vần (chú ý: mỗi ngữ cảnh chỉ hiển thị một dòng, từ
Trang 34- bước hai: với mỗi từ loại của đơn vị trước X, yếu tố sau X lại
được sắp xếp theo trật tự từ loại
? đdX 4d anh tin lời chị
(7) p X tr ai khong tin thi về
- bước ba: với mỗi từ loại của đơn vị sau X, yếu tố tiếp theo lại
được sắp xếp theo trật tự từ loại
- bước n
b/ Có thể hình dung trên sơ đồ hình cây:
Trang 35Trong từng khối mà sắp xếp theo ABC
Imàu của khối là màu biể
trưng cho một loại từ loại
Trang 36- Yêu cầu một thuật toán cho phép sắp xếp toàn bộ (hay một bộ phận) ngữ cảnh của X theo trật tự từ loại của một t hay một s Yêu cầu này được cụ thể hoá trong từng trường hợp như ví dụ ở a/
- Chuyên gia ngôn ngữ đánh dấu ngữ cảnh cần chọn Tập hợp những ngữ cảnh được đánh dấu làm thành kho dif liéu tinh Kho dit liệu tỉnh là nguồn khai thác chủ yếu trong biên soạn từ điển Cho nên thủ pháp đánh dấu ngữ cảnh và thao tác gọi dữ liệu tinh cần được giải quyết tốt
"Quản lí và tra cứu các từ điển giải thích Hếng Việt
và các từ điển giải thích thuật ngữ chuyên ngành"
H.1 Đầu vào
* Các loại từ điển giải thích đã và sẽ có
Trước mắt, dự kiến đưa vào 8 cuốn từ điển giải thích tiếng Việt ở
dạng đã nhập vào trong Word:
1 Việt Nam tự điển - Hội Khai Trí-Tiến Đức, Sài Gòn 1931
2 Tự điển Việt Nam phổ thông, Đào Văn Tập, Sài Gòn, 1951
3 Việt Nam tân từ điển, Thanh Nghị, Sài Gòn, 1952
4 Tự điển Việt Nam, Lê Văn Đức, Sài Gòn, 1970
5 Từ điển tiếng Việt, Văn Tân chủ biên, HN, 1977
6 Đại từ điển tiếng Việt, Nguyễn Như ý chủ biên, TP HCM
2000
7 Từ điển từ và ngữ Việt Nam, Nguyễn Lân, TP HCM, 2000
8 Từ điển tiếng Việt, Viện ngôn ngữ học, Hoàng Phê chủ biên,
HN, 2000
* Nội dung các thông tin có trong một mục định nghĩa của các từ
điển nêu trên trình bày trong phần “Chuẩn hoá phong cách các từ điển giải thích tiếng Việt” kèm theo
II.2 Yêu cầu đầu ra: Cần hiển thị được các thông tin và có các khả năng tra cứu sau:
1 Các thông tin cần cung cấp:
1.1 Mục từ: Mỗi cuốn từ điển được xếp theo thứ tự a, b, c, đồng thời có vị trí (ô) dành cho việc đánh vào để tìm từ bấi kì trong từ điển
CYêu câu: - Có chương trình để tự động chuyển các từ điển đã có
ở đạng chế bản trong Word vào phần mềm
35
Trang 37- Không cho phép sửa chữa, bổ sung hoặc xoá nội dung các mục
từ đã đưa vào chương trình)
1.2 Phần định nghĩa: thể hiện được đầy đủ các thông tin của mỗi
mục từ trong từ điển
2 Khả năng tra cứu:
- 2.1 Theo chiều đọc - tra cứu riêng từng cuốn từ điển:
- Hiển thị được danh sách (theo a- b) các mục từ trong từ điển
- Tra cứu được từng mục từ với tất cả các thông tin của từ đó kèm theo
- Có khả năng thống kê số lượng và hiển thị danh sách (theo a-b)
các từ cùng từ loại (d., đg t., v.v ) trong từ điển
- Có khả năng thống kê được số lượng và hiển thị danh sách các
từ cùng phong cách (kng., phg , vch., v.v.) trong từ điển
- Có phần tìm kiếm để khi đánh vào một từ bất kì, có thể biết được từ đó đã có trong từ điển hay chưa
2.2 Theo chiều ngang - tra cứu, đối chiếu các từ điển với nhau:
- Tra cứu được từng mục từ với các thông tin của từ đó trong nhiều cuốn từ điển khác nhau
- So sánh, đối chiếu được các cuốn từ điển bất kì với nhau, tìm được khối lượng mục từ chung, những từ mà từ điển A có nhưng từ
điển B không có, những từ mà từ điển B có, từ điển A không có
H 3 Chuẩn hoá phong cách các từ điển giải thích tiếng Việt
Phần này nhằm đưa các từ điển đã có về một dạng chung để máy nhận điện khi nhập các từ điển này vào một chương trình chung Nhưng khi hiển thị, mỗi cuốn từ điển đã có vẫn mang định dạng và
những đặc trưng của riêng mình
IH YÊU CẨU PHAN MEM
"trợ giúp biên soạn từ điển giải thích tiếng Việt cỡ lớn"
Phần mềm này thực ra là phác thảo cấu trúc vÌ mô của cuốn từ
điển giải thích tiếng Việt cỡ lớn Để có được một mô hình cấu trúc vi
mô đầy đủ và hợp lí cần có một quá trình nghiên cứu cẩn thận hơn Vì vậy phần chuẩn bị này chỉ coi là một phác thảo ban đầu, sau này có thể bổ sung thêm một số trường hoặc chỉ tiết mà cho đến lúc này chúng tôi chưa hình dung hết được
Mục đích:
36
Trang 381 Giúp người làm TĐTV cỡ lớn biên Soạn từng mục từ theo một
cấu trúc chung, thống nhất, đã được xây dựng trước
._ 2 Sắp xếp bản thảo theo mẫu quy định để chuyển sang dạng chế bản có thể in ấn được
4 Chương trình này buộc phải liên thông với phần mềm "Quản lí
và khai thác các từ điển cũ" và phần mềm "Ngân hàng đữ liệu tiếng Việt"
5 Chương trình mở
Nội dung các thông tin sẽ được nhập và khai thác:
1 Nhập mục từ gồm: phần này do người biên tập trực tiếp nhập 1-đầu mục: Chữ to, đậm hơn các phần tiếp sau
.tách các từ đồng âm ngẫu nhiên (đánh số chân Arâp, tối đa 10,
vd: ban, d (ban ghé), ban, dg (ban bac))
.các từ đồng âm cùng gốc (đánh số Lamã, tối đa X, vd: được I đg., được II t., được II p., được IV tr.)
2-các nghĩa của từ đa nghĩa (đánh số Arâp, mở= không giới hạn, vd: được I đg 1 Có vật nào đó Được của rơi 2 Tiếp nhận, hưởng
Được tin vui 3 Hưởng điều kiện Lúa duoc ndng.)
2.1-các chú giải của đầu mục:
cach doc (chú cách phiên âm quốc tế, thường để trong [], vd: quota [Anh: quota; /cota/]
những cách viết khác, sau kí hiệu: cv., thường dùng chit I Vd: matxa cv massage, mdt xa
.cách nói khác, sau kí hiệu: cn., thường ding chit I Vd: bay cn
bẩy
nguồn gốc từ và giải thích từ nguyên (Pháp, Anh, Hán, ), thường để trong [] Vd: CD [Anh: Compact Disk; /compak diski; dia
nén chặi, viết tắt]
từ loại (đơn và kép, nếu là kép thường để trong (), kiểu:
(và/hoặc/hay d.)), vd: dềnh đang t (hay đg.) [có danh sách các từ loại sẵn kèm theo]
.phong cách (đơn và kép, thường để trong Q), vd: dể ngươi đg
(cũ; hoặc ph.), để (cũ; ¡đ.) [có danh sách phong cách sắn kèm theo] .tên chuyên ngành (tin) (nếu là thuật ngữ) [có danh sách sẵn kèm theo] -
Trang 39.tổ hợp cú pháp và/hoặc từ vựng ngữ nghĩa (Vd: kết hợp hạn chế; thường dùng trước/sau; .) Có thể đứng trước hoặc sau lời định nghĩa
Ví dụ: nhắm .1 (Mắt) khép kín aad
ghi chú: Các chú giải cho đầu mục có thể được lặp lại cho các từ đồng âm cùng gốc, tức sau các số Lamã: I II II
2.2 các chú giải của từng nghĩa trong từ đa nghĩa gồm:
-phong cách (đơn và kép; như 2.1) [có danh sách sẵn kèm theo]
.tên chuyên ngành (nếu là thuật ngữ, như 2.1) [có danh sách sẵn
tổ hợp cú pháp và/hoặc từ vựng ngữ nghĩa (như 2.1)
2.3 lời giải nghĩa của từ (đầu mục hoặc sau số Lamã) hoặc của từng nghĩa từ (sau số Arap) trong từ đa nghĩa gồm:
.chú giải về khả năng kết hợp từ vựng hoặc ngữ pháp (đặt trước và/hoặc sau lời giải nghĩa), độ dài mở
lời định nghĩa (cho từng từ và/hoặc cho từng nghĩa), độ dài mở 2.4 Ví dụ cho từng từ hoặc từng nghĩa: (độ dài mở)
.Ví dụ tự đặt (font chữ I), độ đài mở
Chú giải thêm cho ví dụ: chữ thường
.Ví dụ trích dẫn (font chữ ID), (có địa chỉ gồm: tên tác giả, tác - phẩm, nơi, năm xuất bản, số trang, font chữ thường), độ dài mở
Các thông tin trên đều lặp lại, mỗi từ có đến 3 hoặc 4 ví dụ
2.5-từ đồng nghĩa, trái nghĩa cho từng từ hoặc từng nghĩa, đặt sau
ví dụ, và lấy (font chữ B) /đn: ; trn:
2.6 Dạng láy của từ: chữ I đậm, phần giải nghĩa để trong (), chữ thường, vd: đỏ ./Láy: đo đồ (ý mức đô giảm nhe)
2.7 Chèn tranh ảnh minh hoạ và lời chú giải cho ảnh
3-Mỗi mục từ đều có xuất xứ: tên TEƯỜI soạn, người đọc góp ý
lần thứ 1-n, người duyệt lần cuối; thời gian soạn, đọc, chữa (cỡ và font chữ khác với phần nội dung, đặt chế độ xoá lưu với các màu khác nhau; phần này sẽ được tách riêng khi bản thảo đã hoàn thiện)
LÍ Khai thác: - gọi, đếm, copy và in được các thông tin theo các trường đã nhập
Trang 408 ct : cảm từ, tổ hợp cảm từ
Các trường hợp chú kép: d và/hoặc đg có lẽ để TBƯỜI soạn xử
lí trực tiếp vì nếu để danh sách sẵn thì sẽ đài quá Danh sách mở
Sơ đô nghĩa từ: