1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng luận cứ khoa học cho việc biên soạn bộ từ điển tiếng Việt cỡ lớn

111 724 1
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 111
Dung lượng 3,35 MB

Nội dung

Từ đó, dựa vào hệ tiêu chí đã xác định và kho đữ liệu tiếng Việt có thế dựng được bảng từ cho cuốn TĐTV cỡ lớn thường được đánh giá là một phần quan trọng nhất trong toàn bộ công việc bi

Trang 1

BÁO CÁO TỔNG QUAN

XÂY DỰNG LUẬN CỨ KHOA HỌC

CHO VIỆC BIÊN SOẠN

BỘ TỪ ĐIỂN TIẾNG VIỆT CỠ LỚN

ĐỀ TÀI NGHIÊN CÚU ĐỘC LẬP CẤP NHÀ NƯỚC

195

Trang 2

3.028-Muc luc

Phần thứ nhất - Báo cáo tổng quan

Phần thứ hai - Mục tiêu, nhiệm vự

cưa bộ Từ điển tiếng Việt cỡ lớn Phần thứ ba - Các sản phẩm của công trình

Phần thứ tư - Cơ sở lí luận của việc biên soạn bộ Từ điển

tiếng Việt cỡ lớn Phần thứ năm - Các mô hình xây dựng phần mềm cho công

Trang 3

-PHAN THU NHAT

BAO CAO TONG QUAN

Tên đề tài: "Xây dựng luận cứ khoa học cho việc biên soạn bộ Từ Điển tiếng Việt cỡ lớn",

1 Nhiệm vụ được giao

(thể hiện trong bản “Thuyết minh để tài" đo Viện ngôn ngữ họ kí

1 Nội dụng công việc:

1.1 Chuẩn bị về lí luận

Tiến hành nghiên cứu cơ sở lí thuyết để xây dựng bộ maket và 10 bản thử nghiệm với yêu cầu: cụ thể khoa học, có thể áp dụng được để mở rộng phạm vi, số lượng

1.2 Chuẩn bị về bảng từ

Nghiên cứu hệ tiêu chí để xây dựng bảng từ và bảng từ chuẩn thử nghiệm trên ba vần (dạng sơ thảo) với yêu cầu: đầy đủ, khoa hợc, có tính hệ thống cao, phản ánh được hệ thống từ vựng đa dạng và phong phú của tiếng Việt, có thể áp dụng để lập bảng từ toàn bộ

1.3 Xây dựng chương trình thử nghiệm

Xây dựng hệ chương trình thử nghiệm ngân hàng dữ liệu tiếng Việt với yêu cầu: nhập, cập nhật và khai thác nhanh chóng, thông suốt, có tính

hệ thống; khai thác nhanh theo yêu cầu của người lập bảng từ và biên soạn

TD (chạy thử trên một số dữ liệu)

2 Kinh phí:

800.000.000đ (tám trăm triệu đồng) cho thực hiện để tài + 100.000.000đ (một trăm triệu đồng) cho đoàn đi khảo sát tại Cộng hoà Pháp

3 Thời gian:

Đề tài thực hiện trong hai năm từ tháng 4-2000 đến 4-2002

Trang 4

II Các công việc đã hoàn thành

1 Cơ sở lí thuyết để xây dựng bộ maket và các maket đã xdy dựng Hoàn thành tập bài viết (21 bài = 372 trang khổ A4) về các vấn đề cơ

bản của từ điển tiếng Việt cỡ lớn là: Cấu trúc vi mô, cấu trúc vĩ mô vấn dé

phương ngữ, từ ngữ lịch sử, xử lí từ đồng nghĩa, ví dụ trong từ điển xử lí từ

ngữ khẩu ngữ, xử lí từ loại, thông tin ngữ pháp, xử lí thành ngữ xử lí trợ từ,

Nó đã tiếp thu được những kết quả mới nhất của từ điển học trên thế giới,

đã phản ánh được những thành tựu chung của giới từ điển học Việt Nam cho đến nay Việc ứng dụng để xây dựng bảng từ cũng như biên soạn cuốn

TĐ tiếng Việt cỡ lớn còn tuỳ thuộc nhiều vào sự tiếp thu cũng như quan

điểm của chủ biên và Ban biên tập, nhưng những cơ sở lí thuyết được đưa

2 Hệ tiêu chi để xáy dựng bảng từ và bảng từ chuẩn thủử nghiệm

- Đưa được hệ tiêu chí để xây dựng bảng từ, có thể áp dụng để xây

- Làm bảng từ thử nghiệm 3 vần ABC: Trên cơ sở các nguồn (từ điển

đã có, ngân hàng dữ liệu tiếng Việt thử nghiệm, từ mới giai đoạn 2000-

2002) đã chọn được 33.994 đơn vị mục từ (dự kiến 20.000 mục)

Đánh giá: Với các bảng từ thô đã tập hợp được từ các nguồn khác nhau, lần đầu tiên chúng ta có thể có toàn bộ kho từ vựng tiếng Việt Từ đó,

dựa vào hệ tiêu chí đã xác định và kho đữ liệu tiếng Việt có thế dựng được

bảng từ cho cuốn TĐTV cỡ lớn (thường được đánh giá là một phần quan trọng nhất trong toàn bộ công việc biên SOạn mới một cuốn từ điển) Thứ lập bảng từ cho ba vần đầu của cuốn TĐTV cỡ lớn để hình dung khối lượng

và rút kinh nghiệm

Trang 5

3 Hệ chương trừnh thử nghiệm Ngân hàng dữ liệu Hếng Việt:

3.1 Chương trình lưu trữ và khai thác các từ điển tiếng Việt đã có:

Hoàn thành chương trình, nhập vào chương trình § cuốn Từ điển

tiếng Việt (tổng số: 371.000 mục từ, 10.789 trang hầu hết là khổ lớn, đang

nhập tiếp một cuốn 596 trang khổ lớn) Kết quả tốt, đáp ứng được các yêu cầu tra cứu và khai thác để ra

Với chương trình này, có thể tra cứu, khai thác được các thông tin theo cá hai chiều đọc và ngang:

- Thống kê được đanh sách (theo a-b) tất cả các mục từ trong cuốn từ điển

đó

- Tra cứu được từng mục từ với tất cả các thông tin của từ đó kèm theo

- Thống kê được số lượng và hiển thị danh sách (theo a-b) các từ cùng từ loại (danh từ, động từ, tính từ, v.v.) trong cuốn từ điển đó (nếu từ điển đó

có chú giải từ loại)

- Thống kê được số lượng và hiển thị danh sách các từ cùng phong cách

(kng., phg., vch., v.v.) trong cuốn từ điển đó (nếu từ điển đó có chú giải

phong cách)

- Có phần tìm kiếm để khi đánh vào một từ bất kì, có thể biết được từ đó đã

có trong từ điển hay chưa

* Theo chiều ngang - tra cứu, đối chiếu các từ điển với nhau:

- Thống kê được bảng từ chung của tất cả các từ điển có trong chương

trình

- Tra cứu được từng mục từ với các thông tin của từ đó đồng thời trong nhiều cuốn từ điển cùng một lúc Công việc này sẽ vô cùng thuận lợi và tiết kiệm thời gian cho người biên soạn và nghiên cứu nói chung

3.2 Chương trình quản lí và tra cứu ngữ liệu tiếng Việt (ngân hàng ngữ liệu tiếng Việt):

Hoàn thành chương trình, nhập dữ liệu (tổng số 13.241.000 âm tiết,

so với kế hoạch đặt ra là 10 triệu âm tiết), quản fí và khai thác tốt, đáp ứng các yêu cầu tra cứu đề ra

Với chương trình này, ta có thể:

- Bước đầu tìm cách khắc phục "vấn để ranh giới từ trong tiếng Việt”, phản ánh phần nào mô hình kết hợp cú pháp của từ, giúp người biên soạn khai thác tư liệu ngôn ngữ nhanh với số lượng lớn gấp bội.)

_- Tìm kiếm được tất cả các ngữ cảnh của một từ bất kì trong tiếng

4

Trang 6

Viét (trong pham vị ngữ liệu đã nhập vào chương trình) với các thòng tin kèm theo về xuất xứ của ngữ cảnh đó Các ngữ cảnh này khi hiển thị trên máy sẽ được chương trình tự động sap xếp theo mội trật tự nhất định

- Tìm kiếm được tất cả các ngữ cảnh của một từ trong một tác phẩm/ của một tác giả/ trong một khoảng thời gian/ thuộc một loại văn bản

(trong phạm vi ngữ liệu đã nhập vào chương trình) với các thông tin về xuất

3.3 Chương trình trợ giúp biên soạn:

Hoàn thành chương trình, đáp ứng được các yêu cầu đề ra

Với hệ chương trình này, người soạn có thể soạn định nghĩa từ điển

trên máy tính Các thông tin trong một định nghĩa sẽ được đưa vào các trường khác nhau Cách xử lí chương trình tốt, không hạn chế số lượng với

đồng âm, đa nghĩa Mỗi một trường có định dạng riêng để có thể gọi

đếm, copy và in các thông tin theo các trường đã nhập Toàn bộ nội dung

định nghĩa sau khi hoàn thành có thể chuyển sang Microsoft Word để in ấn

thành từ điển theo ¿ác quy cách đã định sắn

Với tổng thể 3 chương trình nói trên, công tác biên soạn từ điển đã

được chuẩn bị về Kĩ thuật tin học để có thể hoàn toàn tiến hành trên máy tính Người biên soạn có thể tiến hành tất cả các thao tác: tra cứu ngữ liệu tham khảo các định nghĩa của các từ điển đã có, soạn tháo định nghĩa từ điển, sửa chữa định nghĩa, trao đổi thông tin với những người cùng nhóm

biên soạn, trên máy tính, chuyển kết quả soạn thảo sang Microsoft Word

để in ấn thành từ điển Đây là kĩ thuật biên soạn từ điển hoàn toàn mới ở nước ta, lần đầu tiên được ứng dụng ở Viện ngôn ngũ học Vớt kĩ thuật này, chắc chắn công tác biên soạn từ điển (trước mắt là từ điển giải thích tiếng Việt) sẽ thuận lợi hơn nhiều so với trước đây, góp phần tiết kiệm được công sức cũng như rút ngắn được thời gian biên soạn từ điển (tất

nhiên, chất lượng từ điển là hoàn toàn phụ thuộc vào trình độ người biên

Soạn)

4 Trang thiết bị kĩ thuật:

chủ Imáy quét, Imáy in Lase, imáy ghi CD

Trang 7

- Mua phần mềm nhận điện chữ Việt, đã sử dụng để quét và nhận

điện văn bản đầu vào

~ Thiết lập mạng cục bộ Nối mạng cục bộ cho 8 máy

- Nối mạng Internet và khai thác tư liệu trên mạng

`_%, Chuẩn bị về tư liệu:

5.1 Nguồn tài liệu dịch để tham khảo về lí thuyết (tổng số 648 trang

in khổ A,):

- Tập bài dịch các vấn đề liên quan đến lí thuyết biên soạn từ điển và

từ điển học, gồm !4 bài, 267 trang (dịch từ các ngữ: Anh, Nga, Trụng

quốc, Pháp)

- Tập tài liệu giới thiệu về Mạng ngữ liệu Longman (Ngân hàng ngữ liệu tiếng Anh hiện đại), 60 trang

- Tác phẩm "Từ điển học và việc phân tích khái niệm" của Anna

Wierzbiska, in tại Hoa Kỳ, 1985, (321 trang dich)

3.2 Tư liệu

- Mua 60 cuốn sách lí luận cơ bản và các từ điển ở trong nước và nước ngoài để tham khảo (có danh sách kèm theo)

- Đã mua được 40 cuốn sách tiếng Việt chọn lọc, thuộc loại có chất

lượng tốt để làm tư liệu đầu vào

- Đã mua được 471 tác phẩm các loại văn bản dưới dang chế bản để , nhập vào Ngân hàng ngữ liệu, trong đó đã đưa vào 234 tác phẩm (có danh

liệu (có danh sách kèm theo)

6 Đoàn khảo sát tại Cộng hoà Pháp

Tổ chức đoàn khảo sát (3 người) về công tác từ điển học tại Cộng hoà Pháp trong thời gian I0 ngày (tháng 5-2001) tại hai nhà xuất bản từ

điển lớn của Pháp là Hachette và Larousse Kết quả: học tập được kinh nghiệm của Pháp trong công tấc xây dựng kế hoạch và tổ chức biên soạn các loại từ điển, kinh nghiệm về việc ứng dụng thành tựu của công nghệ

6

Trang 8

thong tin vao viéc xay dung ngan hàng dữ liệu ngôn ngữ cũng như vào việc biên soạn từ điển Những kinh nghiệm và bài học đó đã được ứng dụng vào

quá trình thực hiện đề tài cũng như sẽ được áp dụng vào quá trình xây dựng

kế hoạch, tổ chức biên soạn các loại từ điển sắp tới (có các báo cáo kèm

theo, in trong tập Cơ sở lí luận cho việc biên soạn bộ TĐTV cỡ lớn)

TH Đánh giá, đề xuất

- Công trình đã hoàn thành các nhiệm vụ được giao với tiến độ thực hiện tương đối tốt, đều ở các phần việc; một số phần việc hoàn thành vượt mức kế hoạch (như tư liệu cho thử nghiệm ngân hàng dữ liệu tiếng Việt:

vượt mức 3.200.000 âm tiết) Các hạng mục công việc đã hoàn thành đạt

chất lượng tốt, đảm bảo yêu cầu đề ra Các kết quả đạt được trong công

trình này có thể dùng để biên soạn cuốn TĐTV cỡ lớn trong các nam téi!

- Thực hiện thành công Công trình này không những thu được những

kết quả cụ thể nêu trên mà còn là bước tập đượt, đào tạo đối với các cán bộ

tham gia công trình về các bước tiến hành, việc tổ chức thực hiện,

~ Một số đề xuất vẻ việc xây dựng ngân hàng dữ liệu tiếng Việt: Qua

chuyến khảo sát việc làm từ điển và ứng dụng công nghệ tin học ở hai nhà

xuất bản lớn của Pháp Hachette và Larousse, chúng tôi nhận thấy: Việc xây dựng một kho dữ liệu tiếng Việt hiện đại là rất cần thiết, nhưng đây thực sự

là việc làm hết sức khó khăn, đòi hỏi rất nhiều thời gian, tiền của và tri thức Việc làm một ngân hàng đữ liệu thử nghiệm như chúng ta đang làm

hiện nay là hoàn toàn đúng hướng và đã bước đầu ứng dụng được những

thành tựu mới nhất về tin học trong công tác từ điển Nhưng với điều kiện của chúng ta hiện nay, việc đặt ra mục đích cuối cùng là một ngân hàng dữ liệu tiếng Việt nhằm đại diện cho tiếng Việt hiện đại tương tự như những ngân hàng dữ liệu của Anh, Pháp và các nước tiên tiến khác trong một vài năm là chưa thể đạt được (Ngân hàng dữ liệu tiếng Anh của Longman có hơn 100 triệu từ, gồm cả chữ viết và âm thanh, được thực hiện với kinh phí đầu tư hơn 1 triệu USD) Do vậy, để tiến tới một ngân hàng đữ liệu tiếng Việt đầy đủ, hiện đại, cần phải có những kế hoạch tiếp theo, kế thừa và

phát triển kết quả của công trình thử nghiệm nay °

Trang 9

PHAN THU HAI MUC TIEU, NHIEM VU CUA TU BIEN TIENG VIET CO LON

1 Từ điển tiếng Việt cỡ lớn là công cụ cần thiết cho công cuộc

chuẩn hoá tiếng Việt trong giai đoạn hiện nay

Nhiệm vụ hàng đầu của Từ điển tiếng Việt cố lớn là làm công cụ

để tra cứu, giúp cho người sử dụng hiểu đúng ý nghĩa và dùng đúng từ

ngữ tiếng Việt ở giai đoạn hiện nay Nó sẽ cung cấp cho cán bộ giảng dạy, các nhà báo, nhà văn, các nhà nghiên cứu và cán bộ hoạt động trong các cấp, các ngành, hệ thống thuật ngữ khoa học chính xác và hiện đại của tiếng Việt Cũng qua từ điển này, người dùng có thể tìm thấy những đạng viết đúng chính tả của những từ cần phân biệt về chính tả, cách phiên âm từ có gốc nước ngoài, v.v

2 Từ điển tiếng Việt cỡ lớn là công trình phản ánh diện mạo

từ vựng tiếng Việt ở những năm đầu thé ki XXL

- Để thực hiện được nhiệm vụ này, việc xây dựng ngân hàng dữ

liệu tiếng Việt phục vụ cho việc biên soạn từ điển là rất quan trọng

Từ kho đữ liệu phong phú, 7T điển tiếng Việt cỡ lớn sẽ có điều kiện phản ánh được kho từ vựng cơ bản của tiếng Việt ở những năm đầu

thế kỉ XXI Thực hiện được nhiệm vụ này, Tz điển tiếng Việt cỡ lớn

còn có tác dụng tích cực cho việc nghiên cứu tiếng Việt nói chung

- La công cụ tra cứu, Từ điển tiếng Việt cỡ lớn còn là cơ sở cần thiết, là chỗ dựa để xây dựng từ điển các loại như từ điển song ngữ, từ điển học sinh, từ điển tiếng Việt thông dụng, từ điển đồng nghĩa, trái nghĩa, từ điển bách khoa và các từ điển chuyên ngành, v.v, góp phần

hình thành nên hệ thống các loại từ điển tiếng Việt cần thiết cho xã

hội

3 Các công việc cần tiến hành

8

Trang 10

3.1.Tổ chức lực lượng cán bộ

Cán bộ biên soạn từ điển gồm: _„

- Các nhà nghiên cứu, biên soạn từ điển

- Lực lượng cộng tác viên gồm chuyên gia đầu ngành các ngành

khoa học Kĩ thuật, khoa học tự nhiên và khoa học xã hội - nhân văn

- Các Kĩ thuật viên: các chuyên gia thông thạo việc ứng dụng tin

học vào ngôn ngữ học để quản lí mạng nội bộ, khal thác tin trên mạng Internet, , kĩ thuật viên có kiến thức ngôn ngữ học và sử dụng thông thạo một số phần mềm chuyên dụng trên máy tính, để giúp sửa bản

nhận đạng chữ Việt, nhận diện từ mới, chọn ngữ cảnh điển hình 3.2 Xây dựng ngân hàng dữ liệu từ điển tiếng Việt bàng công

nghệ thông tin

Khác với nhiều công trình biên soạn khác, từ điển không phải là

một công trình sáng tác Người biên soạn từ điển không tự sáng tác ra các từ và cách dùng của từ Công việc của người biên soạn từ điển là:

trên cơ sở lí luận ngôn ngữ học, dựa vào thực tế sử dụng phong phú của từ ngữ trong cuộc sống mà phân tích và khái quất, vạch ra nghĩa của từ để giúp cho người sử dụng hiểu và sử dụng đúng từ ngữ Cái

"thực tế sử dụng phong phú của từ ngữ" đó chính là nguồn dữ liệu cho

công việc biên soạn từ điển

Việc xây dựng kho dữ liệu là rất quan trọng bởi các lí do:

- Kho đữ liệu là cơ sở cần thiết để xây dựng bảng từ cho từ điển Kho dữ liện càng phong phú, vốn từ được thu thập càng nhiều, càng

đảm bảo cho sự lựa chọn, xây dựng bảng từ được khách quan, đầy đủ,

không bị sót

- Kho dữ liệu là chất liệu giúp cho người biên soạn từ điển tìm ra

các nghĩa của từ một cách đầy đủ và khách quan; đồng thời giúp cho

việc định nghĩa từ chính xác

Trang 11

Để chuẩn bị cho việc biên soạn Từ điển tiếng Việt, từ những năm mới thành lập (1968), Viện ngôn ngữ học đã rất chú trọng đến công tac xây dựng kho dữ liệu tiếng Việt Bằng biện pháp thủ công, từ khâu

chọn sách báo, gạch từ ngữ, đến chép ra phiếu, với sự đầu tư kinh phí

lớn trong gần hai chục năm cùng với sự tham gia của hàng chục

_ người, cho đến năm 1985, Viện ngôn ngữ học đã xây dựng được kho

dữ liệu tiếng Việt gồm gần 3 triệu phiếu Đây là kho dữ liệu tiếng Việt lớn nhất và duy nhất ở nước ta cho đến thời điểm hiện nay Kho dữ liệu này đã phục vụ rất tốt cho Viện ngôn ngữ học trong việc biên

soạn thành công Từ điển tiếng Việt (xuất bản lần đầu năm 198B tái `

bản có sửa chữa bổ sung năm 1992, in lai các năm từ 1994 đến 1999) cũng như trong nhiều lĩnh vực nghiên cứu khác vẻ tiếng Việt Nhưng

để biên soạn Từ điển tiếng Việt cỡ lớn thì kho đữ liệu hiện nay không

còn đáp ứng được yêu cầu vì những lí đo sau:

- Thứ nhất: Kho dữ liệu này chỉ phản ánh được thực trạng từ ngữ tiếng Việt đến năm 1985 Từ 1986 đến nay, như đã nêu ở trên, là thời

kì tiếng Việt có những biến đổi quan trọng thì công việc xây dựng kho

dữ liệu lại không được tiếp tục thực hiện, do vậy thiếu hẳn dữ liệu tiếng Việt thời kì quan trọng này

- Thứ hai: Do mục đích xây dựng kho đữ liệu này là để phục vụ cho việc biên soạn cuốn từ điển tiếng Việt phổ thông (cỡ trung bình,

khoảng 40.000 mục từ) nên khối lượng mục từ của kho dữ liệu được thu thập cũng hạn chế ở phạm vi nhất định, chưa phản ánh đầy đủ thực trạng phong phú của vốn từ tiếng Việt ngay ở thời điểm xây dựng kho ngữ liệu

- Thứ ba, do hạn chế của điều kiện kĩ thuật trước đây nên kho dữ

liệu được xây dựng trên cơ sở các phiếu viết tay Vì phiếu tư liệu viết tay, chép rời từng phiếu, nên khi biên soạn từ điển, người biên soạn

10

Trang 12

phải đọc, sắp xếp trên từng phiếu rời, mất nhiều thời gian, ảnh hưởng

nhiều đến tốc độ biên soạn từ điển _ „

Một ngân hàng dữ liệu tiếng Việt được xây dựng bằng công nghệ thông tin sẽ phong phú hơn gấp bội so với cách làm thủ Công trước đây, bảo đảm được tính chính xác của tư liệu, cung cấp nhiều thông tin va dap ứng nhiều yêu cầu tìm tòi, nghiên cứu theo nhiều hướng

khác nhau Những dữ liệu của nó lại dé bảo quản, éó thể nhân bản tuỳ

ý, có thể xử lí theo yêu cầu một cách nhanh chóng, thuận tiện

Do vậy, để biên soạn 7 điển tiếng Việt cỡ lớn trong điều kiện

hiện nay, kho dữ liệu tiếng Việt của Viện ngôn ngữ học cần phải được hiện đại hoá bằng việc áp dụng những tiến bộ của công nghệ thông tín

nhằm đáp ứng các yêu cầu:

- Thu thập được đây đủ dữ liệu tiếng Việt đến những năm đầu thế

kỉ XXI trên nguyên tắc sử dụng được nguồn dữ liệu đã có, đồng thời

bổ sung mới nguồn đữ liệu mà trong đó, quan trọng nhất là nguồn dữ liệu từ năm 1985 đến nay Đảm bảo có khoảng vài trăm triệu âm tiết trong ngân hàng dữ liệu tiếng Việt

- Dữ liệu được lưu trữ bằng phương tiện tin học hiện đại; có

những phần mềm ứng dụng đi kèm để có thể quản lí, khai thác nhanh

theo nhiều hướng, đáp ứng được yêu cầu biên soạn Tử điển tiếng Việt

cỡ lớn và việc nghiên cứu các bình diện khác nhau của vốn từ tiếng

Việt

3.3 Biên soạn 7 điển Hếng Việt cỡ lớn

Từ điển tiếng Việt cỡ lớn được biên soạn thed các yêu cầu chính

Sau:

1 Đối tượng và tính chất của quyển từ điển

Tủ điển tiếng Việt cỡ lớn được biên soạn nhằm phục vụ cho đông đảo bạn đọc muốn học tập, trau dồi, tìm hiểu, nghiên cứu tiếng Việt Đối tượng chủ yếu của nó giảng viên, sinh viên, các nhà nghiên cứu,

1]

Trang 13

và những chuyên gia công tác ở các ngành văn hóa, khoa học v.v Từ điển được biên soạn theo tỉnh thần chuẩn hoá và giữ gìn sự trong sáng

của tiếng Việt

2 Dung lượng từ điển:

Phản ánh kho từ vựng cơ bản của tiếng Việt những năm đầu thế

kỉ XXI, do vậy dung lượng Từ điển tiếng Việt cỡ lớn sẽ có khoảng

150.000 mục từ, ước khoảng 6000 trang (cuốn Từ điển tiếng Việt

Viện ngôn ngữ học tái bản có sửa chữa bổ sung năm 2000 gồm 39

924 mục từ, 1221 trang)

3 Cấu tạo bảng từ

Để phản ánh được vốn từ vựng tiếng Việt một cách đầy đủ, Tử điển tiếng Việt cỡ lớn sẽ có một bảng từ phong phú, đa dạng, đảm bảo một tỉ lệ thoả đáng giữa các lớp từ ngữ ngữ văn với các thuật ngữ chuyên ngành, giữa từ ngữ phổ thông và các từ ngữ địa phương, giữa

các từ cũ, cổ và các từ mới, từ ngữ mang các sắc thái phong cách khác nhau, các lớp từ vay mượn từ các nguồn khác nhau, v.v Để làm được việc đó, bên cạnh việc thành lập ban biên tập từ điển, cần thành lập

các tiểu ban chuyên môn của các bộ môn khác nhau Công tác xây dựng bảng từ của từ điển sẽ đi trước một bước, ngay trong những năm đầu của dự án -

Để cung cấp được nhiều thông tin cho ban doc, Tw điển tiếng

Việt cỡ lớn sẽ có thêm phần bảng biểu, hình ảnh, hình vẽ minh hoạ ở một số mục từ, và phần phụ lục gồm tên gọi, thủ đô các nước, nhân danh, địa danh, niên biểu lịch sử, đơn vị đo lường, đơn vị tiền tệ, v.v

4 Phương pháp biên soạn

Từ điển tiếng Việt cỡ lớn sẽ được biên soạn bằng phương pháp

ứng dụng công nghệ thông tin Các biên tập viên sẽ xử lí tư liệu và soạn thảo từ điển trên máy tính Người duyệt sửa cũng sẽ duyệt sửa

12

Trang 14

trực tiếp trên máy tính Các máy tính dùng để biên soạn từ điển sẽ được nối mạng nội bộ, đảm bảo cho các biên tập viên có thể khai thác được tư liệu, tham khảo được các từ thuộc vần người khác soạn thảo

Việc ứng dụng công nghệ thòng tin vào biên soạn từ điển sẽ rút ngăn đáng kể thời gian biên soạn Theo tính toán sơ bộ, nếu biên SOạn một cuốn Tỳ điển tiếng Việt cỡ lớn như dự kiến bằng biện pháp thủ công

trước đây, sẽ cần khoáng thời gian chừng 30 - 50 năm Nhưng nếu được trang bị tốt các phương tiện tin học, với cùng một số lượng người

như nhau nhưng được đào tạo tốt về tin học, sẽ rút ngắn thời gian biên

SOạn xuống còn trên dưới 20 năm, l

Để thực hiện được phương pháp biên soạn từ điển bằng ứng dụng

công nghệ tin học, cần phải giải quyết các vấn đề sau:

~ Trang bj hé thống tin học ở mức cần thiết, gồm các máy tính cá nhân, máy chủ quản lí mạng, máy quét (scanner), v.v

- Xây dựng được các phần mềm: nhập, quản lí và khai thác dữ liệu tiếng Việt; nhận dạng chữ Việt; nhận diện từ tiếng Việt: biên Soạn

từ điển tiếng Việt

~ Đào tạo được đội ngũ biên tập viên từ điển có trình độ chuyên môn tốt, có khả năng sử dụng thành thạo máy tính vào công tác biên

soạn từ điển Đồng thời cũng cần đào tạo một đội ngũ những người làm tư liệu theo phương pháp hiện đại để hỗ trợ cho cán bộ biên tập

Š Phương pháp định nghĩa

Để phân tích, vạch rõ được nội dung nghĩa từ, Từ điển riếng Việt

cỡ lớn áp dụng các phương pháp phân tích mới nhất của ngữ nghĩa

học, ngữ dụng học Với thuật ngữ khoa học, định nghĩa chủ yếu dựa

vào kiến thức khoa học về khái niệm Thí dụ được đưa vào sau lời

định nghĩa nhằm bổ sung hoặc minh hoạ cho định nghĩa, làm sáng tỏ

sắc thái, khía cạnh nào đó của nghĩa mà định nghĩa không nêu rõ hết

¬ 13

Trang 15

được Các thí dụ được đưa vào từ điển này ngoài những thí đụ do người biên tập soạn ra, còn có những câu trích nguyên van trong các tác phẩm văn học, báo chí, v.v có ghỉ rõ xuất xứ

6 Chuẩn chính tả

Ban biên tập từ điển cần có quy tắc thống nhất về chuẩn chính tả được áp dụng trong từ điển trên cơ sở quy định hiện hành

Khi có Hội đồng nhà nước về ngôn ngữ, chính tả được áp dụng

trong từ điển sẽ là chính tả được Hội đồng thông qua

4 Kết quả:

4.1 Một bộ Từ điển tiếng Việt gôm 3 loại:

- Từ điển tiếng Việt cỡ vừa (khoảng 35.0000mục từ), được biên

soạn theo định hướng và phương pháp biên soạn mới

- Từ điển tiếng Việt cỡ trung (khoảng 70.000 mục từ), được biên Soạn trên cơ sở kế thừa thành quả của cuốn từ điển tiếng Việt cỡ vừa

- Từ điển tiếng Việt cỡ lớn (150.000 mục từ, khoảng 6000 trang

in), được biên soạn trên cơ sở kế thừa thành quả của cuốn từ điển

tiếng Việt cỡ trung: đầy đủ, cập nhật và đáng tin cậy, tiêu biểu cho sự

phát triển tiếng Việt hiện đại, góp phần tích cực vào công cuộc chuẩn hoá và phát triển ngôn ngữ, làm cơ sở để xây dựng và biên soạn các loại từ điển ngữ văn cũng như từ điển chuyên ngành ở Việt Nam 4.2 Một Ngân hàng dữ liệu tiếng Việt được tổ chức khoa học tiện dùng, được bảo quản và lưu giữ bằng những phương tiện kĩ thuật hiện đại, có thể phục vụ việc nghiên cứu tiếng Việt một cách toàn

diện, nghiên cứu so sánh đối chiếu các ngôn ngữ, biên soạn từ điển tiếng Việt các cỡ, các loại

4.3 Một đội ngũ cán bộ biên soạn từ điển chuyên nghiệp được đào tạo cơ bản, có khả năng nghiên cứu sâu vẻ từ điển học, ngữ nghĩa học,

từ vựng học, v.v

Trang 16

PHAN THU BA

CÁC SẢN PHẨM CỦA CÔNG TRÌNH

A Các tài liệu đã in:

1.Tập tài liệu về mô hình xây dựng các phần mềm thử nghiệm:

- Cơ sở dữ liệu tiếng Việt

- Quản lí và khai thác các từ điển giải thích tiếng Việt đã có

- Tro giúp biên soạn Từ điển tiếng Việt cỡ lớn

Tập tài liệu này do cán bộ Viện ngôn ngữ soạn Đây chính là bài toán đặt

ra cho cán bộ tin học xây dựng các phần mềm chuyên dụng cho công trình

2 Tài liệu hướng dẫn sử dụng các phần mềm thử nghiệm do đối tác tin học soạn thảo sau khi hoàn tất chương trình để chuyển giao cho công trình

3 Cơ sở lí luận cho việc biên soạn bộ từ điển tiếng Việt cỡ lớn (tập hợp các bài nghiên cứu lí luận và mẫu định nghĩa từ điển) Công trình gồm các bài viết riêng lẻ nhưng được tập hợp theo chuyên đề mà đề cương được thiết kế theo yêu cầu của đề tài Công trình dày 374 trang, gồm ba phần: Phần A: Các bài viết về lí luận từ điển học và sự ứng dụng để biên soạn

từ điển tiếng Việt cỡ lớn Phần này gồm 13 bài, được sắp xếp theo vấn đề,

đi từ lí luận chung về từ điển học như định hướng chung cho cuốn TĐTV cỡ lớn, cấu trúc vĩ mô (cơ sở lí thuyết để Xây dựng bảng từ), cấu trúc ví mô, việc thu thập và giải nghĩa các đơn v‡ trong TĐTV cỡ lớn, đến những vấn

dé cụ thể như việc xử lí các lớp từ vựng theo một số tiêu chí, ví dụ, từ vung

khẩu ngữ, từ ngữ mới (cơ sở lí thuyết để thu thập các từ ngữ mới), xử i một vài loại thong tin ma TD hoc truyền thống chưa quan tâm đúng mức như

thông tin ngữ dụng, thông tin về văn hoá, ; xử lí từ đồng nghĩa, vấn để thi

dil,

Trang 17

Phần B Co sé li thuyét để từ đó đưa ra một số mẫu định nghĩa (maket; có thể được tách thành bài riêng hoặc lông vào phần nghiên cứu) như mẫu định nghĩa tính từ, trợ từ, thành ngữ, các toán tử logic tình thái (số lượng

lên tới hơn 30 maket) để áp dụng cho TĐTV cỡ lớn

Phần C_ Một số vấn đề khác của đẻ tài như: báo cáo những vấn đề thu hoạch được về chuyên môn trong chuyến khảo sát tại Cộng hoà Pháp,

hướng hoạch định dữ liệu đầu vào cho khối tư liệu trong phần ngân hàng

4 Các tài liệu dịch từ tiếng nước ngoài, gồm ba tập: „

a) Một số vấn đề từ điển học Đây là tập tài liệu dịch từ tiếng Anh Nga,

Pháp và Trung về các vấn đề từ điển học nói chung và từ điển cỡ lớn nói

riêng Các tài liệu này được thu thập một cách khá công phu, gồm cả những

tài liệu lưu hành có tính chất nội bộ, ví dụ như ba tập tài liệu của Ban biên

tập cuốn Hán ngữ đại từ điển của Trung quốc, một số tài liệu được các thành viên của công trình mang từ nước ngoài về hoặc lấy về từ mạng Internet, day 267 trang

b) Cuốn "Từ điển học và việc phân tích khái niệm” của Anna Wierzbika

được dịch toàn bộ, đày 321 trang

€) Mạng ngữ liệu Longman, 60 trang, là bản dịch một tài liệu rất mới về

ngân hàng dữ liệu tiếng Anh được tổ chức nhờ ứng dụng công nghệ tin học

5 Bảng từ làm thử cho ba vần ABC của Từ điển tiếng Việt cỡ lớn gồm:

- Bảng từ đã được thu-thập vào các từ điển đã có gồm 28.657 don vi, in

16

Trang 18

-Bảng từ bổ sung từ kho dữ liệu mới những năm 2000 -2002, được thu thập từ sách báo xuất bản từ những năm 2000-2002 (mới xử lí vần ABC,

chưa loại các đơn vị trùng) Bảng từ này dùng để tra trong khối đữ liệu thô, nếu có tần số lớn mới được thu thập vào từ điển tiếng Việt cỡ lớn

B Các sản phẩm lưu trong máy (sẽ được trình bày trong buổi nghiệm thu):

1.Hệ chương trình và khối ngữ liệu tiếng Việt gồm 42.000 hỏ sơ với

13.241.000 âm tiết (khoảng 26.000 đến 27.000 trang in A,) Hệ này gồm

ba phần mềm liên thông với nhau:

- Phần mềm Cơ sở đữ liệu tiếng Việt

- Phần mềm quản lí và khai thác các từ điển giải thích tiếng Việt đã

- Phần mềm trợ giúp biên soạn Từ điển tiếng Việt cỡ lớn (cấu trúc vi mô

của Từ điển tiếng Việt cỡ lớn)

2 Bảng từ thô tổng hợp gồm:

- Bảng từ thô gồm toàn bộ các đơn vị từ vựng đã được thu thập trong các

từ điển giải thích tiếng Việt đã có từ trước đến nay, gồm 120.000 mục (nếu

in sẽ dày khoảng 3.000 trang A,)

- Bảng từ thô bổ sung từ kho phiếu gồm 117.914 mục (đã xử lí một lần), khoảng gần 3.000 trang khổ A„

- Bảng từ thô rút từ kho ngữ liệu mới gồm 20.329 đơn vị và tần số xuất hiện trên cơ sở 45.452 bản ghi được chọn từ các ấn phẩm từ 1985-2000

:(khoảng 500 trang khổ A,)

3 Các sách tham khảo (tiếng Việt và tiếng nước migoài) và sách tư liệu để lập cơ sở đữ liệu

4 Danh sách các tư liệu để bổ sung cho cơ sở đữ liệu

3 Cac dia CD chứa các văn bản dưới dạng chế bản đã thu thập được để đưa vào cơ sở đữ liệu

Trang 19

6 Phan mém quan lí và khai thác các đơn vị từ vựng cùng khối ngữ liệu

gồm 45.452 bản ghi được chọn từ các ấn phẩm từ 1985-2000, có thể khai

7 Phần mềm quản lí và khai thác các đầu mục từ kho phiếu cũ cùng toàn

bộ các đầu mục và các thông tin tần số, chú nghĩa (ở các đơn vị không rÕ

nghĩa)

18

Trang 20

PHAN THU TU

CƠ SỞ LÍ LUẬN CHO VIEC BIEN SOAN

BO TU DIEN TIENG VIET CO LON

- Cuốn "Từ điển học và việc

phân tích khái niệm" của

Anna Wierzbicka (321 trang)

*

1 TẬP BÀI VIẾT CØ SỞ LÍ LUẬN CHO VIỆC BIỂN SOẠN

BỘ TĐTV CỐ LỚN do các cán bộ tham gia công trình thực hiện dày

406 trang khổ A„ gồm 24 bài, chia làm ba phần: Phần 1: Các bài

nghiên cứu lí luận chưng về từ điển giải thích và từ điển giải thích tiếng Việt cỡ lớn Phần 2: Các bài nghiên cứu về mẫu (maket) của từ điển giải thích Phần 3: Một số vấn đẻ khác liên quan đến mảng lí

thuyết của đề tài Nội dung cụ thể của các phần như sau:

Phần 1 gồm các bài nghiên cứu được tập hợp theo một cấu trúc:

logic các vấn đề về một cuốn từ điển giải thích cỡ lớn: đi từ những vấn

dé chung nhất như cấu trúc vĩ mô, cấu trúc vi mô, những khái niệm

của lí thuyết ngữ nghĩa học, từ điển học hiện đại như "đơn nguyên

nghĩa", "nghĩa ngữ dụng", đến cách xử lí cụ thể trong một cuốn từ điển tường giải cỡ lớn như các thông tin, các từ ngữ mới, các ví dụ,

Bài "Định hướng biên soạn TĐTV cỡ lớn trên cơ sở xây dựng

ngân hàng dữ liệu tiếng Việt và ứng dụng công nghệ thông tin" đã đưa

ra những định hướng cơ bản của cuốn TĐTV cỡ lớn Đó là các vấn đẻ

như: Nhu cầu của xã hội, mục tiêu, nhiệm vụ của cuốn TĐTV cỡ lớn: các công việc cần tiến hành như: xây dựng lực lượng cán bộ, xây dựng ngân hàng dữ liệu tiếng Việt, cách thức biên soạn; dự kiến về thời

gian, Các định hướng này được dùng làm cơ sở để hoạch định cuốn

TĐTV cỡ lớn sẽ biên soạn

Trang 21

Cấu trúc vĩ mô là vấn đề được các nhà từ điển học chú ý đến đầu tiên, bởi nó quyết định tầm cỡ và tính chất của một cuốn từ điển Bài

"Về cấu trúc vĩ mô của TĐTV cỡ lớm' đưa ra 4 đặc điểm của cuốn TDTV cỡ lớn là: - Loại cỡ; - Tính chất miêu tả chung; - Tính đồng

đại; - Cấu trúc vĩ mô xét từ hai khía cạnh: + trong mối tương quan VỚI cấu trúc vi mô, và + có tính chỉnh thể Tác giả đi sâu hơn vào cấu trúc,

vĩ mô của TĐTV cỡ lớn là việc lập bảng từ, yêu cầu xử lí các mục từ một cách có hệ thống Tác giả đã nêu một loạt các kiểu đơn vị cụ thể của TĐTYV cỡ lớn là: - các hình vị (hoặc tiếng), các từ đơn và đa tiết,

các tổ hợp và các ngữ cố định Các tiêu chí này giúp xác định được các đơn vị đầu mục của TĐTV cỡ lớn một cách tương đối nhất quán nhưng mềm dẻo, phù hợp với yêu cầu miêu tả chung vốn từ của một

ngôn ngữ thuộc loại hình đơn lập như tiếng Việt Có thể nói, vấn đề

chú ý và giải quyết cùng với việc nêu các đặc trưng về bảng từ của

TĐTV cỡ lớn, đây cũng là một điểm mới của bài viết Cũng nằm trong vấn đề về cấu trúc bảng từ là việc lựa chọn các đơn vị từ vựng mới cho một cuốn từ điển Khái niệm từ mới, nghĩa mới liên quan chặt chẽ đến tính hiện đại và bị chỉ phối bởi tính chuẩn mực của một cuốn TĐ giải thích Với cuốn TĐTV cỡ lớn, việc thu thập các đơn vi coi 1A mdi

cũng cần theo hai quan niệm nói trên Tác giả bài "Từ ngữ mới và việc thu thập, giải nghĩa các từ ngữ mới trong TDTV cỡ lớn" đã cố gắng xác định các tiêu chí thu thập và cách giải nghĩa cho bộ phận từ ngữ

này

Tiếp theo cấu trúc vĩ mô là cấu trúc vi mô, vấn đề chủ chốt thứ

hai của một cuốn từ điển Cấu trúc vi mô của TĐÐTV cỡ lớn được hình dung trên cơ sở cấu trúc vi mô của một cuén TD giải thích tiếng Việt

nói chung và trong mối quan hệ chi phối chặt của cấu trúc vĩ mô Sau khi tóm tắt những đặc điểm chung của cấu trúc vi mộ của một cuốn

TĐ giải thích tiếng Việt nói chung, dựa vào định hướng về dung lượng

và tính chất của cuốn TĐTV cỡ lớn, tác giả bài "Cấu trúc vi mô của

TĐTV cỡ lớn" đã giải quyết những vấn đề của cấu trúc vi mô: lượng thông tin được đưa vào, mối quan hệ hệ thống của các đơn vị đầu mục thông qua cấu trúc vi mô, việc phân định vốn tử tiếng Việt, việc tách nghĩa các từ đa nghĩa và xử lí đồng âm, việc đưa một số thông tin khác như các thông tin văn hoá và lịch sử, Một vấn đề mới trong lí thuyết của từ điển học hiện đại là việc mó hình hoá cấu trúc vi mô của một cuốn từ điển Tác giả đã hình dung một mô hình khái quát nhất, đầy đủ nhất cho cấu trúc vi mô của TĐTV cỡ lớn, từ đó đặt ra bài toán cho các nhà tin học giải đáp, nhằm xây dựng một phần mềm trợ giúp biên soạn TĐTV cỡ lớn Với phần mềm trợ giup nay, cing

20

Trang 22

với các maket định nghĩa phụ trợ, sẽ bảo đảm tính nhất quán, tính hệ

thống cho cuốn từ điển

Cụ thể hoá cho cấu trúc vi mò của“TÐTV cỡ lớn là các bài viết về

trợ từ, về thông tin ngữ dụng, về tính từ, về các động từ tâm lí tình

cảm, về thành ngữ, về các từ ngữ khẩu ngữ,

Các bài viết khác trong phần này trình bày những vấn đề lí thuyết,

cho một cuốn từ điển cỡ lớn theo cùng định hướng cơ bản đã nêu Đó

là những vấn đề chung vẻ việc biên soạn một cuốn TĐTV cỡ lớn, chủ yếu là vấn đề thu thập một bảng từ dựa trên khái niệm ứờ trong tiếng Việt, việc giải thích nghĩa từ theo lí thuyết phân tích ngữ nghĩa hiện

đại, việc chú sắc thái và cách đùng, việc chú từ loại Tác giả bài "Một vài suy nghĩ về việc biên soạn Từ điển riếng Việt trong mối quan hệ

với Việt ngữ học” đã đưa ra những suy nghĩ về các vấn đề trên nhằm

góp thêm một tiếng nói cho "diễn đàn" từ điển học vốn ít sôi nổi ở

nước ta cũng như trên thế giới

Cũng liên quan trực tiếp đến chất lượng của một cuốn từ điển là

cách phân tích nghĩa từ Với cách nhìn của từ điển học hiện đại: cấu

trúc ngữ nghĩa của tất cả các từ có thể được mô tả bằng một siêu ngôn ngữ với số lượng từ vựng hữu hạn (các nguyên tố nghĩa) và một ngữ pháp riêng, tác giả bài "Giới thiệu các khái niệm nguyên tố nghĩa, đơn nguyên nghĩa" mong muốn sẽ ứng dụng được cách phân tích này vào việc miêu tả nghĩa cho cuốn TĐTV cỡ lớn

Thí dụ trong từ điển giải thích, một vấn đề tưởng như đơn giản và chỉ có tính chất vận dụng, thực hành, đã được nghiên cứu trong một chuyên đề riêng Bài viết "Về thí dụ trong từ điển giải thích cỡ lớn" nhằm giải quyết câu hỏi "thí dụ có quan hệ như thế nào với các thông

tin khác trong một mục từ, tức nó có vai trò, vị trí như thế nào trong

toàn bộ cấu trúc vi mô của từ điển?" Tác giả qua nhận xét, đánh giá các thí dụ trong các từ điển giải thích tiếng Việt, đã rút ra được những thiếu sót cũng như các tiến bộ nhất định của ngành 'TÐ học nước ta, từ

đó đưa ra những yêu cầu về số lượng, kiểu loại thí dụ cho cuốn TĐTV

cỡ lớn

Các bài viết khác về từ vựng khẩu ngữ và cách xử lí chúng trong

TDTV cỡ lớn, việc xử lí từ đồng nghĩa, chức năng của trợ từ, của các toán tử logic-tình thái, về những xu hướng phát triển từ vựng tiếng Việt trong khoảng mươi, mười lăm năm gần đây, về các phương thức chuyển nghĩa, vẻ lịch sử từ điển học Việt Nam, đã trực tiếp hoặc

gián tiếp bổ sung tư liệu thực tế hoặc gợi ý vẻ mặt lí thuyết để giải

quyết những vấn đẻ khác nhau cho bộ TĐTV cỡ lớn

Phần 2 gồm các bài viết về các mẫu định nghĩa Trên tư liệu

tiếng Việt, các tác giả đã đưa ra hơn 40 mẫu định nghĩa cụ thể của

tính từ, trợ từ, động từ, các toán tử logic-tình thái, các thành ngữ và

21

Trang 23

các từ ngữ mang phong cách khẩu ngữ Nội dung các bài viết đi từ nghiên cứu lí thuyết (đánh giá, phân loại các đơn vị), từ đó đưa ra các

Phần 3 gồm hai bài viết báo cáo kết quả chuyến khảo sát, học tập kinh nghiệm tại Cộng hoà Pháp của ba cán bộ tham gla công trình Hai bản báo cáo cho thấy tác dụng thực tế của việc tham quan khảo sát, những kết quả và sự ứng dụng vào công trình Định hướng tư liệu đầu vào của ngân hàng dữ liệu cung cấp một cách hoạch định danh

mục các tư liệu được nhập vào NHDL Sự hoạch định này tiếp thu có

lựa chọn những tỉ lệ các thể loại tư liệu của các corpus cua cic ngôn ngữ khác, trên cơ sở đó đưa ra một ti lệ các thể loại văn bản tư liệu

tiếng Việt cho NHDL tiếng Việt - một bộ phận quan trọng trong luận

cứ khoa học của cuốn TĐTV cỡ lớn Bài "Đôi điều chiêm nghiệm về

tổ chức làm từ điển ở xứ ta" tổng kết kinh nghiệm về việc tổ chức làm

từ điển ở một số cơ sở mà tác giả có tham gia, về cách thức tổ chức

làm từ điển ở nước ta nói chung với mong muốn cải tiến cung cách, quan niệm cũng như cơ chế quản lí khoa học, đặc biệt là công việc

làm từ điển ở nước ta

Tóm lại, cơ sở lí luận và mẫu định nghĩa để biên soạn bộ Từ

điển tiếng Việt cố lớn là một hệ thống các vấn đề có định hướng, có

quy hoạch, được thực hiện nghiêm túc Các tác giả đã tiếp thu được những lí thuyết từ điển học, ngữ nghĩa học hiện đại, có thực tế biên soạn từ điển tường giải Vì vậy, các giải pháp đưa ra nhất quán, bổ

sung cho nhau, có đủ độ tin cậy, có sức thuyết phụe, làm chỗ dựa chắc

chắn cho việc biên soạn bộ từ điển tiếng Việt cỡ lớn

Nội dung của từng bài sẽ được tìm thấy trong mục lục sau

Trang 24

Muc luc tap

CƠ SỞ LÍ LUẬN VÀ MẪU ĐỊNH NGHĨA CHO BỘ TỪ ĐIỂN TIẾNG VIỆT CỠ LỚN

A, Nghiên cứu lí luận 20 n2 E222 2 Định hướng biên soan từ điển tiếng Việt cỡ lớn trên cơ sở Xây dựng ngân hàng dữ liệu tiếng Việt và ứng dụng công nghệ thông tin

K** HH nh KH ng HH du 2

Bàn về cấu trúc vĩ mô của từ điển giải thích tiếng Việt cỡ lớn ll

Một vài suy nghĩ về việc biên soạn Từ điển tiếng Việt trong mối quan hệ

với Việt ngữ

Chức năng của trợ từ tiếng Việt và việc định nghĩa trợ từ trong từ điển giải

thích tiếng

Giới thiệu các khái niệm “nguyên tố nghĩa", "đơn nguyên nghĩa"

(ứng dụng trong các giải thích và mô tả ngữ

778A ng 90

Xử lí vấn để đồng nghĩa trong từ điển giải thích tiếng Việt cỡ lớn 98

Từ ngữ mới và việc thu thập, giải nghĩa từ ngữ mới trong từ điển tiếng Việt

Từ vựng khẩu ngữ và cách xử lí chúng trong từ điển tiếng Việt cỡ

16n 146

Phương thức chuyển nghĩa và tạo đơn vị từ vựng mới trên cơ sở nghĩa biểu

trưng trong giao tiếp lời nói hàng ngày Đ~ ngu 20

Về hai xu hướng trong phát triển từ vựng tiếng VIệt 216 Một vài hướng phát triển từ vựng và vấn đề chuẩn hoá 230 Giới thiệu sơ lược về từ điển và từ điển học Việt nam

23

Trang 25

Mẫu định nghĩa trợ từ tiếng Việt ccceccccscsescesescsecsessecccececceceesesees Định nghĩa thành ngữ tiếng Việt

ˆ Báo cáo kết quả chuyến khảo sát, học tập kinh nghiệm tại Cộng hoà Pháp (về mặt ChUYÊH mÔI) cac ¬ 360 Báo cáo kết quả công tác tại hai nhà xuất bản Hachette và

Larousse 369

Tư liệu đầu vào của ngân hàng dữ liệu S2 2n TnnnnHnnnHn nen 379

2 CAC TAI LIEU THAM KHAO (tai liệu dịch)

2.1 TAP BAI DICH MOT SO VAN DE TU DIEN HOC

Một số vấn đề từ điển học là tập tài liệu dày 246 trang khổ A, gồm các bài đơn lẻ được lựa chọn và dịch từ tiếng Anh, Nga, Pháp và Trung quốc Các bài dịch tập trung vào các dự báo vấn đề lí thuyết từ

điển học của thế kỉ XXI, từ điển học của các nước có trình độ phát

triển cao như Anh, Pháp, Trung Quốc, Nga Những vấn đề chính được lựa chọn để dịch cũng là những vấn đề mà công trình rất quan tâm: bảng từ, cách phân tích và miêu tả nghĩa, các vấn đề về từ mới, Vì vậy chúng mang lại lợi ích rất thiết thực cho những người tham gia nghiên cứu lí luận của công trình

Trang 26

10

MUC LUC Ladislav Zgusta, Ti điển học thế kỉ 21, trong tập bài Hội nghị từ

điển học Quốc tế châu á lần thứ nhất, Manila, Phillipines- 1992, Hội Ngôn ngữ học Phillipnines, Manila, 1994, (bản tiếng Anh)

é ẩ éoổØớà, Cái mới trong lí thuyết và thực tiễn của từ điển học

tiếng Anh, trong "Từ điển học Xô Viết", Nxb "Tiéng Nga” M.,

1988, (ban tiéng Nga)

Ju D Aprexian, Chan dung tir dién cia dong từ "vưiti" (ra), trong tuyển bài "Những vấn dé điều khiển học Ngôn ngữ lô gich và lô gich ngôn ngữ”, M., 1990, (bản tiếng Nga)

Lesley Brown, Từ điển tiếng Anh rút gọn mới của Oxford trén '

nguyên tắc lịch sử, Nxb Clarendon - Oxford, 1993, (bản tiếng

Anh)

Tiêu Kế Chu, Thiện Diệu Hải, Hàn Kính Thể, Vẻ vấn đề thu thập

từ ngữ của từ điển loại chuẩn, trong tap "Hội thảo khoa học về

cuốn Hiện đại Hán ngữ từ điển", 1995, (bản tiếng Trung)

A S Hornby, Một số từ trong cuốn từ điển Oxford Advanced Learners English Dictionary, tái bản lần thứ 6, chủ biên Sally Wehmeier, Nxb Dai hoc Oxford, 2000 (ban tiếng Anh)

Diéu Han Minh, Ban về từ ngữ mới và chuẩn hoá, trong tập "Dạy

học và nghiên cứu ngôn ngữ", sối 1995, tr 82-95, (bản tiếng

Trung)

A A Khamatova, Ban vé cdc xu huéng phát triển từ vựng tiếng

Hán hiện đại, trong cuốn "Những vấn đề cấp thiết của tiếng Hán”;

Viện ngôn ngữ học thuộc RAN; M., 1988, tr 46-63, bản tiếng

Nga

Cát Tây Khuyến, Cát Tố Bửu, Một chút quan điểm về ứng dụng từ

mới trong ngôn ngữ báo chí; trong tập "Dạy học và nghiên cứu

ngôn ngữ” số 2/1996, (bản tiếng Trung)

H.Z Kotelova, Bình diện lí thuyết của việc miêu tả từ điển học

các từ mới, trong tập "Bình diện lí thuyết của việc miêu tả từ điển

học các từ mới", M., 1988, tr 46-63, (bản tiếng Nga)

25

23 -39

Trang 27

11 A Š Hornby, Từ điển tiếng Anh hiện hành dùng cho người trình

độ cao, tái bản lần thứ 6, Chủ biên: Sally Wehmeier, Nxb Đại

học Oxford, (bản tiếng Anh) ˆ

12 Gak, Từ mới và từ điển từ mới, trong tập "Từ mới và từ điển từ

mới”, Nxb KH Leningrad, 1983, (tr 46-63), (bản tiếng Nga)

13 Einar Haugen, Quá trình vay mượn, trong tập "Tiếng Nauy 6 Mi"

Nxb Philadenphia, 1953, (bản tiếng Nga)

14 René Lagane (cha biên), Lời nói đầu của Từ điển "Maxi

Debutants”, Nxb Larousse, Bordas, 1997, (bản tiếng Pháp)

15 Simone Delesalle, Cach xử lí các ví dụ trong các cuốn đại từ điển thuộc nửa sau thế kỉ 19, trong tập "Tiếng Pháp 106" 5/1995, tr

68-75, (bản tiếng Pháp)

2.2 TU DIEN HOC VA VIEC PHAN TICH KHAI NIEM

Tac phẩm của Anna Wierzbicka (bản tiếng Anh, 321 trang), là

một tác phẩm phản ánh những tư tưởng mới nhất của một khuynh

hướng hiện đại nhất của từ điển học Nga và thế giới mà bà là một

trong những đại diện Khuynh hướng này xuất hiện từ cuối thập kỉ 60,

phát triển ở Nga vào đầu những năm 70, nhóm tác giả tiêu biểu gồm

JU.D.Aprexijan, I.A.Meltruk và A.K Giôlkôvskj), với cách nhìn nhận

mỗi từ tham gia vào một ham từ vựng, nghĩa của từ được xác định và

miêu tả trong mối quan hệ hàm Trào lưu này lắng lại trong nửa cuối

thập kỉ 70 và phát triển mạnh trở lại từ cuối những năm 80 đến nay

Việc ứng dụng những vấn đề lí thuyết của nhóm này vào thực tế biên

soạn từ điển giải thích còn những điều cần được thảo luận thêm,

nhưng phương pháp tư duy, phân tích, miêu tả nghĩa từ một cách khoa

học và sự ứng dụng vào công tác từ điển, vào khoa học dịch may,

của họ đã được thừa nhận Một trong những thành công mới nhất của

họ là cuốn Từ điển đồng nghĩa tiếng Nga (kiểu mới) xuất bản năm

2000, được đánh giá rất cao ở Nga và nước ngoài

Trang 28

2.3 MANG NGU LIEU LONGMAN

Tài liệu khai thác trên mạng Tternet, dịch từ bản tiếng Anh 60

trang Đây là một tài liệu rất mới về ngân hàng dữ liệu tiếng Anh duoc xây dựng trên máy tính nhờ các phần mềm và lí thuyết tin học hiện

đại nhất NHDL này có quy mô rất lớn bao trùm hầu hết khối tiếng Anh trên khắp thế giới, sồm các khối ngữ liệu:

viết lấy từ văn học, tạp chí, báo và cả những vật liệu nhất thời như tờ rơi và bao bì Khối ngữ liệu duy niiất được cấu trúc/xảy „ dựng đại diện cho ngôn ngữ viết, phản ánh trung thực tiếng - Anh TK XX

- Khối ngữ liệu người học Longman gồm 10 triệu từ

- Khối ngữ liệu BNC (khối ngữ liệu quốc gia Anh) hon’ 10Ô triệu từ của văn bản viết và văn bản nói

Khối ngữ liệu văn bản viết Mĩ Longman 100 triéu tir

- Khối ngữ liệu văn bản nói Mĩ Longman gồm 5 triệu từ làm mẫu điển hình cho các cuộc hội thoại hàng ngày của hơn

1 000 người Mĩ thuộc các nhóm tuổi, trình độ dân tộc khác

nhau ở hơn 30 bang của nước Mĩ ‘

Các khối ngữ liệu này được lựa chọn và tổ chức thành một ngân

hàng dữ liệu Tài liệu giới thiêu tỉ mỉ cách tổ chức, thành phần công dụng và cách sử đụng, Day là tài liệu cần thiết và cùng với những tài

liệu thu thập được về ngân hàng đữ liệu (corpws) tiếng Pháp da rat

hữu ích cho công trình này

Trang 29

PHAN THU NAM

CAC TAI LIEU VE PHAN MEM

A HE THONG CAC YEU CAU CUA BEN NGON NGU

' dat ra cho bên tin học xây dựng các chương trình phần mêm trong

đề tài "Xây dựng luận cứ khoa học cho việc biên soạn bộ Từ điển

Ì Yêu cầu của phần mêm xảy dựng, quản lí và khai thác ngản hàng dữ liệu tiếng Việt

lI Yêu cầu của phân mêm "quản lí và tra cứu các từ điển

giải thích tiếng Việt và các từ điển giải thích thuật ngứ chuyên

THỊ Yêu cầu của phân mêm "trợ giúp biên soạn TÐ giải thích tiếng Việt cỡ lớn"

B Hệ thống các mô hình xử lí của bên tín học, gồm:

1 Mô hình xử lí tạo cơ sở dữ liệu cho NHDL tiếng Việt

HI Mô hình thiết kế

IL YEU CAU CUA PHAN MEM QUAN Li VA KHAI THAC

NGAN HANG DU LIEU TIENG VIET

I KHO DULIEU THO:

- ngữ cảnh của từ chọn với các độ dài khác nhau:

+ ngữ cảnh tối thiểu, trước 10 âm tiết, sau LÔ âm tiết

+ ngữ cảnh trung bình, trước 20 âm tiết, sau 20 âm tiết

+ ngữ cảnh tối đa, trước 50 âm tiết, sau 50 âm tiết

Ngữ cảnh được ngắt đoạn bằng cách kết hợp yêu cầu vẻ số lượng

âm tiết và đấu chấm gần nhất

Trang 30

- ngữ cảnh bất kì đều chứa hai loại thông tin kèm thêm của văn bản “đầu vào”

Kho dữ liệu thô sẽ thường xuyên được bổ sung để cập nhật

Với kho dữ liệu thô, chúng ta chưa cần đầu tư kiến thức chuyên

Số lượng tư liệu lớn, thời gian tìm kiếm của máy ráf chám, ảnh hưởng lớn tới quá trình nghiên cứu, biên soạn

II KHO DỮLIỆU TRUNG GIAN

Mục đích của công đoạn này là giải quyết vấn đề nhận diện từ

tiếng Việt để tiến hành xây dựng kho dữ liệu tỉnh

Khác với nhiều ngôn ngữ khác, ranh giới từ trong tiếng Việt không rõ ràng Về mặt lí thuyết, những quan niệm rất khác nhau về đơn vị từ trong tiếng Việt vẫn tồn tại Trong tiếng Việt, chỉ âm tiết là

có khả năng nhận diện về mặt hình thức, tức là viết liên một khối giữa hai khoảng trống giống như đơn vị từ của các ngôn ngữ biến hình Nh-

ng âm tiết có thể là từ, có thể là yếu tố tạo từ (là, đi, quốc- -gia),

nhiều âm tiết lúc là từ, lúc là yếu tố tạo từ (sạch, sạch sẽ: dự, dư thừa)

Để khắc phục khó khăn trên chúng tôi lập một danh sách đầy đủ từ ngữ tiếng Việt làm cơ sở cho máy nhận diện từ trong văn bản

Trang 31

787

Danh sách từ ngữ tiếng Việt:

~ đầy đủ về các lớp từ vựng, kể cả từ cổ, từ cũ, từ đã chết từ mới dùng, phương ngữ, thuật ngữ, Đây đủ về các kiểu cấu tạo, gồm từ

đơn, từ song tiết, từ đa tiết, tổ hợp cố định, ngữ cố định, Nếu thu

thập thật đầy đủ các đơn vị từ ngữ tiếng Việt, việc nhận diện từ trong

văn bản sẽ triệt để, thuận tiện cho nghiên cứu, biên soạn Nhng với

một bản danh sách lớn tới 150.000 - 200.000 đơn vị, liệu khả năng và tốc độ làm việc của máy sẽ ra sao? Hay là bước đầu bản danh sách chỉ tập trung vào những đơn vị từ, khoảng 50.000 - 70.000 đơn vị, tạm thời gác lại những thuật ngữ chuyên sâu được biểu thị bằng các tổ hợp

định danh, kiéu tinh riết giảm nhẹ, uỷ thác thu kèm chứng từ „Trên „

thực tế, có khả năng là ở các ngôn ngữ khác ngời ta cũng chỉ xác định

tới các đơn vị từ trong ngân hàng dữ liệu

- xác định từ loại cho từng đơn vị; tách đồng âm ngẫu nhiên (đ- ường quốc lộ, đường kính), đồng âm cùng gốc (cái cày, cày ruộng)

Cố gắng xác định tính từ loại cho cả các tổ hợp (ung hoả mù, đá quả bóng), các ngữ (cánh tay phải, nghệ sĩ nhân dân, há miệng mắc quai)

để tiện cho các bước phân loại tiếp theo

- xác định từ nguyên của từ: từ gốc Hán, từ gốc Pháp, từ gốc

Anh, từ gốc các ngôn ngữ khác Đây là thông tin cố định của từ, xác

định trước sẽ thuận tiện cho khâu khai thác sau này

Đánh dấu từ loại, từ nguyên trên văn bản:

Máy tính sẽ dựa vào đanh sách từ ngữ tiếng Việt để nhận diện từ

trong văn bản, đánh dấu từ loại, từ nguyên của từ bằng phương tiện số hoá Nếu máy nhận diện và đánh dấu lần lượt từng âm tiết thì có thể gap tro ngại trong một số trường hợp Chẳng hạn, máy sẽ nhận điện đúng quốc gia là một từ, vì quốc- không phải là từ, phải có thêm -gi¿

mới là một từ theo danh sách đã cho; nhưng máy lại nhận diện đúp trường hợp ứổ quốc, tổ là một từ và :ổ guốc cũng là một từ, hoặc sau

khi đánh dấu zố là một từ, sẽ bỏ qua không đánh dấu guốc nữa Cách giải quyết: có thể phải bắt đầu từ những đơn vị gồm 4, hoặc 5 ảm tiết

và nhận diện lùi dân xuống 3, 2, l âm tiết Máy bay lên thẳng là một

đơn vị, thì các âm tiết máy, bay, lên, thẳng không đánh dấu đơn vị

nữa; ở vị trí khác, khi tính các đơn vị song tiết sẽ nhận diện được máy

Trang 32

ERT

bay, và sau cùng xuất phát từ những đơn vị một âm tiết, sẽ có (nở) máy, (cò) bay, lên (gác), (nhìn) thẳng

Chuyên gia tiếp tục xử lí văn bản đã được máy đánh dấu:

- tách và đánh đấu đồng âm (kiểu đường quốc lộ, đường kính; cái

- soát lại những đơn vị không được đánh dấu dé tìm từ mới và

những trường hợp đặc biệt khác Với phương pháp này việc tìm từ mới

sẽ triệt để, khách quan vì được dựa vào khối lượng văn bản lớn và th- ường xuyên cập nhật

Khả năng tìm kiếm:

- khả năng tìm kiếm như ở kho đữ liệu thô

- tìm kiếm thêm những thông tin về tần số từ vựng, như tần số từ ˆ

vựng trong một khối đữ liệu xác định, tần số từ vựng trong một loại

văn bản, tần số từ vựng trong một tác phẩm, tần số từ vựng của một

tác giả,

II KHO DỮLIỆU TINH

Mục đích của kho đữ liệu tỉnh là nhằm khắc phục những nhược

điểm của kho dữ liệu thô; tìm chọn và xây dựng kho đữ liệu có số I- ượng vừa đủ, nhng tiêu biểu, đại điện cho sự sử dụng và hoạt động của

từ ngữ tiếng Việt

Phương pháp: Chọn dữ liệu tinh có thể tiến hành theo hai cách

Cách thứ nhất, chuyên gia trực tiếp tìm chọn ngữ cảnh tốt dựa vào kiến thức và cảm nhận của mình, như cách xây dựng kho tư liệu thủ công của Viện ngôn ngữ học (3 triệu phiếu), hay kho tư liệu Từ mới

của Phòng từ điển học (khoảng 45.000 bản ghi) Cách này tốn nhiều

công, hạn chế về số lượng, và ít nhiều mang tính chủ quan của ngời

lựa chọn Cách thứ hai, cách mà chúng tôi định sử dụng là chọn dữ

liệu tỉnh theo mô hình kết hợp cú pháp của từ trong văn bản

+ d/d tin (Nghe xong, bé tin ngay Chuyện ấy thì tôi không tin)

31

Trang 33

L#ể

+ d/d tin d/d (Tdi tin ban be Ba H tin Chúa)

+ d/d tin vào/ở đ (Nó chỉ tin vào khoa học Thanh niên tin ở tong

+ d/d tin rằng/là d-đg (Tôi tin rằng anh ấy sẽ về Ai cũng tin là

nó thi dd)

+ v.v

: Chuyên gia xử lí và hoàn thiện sự phân loại của máy:

+ chọn đủ các kiểu kết hợp của một từ, trong đó mỗi kiểu đều có

- Tra cứu nhanh, phù hợp với yêu cầu nghiên cứu, biên soạn

Để xây dựng kho dữ liệu tỉnh từ kho dữ liệu trung gian, cần có sự

trợ giúp của tin học trong việc sắp xếp tự động tư liệu ngữ cảnh theo

khả năng kết hợp cú pháp

a/ Bài toán cụ thể được đặt ra như sau:

- bước một: xếp toàn bộ ngữ cảnh của X liên tục theo trật tự từ loại của từ đứng trước X (d, dg, t, đ, ); trong nội bộ từng từ loại thì

trật tự xếp là theo vần (chú ý: mỗi ngữ cảnh chỉ hiển thị một dòng, từ

Trang 34

- bước hai: với mỗi từ loại của đơn vị trước X, yếu tố sau X lại

được sắp xếp theo trật tự từ loại

? đdX 4d anh tin lời chị

(7) p X tr ai khong tin thi về

- bước ba: với mỗi từ loại của đơn vị sau X, yếu tố tiếp theo lại

được sắp xếp theo trật tự từ loại

- bước n

b/ Có thể hình dung trên sơ đồ hình cây:

Trang 35

Trong từng khối mà sắp xếp theo ABC

Imàu của khối là màu biể

trưng cho một loại từ loại

Trang 36

- Yêu cầu một thuật toán cho phép sắp xếp toàn bộ (hay một bộ phận) ngữ cảnh của X theo trật tự từ loại của một t hay một s Yêu cầu này được cụ thể hoá trong từng trường hợp như ví dụ ở a/

- Chuyên gia ngôn ngữ đánh dấu ngữ cảnh cần chọn Tập hợp những ngữ cảnh được đánh dấu làm thành kho dif liéu tinh Kho dit liệu tỉnh là nguồn khai thác chủ yếu trong biên soạn từ điển Cho nên thủ pháp đánh dấu ngữ cảnh và thao tác gọi dữ liệu tinh cần được giải quyết tốt

"Quản lí và tra cứu các từ điển giải thích Hếng Việt

và các từ điển giải thích thuật ngữ chuyên ngành"

H.1 Đầu vào

* Các loại từ điển giải thích đã và sẽ có

Trước mắt, dự kiến đưa vào 8 cuốn từ điển giải thích tiếng Việt ở

dạng đã nhập vào trong Word:

1 Việt Nam tự điển - Hội Khai Trí-Tiến Đức, Sài Gòn 1931

2 Tự điển Việt Nam phổ thông, Đào Văn Tập, Sài Gòn, 1951

3 Việt Nam tân từ điển, Thanh Nghị, Sài Gòn, 1952

4 Tự điển Việt Nam, Lê Văn Đức, Sài Gòn, 1970

5 Từ điển tiếng Việt, Văn Tân chủ biên, HN, 1977

6 Đại từ điển tiếng Việt, Nguyễn Như ý chủ biên, TP HCM

2000

7 Từ điển từ và ngữ Việt Nam, Nguyễn Lân, TP HCM, 2000

8 Từ điển tiếng Việt, Viện ngôn ngữ học, Hoàng Phê chủ biên,

HN, 2000

* Nội dung các thông tin có trong một mục định nghĩa của các từ

điển nêu trên trình bày trong phần “Chuẩn hoá phong cách các từ điển giải thích tiếng Việt” kèm theo

II.2 Yêu cầu đầu ra: Cần hiển thị được các thông tin và có các khả năng tra cứu sau:

1 Các thông tin cần cung cấp:

1.1 Mục từ: Mỗi cuốn từ điển được xếp theo thứ tự a, b, c, đồng thời có vị trí (ô) dành cho việc đánh vào để tìm từ bấi kì trong từ điển

CYêu câu: - Có chương trình để tự động chuyển các từ điển đã có

ở đạng chế bản trong Word vào phần mềm

35

Trang 37

- Không cho phép sửa chữa, bổ sung hoặc xoá nội dung các mục

từ đã đưa vào chương trình)

1.2 Phần định nghĩa: thể hiện được đầy đủ các thông tin của mỗi

mục từ trong từ điển

2 Khả năng tra cứu:

- 2.1 Theo chiều đọc - tra cứu riêng từng cuốn từ điển:

- Hiển thị được danh sách (theo a- b) các mục từ trong từ điển

- Tra cứu được từng mục từ với tất cả các thông tin của từ đó kèm theo

- Có khả năng thống kê số lượng và hiển thị danh sách (theo a-b)

các từ cùng từ loại (d., đg t., v.v ) trong từ điển

- Có khả năng thống kê được số lượng và hiển thị danh sách các

từ cùng phong cách (kng., phg , vch., v.v.) trong từ điển

- Có phần tìm kiếm để khi đánh vào một từ bất kì, có thể biết được từ đó đã có trong từ điển hay chưa

2.2 Theo chiều ngang - tra cứu, đối chiếu các từ điển với nhau:

- Tra cứu được từng mục từ với các thông tin của từ đó trong nhiều cuốn từ điển khác nhau

- So sánh, đối chiếu được các cuốn từ điển bất kì với nhau, tìm được khối lượng mục từ chung, những từ mà từ điển A có nhưng từ

điển B không có, những từ mà từ điển B có, từ điển A không có

H 3 Chuẩn hoá phong cách các từ điển giải thích tiếng Việt

Phần này nhằm đưa các từ điển đã có về một dạng chung để máy nhận điện khi nhập các từ điển này vào một chương trình chung Nhưng khi hiển thị, mỗi cuốn từ điển đã có vẫn mang định dạng và

những đặc trưng của riêng mình

IH YÊU CẨU PHAN MEM

"trợ giúp biên soạn từ điển giải thích tiếng Việt cỡ lớn"

Phần mềm này thực ra là phác thảo cấu trúc vÌ mô của cuốn từ

điển giải thích tiếng Việt cỡ lớn Để có được một mô hình cấu trúc vi

mô đầy đủ và hợp lí cần có một quá trình nghiên cứu cẩn thận hơn Vì vậy phần chuẩn bị này chỉ coi là một phác thảo ban đầu, sau này có thể bổ sung thêm một số trường hoặc chỉ tiết mà cho đến lúc này chúng tôi chưa hình dung hết được

Mục đích:

36

Trang 38

1 Giúp người làm TĐTV cỡ lớn biên Soạn từng mục từ theo một

cấu trúc chung, thống nhất, đã được xây dựng trước

._ 2 Sắp xếp bản thảo theo mẫu quy định để chuyển sang dạng chế bản có thể in ấn được

4 Chương trình này buộc phải liên thông với phần mềm "Quản lí

và khai thác các từ điển cũ" và phần mềm "Ngân hàng đữ liệu tiếng Việt"

5 Chương trình mở

Nội dung các thông tin sẽ được nhập và khai thác:

1 Nhập mục từ gồm: phần này do người biên tập trực tiếp nhập 1-đầu mục: Chữ to, đậm hơn các phần tiếp sau

.tách các từ đồng âm ngẫu nhiên (đánh số chân Arâp, tối đa 10,

vd: ban, d (ban ghé), ban, dg (ban bac))

.các từ đồng âm cùng gốc (đánh số Lamã, tối đa X, vd: được I đg., được II t., được II p., được IV tr.)

2-các nghĩa của từ đa nghĩa (đánh số Arâp, mở= không giới hạn, vd: được I đg 1 Có vật nào đó Được của rơi 2 Tiếp nhận, hưởng

Được tin vui 3 Hưởng điều kiện Lúa duoc ndng.)

2.1-các chú giải của đầu mục:

cach doc (chú cách phiên âm quốc tế, thường để trong [], vd: quota [Anh: quota; /cota/]

những cách viết khác, sau kí hiệu: cv., thường dùng chit I Vd: matxa cv massage, mdt xa

.cách nói khác, sau kí hiệu: cn., thường ding chit I Vd: bay cn

bẩy

nguồn gốc từ và giải thích từ nguyên (Pháp, Anh, Hán, ), thường để trong [] Vd: CD [Anh: Compact Disk; /compak diski; dia

nén chặi, viết tắt]

từ loại (đơn và kép, nếu là kép thường để trong (), kiểu:

(và/hoặc/hay d.)), vd: dềnh đang t (hay đg.) [có danh sách các từ loại sẵn kèm theo]

.phong cách (đơn và kép, thường để trong Q), vd: dể ngươi đg

(cũ; hoặc ph.), để (cũ; ¡đ.) [có danh sách phong cách sắn kèm theo] .tên chuyên ngành (tin) (nếu là thuật ngữ) [có danh sách sẵn kèm theo] -

Trang 39

.tổ hợp cú pháp và/hoặc từ vựng ngữ nghĩa (Vd: kết hợp hạn chế; thường dùng trước/sau; .) Có thể đứng trước hoặc sau lời định nghĩa

Ví dụ: nhắm .1 (Mắt) khép kín aad

ghi chú: Các chú giải cho đầu mục có thể được lặp lại cho các từ đồng âm cùng gốc, tức sau các số Lamã: I II II

2.2 các chú giải của từng nghĩa trong từ đa nghĩa gồm:

-phong cách (đơn và kép; như 2.1) [có danh sách sẵn kèm theo]

.tên chuyên ngành (nếu là thuật ngữ, như 2.1) [có danh sách sẵn

tổ hợp cú pháp và/hoặc từ vựng ngữ nghĩa (như 2.1)

2.3 lời giải nghĩa của từ (đầu mục hoặc sau số Lamã) hoặc của từng nghĩa từ (sau số Arap) trong từ đa nghĩa gồm:

.chú giải về khả năng kết hợp từ vựng hoặc ngữ pháp (đặt trước và/hoặc sau lời giải nghĩa), độ dài mở

lời định nghĩa (cho từng từ và/hoặc cho từng nghĩa), độ dài mở 2.4 Ví dụ cho từng từ hoặc từng nghĩa: (độ dài mở)

.Ví dụ tự đặt (font chữ I), độ đài mở

Chú giải thêm cho ví dụ: chữ thường

.Ví dụ trích dẫn (font chữ ID), (có địa chỉ gồm: tên tác giả, tác - phẩm, nơi, năm xuất bản, số trang, font chữ thường), độ dài mở

Các thông tin trên đều lặp lại, mỗi từ có đến 3 hoặc 4 ví dụ

2.5-từ đồng nghĩa, trái nghĩa cho từng từ hoặc từng nghĩa, đặt sau

ví dụ, và lấy (font chữ B) /đn: ; trn:

2.6 Dạng láy của từ: chữ I đậm, phần giải nghĩa để trong (), chữ thường, vd: đỏ ./Láy: đo đồ (ý mức đô giảm nhe)

2.7 Chèn tranh ảnh minh hoạ và lời chú giải cho ảnh

3-Mỗi mục từ đều có xuất xứ: tên TEƯỜI soạn, người đọc góp ý

lần thứ 1-n, người duyệt lần cuối; thời gian soạn, đọc, chữa (cỡ và font chữ khác với phần nội dung, đặt chế độ xoá lưu với các màu khác nhau; phần này sẽ được tách riêng khi bản thảo đã hoàn thiện)

LÍ Khai thác: - gọi, đếm, copy và in được các thông tin theo các trường đã nhập

Trang 40

8 ct : cảm từ, tổ hợp cảm từ

Các trường hợp chú kép: d và/hoặc đg có lẽ để TBƯỜI soạn xử

lí trực tiếp vì nếu để danh sách sẵn thì sẽ đài quá Danh sách mở

Sơ đô nghĩa từ:

Ngày đăng: 29/08/2014, 21:51

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w