Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 74 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
74
Dung lượng
783,28 KB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN - NGUYỄN PHẠM THIÊN NHI XÂY DỰNG BỘ NHÃN TỪ LOẠI TIẾNG VIỆT CHO NGÀNH NGÔN NGỮ HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ NGƠN NGỮ HỌC BÌNH DƯƠNG - 2010 ĐẠI HỌC QUỐC GIA THÀNH PHỒ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC X HỘI V NHN VĂN NGUYỄN PHẠM THIÊN NHI XY DỰNG BỘ NHÃN TỪ LOẠI TIẾNG VIỆT CHO NGÀNH NGÔN NGỮ HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ NGỮ VĂN CHUYN NGNH: NGƠN NGỮ HỌC M SỐ: 60.22.01 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS - TS ĐINH ĐIỀN BÌNH DƯƠNG - 2010 MỤC LỤC Phần mở đầu I Đặt vấn đề II Mục đích, ý nghĩa khoa học thực tiễn việc thiết lập sở ngôn ngữ học việc nhận diện tự động từ loại tiếng Việt III Vài nét lịch sử nghiên cứu vấn đề nhận diện tự động từ loại tiếng Việt IV Tư liệu phương pháp nghiên cứu đề tài V Giới hạn phạm vi đề tài Chương 1: Cơ sở ngôn ngữ học I Từ loại tiếng Việt theo ngôn ngữ học truyền thống 1.1 Từ loại tiếng Việt 1.2 Tiểu từ loại tiếng Việt 1.3 Vấn đề phân định từ loại tiếng Việt 1.3.1 Các quan điểm phân định từ loại tiếng Việt 1.3.2 Tiêu chí phân định từ loại 1.4 Hiện tượng chuyển loại từ loại 10 II Cơ sở ngơn ngữ học máy tính .18 2.1 Tổng quan 18 2.2 Cách thức xây dựng nhãn từ loại .21 Chương : Kiến nghị nhãn từ loại 26 1.Vai trị ngơn ngữ học từ loại ngành ngơn ngữ học máy tính .26 Xây dựng thích từ loại 28 Kiến nghị xây dựng nhãn từ loại 29 3.1 Mục tiêu việc xây dựng nhãn từ loại 29 3.2 Nguyên tắc gán nhãn từ loại .30 3.3 Mô tả nhãn từ loại 33 Những quy định tách từ gán nhãn từ loại cho ngữ liệu Tiếng Việt 37 4.1 Tách từ .37 4.1.1 Định nghĩa từ tiếng Việt .37 4.1.2 Qui tắc gán nhãn ranh giới từ .37 4.2 Gán nhãn từ loại .41 4.2.1 Qui tắc gán nhãn trường hợp đặc biệt .41 4.2.2 Qui tắc gán nhãn cho từ loại .44 Chương : Ứng dụng kết .55 3.1 Trong từ điển Hoàng Phê .55 3.1.1 Số lượng theo từ loại từ điển 55 3.1.2 Số từ loại từ ( Xem phụ lục ) 56 3.2 Trên ngữ liệu 56 3.2.1 Số lượng theo từ loại ngữ liệu 57 3.2.2 Số từ loại từ ( Xem phụ lục ) 58 3.2.3 Xét ma trận chuyển dịch từ loại 58 3.2.4 Tần suất xuất theo từ loại ngữ liệu 60 3.2.5 So sánh xuất từ loại ngữ liệu tiếng Việt ngữ liệu tiếng Anh (cụ thể kho ngữ liệu Penn Treebank) theo tần suất xuất 62 3.2.6 So sánh xuất từ loại ngữ liệu tiếng Việt ngữ liệu tiếng Anh (cụ thể kho ngữ liệu Penn Treebank) theo chiều dài câu .69 3.2.7 Ứng dụng nhãn với chương trình tìm kiếm từ theo từ loại .71 Phần kết luận – ứng dụng – hạn chế – hướng phát triển 72 Tài liệu tham khảo 74 Phụ lục 77 PHẦN MỞ ĐẦU I Đặt vấn đề Trong thời đại bùng nổ thông tin nay, việc xử lý tự động ngôn ngữ tự nhiên ngày trở nên thiết thực Đối với ngôn ngữ Châu Âu, tiếng Anh, thành việc xử lý ngôn ngữ tự động ngày lớn Tuy nhiên, tiếng Việt chúng ta, kết hạn chế nhiều nguyên nhân khác có nguyên nhân thiếu sở liệu dạng điện tử cần thiết cho việc xử lý ngôn ngữ tự động máy tính Một sở liệu sở liệu tiếng Việt chun dùng cho ngành ngơn ngữ học máy tính để xử lý tiếng Việt Trong phương diện nghiên cứu từ loại tiếng Việt, việc xác định từ loại cách cụ thể cần thiết phát triển việc dạy tiếng Việt cho người nước ngồi, phân tích từ loại xử lý tự động Qua phân tích chức từ loại tiếng Việt; so sánh đối chiếu hai chiều ngôn ngữ học so sánh đối chiếu tiếng Anh với tiếng Việt chủ yếu phương diện từ loại thống kê để xác định tần suất xuất nhãn từ loại nhằm phục vụ cho việc xử lý tự động Gần đây, nhóm xử lý ngơn ngữ tự nhiên giới đạt nhiều kết tốt họ có nguồn tài nguyên cần thiết ban đầu từ điển dành cho máy đọc (MRD:Machine Readable Dictionary), ngữ liệu vàng (golden corpus) để làm sở tri thức nguồn ngữ liệu huấn luyện, ngữ liệu kiểm tra cho công cụ xử lý ngôn ngữ tự nhiên họ Trong đó, tiếng Việt chúng ta, có số cố gắng ban đầu việc xây dựng tài nguyên kết hạn chế so với kho tài nguyên tương ứng giới Khó khăn xây dựng nguồn tài nguyên nói cho tiếng Việt tính khơng qn nhãn ngôn ngữ học tiếng Việt Trong luận văn này, muốn đề xuất hệ thống nhãn ngôn ngữ từ loại đơn vị từ để làm sở xác định từ loại từ/ngữ mang ngữ/câu; Làm sở để khử nhập nhằng từ đa từ loại phục vụ việc khử nhập nhằng ngữ nghĩa II Mục đích, ý nghĩa khoa học thực tiễn việc thiết lập sở ngôn ngữ học việc nhận diện tự động từ loại tiếng Việt Với đề tài này, khảo sát từ loại tiếng Việt để đưa phương tiện nghiên cứu cho việc gán nhãn từ loại cách tự động Đây phương tiện tin học dùng để gán nhãn ngơn ngữ, tìm kiếm so sánh đối chiếu nhãn ngôn ngữ Đây phương tiện đắc lực cho nhà nghiên cứu ngôn ngữ học so sánh, giảng dạy ngoại ngữ, huấn luyện máy tính Ngồi ra, với phương tiện này, cho phép kiểm nghiệm tính đắn giả thuyết ngôn ngữ cách nhanh chóng xác Đưa mơ hình mới, mơ hình cho phép tự động hố bước q trình gán nhãn từ loại cho từ ngữ liệu III Vài nét lịch sử nghiên cứu vấn đề nhận diện tự động từ loại tiếng Việt Trên giới người ta xây dựng nhãn từ loại lớn có số nhãn đánh dấu hình thái từ, từ pháp cú pháp Penn Tree Bank, Susanne hay ngữ nghĩa Semcor chủ yếu tiếng Anh Riêng nhãn từ loại tiếng Việt có cơng trình Đinh Điền áp dụng để gán nhãn từ loại kho ngữ liệu song ngữ Anh – Việt có tên EVC Chính thế, nghiên cứu khảo sát đề tài này, lần đưa nhãn từ loại tiếng Việt hồn tồn để ứng dụng cho ngành ngơn ngữ học máy tính IV Tư liệu phương pháp nghiên cứu đề tài Trong luận văn này, sử dụng phương pháp sau để nghiên cứu nhãn từ loại tiếng Việt để ứng dụng xử lý tự động: - Dựa ngôn ngữ học ngữ liệu: tất giá trị, thông số rút từ nguồn ngữ liệu Đối tượng xử lý ngữ liệu - Phương pháp phân tích dùng để phân tích chức từ loại tiếng Việt - Phương pháp tổng hợp để đưa nhãn từ loại - Phương pháp so sánh đối chiếu hai chiều ngôn ngữ học so sánh đối chiếu tiếng Anh với tiếng Việt Việc so sánh đối chiếu chủ yếu phương diện từ loại - Phương pháp thống kê ngành ngôn ngữ học – thống kê để xác định tần suất xuất nhãn từ loại nhằm phục vụ cho việc xử lý tự động V Giới hạn phạm vi đề tài Luận văn nghiên cứu số vấn đề xây dựng nhãn từ loại tiếng Việt phục vụ cho ngành ngơn ngữ học máy tính với giới hạn sau: a Nghiên cứu vấn đề liên quan đến việc xây dựng nhãn từ loại tiếng Việt, cụ thể bao gồm: thu thập gán nhãn kho ngữ liệu tiếng Việt Việc thu thập ngữ liệu bao gồm việc xác định tiêu chí quán việc gán nhãn từ loại xác định tỉ lệ khối lượng mẫu ngữ liệu Việc gán nhãn từ loại giới hạn mức gán nhãn từ loại cho từ tiếng Việt b Nghiên cứu vấn đề liên quan đến việc gán nhãn kho ngữ liệu song ngữ, cụ thể bao gồm: tìm kiếm, thống kê theo từ loại từ/ngữ c Nghiên cứu vấn đề thuộc lĩnh vực ngôn ngữ học hay ngành có liên quan đến ngơn ngữ học – máy tính Luận văn không sâu vào vấn đề máy tính, như: chi tiết kỹ thuật liên quan đến việc mã hoá liệu từ điển ngữ liệu song ngữ bên máy tính, nguyên tắc để xử lý ngữ liệu (chương trình kiểm lỗi tả, chương trình gán nhãn từ loại, ), vấn đề không thuộc ngành ngôn ngữ học Tất vấn đề tuý liên quan đến máy tính nói chúng tơi kế thừa từ cơng trình d Chỉ xét đến ngôn ngữ đồng đại (hiện nay), không xét ngôn ngữ lịch đại Tuy phạm vi nghiên cứu luận văn giới hạn cho văn tiếng Việt thông thường, việc mở rộng cho văn thuộc lĩnh vực khoa học kĩ thuật khác, như: hố học, khí, y học,… điều hồn tồn khả thi mà khơng phải thay đổi ngun tắc xây dựng Vì mơ hình gán nhãn xử lý tự động chế tự huấn luyện (self-training), nên đưa vào kho ngữ liệu văn thuộc lĩnh vực khác, máy tính tự huấn luyện lại để gán nhãn ngơn ngữ phù hợp với đặc điểm văn phong lĩnh vực Thậm chí việc mở rộng ứng dụng sang đến lĩnh vực kinh tế, thương mại, … ứng dụng tới lĩnh vực văn học giới chưa thể xử lý lĩnh vực CHƯƠNG I: CƠ SỞ NGÔN NGỮ HỌC I Từ loại Tiếng Việt theo ngôn ngữ học truyền thống 1.1 Từ loại Tiếng Việt Người Việt biết đến từ loại từ bắt đầu tiếp xúc với ngữ pháp Phương Tây, cụ thể ngữ pháp tiếng Pháp Trước đó, chia từ ngôn ngữ thành hai nhóm, thực từ hư từ Theo cách phân biệt xưa, từ có ý nghĩa từ vựng thực từ; từ có ý nghĩa ngữ pháp hư từ Nói cách dễ hiểu, từ ngày coi danh từ, động từ tính từ, coi thực từ Những từ khác coi hư từ Từ loại lớp từ có chất ngữ pháp phân chia theo ý nghĩa phạm trù, theo khả kết hợp đoản ngữ (cụm từ), câu để thực chức ngữ pháp giống Việc phân định từ loại tiếng Việt dựa vào tập hợp ba tiêu chí: ý nghĩa khái quát từ, khả kết hợp từ chức cú pháp chủ yếu từ Trong đó, tiêu chí có tác dụng nhiều việc tập hợp phân loại từ Hay nói cách khác, đặc trưng ngữ nghĩa - ngữ pháp từ quan trọng để xác định tư cách từ loại từ cụ thể 55 PTB Biểu đồ danh từ BTP Số câu 1500 1000 500 10 13 16 19 22 25 28 31 Số danh từ Hình 3.8 Số câu động từ (ngữ liệu) Số động từ Số câu 76 310 696 1125 1523 1640 1354 1221 760 10 540 11 348 12 189 13 113 14 49 15 31 16 18 17 Số câu động từ (PTB) Số động từ Số câu 285 1018 1913 2281 1929 1358 690 321 140 10 50 11 15 12 13 14 15 16 17 56 18 19 20 1 10004 18 19 20 0 10009 Biểu đồ động từ Ngữ Liệu Số câu 2000 1500 1000 500 11 13 Số động từ Hình 3.9 15 17 19 57 PTB Biểu đồ động từ BTP 2500 Số câu 2000 1500 1000 500 11 13 15 17 19 Số động từ Hình 3.10 Số câu tính từ (ngữ liệu) Số tính từ Số câu 2336 2393 1789 1092 519 276 10 8405 Số câu tính từ (PTB) Số tính từ Số câu 1971 2543 2128 1401 700 317 122 37 13 10 9236 58 Biểu đồ tính từ Ngữ Liệu 3000 Số câu 2500 2000 1500 1000 500 10 Số tính từ Hình 3.11 Biểu đồ tính từ BTP PTB 3000 Số câu 2500 2000 1500 1000 500 10 Số tính từ Hình 3.11 3.2.6 So sánh xuất từ loại ngữ liệu tiếng Việt ngữ liệu tiếng Anh (cụ thể kho ngữ liệu Penn Treebank) theo chiều dài câu Chiều dài Danh từ Số loại từ loại (ngữ liệu) Động Tính Đại Cảm từ từ từ từ Liên từ Phụ từ Trợ từ 59 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 9.04 9.72 9.92 10.71 11.05 11.42 11.73 12.28 12.52 13.18 13.65 14.25 14.43 14.39 15.17 15.87 16.3 15.9 16.58 17.11 18.32 18.3 17.67 19.25 19.91 19.05 5.04 5.3 5.54 5.61 5.82 6.14 6.18 6.42 6.67 6.79 6.99 6.99 7.27 7.54 7.68 7.62 8.13 8.52 8.24 8.88 8.8 8.82 9.35 9.12 9.12 10.13 1.82 1.84 1.86 1.9 1.97 2.27 2.24 2.35 2.38 2.42 2.41 2.48 2.84 2.55 2.57 2.75 2.67 2.9 2.95 2.74 2.81 3.19 3.05 3.03 3.18 1.11 1.23 1.23 1.08 1.18 1.24 1.24 1.24 1.24 1.36 1.23 1.25 1.32 1.43 1.43 1.38 1.32 1.73 1.63 1.57 1.4 1.56 1.79 1.38 1.67 1.58 0 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0 0.02 0.01 0.02 0.01 0.02 0.03 0 2.97 3.11 3.21 3.39 3.34 3.55 3.84 3.95 3.86 4.11 4.22 4.46 4.46 4.45 4.75 4.86 5.06 4.95 5.19 5.08 5.35 5.6 5.76 6.32 6.04 6.36 Số loại từ loại (PTB) Chiều dài Danh từ Động từ Tính từ 25 26 27 28 8.86 9.15 9.36 9.75 3.71 3.86 4.01 4.17 2.12 2.21 2.29 2.28 1.59 1.55 1.7 1.62 1.84 1.85 1.71 1.86 1.92 1.79 2.06 2.03 2.01 2.29 2.27 2.39 2.32 2.56 2.68 2.32 2.5 2.69 2.7 2.25 2.41 2.52 0.13 0.12 0.12 0.11 0.14 0.13 0.11 0.15 0.14 0.15 0.15 0.19 0.13 0.21 0.19 0.15 0.11 0.18 0.23 0.15 0.17 0.2 0.19 0.21 0.21 0.24 60 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 10.37 10.68 11.1 11.43 11.64 12.13 12.69 12.49 13.21 13.56 14.26 14.01 14.54 14.62 15.15 16.01 15.92 16.96 16.74 17.03 16.69 18.07 4.07 4.33 4.49 4.5 4.68 4.74 4.73 4.99 5.2 5.28 5.22 5.53 5.77 5.74 5.72 5.94 5.62 5.67 6.5 5.61 6.89 2.42 2.54 2.46 2.63 2.77 2.77 2.61 3.11 3.07 3.19 3.31 3.38 3.65 3.8 3.48 3.72 3.46 3.59 3.37 3.89 3.2.7 Ứng dụng nhãn với chương trình tìm kiếm từ theo từ loại Từ nhãn phần ngữ liệu có đem ứng dụng chương trình tìm kiếm từ theo từ loại, chúng tơi có kết sau: - Khi đánh từ “đông” vào chương trình tìm kiếm từ theo từ loại có kết phần ngữ liệu có tất 38 từ “đông” bao gồm từ loại danh từ, động từ, tính từ 61 - Tiếp tục tìm kiếm từ loại danh từ cho từ “ đơng” chúng tơi có kết 24 từ “ đơng” danh từ - Có từ “ đông” động từ từ kết chương trình tìm kiếm từ theo từ loại - Có 12 từ “đơng” tính từ từ kết chương trình tìm kiếm từ theo từ loại - Tiếp tục tìm kiếm từ “ đơng” với từ loại đại từ, phụ từ, cảm từ, liên từ, trợ từ, chương trình tìm kiếm từ theo từ loại có kết 0, có nghĩa phần ngữ liệu có khơng có từ “đơng” vị trí đại từ, cảm từ, liên từ, trợ từ Tương tự, vậy, tìm kiếm số từ từ loại có phần ngữ liệu tất từ cịn lại thơng qua chương trình tìm kiếm từ theo từ loại viết riêng để ứng dụng cho nhãn KẾT LUẬN – ỨNG DỤNG – HẠN CHẾ – HƯỚNG PHÁT TRIỂN Thông qua luận văn này, chúng tơi trình bày số vấn đề việc xây dựng nhãn từ loại nhằm phục vụ cho hệ xử lý tiếng Việt máy tính Bộ nhãn từ loại tiếng Việt sở liệu tảng phục vụ cho hệ xử lý tiếng Việt tự động như: tách từ (word segmentation), bắt lỗi tả (spelling-checker), gán nhãn từ loại (POS-tagger), phân tích cú pháp (parser), phân giải ngữ nghĩa (semantic analyzer),…Với thông tin tiếng Anh kèm theo, từ điển dễ dàng liên thông với sở liệu từ điển quốc tế 62 Tuy nhiên, đến qui mô nhãn từ loại thời gian hạn chế, nhãn từ loại tiếng Việt ban đầu dừng lại việc gán nhãn từ loại tiểu từ loại Trong tương lai, ngữ định danh, ngữ cố định, số tiểu từ loại chưa xác định nhãn gán nhãn nhãn tiếng Việt đầy đủ bao quát Mong vấn đề trình bày nghiên cứu sử dụng, góp phần tích cực xử lý tự động ứng dụng ngành ngôn ngữ học máy tính 63 TÀI LIỆU THAM KHẢO Hồ Lê, 1976, Vấn đề cấu tạo từ tiếng Việt đại, Nhà xuất Khoa học xã hội, Hà Nội Đỗ Hữu Châu, 1981, Từ vựng ngữ nghĩa tiếng Việt, Nhà xuất Giáo dục Nguyễn Kim Thản, 1981, Cơ sở ngữ pháp tiếng Việt, Nhà xuất Thành phố Hồ Chí Minh Uy ban Khoa học Xã hội Việt Nam, 1983, Ngữ pháp tiếng Việt, Nhà xuất khoa học xã hội Hà Nội Đái Xuân Ninh- Nguyễn Đức Dân- Nguyễn Quang- Vương Toàn, 1984, Ngôn ngữ học khuynh hướng – lĩnh vực – khái niệm, Nhà xuất Khoa học xã hội, Hà Nội Nguyễn Thiện Giáp, 1996, Từ nhận diện từ tiếng việt, Nhà xuất Giáo dục Nguyễn Công Đức – Nguyễn Hữu Chương, 1997, Tủ sách Đại học Khoa học Xã hội Nhân văn Đỗ Hữu Châu, 1998, Cơ sở ngữ nghĩa học từ vựng, Nhà xuất Giáo dục Nguyễn Tài Cẩn, 1999, Ngữ pháp tiếng Việt, Nhà xuất Đại học quốc gia Hà Nội 10 Nguyễn Thiện Giáp, 1999, Từ vựng học tiếng Việt, Nhà xuất Giáo dục 64 11 VB.Kasevich, 1999, Những yếu tố sở ngôn ngữ học đại cương, Nhà xuất Giáo dục 12 Nguyễn Đức Dân, 1999, Lơgích Tiếng Việt, Nhà xuất Giáo dục 13 Lý Toàn Thắng, 2004, Lý thuyết trật tự từ cú pháp, Nhà xuất Đại học quốc gia Hà Nội 14 Diệp Quang Ban, 2005, Ngữ pháp tiếng Việt, Nhà xuất Giáo dục 15 Cao Xuân Hạo, Tiếng Việt - Mấy vấn đề ngữ âm- ngữ pháp- ngữ nghĩa, Nhà xuất Giáo Dục 16 Đinh Điền, 2006, Xử lý ngôn ngữ tự nhiên, Nhà xuất Đại học Quốc gia thành phồ Hồ Chí Minh 17 Hồng Phê, 2006, Từ điển tiếng Việt, Nhà xuất Đà Nẵng 18 Nguyễn Đức Dân ( 1984 ), Ngôn ngữ học Thống kê, NXB ĐH & THCN, Hà Nội 19 Đinh Điền, Nguyễn Thống Nhất, Nguyễn Thái Ngọc Duy ( 2003 ), “ Cách tiếp cận thống kê cho hệ dịch tự động Việt – Anh”, Tạp chí Phát triển Khoa học & Cơng nghệ, ĐHQG TPHCM, Vol.6, Số 1&2 – 2003 20 Hoàng Văn Hành ( Chủ biên ), Hà Quang Năng, Nguyễn Văn Khang (1998), Từ tiếng Việt: Hình thái – cấu trúc – từ láy – từ ghép – chuyển loại, NXB KHXH Hà Nội 65 21 Cao Xuân Hạo ( 1977 ), Giáo trình ngơn ngữ học đại cương ( dịch từ tiếng Pháp Ferdinand de Saussure Charles Bally Albert Sechehaye biên tập lại, 1911), NXB GD, Hà Nội 22 N.V Stankevich ( 1982), Loại hình ngôn ngữ, NXB ĐH & THCN, Hà Nội 23 Nguyễn Kim Thản ( 1977 ), Nghiên cứu Ngữ pháp tiếng Việt, NXB GD 24 Lý Toàn Thắng ( 1981 ), “ Về hướng nghiên trật tự từ câu”, Tạp chí Ngơn ngữ, 1981 ( 3-4), tr 25 – 32 25 Nguyễn Thị Minh Huyền et al., “ Sử dụng nhãn từ loại xác suất QTAG cho văn tiếng Việt”, Kỷ yếu Hội thảo ICT.rda’03, Hà Nội, 2-2003 26 Mitchell P Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz ( 1993 ), “ Building a Large Annotated Corpus of English: The Penn TreeBank”, Computational Linguisticcs, 19 (3),pp 313 – 330 66 PHỤ LỤC Danh sách danh từ loại STT Loại từ Ví dụ STT Loại từ (Nc) Ví dụ (Nc) Văn 30 tồ nhà, lâu đài thơ, diễn văn, 31 gươm, kiếm tuyên ngôn, tài liệu, ruộng, đất tiểu thuyết 32 từ điển, máy, 33 bơng Hoa 34 kịch, tuồng tranh, anh sinh viên, cán bà chủ nhiệm, vợ bác thợ, phu xe chị giáo viên, nhà báo thư, tượng, vách, ảnh bàn, 35 ghế, đầu, thuyền; khuyết 36 điểm, tâm trạng 37 nến, đèn, roi, bút, súng, đàn, tăm,… 38 phòng, nhà 39 bậc vĩ nhân, anh hùng 10 bàn, ghế, thuyền, 40 Tí, Tỉu 11 dao, thuyền, sơng, 41 cậu học trị, trai 12 gió, 42 gián điệp, mẹ mìn 13 sách, tập, vở, tiểu trâu, bị, gà dược sĩ, y tá 14 đố thuyết 43 Hoa 44 67 15 hịn đạn, bi, núi 45 chàng thi sĩ, văn nhân 16 súng, đại bác 46 liên lạc, tài xế 17 thư, bùa, đấng anh hùng, thánh 47 thần 18 Gió 48 em học sinh, nhi đồng 19 kịch, 49 lão quản gia, tri huyện 20 quà, nợ, 50 mụ đàn bà, vợ 21 văn hố, độc lập, nàng cơng chúa, tiên người giáo viên, thợ nề tay thầu khoán, nhà khoa học, 51 52 22 Nhà 23 cờ, núi, 53 24 ngơi nhà, đền, mộ, (sao) buôn tên 54 sĩ quan địch, nguỵ binh 25 tượng, truyện, sách 55 thằng quỷ sứ, mật thám 26 bom, núi,… 56 vị phụ lão, chủ tịch 27 sách, 57 viên sĩ quan, đại ý 28 ảnh, tranh, bảng, bìa 58 vua tuồng, kịch nhà khoa học, nghiên 29 59 cứu Danh sách danh từ chủng loại tách STT Từ Ví dụ bệnh Bệnh/Nn tâm_thần/Nn Bông/Nn hoa/Nn hoa Hoa/Nn hồng/Nn, hoa/Nn tulip/Nn 68 Cây/Nn tre/Nn Quả/Nn mít/Nn, quả/Nn bòng_bong/Nn chim Chim/Nn sẻ/Nn, chim/Nn đại_bàng/Nn Danh sách danh từ đơn vị STT Từ Ví dụ STT Từ Ví dụ cân Thịt 15 hịn Đá chai Rượu 16 lít rượu chuyến tàu, hàng 17 lon gạo cục đá 18 miếng thịt dãy nhà 19 sợi dây, đàn gà 20 sắt, vàng đồn Người 21 thìa canh đoạn Văn 22 thước vải giấc ngủ 23 thúng gạo 10 giọt Nước 24 thùng rượu 11 gói thuốc 25 tờ giấy 12 hạt cát, gạo 26 trận mưa 13 hàng Cây 27 xâu cá 14 hột Gạo 28 cân Thịt 29 chai rượu 69