Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 116 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
116
Dung lượng
1,05 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA -[\ - HỒNG THANH LUẬN XÁC ĐỊNH CÁC CỤM DANH TỪ, TỪ ĐẶC TRƯNG NGỮ NGHĨA CHO CÂU TIẾNG VIỆT BẰNG PHƯƠNG PHÁP SUPPORT VECTOR MACHINES Chuyên ngành : Khoa học máy tính LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2007 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH Cán hướng dẫn khoa học: PGS TS.PHAN THỊ TƯƠI Cán chấm nhận xét 1: PGS TS.CAO HOÀNG TRỤ Cán chấm nhận xét 2: PGS TS.ĐỖ PHÚC Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày… tháng… năm 2007 ĐẠI HỌC QUỐC GIA TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập – Tự – Hạnh phúc -oOo - Tp HCM, ngày 11 tháng 07 năm 2007 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Hồng Thanh Luận Giới tính: Nam ;/ Nữ Ngày, tháng, năm sinh: 12/10/1980 Nơi sinh: Cần Thơ Chuyên ngành: Khoa học Máy tính Khóa: 2005 1- TÊN ĐỀ TÀI: Xác định cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng Việt phương pháp Support Vector Machines 2- NHIỆM VỤ LUẬN VĂN: - Nghiên cứu ngữ pháp tiếng Việt, tập trung vào từ loại cấu trúc cụm danh từ - Nghiên cứu phương pháp học máy Support Vector Machines So sánh, đánh giá tính hiệu SVMs với phương pháp học máy khác - Xây dựng kho ngữ liệu huấn luyện phù hợp với mục tiêu luận văn - Hiện thực hệ thống xác định cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng Việt phương pháp Support Vector Machines 3- NGÀY GIAO NHIỆM VỤ: 4- NGÀY HOÀN THÀNH NHIỆM VỤ: 5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PHAN THỊ TƯƠI Nội dung đề cương Luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN (Họ tên chữ ký) QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành sâu sắc đến PGs Ts.Phan Thị Tươi, người trang bị cho tơi kiến thức q báu bậc Cao học, hướng dẫn đến với lĩnh vực nghiên cứu tận tình hướng dẫn để tơi hồn thành tốt luận văn Tơi xin bày tỏ lòng biết ơn NCS Nguyễn Quang Châu tận tình truyền đạt kinh nghiệm q báu động viên tơi suốt thời gian thực luận văn Cuối cùng, xin gửi lời cảm ơn đến tất bạn bè đồng nghiệp tạo điều kiện thuận lợi suốt thời gian thực luận văn để hồn thành tốt nhiệm vụ học tập TĨM TẮT Chúng tơi áp dụng Support Vector Machines (SVMs) việc xác định cụm từ đặc trưng câu truy vấn tiếng Việt nhằm hỗ trợ mặt ngữ nghĩa cho máy tìm kiếm thông tin phục vụ cho hệ thống trả lời tự động tiếng Việt Mục tiêu loại bỏ từ vô nghĩa câu truy vấn, giữ lại từ cụm từ mang nhiều ý nghĩa Cụ thể, xây dựng hệ thống cho phép người dùng nhập vào câu truy vấn tiếng Việt, qua giai đoạn xử lý như: phân đoạn từ, gán nhãn từ loại, xác định cụm danh từ từ đặc trưng ngữ nghĩa, kết trả hệ thống cụm danh từ từ đặc trưng ngữ nghĩa mà gọi chung cụm từ đặc trưng Từ kết đó, thơng qua máy tìm kiếm thông tin, hệ thống trả lời tự động, người sử dụng tìm thơng tin cần thiết cách nhanh chóng xác We apply a Support Vector Machines (SVMs) to identify automatically key phrases in Vietnamese query in order to support the meaning for either search engines and automatic answers system in Vietnamese Our purpose is rejecting meaningless words in queries, keeping words and phrases which are meaningful For instance, we build a system that allows users to input their Vietnamese query and to cross processing stages such as word segmentation, POS tagging, base noun phrase identification and meaningfulness word identification The result of system is base noun phrases and key features which are called key phrases From that result, by using search engines and automatic answers system, users can find the essential information quickly and accurately MỤC LỤC Trang CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 PHÁT BIỂU VẤN ĐỀ 1.2 MỤC TIÊU NGHIÊN CỨU CHƯƠNG 2: NHỮNG KẾT QUẢ NGHIÊN CỨU LIÊN QUAN 2.1 NHỮNG KẾT QUẢ NGHIÊN CỨU TRONG NƯỚC .3 2.2 NHỮNG KẾT QUẢ NGHIÊN CỨU NƯỚC NGOÀI CHƯƠNG 3: CƠ SỞ LÝ THUYẾT TIẾNG VIỆT 3.1 TỪ LOẠI 3.1.1 Danh từ 3.1.2 Động từ .14 3.1.3 Tính từ 18 3.1.4 Đại từ 20 3.1.5 Phụ từ 22 3.1.6 Kết từ 25 3.1.7 Trợ từ 26 3.1.8 Cảm từ 27 3.2 CỤM DANH TỪ 28 3.2.1 Khái niệm 28 3.2.2 Cấu tạo 28 3.2.3 Chức 39 3.3 CÂU TIẾNG VIỆT 40 3.3.1 Định nghĩa 40 3.3.2 Phân loại câu 40 CHƯƠNG 4: SUPPORT VECTOR MACHINES (SVMs) 42 4.1 GIỚI THIỆU 42 4.2 CÁC KHÁI NIỆM .42 4.2.1 Nguyên tắc Structural Risk Minization 42 4.2.2 Khái niệm VC-Dimension 43 4.3 PHÂN LOẠI TUYẾN TÍNH .44 4.3.1 Trường hợp phân biệt 44 4.3.2 Trường hợp không phân biệt 49 4.4 PHÂN LOẠI PHI TUYẾN (NON-LINEAR) 52 4.4.1 Hàm Kernel 53 4.4.2 Huấn luyện 54 4.4.3 Phân loại .54 4.5 MỞ RỘNG PHÂN LOẠI TRONG SVMs 55 4.5.1 Kỹ thuật so sánh Một - Một (One vs One) .55 4.5.2 Kỹ thuật so sánh Một - Phần dư lại (One vs Rest) 56 4.6 CÁC ỨNG DỤNG CỦA SUPPORT VECTOR MACHINES 57 4.7 CÁC KẾT QUẢ THỰC NGHIỆM CỦA PHƯƠNG PHÁP SUPPORT VECTOR MACHINES 58 4.8 CÁC THUẬT TOÁN CỦA SUPPORT VECTOR MACHINES .64 CHƯƠNG 5: ỨNG DỤNG SVMs TRONG VIỆC XÁC ĐỊNH CÁC CỤM TỪ ĐẶC TRƯNG NGỮ NGHĨA TRONG CÂU 67 5.1 CÁC KHÁI NIỆM .67 5.2 XÁC ĐỊNH CÁC CỤM TỪ ĐẶC TRƯNG NGỮ NGHĨA TRONG CÂU .68 5.2.1 Giai đoạn tiền xử lý 72 5.2.2 Giai đoạn xác định cụm danh từ câu 72 5.2.3 Giai đoạn xác định từ bổ sung nét ngữ nghĩa câu 81 5.2.4 Kết thực nghiệm hệ thống 86 CHƯƠNG 6: MỘT SỐ HÌNH ẢNH VỀ CHƯƠNG TRÌNH 88 CHƯƠNG 7: ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN 95 7.1 ĐÁNH GIÁ 95 7.2 HƯỚNG PHÁT TRIỂN .96 TÀI LIỆU THAM KHẢO 97 PHỤ LỤC 101 DANH SÁCH CÁC BẢNG Trang Bảng 3.1: Phân loại từ .9 Bảng 3.2: Phân loại danh từ 13 Bảng 3.3: Phân loại động từ 18 Bảng 3.4: Phân loại tính từ 19 Bảng 3.5: Phân loại đại từ xưng hô có ngơi xác định 20 Bảng 3.6: Phân loại đại từ .22 Bảng 3.7: Phân loại phụ từ 25 Bảng 3.8: Phân loại kết từ .26 Bảng 4.1: Kỹ thuật phân loại Một - Phần dư lại (One vs Rest) 56 Bảng 4.2: Kết phân loại văn dùng phương pháp học khác 59 Bảng 4.3: Kết nhận dạng khuôn mặt người phương pháp SVMs 60 Bảng 4.4: Các phương pháp phân loại R (version 1.6.1) 61 Bảng 4.5: Sai số thử nghiệm 17 giải thuật học máy (Mean 1) .62 Bảng 4.6: Sai số thử nghiệm 17 giải thuật học máy (Mean 2) 63 Bảng 5.1: Kho ngữ liệu cho giai đoạn xác định cụm danh từ .78 Bảng 5.2: Kết phân loại nhãn gom cụm IOB 80 Bảng 5.3: So sánh kết phân loại nhãn gom cụm IOB hai phương pháp 81 Bảng 5.4: Kho ngữ liệu cho giai đoạn xác định từ bổ sung nét ngữ nghĩa 85 Bảng 5.5: Kết phân loại từ bổ sung nét ngữ nghĩa 86 Bảng 5.6: Tập liệu thực nghiệm hệ thống 87 Bảng 5.7: Kết thực nghiệm hệ thống .87 91 6.2 MENU MAKE SAMPLES 6.2.1 Noun Phrases Hình 6.4: Cập nhật kho ngữ liệu huấn luyện cho giai đoạn xác định cụm danh từ Trong đó: - POS File Input: đường dẫn tập tin chứa liệu phân đoạn từ gán nhãn từ loại - Sentence: cập nhật liệu theo câu - Sample File Output: cập nhật liệu sau gán nhãn gom cụm IOB vào tập tin Samples.xml 92 6.2.2 Key Phrases Hình 6.5: Cập nhật kho ngữ liệu huấn luyện cho giai đoạn xác định từ bổ sung nét ngữ nghĩa Trong đó: - Chunk File Input: đường dẫn tập tin chứa liệu phân đoạn từ, gán nhãn từ loại nhãn gom cụm kế thừa từ kho ngữ liệu huấn luyện giai đoạn xác định cụm danh từ - Sample File Output: cập nhật liệu sau gán nhãn cụm từ khóa (KP nKP) vào tập tin SamplesNP.xml 93 6.3 MENU TRAINING Hình 6.6: Huấn luyện mơ hình Trong đó: - Noun phrases Key phrases cho biết huấn luyện cho giai đoạn chương trình Chọn Noun phrases huấn luyện mơ hình cho giai đoạn xác định cụm danh từ, Key phrases cho giai đoạn xác định từ bổ sung nét ngữ nghĩa - Linear Non Linear: huấn luyện tuyến tính hay phi tuyến Nếu phi tuyến áp dụng hàm Kernel hộp thả (Nominal, Polynominal, RBF) - Const C, Tolerance, Epsilon, Pow, Gamma: tham số huấn luyện giải thuật SMO - Vector size: chiều dài vector số tính theo số từ 94 - Sample File: đường dẫn tập tin chứa kho ngữ liệu huấn luyện - Weight File: đường dẫn tập tin mơ hình sau huấn luyện 6.4 MENU EXTRACTING Hình 6.7: Xác định cụm từ đặc trưng câu Trong đó: - Input File: đường dẫn tập tin liệu đầu vào chứa câu truy vấn - Extract: thực việc xác định cụm từ đặc trưng Như ta thấy Hình 6.7, kết thể dạng với câu nút tài liệu, cụm từ đặc trưng câu truy vấn 95 CHƯƠNG 7: ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN 7.1 ĐÁNH GIÁ 7.1.1 Những kết đạt - Hiện nay, chưa có thống quan điểm ngữ pháp tiếng Việt cấu trúc cụm danh từ nên việc giải vấn đề theo hướng thống kê, phụ thuộc vào kho ngữ liệu huấn luyện hướng tiếp cận hợp lý - Vì hệ thống đạt độ xác tổng thể giai đoạn tốt, phân thành nhiều tầng xử lý nên tận dụng kết module làm tảng giải vấn đề khác thuộc lĩnh vực xử lý ngôn ngữ tự nhiên - Thông qua việc nghiên cứu phương pháp phân loại mẫu Support Vector Machines có so sánh, đánh giá tính hiệu khả so với phương pháp học máy khác việc phân loại cơng trình nghiên cứu thuộc lĩnh vực xử lý ngôn ngữ tự nhiên, luận văn xây dựng module huấn luyện phân loại theo phương pháp SVMs mà sử dụng module có sẵn Internet - Khác với tiếng Anh, tiếng Việt quan điểm ngữ pháp chưa có thống nên chưa có kho ngữ liệu lớn hoàn chỉnh việc xây dựng thành công kho ngữ liệu huấn luyện theo định dạng XML giúp cho thao tác cập nhật, chỉnh sửa thay đổi tham số chương trình cách linh động 7.1.2 Những hạn chế Mặc dù có nhiều cố gắng thời gian thực có hạn nên luận văn tồn nhiều mặt hạn chế 96 - Chưa đạt độ xác mong muốn mà nguyên nhân tiếp cận vấn đề theo hướng thống kê, phụ thuộc hoàn toàn vào kho ngữ liệu huấn luyện kho ngữ liệu chưa đủ lớn - Vì hệ thống phải qua nhiều tầng xử lý nên tốc độ thực thi chậm mà luận văn chưa thể giải triệt để - Chưa có đánh giá cách tồn diện tính hiệu việc giải vấn đề phương pháp SVMs so với phương pháp học máy khác 7.2 HƯỚNG PHÁT TRIỂN - Cập nhật kho ngữ liệu huấn luyện nhằm nâng cao độ xác hệ thống - Cải thiện tốc độ thực thi hệ thống để áp dụng vào thực tế - Tích hợp chương trình với máy tìm kiếm Internet xây dựng hệ thống trả lời tự động tiếng Việt - Nghiên cứu sâu phương pháp SVMs mặt kỹ thuật cải tiến cần thiết để áp dụng cho tốn khác thuộc lĩnh vực xử lý ngơn ngữ tự nhiên 97 TÀI LIỆU THAM KHẢO [1] Bùi Tất Tươm, Nguyễn Văn Bằng, Hoàng Xuân Tâm, Nguyễn Thị Quy, Hồng Diệu Minh (1995) Giáo trình Tiếng Việt Nhà Xuất Bản Giáo Dục [2] Cao Xuân Hạo (2004) Tiếng Việt – Sơ thảo ngữ pháp chức Nhà Xuất Bản Giáo Dục [3] Cao Xuân Hạo (2004) Tiếng Việt – Mấy vấn đề ngữ âm, ngữ nghĩa, ngữ pháp Nhà Xuất Bản Giáo Dục [4] Cheng, Alex (2002) Base Noun Phrase Chunking with Support Vector Machines Final Project Report, Cornell University, Ithaca, New York, USA [5] Chien, L-F (1997) PAT-Tree-Based Keyword Extraction for Chinese Information Retrieval In Proceedings of the 1997 ACM SIGIR, Philadelphia, PA, USA, pp 50-58 [6] Diệp Quang Ban (2005) Ngữ pháp Tiếng Việt (Tập 1,2) Nhà Xuất Bản Giáo Dục [7] Đinh Điền (2004) Giáo trình xử lý ngôn ngữ tự nhiên Đại học Khoa Học Tự Nhiên Tp.HCM [8] Đỗ Thị Kim Liên (1999) Ngữ pháp Tiếng Việt Nhà Xuất Bản Giáo Dục [9] Frank, E., Paynter, G.W., Witten, I.H, Gutwin, C and Nevill-Manning, C.G (1999) Domain-Specific key-phrase extraction Submitted to IJCAI [10] Frank, E., Paynter, G.W., Witten, I.H, Gutwin, C and Nevill-Manning, C.G (1999) KEA: Practical Automatic Keyphrase Extraction In Proceedings of ACM DL’99, Berkeley, California, USA, pp 254-255 [11] Frantzi, K., Ananiadou, S and Mina, H (2000) Automatic Recognition of Multi-word Terms: the C-value/NC-value Method International Journal on Digital Library, pp 115-130 [12] Gunn, Steve R (1998) Support Vector Machines for Classification and Regression Technical Report, Faculty of Engineering, Science and Mathematics, School of Electronics and Computer Science, University of Southamton, UK 98 [13] Hearst, Marti A (1998) Support Vector Machines: Trends & Controversies University of California, Berkeley, USA [14] Hulth, Anette (2004) Combining Machine Learning and Natural Language Processing for Automatic Keyword Extraction PhD thesis, University of Stockholm, Sweden [15] Joachims, Thorsten (1998) Text Categorization with Support Vector Machines: Learning with Many Relevant Features Technical Report 23, University of Dortmund, Germany [16] Jones, Steve And W.Paynter, Gordon (2001) Human Evaluation of KEA, an automatic Keyphrasing System In Proceedings of the First ACM/IEEE-CS Joint Conference on Digital Libraries, Roanoke, Virginia, USA [17] Kudo, Taku And Matsumoto, Yuji (2001) Chunking with Support Vector Machines In Proceedings of the 2nd Meeting of the North American Chapter of the Association for Computational Linguistics (NAACL), Pittsburgh, PA, USA [18] Lại Thị Hạnh (2002) Trích cụm danh từ tiếng Việt nhằm phục vụ cho hệ thống tra cứu thông tin đa ngôn ngữ Luận văn Thạc sĩ, Đại Học Khoa Học Tự Nhiên TP.HCM [19] Liu, Lu (2003) An Evaluation of KEA-A Keyphrase Extraction System School of Communication, Information, and Library studies [20] Medelyna, Olena (2005) Automatic Keyphrase Indexing with a Domain- Specific Thesaurus MSc thesis, University of Waikato, New Zealand [21] Mayer, David., Leisch, Fiedrich., and Hornik, Kurt (2002) Benchmarking Support Vector Machines Vienna University of Economics and Business Administration, Austria [22] Mina, Hideki., Ananiadou, Sophia (2002) An Application and Evaluation of the C/NC-value Approach for the Automatic term Recognition of MultiWord units in Japanese Dept of Information Science, University of Tokyo, Japan 99 [23] Mukherjee, Sayan (2002) Classifying Microarray Data using Support Vector Machines Understanding And Using Microarray Analysis Techniques: A Practical Guide, Boston: Kluwer Academic Publishers [24] Nguyễn Kim Thản (1996) Cơ sở ngữ pháp Tiếng Việt Nhà Xuất Bản Khoa Học Xã Hội [25] Nguyễn Kim Thản (1997) Nghiên cứu ngữ pháp Tiếng Việt Nhà Xuất Bản Giáo Dục [26] Nguyễn Hữu Huỳnh (2001) Ngữ Pháp Tiếng Việt Nhà Xuất Bản Từ Điển Bách Khoa [27] Nguyễn Minh Thuyết, Nguyễn Văn Hiệp (2004) Thành phần câu Tiếng Việt Nhà Xuất Bản Giáo Dục [28] Nguyễn Quang Châu (2005) Phân đoạn từ gán nhãn từ loại cho từ tiếng Việt Trong Đề tài trọng điểm cấp nhà nước “Viet Nam Semantic Web” (KC01-21) PGS TS Cao Hoàng Trụ làm chủ nhiệm đề tài [29] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phong (2003) Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt In Proceedings of ICT.rda’03, Hanoi Feb, Việt Nam, pp 22-23 [30] Ong, Thian-Huat and Chen, Hsinchun (1999) Updateable PAT-Tree Approach to Chinese Key Phrase Extraction using Mutual Information: A Linguistic Foundation for Knowledge Management In Proceedings of the Second Asian Digital Library Conference, Taipei, Taiwan, pp 63-84 [31] Park, Seong-Bea (2002) An Introduction to Support Vector Machines University of Kyungpook, Korea [32] Platt, John C (1999) Using Analytic QP and Sparseness to Speed Training of Support Vector Machines Microsoft Research, USA [33] Platt, John C (1998) Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines Microsoft Research, USA [34] Rennie, Jason D M., and Rifkin, Ryan (2002) Improving Multiclass Text Classification with the Support Vector Machines MIT Press 100 [35] Salomon, Jesper (2001) Support Vector Machines for Phoneme Classification MSc thesis, University of Edinburgh, UK [36] Trần Ngọc Tuấn (2001) Phân đoạn từ tiếng Việt dùng Corpus mơ hình thống kê Luận văn Thạc sĩ, Đại Học Bách Khoa TP.HCM [37] Turney, P (1999) Extraction Keyphrases from Text: Evaluation of Four Algorithms NRC Technical Report ERB-1051, National Research Council of Canada [38] Ủy ban khoa học xã hội Việt Nam (1993) Ngữ pháp tiếng Việt Nhà Xuất Bản Khoa học Xã hội, Hà Nội [39] Zhang, Yongzheng., Milios, Evangelos and Zincir-Heywood, Nur (2005) Narrative Text Classification for Automatic Key Phrase Extraction in Web Document Corpora In Proceedings of the Seventh ACM International Workshop on Web Information and Data Management (WIDM'05), Bremen, Germany, pp 5158 101 PHỤ LỤC A DANH SÁCH TỪ LOẠI ĐƯỢC SỬ DỤNG TRONG CHƯƠNG TRÌNH Stt Ký hiệu Tên loại tiếng Việt Tên loại tiếng Anh Np Danh từ riêng Proper noun Nc Danh từ đơn thể Countable noun Ng Danh từ tổng thể Collective noun Nt Danh từ loại thể Classifier noun Nu Danh từ đơn vị Concrete noun Na Danh từ trừu tượng Abstract noun Nn Danh từ số lượng Numeral Nl Danh từ vị trí Locative noun Vt Động từ ngoại động Transitive verb 10 Vit Động từ nội động Intransitive verb 11 Vim Động từ cảm nghĩ Impression verb 12 Vo Động từ hướng Orientation verb 13 Vs Động từ tồn State verb 14 Vb Động từ biến hóa Transformation verb 15 Vv Động từ ý chí Volotive verb 16 Va Động từ tiếp thụ Acceptation verb 17 Vc Động từ so sánh Comparative verb 18 Vm Động từ chuyển động Move verb 19 Vla Động từ “là” “là” verb 20 Vtim Động từ ngoại động cảm nghĩ Transitive-impression verb 21 Vta Động từ ngoại động tiếp thụ Transitive-acceptation verb 22 Vtc Động từ ngoại động so sánh Transitive-comparative verb 102 23 Vtb Động từ ngoại động biến hóa Transitive-transformation verb 24 Vto Động từ ngoại động hướng Transitive-orientation verb 25 Vts Động từ ngoại động tồn Transitive-state verb 26 Vtm Động từ ngoại động chuyển động Transitive-move verb 27 Vtv Động từ ngoại động ý chí Transitive-volotive verb 28 Vitim Động từ nội động cảm nghĩ Intransitive-impression verb 29 Vitb Động từ nội động biến hóa Intransitive-transformation verb 30 Vits Động từ nội động tồn Intransitive-state verb 31 Vitc Động từ nội động so sánh Intransitive-comparative verb 32 Vitm Động từ nội động chuyển động Intransitive-move verb 33 Aa Tính từ hàm chất Quality adjective 34 An Tính từ hàm lượng Quantity adjective 35 Pp Đại từ xưng hô Personal pronoun 36 Pd Đại từ không gian, thời gian Demonstrative pronoun 37 Pn Đại từ số lượng Quantity pronoun 38 Pa Đại từ hoạt động, tính chất Quality pronoun 39 Pi Đại từ nghi vấn Interrogative pronoun 40 Jt Phụ từ thời gian Time adjunct 41 Jd Phụ từ mức độ Degree adjunct 42 Jr Phụ từ so sánh Rapport adjunct 43 Ja Phụ từ khẳng định, phủ định Adjunct of negation and acceptation 44 Ji Phụ từ mệnh lệnh Imperative adjunct 45 Cm Giới từ Major/minor conjunction 46 Cc Liên từ Combination conjunction 47 E Cảm từ Emotion word 103 48 I Trợ từ Introductory word 49 Date Ngày tháng Date 50 X Không xác định 104 B THỐNG KÊ CỤM TỪ ĐẶC TRƯNG TRONG CÂU HỎI Loại tài liệu Tên tài liệu Câu hỏi Số cụm từ đặc trưng Số cụm danh từ Tỷ lệ Số cụm động từ Tỷ lệ Số cụm tính từ Tỷ lệ Truyện ngắn Xin lỗi mày, Tai To 71 109 109 100 % 0% 0% Truyện ngắn Bài toán đố cuối năm 13 18 17 94,44 % 5,56 % 0% 84 127 126 99,21 % 0,79 % 0% Tổng cộng C THỐNG KÊ CỤM TỪ ĐẶC TRƯNG TRONG CÂU TƯỜNG THUẬT Câu Số cụm từ tường đặc trưng thuật Số cụm danh từ Tỷ lệ Số cụm động từ Tỷ lệ Số cụm tính từ Tỷ lệ 13 13 100 % 0% 0% 7 100 % 0% 0% Hà Nội chật cứng chuyên CEO quốc tế 16 16 100 % 0% 0% Báo chí (Ơtơ-Xe máy) Xe Jolie bị cháy hở bình xăng 14 14 100 % 0% 0% Báo chí (Pháp luật) Phá đường dây lừa bán 24 24 100 % 0% 0% Loại tài liệu Tên tài liệu Báo chí (Đời sống) TP HCM phạt thêm sở thẩm mỹ Báo chí (Khoa học) Người Anh than thở bạn đời 72 năm Báo chí (Kinh doanh) 105 phụ nữ cho ổ mại dâm Báo chí (Thế giới) Hoa hậu Israel “vác” súng 11 11 100 % 0% 0% Báo chí (Thể thao) Báo Tây Ban Nha đưa tin Cannavaro đoạt Quả bóng vàng 13 45 45 100 % 0% 0% Báo chí (Văn hóa) Hà Anh vào chung kết thi tài Miss Earth 22 22 100 % 0% 0% Báo chí (Vi tính) triệu người lên YouTube để xem áo len 22 22 100 % 0% 0% Báo chí (Xã hội) Đất nước Việt Nam giống hổ trẻ 16 48 48 100 % 0% 0% 74 222 222 100 % 0% 0% Tổng cộng D THỐNG KÊ TOP SEARCHES Ở WEBSITE WWW.GOOGLE.COM http://www.google.com.vn/intl/vi/press/zeitgeist.html E THỐNG KÊ TOP SEARCHES Ở WEBSITE WWW.YAHOO.COM http://buzz.yahoo.com/ ... TÀI: Xác định cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng Việt phương pháp Support Vector Machines 2- NHIỆM VỤ LUẬN VĂN: - Nghiên cứu ngữ pháp tiếng Việt, tập trung vào từ. .. như: phân đoạn từ, gán nhãn từ loại, xác định cụm danh từ từ đặc trưng ngữ nghĩa, kết trả hệ thống cụm danh từ từ đặc trưng ngữ nghĩa mà gọi chung cụm từ đặc trưng Từ kết đó, thơng qua máy tìm... định cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng Việt phương pháp Support Vector Machines? ?? thực cần thiết thực tế, làm tảng hỗ trợ mặt ngữ nghĩa cho ứng dụng khai thác thông tin văn tiếng Việt