Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
3,16 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THƯA PHÂN LOẠI CÂU TIẾNG VIỆT VÀ ỨNG DỤNG TRONG VẤN ĐỀ HỎI ĐÁP LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THƯA PHÂN LOẠI CÂU TIẾNG VIỆT VÀ ỨNG DỤNG TRONG VẤN ĐỀ HỎI ĐÁP Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin Mã số : 60 48 01 04 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN GIÁO VIÊN HƯỚNG DẪN KHOA HỌC: TS PHAN XUÂN HIẾU Học viên thực Giáo viên hướng dẫn Hà Nội – 2015 Hội đồng chấm luận văn LỜI CAM ĐOAN Tôi Nguyễn Thị Thưa xin cam đoan nội dung luận văn công trình nghiên cứu sáng tạo thực hướng dẫn TS Phan Xuân Hiếu Số liệu, kết trình bày luận văn hoàn toàn trung thực chưa công bố công trình khoa học trước Nếu hình ảnh lấy từ nguồn bên ngoài, có trích dẫn nguồn rõ ràng đầy đủ Hà Nội, ngày … tháng … năm 2015 Học viên Nguyễn Thị Thưa LỜI CẢM ƠN Đầu tiên, xin gửi lời cảm ơn chân thành đến thầy Phan Xuân Hiếu Thầy truyền cảm hứng học tập, nhiệt huyết nghiên cứu khoa học dẫn lối đến với lĩnh vực nghiên cứu Thầy người tận tình giúp đỡ vượt qua thử thách trình nghiên cứu luận văn Tôi xin gửi lời cảm ơn chân thành đến thầy Hà Quang Thụy Càng tiếp xúc với thầy, cảm thấy yêu quý trân trọng thời gian làm sinh viên nhiều Tôi xin bày tỏ lòng biết ơn chân thành tới thầy, cô giáo giảng dạy suốt năm Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Mỗi thầy cô cho giảng thật hay bổ ích Tôi xin cảm ơn anh chị Phòng Đào tạo, Phòng Công tác sinh viên, Phòng Tài vụ anh chị khác trường Nhờ có làm việc tận tụy anh chị, có trường đứng nhì nước để học tập rèn luyện Tôi xin bày tỏ cảm ơn sâu sắc đến thành viên nhóm MDNTeam Thời gian bên để chia sẻ khó khăn tạo ứng dụng trợ lý ảo cho người Việt - VAV Đặc biệt em Nguyễn Văn Hợp Vũ Thị Hải Yến nhiệt tình giúp đỡ trình thực nghiệm, không quên Tôi xin gửi lời cảm ơn chân thành anh chị đồng nghiệp Cục Thông tin khoa học công nghệ quốc gia – Bộ Khoa học Công nghệ giúp hoàn thành công việc quan để yên tâm học tập Tôi xin cảm ơn anh chị Phòng Thí nghiệm công nghệ tri thức góp ý chi tiết buổi seminar hàng tuần để hoàn thiện tốt luận văn Cuối cùng, xin chân thành cảm ơn đến bố mẹ, anh chị gia đình Họ nguồn động viên thiếu đời Hà Nội, ngày … tháng … năm 2015 Học viên Nguyễn Thị Thưa MỤC LỤC ĐẶT VẤN ĐỀ Chương I Giới thiệu phân loại câu ứng dụng 14 1.1 Các công trình nghiên cứu phân loại câu 14 1.2 Phân loại câu tiếng Việt 16 1.2.1 Giới thiệu toán Phân loại câu tiếng Việt 16 1.2.2 Các phương pháp giải toán 18 Chương II Phân loại câu tiếng Việt phương pháp học máy 19 2.2 Phương pháp Naïve Bayes 19 2.3 Phương pháp SVMs 21 2.4 Thuật toán Maximum Entropy 23 Chương III Thực nghiệm 26 3.1 Phương pháp thực nghiệm 26 3.2 Dữ liệu thực nghiệm 28 3.3 Lựa chọn thuộc tính 29 3.4 Kết thực nghiệm phân tích 30 3.4.1 Mô hình MaxEnt 30 3.4.2 Mô hình Naïve Bayes 33 3.4.4 So sánh MaxEnt, Naïve Bayes SVMs 36 KẾT LUẬN 38 TÀI LIỆU THAM KHẢO 39 PHỤ LỤC 41 DANH SÁCH HÌNH VẼ Hình 0.1 Giao diện phần mềm ứng dụng VAV – Trợ lý ảo cho người Việt Hình 0.2 Nguồn liệu cho Big Data Hình 0.3 Giao diện phần mềm VOS Hình 1.1 Mô hình đơn giản toán phân loại câu tiếng Việt Hình 1.2 Ví dụ minh hoạ toán phân loại câu tiếng Việt Hình 1.3 Mô hình tổng thể toán phân loại câu tiếng Việt Hình 2.1 Mô hình SVMs Hình 3.1 Phương pháp Cross Validation Test Hình 3.2 Số lượng loại câu thu qua ASR service (Google Voice) Hình 3.3 Biểu đồ so sánh độ đo F1 mô hình MaxEnt tập thuộc tính lần lặp thứ Hình 3.4 Biểu đồ so sánh F1 mô hình Naïve Bayes tập thuộc tính ngrams n-grams + Dictionary Hình 3.5 Biểu đồ so sánh độ đo F1 mô hình SVMs tập thuộc tính ngrams n-grams + Dictionary sau folds Hình 3.6 Biểu đồ so sánh độ đo F1 mô hình MaxEnt, Naïve Bayes SVMs lần lặp thứ tập thuộc tính n-grams Hình 3.7 Biểu đồ so sánh độ đo F1 mô hình MaxEnt, Naïve Bayes SVMs lần lặp thứ tập thuộc tính n-grams + Dictionary Hình PL.1 Sự phân bố liệu Phân loại với phương pháp Naïve Bayes Hình PL.2 Kết Phân loại với phương pháp Naïve Bayes Hình PL.3 Sự phân bố liệu Phân loại với phương pháp SVMs Hình PL.4 Kết Phân loại với phương pháp SVMs Hình PL.5 Dữ liệu đầu vào fold thứ với phương pháp MaxEnt Hình PL.6 Dữ liệu huấn luyện fold Hình PL.7 Dữ liệu kiểm tra fold Hình PL.8 Kết đánh giá mô hình MaxEnt Hình PL.9 Sự phân bố liệu Phân loại với phương pháp Naïve Bayes Hình PL.10 Kết Phân loại với phương pháp Naïve Bayes Hình PL.11 Sự phân bố liệu Phân loại với phương pháp SVMs Hình PL.12 Kết Phân loại với phương pháp SVMs Hình PL.13 Dữ liệu huấn luyện fold Hình PL.14 Dữ liệu kiểm tra fold Hình PL.15 Kết đánh giá mô hình MaxEnt DANH SÁCH BẢNG BIỂU Bảng 1.1 Bảng mô tả kiểu câu thông dụng Bảng 3.1 Một số thuộc tính mẫu huấn luyện mô hình phân loại câu Bảng 3.2 Kết lần lặp thứ mô hình MaxEnt với tập thuộc tính n-grams Bảng 3.3 Kết lần lặp thứ mô hình MaxEnt với tập thuộc tính n-grams + Dictionary Bảng 3.4 Kết lần lặp mô hình MaxEnt với tập thuộc tính n-grams Bảng 3.5 Kết lần lặp mô hình MaxEnt với tập thuộc tính n-grams + Dictionary Bảng 3.6 Kết sau lần lặp mô hình Naïve Bayes với tập thuộc tính ngrams Bảng 3.7 Kết sau lần lặp mô hình Naïve Bayes với tập thuộc tính ngrams + Dictionary Bảng 3.8 Kết sau lần lặp mô hình SVMs với tập thuộc tính n-grams với C = 0.1, gamma = 0.5, Kernel = exp (-gamma*|u-v|^2) Bảng 3.9 Kết sau lần lặp mô hình SVMs với tập thuộc tính n-grams + Dictionary với C = 0.1, gamma = 0.5, Kernel = exp (-gamma*|u-v|^2) ĐẶT VẤN ĐỀ Theo PGS.TS Bùi Mạnh Hùng [1], để thực mục đích phát ngôn, người ta thường dùng cấu trúc cú pháp đặc trưng kết hợp với phương tiện ngôn ngữ riêng biệt như: tiểu từ, phụ từ, phụ tố, trật tự từ, ngữ điệu, tượng tỉnh lược, v.v Nghĩa có mối tương quan đặn hình thức câu mục đích sử dụng Từ hình thành nên khái niệm kiểu câu (sentence type) kiểu câu thông dụng thường nhắc đến là: câu trần thuật, câu nghi vấn, câu cầu khiến, câu cảm thán (x J Sadock & A Zwicky 1990: 155-156) Phân loại câu tiếng Việt máy tính toán bản, làm tiền đề cho nghiên cứu cao xử lý hiểu ngôn ngữ tự nhiên Phân loại câu thành phần xử lý cốt lõi hệ thống hỏi – đáp phần mềm ứng dụng VAV (Vitual Assistant for Vietnammese) – Trợ lý ảo cho người Việt MDN Team thuộc Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội sáng lập, hệ thống phân tích social media để nghiên cứu thị trường hệ thống xử lý Big Data hay hệ thống tổng hợp tiếng nói VOS – Tiếng nói Phương Nam Đại học Quốc gia Tp Hồ Chí Minh sáng lập… Hình 0.1 Giao diện phần mềm ứng dụng VAV – Trợ lý ảo cho người Việt VAV ứng dụng thông minh di động cho phép người dùng tương tác giọng nói để hẹn chuông báo thức, đặt lịch cho họp, bật định vị, gọi điện cho đó, truy cập trang web bất kỳ, tìm đường đồ, định vị ATM ngân hàng gần với bạn, hay thưởng thức nhạc yêu thích … Được thiết kế phát triển dựa kỹ thuật trí tuệ nhân tạo (học máy, phân tích hiểu ngôn ngữ tự nhiên), VAV hiểu ý định người dùng dù họ diễn đạt câu lệnh theo nhiều cách khác mà không cần tuân theo khuôn mẫu cho trước VAV - Ứng dụng trợ lý ảo cho người Việt phần mềm nhận nhiều quan tâm trang mạng xã hội, diễn đàn công nghệ Phân loại câu giúp VAV lọc câu thuộc kiểu câu hỏi kiểu câu cầu khiến để xử lý tiếp tục pha VAV hồi đáp lại cho người dùng mà không cần xử lý câu cảm thán câu trần thuật qua module hỗ trợ tích hợp sẵn VAV Big data tập hợp liệu lớn đa dạng nên xử lý cách thủ công phần mềm thông thường Việc thu thập, quản lý, phân tích liệu trở thành ngành riêng công nghệ thông tin thu hút ý giới kinh doanh năm gần tiềm Hình 0.2 Nguồn liệu cho Big Data Social media thời gian ngắn tạo nên lượng liệu lượng liệu giới vài hệ trước: Facebook ngày xử lý 500 terabytes liệu, Twitter ngày xử lý 12 terabytes liệu; sàn chứng khoán New Yorks xử lý terabytes liệu Lượng liệu từ Social Media mỏ vàng doanh nghiệp muốn hiểu hành vi khách hàng mình, cách họ đưa định mua sắm, nhu cầu họ tương lai gần Phân loại câu trường hợp giúp hệ thống lọc câu thể trạng thái tâm lý người dùng, câu phản ánh khen chê… để từ doanh nghiệp đưa giải pháp cải tiến sản phẩm họ có chiến lược thu hút khách hàng kịp thời Tương tự, hệ thống tổng hợp tiếng nói, Tiếng nói Phương Nam – VOS hệ thống tổng hợp tiếng nói tiếng Việt, dành cho người Việt, tạo giọng nói nhân tạo người máy tính từ liệu đầu vào văn Phân loại câu lúc giúp hệ thống thêm sắc thái cho câu văn đoạn text Trong lĩnh vực truyền thông, hệ thống VOS áp dụng ứng dụng truy vấn thông tin qua tổng đài điện thoại, yêu cầu người dùng ứng dụng tiếp nhận xử lý thành dạng văn Thông tin hệ thống VOS chuyển thành dạng âm trả cho người dùng Các hệ thống có khả ứng dụng cao trình xử lý hoàn toàn tự động, hoạt động liên tục, đáp ứng nhu cầu thông tin người dùng, đặc biệt thông tin nóng, cập nhật Trong lĩnh vực tự động hóa, hệ thống VOS tích hợp với hệ thống định vị GPS ứng dụng tìm đường đi, gắn xe để cung cấp dẫn dạng âm thanh, hạn chế việc lái xe phải liên tục vừa nhìn hình GPS, làm tăng độ an toàn cho người điều khiển Trong lĩnh vực giáo dục, VOS sử dụng để dạy tiếng Việt cho em Việt Kiều định cư nước ngoài, cách đọc, cách phát âm từ tiếng Việt Đây phần mềm thực hành tiếng Việt hữu hiệu, đặc biệt môi trường mà ngôn ngữ sử dụng tiếng Việt F1 Naive Bayes sau folds (%) 100 90 91.4 89.7 85 83.1 82.2 89.4 82.7 88.9 80.5 74.4 80 70 60 50 40 30 20 10 Câu cầu khiến (Imp) Câu nghi vấn (Int) n-grams Câu trần thuật (Dec) Câu cảm thán (Exc) Trung bình n-grams+Dictionary Hình 3.4 Biểu đồ so sánh F1 mô hình Naïve Bayes tập thuộc tính ngrams n-grams + Dictionary 3.4.3 Mô hình SVMs Tương tự mô hình Naïve Bayes, SVMs thực nghiệm qua phần mềm WEKA không cho biết kết lần lặp nên liệt kê kết lần lặp thứ Bảng 3.8 Kết sau lần lặp mô hình SVMs với tập thuộc tính n-grams với C = 0.1, gamma = 0.5, Kernel = exp (-gamma*|u-v|^2) Sentence Type Precision Recall Imp 0.988 0.788 Int 0.935 0.855 Dec 0.665 0.96 Exc 0.975 0.764 Weighted Average 0.884 0.848 34 F1-Measure 0.877 0.893 0.786 0.857 0.853 Bảng 3.9 Kết sau lần lặp mô hình SVMs với tập thuộc tính n-grams + Dictionary với C = 0.1, gamma = 0.5, Kernel = exp (-gamma*|u-v|^2) Sentence Type Precision Recall Imp 0.97 0.821 Int 0.93 0.933 Dec 0.767 0.942 Exc 0.95 0.844 Weighted Average 0.901 0.889 F1-Measure 0.889 0.932 0.846 0.894 0.89 F1 SVMs Model sau folds (%) 100 90 87.7 88.9 89.3 93.2 84.6 85.7 89.4 85.3 89 78.6 80 70 60 50 40 30 20 10 Câu cầu khiến (IMP) Câu nghi vấn (INT) n-grams Câu trần thuật (DEC) Câu cảm thán (EXC) Trung bình n-grams + Dictionary Hình 3.5 Biểu đồ so sánh độ đo F1 mô hình SVMs tập thuộc tính n-grams n-grams + Dictionary sau folds Với tập n-grams, SVMs cho kết thấp đáng kể so với tập ngrams+Dictionary Cụ thể, 0.853 với tập thuộc tính trước 0.89 với tập thuộc tính sau Câu trần thuật cho kết thấp phương pháp phân loại trước 35 3.4.4 So sánh MaxEnt, Naïve Bayes SVMs Sau bảng so sánh kết phân loại F1 phương pháp MaxEnt, Naïve Bayes SVMs Kết cho thấy: - MaxEnt phân loại tốt với độ xác trung bình 88.8 % cho tập thuộc tính n-grams so với 80.5% 85.3% phương pháp Naïve Bayes SVMs MaxEnt phân loại tốt phương pháp lại tập thuộc tính kết hợp - Với tập thuộc tính n-grams, loại câu cho mô hình kết gần tương tự Cụ thể, MaxEnt có kết tốt với độ xác trung bình 88.8% Naïve Bayes có 80.5% đứng thứ SVMs với 85.3% Tuy nhiên, với tập thuộc tính n-grams+Dictionary, kết có nhiều điểm khác biệt rõ rệt Cụ thể, MaxEnt phân loại tương đối tốt với loại câu phân loại tốt với câu trần thuật với câu nghi vấn Ngạc nhiên SVMs cho kết tương đương với Naïve Bayes loại câu cầu khiến, trần thuật cảm thán câu nghi vấn lại cho kết khác biệt SVMs chí phân loại tốt MaxEnt 2% với lớp câu nghi vấn 36 F1 tập thuộc tính n-grams 100 90 90.78 87.7 82.2 89.3 89.24 83.1 86.49 74.4 80 78.6 88.27 85.7 82.7 88.8 80.5 85.3 70 60 50 40 30 20 10 Câu cầu khiến (IMP) Câu nghi vấn (INT) MaxEnt Câu trần thuật (DEC) Naïve Bayes Câu cảm thán (EXC) Trung bình SVMs Hình 3.6 Biểu đồ so sánh độ đo F1 mô hình MaxEnt, Naïve Bayes SVMs lần lặp thứ tập thuộc tính n-grams F1 tập thuộc tính n-grams+Dictionary 100 90 91.1189.7 88.9 91.2891.4 93.2 Câu cầu khiến (IMP) Câu nghi vấn (INT) 90.46 85 84.6 91.8989.4 89.4 91.1288.9 89 Câu cảm thán (EXC) Trung bình 80 70 60 50 40 30 20 10 MaxEnt Câu trần thuật (DEC) Naïve Bayes SVMs Hình 3.7 Biểu đồ so sánh độ đo F1 mô hình MaxEnt, Naïve Bayes SVMs lần lặp thứ tập thuộc tính n-grams + Dictionary 37 KẾT LUẬN Luận văn trình bày chi tiết toán phân loại câu tiếng Việt Chúng làm được: - Theo tìm hiểu mình, nghiên cứu phân loại câu tiếng Việt theo loại kiểu câu thông dụng dạng văn nói - Dùng phương pháp MaxEnt, Naïve Bayes SVMs để phân loại câu tiếng Việt với độ xác trung bình lên tới 92.12 % phương pháp MaxEnt - Chúng tiến hành thực nghiệm nhiều loại thuộc tính gồm ngrams n-grams + Dictionary Do nhiều nguyên nhân, mô hình đạt 92.12%, số cải thiện Chúng dừng lại loại thuộc tính gồm n-grams n-grams+Dictionary phạm vi luận văn Ngoài phương pháp MaxEnt, Naïve Bayes SVMs trình bày, số phương pháp khác tối ưu mà chưa nghiên cứu cho liệu Cuối cùng, phân lớp cho loại câu thông dụng mà chưa vét hết tất trường hợp khác Trong tương lai, có hội thời gian, cải thiện vấn đề tồn đề cập 38 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] [2] [3] [4] Bùi Mạnh Hùng (2011), Bàn vấn đề “Phân loại câu theo mục đích phát ngôn”, Khoa Ngôn ngữ, Đại học Quốc gia Tp Hồ Chí Minh Bùi Đức Tịnh (1995), Văn phạm Việt Nam Tp Hồ Chí Minh: Văn hóa Hoàng Trọng Phiến (1980), Ngữ pháp tiếng Việt – Câu Hà Nội: Đại học & Trung học chuyên nghiệp Nguyễn Hà Nam (2013), Giáo trình Khai phá liệu, Nhà Xuất Đại học Quốc gia Hà Nội Tài liệu tiếng Anh [5] [6] [7] [8] [9] [10] [11] Adam L Berger & Stephen A.Della Pietra & Vincent J Della Pietra (1996), A Maximum Entropy Approach to Natural Language Processing Adwait Ratnapakhi (1997), A Simple Introduction to Maximum Entropy Models for Natural Language Processing Ashequl Qadir (2011), Classifying Sentences as Speech Acts in Message Board Posts, University of Utah, In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing Arpit Trived (2013), Implementation of Bayesian Theory in Sentence Classification for Online Subjective Test, International Journal of Advanced Research in Computer Science and Software Engineering, Volume 3, Issue 12 Anthony Khoo (2006), Experiments with Sentence Classification, Monash University, Australia Ben Hachey & Claire Grover (2004), Sentence Classification Experiments for Legal Text Summarisation, University of Edinburgh, In Proceedings of the 17th Annual Conference on Legal Knowledge and Information Systems Diego Moll´a (2012), Experiments with Clustering-based Features for Sentence Classification in Medical Publications: Macquarie Test’s participation in the ALTA 2012 shared task, In Proceedings of Australasian, Language Technology Association Workshop, pages 139−142 39 [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] Helen Kwong (2012), Detection of Imperative and Declarative QuestionAnswer Pairs in Email Conversations, Stanford University, Journal AI Communications archive, Volume 25 Issue 4, Pages 271-283 Martina Naughton (2008), Sentence-Level Event Classification in Unstructured Texts, University College Dublin, Ireland Menno v.an Zaanen (2005), Classifying Sentences using Induced Structure, Macquarie University, Volume 3772 of the series Lecture Notes in Computer Science, pp 139-150, 12th International Conference, SPIRE 2005, Buenos Aires, Argentina Nal Kalchbrenner (2014),A Convolutional Neural Network for Modelling Sentences, University of Oxford, In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics William Gardner Hale (1913), The Classification of Sentences and Clauses, The School Review, The University of Chicago Press, Vol 21, No 6, pp 388-397 Ulf Hermjakob (2001),Parsing and Question Classification for Question Answering, University of Southern California, USA, Proceeding ODQA '01 Proceedings of the workshop on Open-domain question answering Volume 12, Pages 1-6 Yoon Kim (2014), Convolutional Neural Networks for Sentence Classification, New York University Emile de Maat (2008), Automatic Classification of Sentences in Dutch Laws, University of Amsterdam, Proceedings of the 2008 conference on Legal Knowledge and Information Systems, The Twenty-First Annual Conference,Pages 207-216 Janyce Wiebe (2005), Creating Subjective and Objective Sentence Classifiers from Unannotated Texts, University of Pittsburgh, CICLing'05 Proceedings of the 6th international conference on Computational Linguistics and Intelligent Text Processing, Pages 486-497 Nitin Jindal (2006), Identifying Comparative Sentences in Text Documents, University of Illinois at Chicago, SIGIR’06 Thomasson, Amie, "Categories", The Stanford Encyclopedia of Philosophy (Fall 2013 Edition), First published Thu Jun 3, 2004, URL = 40 PHỤ LỤC a Thực nghiệm Phân loại câu tiếng Việt với tập thuộc tính n-grams Phương pháp Naïve Bayes với phần mềm WEKA Hình PL.1 Sự phân bố liệu Phân loại với phương pháp Naïve Bayes Hình PL.2 Kết Phân loại với phương pháp Naïve Bayes 41 b Phương pháp SVMs với phần mềm WEKA Hình PL.3 Sự phân bố liệu Phân loại với phương pháp SVMs Hình PL.4 Kết Phân loại với phương pháp SVMs 42 c Phương pháp MaxEnt xây dựng dựa ngôn ngữ Java Hình PL.5 Dữ liệu đầu vào fold thứ với phương pháp MaxEnt Hình PL.6 Dữ liệu huấn luyện fold 43 Hình PL.7 Dữ liệu kiểm tra fold Hình PL.8 Kết đánh giá mô hình MaxEnt 44 Thực nghiệm phân loại kiểucâu tiếng Việt tập thuộc tính n-grams kết hợp từ điển a Phương pháp Naïve Bayes với phần mềm WEKA Hình PL.9 Sự phân bố liệu Phân loại với phương pháp Naïve Bayes Hình PL.10 Kết Phân loại với phương pháp Naïve Bayes 45 b Phương pháp SVMs với phần mềm WEKA Hình PL.11 Sự phân bố liệu Phân loại với phương pháp SVMs Hình PL.12 Kết Phân loại với phương pháp SVMs 46 c Phương pháp MaxEnt xây dựng dựa ngôn ngữ Java Hình PL.13 Dữ liệu huấn luyện fold Hình PL.14 Dữ liệu kiểm tra fold 47 Hình PL.15 Kết đánh giá mô hình MaxEnt 48 [...]... được 15 1.2 Phân loại câu tiếng Việt 1.2.1 Giới thiệu về bài toán Phân loại câu tiếng Việt Phân loại câu tiếng Việt (Vietnammese Sentence Type Classification) là quá trình tự động gán nhãn câu đó vào đúng kiểu câu mà nó biểu thị một cách chính xác nhất có thể Các kiểu câu phổ biến bao gồm: câu trần thuật, câu nghi vấn, câu mệnh lệnh và câu cảm thán Bảng 1.1 Bảng mô tả các kiểu câu thông dụng 16 Hình... pháp Maximum Entropy được sử dụng để phân loại câu cho tập dữ liệu mà Google Voice thu được - 12 Luận văn được trình bày theo bố cục như sau: Chương I Giới thiệu về Phân loại câu và ứng dụng Trong chương này chúng tôi sẽ trình bày tổng quan về các công trình đã nghiên cứu về phân loại câu và bài toán phân loại câu tiếng Việt một cách chi tiết nhất Chương II Phân loại câu tiếng việt bằng các phương pháp... tính Phân loại câu được xem như vấn đề nhận dạng chữ cho dữ liệu dạng chuỗi Với ngôn ngữ tiếng Việt, vị trí của từ trong câu là một yếu tố quan trọng và cần phải được xác định Chính điều này làm giàu đặc tính cho mô hình và giúp phân loại câu đạt hiệu suất cao hơn Giai đoạn tách từ được coi là khâu tiền xử lý dữ liệu trong luận văn này Thuộc tính là thành phần quan trọng trong mô hình phân loại câu. .. này, chúng tôi sẽ đi sâu vào một số phương pháp để phân loại câu như máy vector hỗ trợ (SVMs), Naïve Bayes và đặc biệt là phương pháp Maximum Entropy Chương III Thực nghiệm Chương này là phần mô tả chi tiết điều kiện và kết quả thu được khi thực nghiệm các phương pháp phân loại câu 13 Chương I Giới thiệu về phân loại câu và ứng dụng 1.1 Các công trình nghiên cứu về phân loại câu PGS.TS Bùi Mạnh Hùng... miêu tả các kiểu câu tiếng Việt rất thiếu sự nhất quán Điều đáng tiếc hơn là nó khiến cho nhiều người thường nghĩ rằng trong trường hợp này công dụng là một tiêu chí để phân loại câu, một đặc trưng có tính định nghĩa của các kiểu câu Từ đó hình thành những cách hiểu thường gặp như câu trần thuật là câu dùng để kể, miêu tả, thông báo”; câu nghi vấn là câu dùng để hỏi ; câu cầu khiến là câu dùng để ra... Trường Đại học Khoa học Xã hội và Nhân văn, Đại học Quốc gia thành phố Hồ Chí Minh, trong bài viết Phân loại câu theo mục đích phát ngôn”, đã định nghĩa thế nào là kiểu câu và những nhập nhằng khi phân loại câu theo mục đích phát ngôn Từ đó, tác giả đề xuất cách phân loại câu theo hình thức của câu (cách tiếp cận thứ hai) Trong Hội nghị “Các phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên” năm... quan đến phân loại câu và chỉ ra các vấn đề khó khăn khi biểu diễn và lựa chọn các thuộc tính Dữ liệu được thu thập từ hàng loạt các cuộc hội thoại trên email (Email Dialogues), diễn đàn SVMs được sử dụng để phân lớp loại dữ liệu này Ngoài ra, bài báo cũng chỉ ra sự tương đồng giữa phân loại câu và phân lớp văn bản Tuy nhiên, bài báo chỉ tập trung vào cách làm thế nào để lựa chọn các thuộc tính và 14... cặp câu hỏi- đáp kiểu mệnh lệnh và mô tả trong các đoạn hội thoại email” Cặp hỏi- đáp trích xuất từ các chủ đề email có thể giúp xây dựng lên bản tóm tắt của các chủ đề hội thoại, cũng như tạo thông báo hỗ trợ dựa vào ngữ nghĩa bằng email Khác với các nghiên cứu khác về câu nghi vấn, trong bài báo này, tác giả đã mở rộng phạm vi nghiên cứu sang cả câu trả lời để hoàn thiện các câu hỏi ở dạng mệnh lệnh và. .. ra lệnh, yêu cầu, đề nghị”; câu cảm thán là câu dùng để biểu lộ tình cảm, cảm xúc” Cách tiếp cận thứ hai thường gặp trong các công trình nghiên cứu ngôn ngữ châu Âu Những công trình này đều căn cứ vào hình thức của câu để xác định các kiểu câu, rồi mới đề cập đến mối tương quan giữa các kiểu câu với công dụng của nó Trong Việt ngữ học, đã có một số tài liệu đề cập đến cách phân loại câu theo hướng cách... giản bài toán phân loại câu tiếng Việt Hình 1.2 Ví dụ minh hoạ bài toán phân loại câu tiếng Việt 17 1.2.2 Các phương pháp giải quyết bài toán Người ta thường dùng phương pháp học máy có giám sát để giải quyết bài toán phân loại câu Có rất nhiều phương pháp để tiếp cận với bài toán phân loại câu như máy vector hỗ trợ (SVMs) [8, 12, 13, 15], Naïve Bayes [12] hay Maximum Entropy [12, 15] Trong phạm vi