Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 77 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
77
Dung lượng
2,98 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -* - NGUYỄN NGỌC TRƯỜNG PHÁT HIỆN VĂN BẢN CHỦ QUAN TRONG KHAI PHÁ QUAN ĐIỂM LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -* - NGUYỄN NGỌC TRƯỜNG PHÁT HIỆN VĂN BẢN CHỦ QUAN TRONG KHAI PHÁ QUAN ĐIỂM Ngành: Công Nghệ Thông Tin Chuyên ngành: Kỹ Thuật Phần Mềm Mã số: 60.48.10 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ ANH CƯỜNG Hà Nội - 2015 NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… LỜI CÁM ƠN Để hoàn thành luận văn “Phát văn chủ quan khai phá quan điểm” này, nhận hướng dẫn giúp đỡ nhiệt tình Thầy Cơ, Anh Chị Bạn Lời đầu tiên, xin bày tỏ lòng biết ơn chân thành đến Ban lãnh đạo quý Thầy Cô khoa Công nghệ thông tin - Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội tận tình dạy dỗ, truyền đạt kiến thức, kinh nghiệm quý báu tạo điều kiện thuận lợi cho suốt thời gian học tập trường thực đề tài Đặc biệt, xin bày tỏ lòng biết ơn sâu sắc đến Thầy giáo hướng dẫn, PGS TS Lê Anh Cường, người tận tình hướng dẫn, giúp đỡ tơi suốt q trình thực đề tài Tơi xin gửi lời cảm ơn tới nghiên cứu sinh Nguyễn Thị Xuân Hương Anh Chị, Bạn sinh viên nhóm nghiên cứu hỗ trợ nhiều trình thực luận văn Tơi xin gửi lời cảm ơn tới Bạn khóa K19 ủng hộ khích lệ tơi suốt thời gian học tập trường Tôi xin trân trọng gửi đến Gia đình, Bạn bè Người thân tình cảm tốt đẹp giúp đỡ động viên suốt q trình học tập thực hồn thành luận văn Mặc dù cố gắng để hồn thành luận văn cách tốt khơng tránh khỏi thiếu sót Kính mong nhận cảm thông bảo quý Thầy Cô, Anh Chị Bạn Hà Nội, ngày 01/11/2015 Học viên Nguyễn Ngọc Trường TÓM TẮT NỘI DUNG Trong năm gần đây, nghiên cứu khai phá quản điểm nhận quan tâm rộng rãi nhà nghiên cứu, công ty hàng đầu lĩnh vực công nghệ thông tin như: Yahoo, Google, Microsoft, IBM…, hội nghị lớn trích chọn thơng tin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL, ) đạt kết hữu ích mang lại lợi ích to lớn mặt khoa học lẫn công nghiệp Tuy nhiên, ngôn ngữ Tiếng Việt, nghiên cứu vấn đề cịn khiêm tốn có nhiều toán đặt cần tiếp tục nghiên cứu phát triển Luận văn “Phát văn chủ quan khai phá quan điểm” tập trung vào khảo sát phương pháp áp dụng cho ngôn ngữ khác giới, đặc biệt tập trung nghiên cứu để áp dụng cho ngôn ngữ tiếng Việt Trên sở áp dụng nghiên cứu công cụ xử lý ngôn ngữ tiếng Việt, luận văn tiến hành thực nghiệm việc phân lớp văn chủ quan - khách quan cho bình luận từ trang tiếng Việt Chúng sử dụng số đặc trưng để phân loại văn chủ quan bag of word, trích chọn động từ tính từ áp dụng phương pháp học máy thống kê cho toán Các kết ban đầu đạt khả quan Nội dung luận văn trình bày chương sau: Chương – Giới thiệu chung khai phá quan điểm Chương giới thiệu nội dung nhất, cung cấp nhìn khái quát khai phá quan điểm, đồng thời mô tả số khái niệm bản, cách tiếp cận, ý nghĩa số tốn điển hình đặt khai phá quan điểm Chương – Các nghiên cứu phương pháp giải Chương giới thiệu chung số tiếp cận phân lớp văn đề xuất áp dụng cho toán khai phá quan điểm Chương - Bài toán phát văn chủ quan khai phá quan điểm Chương mô tả chi tiết toán phát văn chủ quan, số nghiên cứu bao gồm nghiên cứu tiếng Việt áp dụng để giải toán Chương - Thực nghiệm phân lớp hai miền liệu sản phẩm giá xăng Chương môt tả thực nghiệm từ việc tiến hành thu thập liệu, thực tiền xử lý liệu; sau tiến hành trích chọn số đặc trưng phân lớp chủ quan theo hai phương pháp Naive Bayes, SVM Cuối cùng, tổng hợp đánh giá kết cho phương pháp Lời cam đoan Tôi xin cam đoan luận văn với đề tài “Phát văn chủ quan khai phá quan điểm” cơng trình nghiên cứu riêng tơi Các số liệu, kết trình bày luận văn hồn tồn trung thực chưa cơng bố cơng trình khác Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan nước quốc tế Trong nội dung trình bày luận văn, tơi thể rõ ràng xác tơi đóng góp Luận văn hồn thành thời gian làm Học viên Khoa Công Nghệ Thông tin, Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội Học viên Nguyễn Ngọc Trường MỤC LỤC Chương 1: Giới thiệu chung khai phá quan điểm 1.1 Tổng quan kiện act v quan điểm (Opinions) 1.3 Định nghĩa quan điểm 1.4 Một ố b i toán điển hình phân tích quan điểm 11 1.5 Vai trò v ứng dụng 15 1.6 Những khó khăn v thách thức khai phá quan điểm tiếng Việt 18 Chương : Bài tốn phân lớp v phân tích quan điểm 20 Các b i toán phân lớp 20 2.2 Phân lớp quan điểm 21 Quá trình phân lớp 21 Khái quát ố phương pháp phân lớp văn 22 4.1 Phân lớp d a luật 22 Phân lớp dụng phương pháp học máy có giám át 23 4.3 Phân lớp dụng học máy không giám sát 34 4.4 Phân lớp dụng học máy bán giám át 35 2.5 Kết luận chung 36 Chương 3: Phát văn chủ quan khai phá quan điểm 37 3.1 Phân biệt chủ quan v khách quan 37 3.1.1 Thông tin chủ quan 37 3.1.2 Thông tin khách quan 37 B i tốn «Xây d ng phân lớp để phân lớp văn v o hai lớp chủ quan khách quan» 39 .1 Phát biểu b i toán 39 Mơ tả b i tốn 39 3.3 Trích chọn đặc trưng 39 3.3.1 Đặc trưng v cách biểu diễn 39 3.3 Vấn đề trích chọn đặc trưng 46 3.3.3 Phương pháp trích chọn đặc trưng 47 3.4 Áp dụng ố phương pháp phân lớp 53 Chương 4: Th c nghiệm phân lớp cho hai miền liệu 54 4.1 Môi trường th c nghiệm 54 4.1.1 Phần cứng 54 4.1 Phần mềm v công cụ 54 Quá trình th c nghiệm 55 .1 Dữ liệu dụng cho th c nghiệm 55 Th c gán nhãn liệu 57 .3 Trích chọn đặc trưng hệ thống chúng tơi 58 .4 Bộ phân lớp Naive Baye 60 .5 Bộ phân lớp VM 63 4.3 Đánh giá kết 66 4.3.1 Phương pháp đánh giá 66 4.3 Nhận xét 67 Kết Luận 68 T i liệu tham khảo 70 Danh sách hình vẽ ình 1.1: Tốc độ tăng trưởng tên miền Tiếng Việt ình : Độ tuổi người dụng Internet o với tổng dân ố Việt Nam ình 1.3: Tổng hợp quan điểm điện thoại 14 ình 1.4: Tổng hợp kiến o ánh hai điện thoại với 14 ình 1.5: Khai phá quan điểm người dùng 16 ình 1.6: Trang web entiment140 với từ khóa tìm kiếm l iphone 17 ình 1.7: Kết phân lớp quan điểm entiment140 18 ình 1: Ví dụ phân lớp nhị phân VM 20 ình : Ví dụ mơ hình phân lớp dụng học máy có giám át 22 ình 3: Ví dụ định 25 ình 4: Mơ hình phân lớp dụng phân lớp Naive Baye 26 ình 5: iêu phẳng với lề c c đại cho VM phân tách liệu thuộc hai lớp 32 ình 6: phân lớp VM dụng ố h m nhân 34 ình 3.1: Mơ hình biểu diễn chủ quan v khách quan 37 ình : Mơ hình khơng gian vector Chri tian Perone 41 ình 3.3: Biểu diễn văn dạng vector 42 ình 3.4: Biểu diễn văn dạng vector term frequency 42 ình 3.5: Tạo liệu huấn luyện dụng phân lớp d a luật 48 ình 4.1: Minh họa chương trình thu thập bình luận báo điện tử 56 ình : Minh họa chương trình thu thập bình luận trên mạng xã hội 56 ình 4.3: Giao diện giới thiệu chương trình thu thập bình luận 57 ình 4.4: Minh họa xây d ng từ điển đặc trưng 59 ình 4.5: Giao diện form học từ liệu huấn luyện Training 61 ình 4.6: Giao diện form th c phân lớp NB Cla ify 62 ình 4.7: Giao diện form giới thiệu chương trình About 62 ình 4.8: Minh họa biểu diễn liệu huấn luyện 63 ình 4.9: Minh họa mảng vector huấn luyện 63 ình 4.10: Giao diện form th c phân lớp VM Cla ify 64 ình 4.11: Giao diện form chuyển đổi văn text ang vector 65 ình 4.1 : Giao diện giới thiệu chương trình phân lớp dụng VM 65 Danh sách bảng Bảng 1: Các mẫu cú pháp v ví dụ tiếng Anh 24 Bảng : Dữ liệu huấn luyện dụng cho định 25 Bảng 3: Phương pháp học bán giám át elf-training 35 Bảng 4: Phương pháp học bán giám át Co-training 36 Bảng 3.1: o ánh thông tin chủ quan v khách quan 38 Bảng : Trích chọn mẫu loại 51 Bảng 3.3: Một ố mẫu tập tốt mẫu v trích chọn cụm từ kiểu 51 Bảng 3.4: Trích chọn mẫu loại hai 52 Bảng 3.5: Một ố mẫu tập tốt mẫu v trích chọn cụm từ kiểu 52 Bảng 4.1: Cấu hình phần cứng hệ thống thử nghiệm 54 Bảng : Danh ách ố phần mềm v công cụ th c nghiệm 54 Bảng 4.3: ố lượng mẫu bình luận dùng th c nghiệm 55 Bảng 4.4: Minh họa trình gán nhãn liệu 58 Bảng 4.5: Kết th c nghiệm với phân lớp Naïve Baye 61 Bảng 4.6: Kết th c nghiệm với phân lớp VM 64 Bảng 4.7: Kết tổng hợp 67 Danh mục từ viết tắt Ký hiệu viết tắt Viết đầy đủ Ý nghĩa SVM support vector machine Máy hỗ trợ vector MEM maximum entropy model Mơ hình entropy c c đại POS Part of Speech Nhãn từ loại NLP Natural Language Processing Xử l ngôn ngữ t nhiên IR Information Retrieval KDD Knowledge Discovery in Databases Phát tri thức liệu HMM Hidden Markov Model Mơ hình Markov ẩn TSVM Transductive Support Vector Machine Máy hỗ trợ vector truyền dẫn SGT Spectral Graph Transductive Đồ thị quang phổ truyền dẫn TF*IDF Term Frequency–Inverse Document Frequency Phương pháp tính trọng ố nghịch đảo văn LibSVMsharp A Library for Support Vector Machines LibSVM Thư viện chạy VM ệ thu thập thông tin nh 4.3: Giao diện giới thiệu chương tr nh thu thập b nh luận Th c tr nh tiền xử lý liệu: - Loại bỏ bình luận tiếng Việt viết khơng có dấu - ửa lỗi tả v viết tắt: th c ửa lỗi tả tay chẳng hạn như: “k”, “ko” – ửa th nh “không”, “đc” – ửa th nh “được”…) Tương lai, mong muốn áp dụng ố công cụ t động ửa lỗi tả cho tiếng Việt cho phần n y - Loại bỏ từ dừng top-word) cho tập liệu huấn luyện v kiểm thử: Sau văn áp dụng công cụ phân đoạn từ gán nhãn từ loại v trước đánh trọng ố cho từ khố chúng tơi tiến h nh loại bỏ từ dừng Danh ách từ dừng chúng tơi xây d ng đính kèm phần t i liệu tham khảo Gán nhãn liệu cho tập huấn luyện: Tiến h nh gán nhãn liệu tay cho 3/4 tổng ố bình luận thu thập vào hai loại nhãn chủ quan ub v khách quan obj gọi l tập liệu huấn luyện au đó, dụng 1/4 ố bình luận lại gọi l tập kiểm thử để tiến h nh kiểm tra kết phân lớp 4.2.2 Th c gán nhãn liệu Gán nhãn liệu l trình quan trọng cách tiếp cận dụng học máy có giám át Nó l để tìm hiểu mẫu pattern chứa quan điểm Trong luận văn n y, liệu huấn luyện gán hai loại nhãn l : < ub> chủ quan (khách quan) 57 Một ố ví dụ minh họa cho trình gán nhãn: Câu chủ quan Câu khách quan Nếu n y chết xăng lên, thứ lên theo, m lương khơng lên ọ bảo lỗ dân biết l lỗ, họ bảo bù dân biết bù Tất vấn đề xấu ẽ xảy bắt nguồn từ việc tăng giá xăng vơ tội vạ ơm nay, xe đạp điện Đang mùa nắng nóng mua trữ nguy hiểm cho tính mạng v người dân xung quanh Minh vừa bán Wave dụng năm, mua xe đạp điện Cái điện thoại n y thấy đẹp Xem v o ánh iPhone Plu 64GB với ản phẩm tương t Tôi thấy iphone plu dùng pin lion bền o với iphone dùng pin lipo iện chưa có thơng tin xác n o ản phẩm Iphone có h ng bạn Bảng 4.4: Minh họa tr nh gán nhãn liệu 4.2.3 Trích chọn đ c trưng hệ thống Chúng tiến h nh thử nghiệm v đánh giá ảnh hưởng đặc trưng khác tới kết phân lớp Đ c trưng thứ nhất: Đặc trưng dụng l bag-of-word Để dụng bag-of-word, dụng công cụ tách từ tiếng Việt vnTokenizer Thầy Lê ồng Phương Theo kết cơng bố cơng cụ n y có độ xác khoảng 98% miền liệu tiếng Việt [31] Các bước th c mô tả ví dụ au đây: B nh luận 1: Khơng thể chấp nhận Không biết giá xăng tăng đến mức au dụng vnTokenizer ta nhận au: không_thể chấp_nhận giá xăng tăng đến mức dụng Regex C# với cú pháp: var words = Regex.Split(text.Trim(), @"\W+"); Ta thu danh sách từ bình luận words = [“không thể”, “chấp nhận”, “được”, “không”, “biết”, “giá”, “xăng”, “tăng”, “đến”, “mức”, “nào”, “nữa”, “đây”]; 58 Th c cơng việc với tất bình luận tập liệu huấn luyện Từ danh ách từ tất bình luận tập huấn luyện, th c loại bỏ top-word cần , au đó, ta xây d ng từ điển đặc trưng Trong đó, phần từ từ điển mơ tả sau: = ; Ví dụ: nghĩa l từ “không thể” xuất lớp cla 100 lần Tiếp theo, lưu trữ từ điển đặc trưng xây d ng v o liệu databa e lên đĩa cứng harddi k Xem hình minh họa bên dưới: nh 4.4: Minh họa xây d ng từ điển đ c trưng B nh luận 2: SAMSUNG có em phổ thơng sim sóng, wifi 3G đầy đủ, chụp hình 5Mp lun, xài cảm ứng good máy đẹp, em khơng bán ch nh thức VN, xài qua tháng em tuyệt vời, đặc biết không giá au dụng vnTokenizer ta nhận au: SAMSUNG có em phổ_thơng sim sóng , wifi 3G đầy_đủ , chụp hình 5Mp lun , xài cảm_ứng good máy đẹp , em khơng bán ch nh_thức VN , xài qua tháng em tuyệt_vời , đặc biết nhất_là không mất_giá Đ c trưng thứ hai: Đặc trưng dụng l động từ tính từ tiếng Việt Để trích chọn đặc trưng n y, chúng tơi dụng công cụ tách từ gán nhãn từ loại tiếng Việt vn.hus.nlp.tagger-4.2.0 Thầy Lê ồng Phương Theo kết cơng bố cơng cụ n y có độ xác khoảng 96% miền liệu tiếng Việt [31] Ví dụ bình luận: Khơng thể chấp nhận Không biết giá xăng tăng đến mức au dụng vnTagger ta nhận au: không_thể/R chấp_nhận/V được/R / không/R biết/V giá/N xăng/N tăng/V đến/E mức/N nào/P nữa/R đây/P / dụng Regex C# với cú pháp: 59 var re = new Regex(@"\w+/[VA]"); var words = re.Matches(text); Ta thu danh ách từ l tính từ động từ bình luận words = [“chấp nhận”, “biết”]; Th danh ách cần , mô tả c công việc với tất bình luận tập liệu huấn luyện Từ từ tất bình luận tập huấn luyện, th c loại bỏ top-word au đó, ta xây d ng từ điển đặc trưng Trong đó, phần từ từ điển au: = ; Ví dụ: nghĩa l từ “không thể” xuất lớp cla 100 lần Tiếp theo, lưu trữ từ điển đặc trưng xây d ng v o liệu databa e lên đĩa cứng drive Xem hình minh họa bên B nh luận 2: SAMSUNG có em phổ thơng sim sóng, wifi 3G đầy đủ, chụp hình 5Mp lun, xài cảm ứng good máy đẹp, em khơng bán ch nh thức VN, xài qua tháng em tuyệt vời, đặc biết không giá au dụng vnTokenizer ta nhận au: SAMSUNG/Np có/V 1/M em/N phổ_thơng/N /M sim/N /M sóng/N ,/, wifi/V 3G/M /M đầy_đủ/A ,/, chụp/V hình/N 5Mp/M lun/N ,/, xài/V cảm_ứng/N rất/R good/A và/CC máy/N rất/R đẹp/A ,/, chỉ/R là/V em/N nó/P khơng/R bán/V ch nh_thức/A ở/E VN/Np ,/, mình/P xài/V qua/E 6/M tháng/N em/N nó/P đúng/A là/C tuyệt_vời/A ,/, đặc/A biết/V nhất_là/X không/R mất_giá/V / 4.2.4 Bộ phân lớp Naive Bayes 4.2.4.1 Tiến h nh phân lớp Th c việc c i đặt chương trình theo thuật tốn trình b y phần Chúng áp dụng kỹ thuật l m trơn Additive smoothing Đầu v o chương trình l mẫu huấn luyện gán nhãn Chương trình ẽ học từ liệu huấn luyện n y au th c phân lớp cho t i liệu cần phân lớp Chương trình n y t viết gồm ố bước au: - Dữ liệu huấn luyện phân đoạn từ trích chọn tính từ v động từ au đó, dùng để xây d ng từ điển đặc trưng cho lớp Key: tên đặc trưng, Value: tần uất xuất đặc trưng lớp - Tính xác uất lớp P Ci) = từ liệu th c nghiệm - Tính xác uất đặc trưng đồng thời áp dụng kỹ thuật l m trơn Additive smoothing - Tính tích xác uất tất đặc trưng - Đưa kết phân lớp cho mẫu kiểm chứng Xem chi tiết c i đặt phần mô chương trình 60 4.2.4.2 Kết th c nghiệm Bộ phân lớp Naïve Baye chủ quan dụng đặc trưng mô tả phần cho kết bảng Miền liệu ản phẩm Giá xăng Đ c trưng Độ xác Độ hồi tưởng Độ đo bag-of-word 71% 83% 76% động từ tính từ 63% 68% 66% bag-of-word 74% 72% 73% động từ tính từ 81% 68% 74% Bảng 4.5: Kết th c nghiệm với phân lớp Naïve Bayes 4.2.4.3 Giao diện chương tr nh th c nghiệm nh 4.5: Giao diện form học từ liệu huấn luyện (Training) 61 nh 4.6: Giao diện form th c phân lớp NBS (Classify) nh 4.7: Giao diện form giới thiệu chương tr nh About 62 4.2.5 Bộ phân lớp VM 4.2.5.1 Tiến h nh phân lớp Từ liệu huấn luyện gán nhãn lưu file text mô tả au đây: nh 4.8: Minh họa biểu diễn liệu huấn luyện Chúng xây d ng từ điển đặc trưng theo phương pháp mô tả phân lớp Naïve Bayes Th c việc chuyển đổi liệu từ dạng text ang vector theo phương pháp trình bày mơ hình vector chương Đối với trường hợp đặc trưng dạng Bag-ofWord kết hợp với điều kiện tần uất từ lớn để giảm ố chiều vector đặc trưng Chúng thu tập vector huấn luyện minh họa au với vị trí thể xuất hay không xuất đặc trưng n o nh 4.9: Minh họa mảng vector huấn luyện Để huấn luyện VM, tập liệu xét mơ hình hóa ma trận Amxn) Trong đó, m l ố mẫu huấn luyện, n l ố lượng đặc trưng 63 Trong th c nghiệm n y l máy học SVM với h m nhân kernel SVMKernelType.RBF Th c nghiệm thử nghiệm với ố tham ố khác C Gama, tham ố chọn phương pháp thử nghiệm t đánh giá cá nhân 4.2.5.2 Kết th c nghiệm Tiến h nh th c nghiệm ghi nhận kết au đây: Miền liệu ản phẩm Giá xăng Đ c trưng Độ xác Độ hồi tưởng Độ đo bag-of-word 78% 75.8% 77% động từ tính từ 77% 82.8% 80% bag-of-word 82% 77% 79% động từ tính từ 82.7% 61% 70% Bảng 4.6: Kết th c nghiệm với phân lớp VM Giao diện chương tr nh th c nghiệm: nh 4.10: Giao diện form th c phân lớp VM Classify 64 nh 4.11: Giao diện form chuyển đổi văn text sang vector nh 4.12: Giao diện giới thiệu chương tr nh phân lớp sử dụng VM 65 4.3 Đánh giá kết Do ố lượng câu gán nhãn tay cịn hạn chế nên ban đầu chúng tơi tiến hành th c nghiệm xây d ng phân lớp dụng Naïve Baye , VM cho hai miền liệu l ản phẩm v giá xăng 4.3.1 Phương pháp đánh giá Do đặc tính đa nghĩa ngơn ngữ t nhiên, phức tạp b i tốn phân lớp dẫn đến dù người hay phân lớp t động th c việc phân lớp xảy sai sót iệu phân lớp thường đánh giá qua việc o ánh định phân lớp với định người tiến h nh tập kiểm thử te t et) Có ba độ đo điển hình dụng để đánh giá độ chất lượng thuật tốn phân lớp, l độ xác π preci ion , độ hồi tưởng ρ recall v độ đo làm rõ phần au [20] Độ xác π (precision): l khả mơ hình để d đốn xác nhãn lớp liệu hay liệu chưa biết Nói ngắn gọn, thể độ xác thuật toán Độ hồi tưởng ρ (recall): thể mức độ bao phủ thuật toán Độ đo F1: tính tốn d a độ xác v độ hồi tưởng Một số tiêu ch đánh giá khác: - Tốc độ peed Tốc độ l chi phí tính tốn liên quan đến q trình tạo v dụng mơ hình - ức mạnh robu tne ức mạnh l khả mơ hình tạo ta d đốn từ liệu noi e hay liệu với giá trị thiếu - Khả mở rộng calability Khả mở rộng l khả th c thi hiệu lượng lớn liệu mô hình học - Tính hiểu interpretability Tính hiểu l mức độ hiểu v hiểu rõ kết inh mơ hình học - Tính đơn giản implicity Tính đơn giản liên quan đến kích thước định hay độ cô đọng luật Công thức t nh: Giả t i liệu thuộc v o hai lớp v thuật toán cần học lớp hai lớp đó, giá trị: S ubject/chủ quan / O object/khách quan ; Giá trị qua phân lớp: T đúng/ ai; TS (true subjective), TO (true object), FS (false subjective), FO (false object) giải thích chi tiết đây: - TS: tỷ lệ câu chủ quan thuật toán phân lớp cho giá trị - TO: tỷ lệ câu khách quan thuật toán phân lớp cho giá trị - FS: tỷ lệ câu chủ quan thuật toán phân lớp cho giá trị sai 66 - FO: tỷ lệ câu khách quan thuật toán phân lớp cho giá trị 4.3.2 Nhận xét Kết tổng hợp bảng đây: Bảng 4.7: Kết tổng hợp Từ kết thu chúng tơi có ố nhận xét au: thuật tốn VM v NB có kết xấp xỉ phân lớp văn chủ quan tiếng Việt Kết tốt với VM l 82.7% v với NB 80.8% Đặc trưng “động từ v tính từ” phân lớp văn chủ quan có độ xác cao đặc trưng bag-of-word Như với máy học VM với đặc trưng “động từ + tính từ” cho kết phân loại 67 Kết Luận Phân tích quan điểm người dùng l b i tốn có nhiều nghĩa v th c tiễn năm gần Từ việc nghiên cứu b i toán phân lớp văn chủ quan – khách quan miền liệu ản phẩm v giá xăng, luận văn tổng hợp hướng tiếp cận v áp dụng ố phương pháp để giải tốn nói Qua kết th c nghiệm đạt cho thấy mơ hình áp dụng l hồn tồn khả thi v đem lại hiệu Luận văn n y đạt kết sau: - Trình b y cách khái quát khai phá quan điểm v ứng dụng khai phá quan điểm th c tế - Tìm hiểu v áp dụng ố phương pháp phân lớp văn chủ quan – khách quan phương pháp trích chọn đặc trưng để phân lớp - Sử dụng kỹ thuật học máy VM, phương pháp phân lớp dụng xác uất Bayesian để th c b i tốn phân lớp - Khóa luận th c nghiệm với phương pháp trích chọn mẫu với hai đặc trưng bag-of-word v động từ tính từ Adj and Verb cho kết tốt Luận văn số hạn chế Bên cạnh kết đạt được, hạn chế mặt thời gian, kiến thức chuyên môn v mức độ am hiểu chuyên âu ngơn ngữ tiếng Việt, luận văn cịn ố hạn chế sau: - Khóa luận chưa th c nghiệm với đặc trưng thông tin cú pháp… - Dữ liệu th c nghiệm cịn dẫn đến ố lượng vecto đặc trưng chưa nhiều ố chiều vector đặc trưng lớn m chưa áp dụng kỹ thuật giảm chiều vector (trình b y chương 3), l nguyên nhân dẫn đến kết th c nghiệm chưa cao Các hướng nghiên cứu v phát triển Do nhiều hạn chế thời gian v kiến thức, luận văn n y ố vấn đề phải tiếp tục ho n thiện v phát triển thời gian tới Định hướng nghiên cứu tương lai, luận văn ẽ phát triển tiếp công việc sau: - Bổ ung th c nghiệm với nhiều đặc trưng nữa: chẳng hạn bigram, thông tin cú pháp - dụng phương pháp ửa lỗi tả, viết tắt…, để loại bỏ liệu nhiễu tốt - Th c nghiệm nhiều miền liệu lớn hơn, cải tiến chương trình đủ đề học v phân lớp với ố lượng đặc trưng lớn 68 - Tiến h nh th c nghiệm với nhiều thuật toán học khác để tìm thuật tốn có hiệu nhất, độ xác cao với toán phân lớp văn chủ quan tiếng Việt - Nghiên cứu áp dụng phương pháp học bán giám át để tận dụng nguồn liệu chưa gán nhãn, giảm thời gian xây d ng liệu huấn luyện 69 T i liệu tham khảo T i liệu tiếng Việt [1] Tú Bảo, Lương Chi Mai Về xử lý tiếng Việt công nghệ thông tin Viện Công nghệ Thông tin, Viện Khoa học v Công nghệ Tiên tiến Nhật [2] Quang Thụy & nhóm khai phá liệu v ứng dụng Bài giảng khai phá liệu 2007 [3] Nguyễn Trần Thiên Thanh, Trần Khải o ng, Tìm hiểu hướng tiếp cận toán phân loại văn xây dựng phần mềm phân loại tin tức báo điện tử, Khóa luận cử nhân tin học 005 [4] Trần Thị Oanh, Thuật toán self-training co-training ứng dụng phân lớp văn bản, Khóa luận cử nhân Cơng nghệ thơng tin 2006 [5] Nguyễn Thị Thùy Linh, Nghiên cứu thuật toán phân lớp liệu dựa định, Khóa luận cử nhân Cơng nghệ thơng tin 2005 [6] Trần Cao Đệ v Phạm Nguyên Khang, Phân loại văn với máy học vector hỗ trợ định, Tạp chí Khoa học 01 : 1a -63 T i liệu tiếng Anh [20] Bing Liu Sentiment Analysis and Opinion Mining Morgan &Claypool Publishers, May 2012 [21] Thorsten Joachims SVM multiclass Multi-Class Support Vector Machine Cornell University Department of Computer Science [22] Janyce Wiebe and Ellen Rilo Creating Subjective and Objective Sentence Classiers from Unannotated Texts In Proceedings of the 6th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing-05) [23] Tran-Thai Dang, Anh-Cuong Le Automatically Learning Patterns in Subjectivity Classification for Vietnamese University of Engineering and Technology Vietnam National University, Ha Noi (springer-2014) [24] Nguyen Cam Tu JVnTextpro: A Java-based Vietnamese Text Processing Toolkit SISLab Software Utility College of Technology, Vietnam National University, Hanoi [25] Nguyen Hung Son Rule based classifiers Faculty of Mathematics, Informatics and Mechanics, Poland Warsaw University [26] Christopher D.Manning, Hinrich Schutze, Foundations Of Statistical Natural Language Processing [27] Christopher D Manning, Prabhakar Raghavan & Hinrich Schütze, Introduction to Information Retrieval, 2008 [28] Christian S Perone, Machine Learning Text feature extraction (tf-idf) – Part I, 2011 70 [29] Xiaojin Zhu Semi-Supervised Learning with Graphs PhD thesis, Carnegie Mellon University, CMU-LTI-05-192, May 2005 [30] Xiaojin Zhu Semi-Supervised Learning Literature Survey Computer Sciences TR 1530, University of Wisconsin – Madison, February 22, 2006 [31] Lê ồng Phương, vnTokenizer 4.1.1 Userguide, Department of Mathematics, Mechanics and Informatics, Vietnam National University, Hanoi, Vietnam (December 2009) [32] Ellen Rillof, Janyce Wiebe, Theresa Wilson, Learning Subjective Nouns using Extraction Pattern Bootstrapping 2003 Conference on Natural Language Learning (CoNLL-03), ACL SIGNLL, 2003 [33] T Joachims Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning (ICML), 1999 [34] T Joachims Transductive learning via spectral graph partitioning Proceeding of The Twentieth International Conference on Machine Learning (ICML2003): 290-297 [35] Kevin P Murphy Machine Learning A Probabilistic Perspective The MIT Press Cambridge, Massachusetts London, England [36] Chih-Wei Hsu, Chih-Chung Chang, and Chih-Jen Lin A Practical Guide to Support Vector Classification Department of Computer Science National Taiwan University, Taipei 106, Taiwan, 2010 Websites tham khảo [40] http://wikipedia.org/wiki/Đặc_trưng_ nhận_dạng_mẫu [41] https://en.wikipedia.org/wiki/Co-training [42] http://xahoithongtin.com.vn/2014 internet-viet-nam-phat-trien-ngoan-mucd23040.html [43] http://netnam.vn/index.php/en/news/about-netnam/52-bao-chi-noi-v-netnam/328viet-nam-vao-top-20-quoc-gia-co-nhieu-nguoi-dung-internet-nhat.html [44] http://ictnews.vn/internet/tinh-hinh-pho-cap-internet-o-viet-nam-119725.ict [45] http://laodong.com.vn/lao-dong-cuoi-tuan/bo-loc-thong-tin-hieu-qua-95659.bld [46] http://www.sentiment140.com [47] https://en.wikipedia.org/wiki/Naive_Bayes_classifier [48] http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/machine-learningtrong-nlp/thuat-toan-entropy-cuc-dai 71 ... chung số tiếp cận phân lớp văn đề xuất áp dụng cho toán khai phá quan điểm Chương - Bài toán phát văn chủ quan khai phá quan điểm Chương mơ tả chi tiết tốn phát văn chủ quan, số nghiên cứu bao gồm... 36 Chương 3: Phát văn chủ quan khai phá quan điểm 37 3.1 Phân biệt chủ quan v khách quan 37 3.1.1 Thông tin chủ quan 37 3.1.2 Thông tin khách quan 37... quan trọng, đặc biệt xét đến ngơn ngữ Tiếng Việt 36 Chương 3: Phát văn chủ quan khai phá quan điểm Theo Wiebe, Bruce v O' ara, phân lớp chủ quan l phân lớp câu v o hai lớp: chủ quan v khách quan