Phát hiện văn bản chủ quan trong khai phá quan điểm

79 13 0
Phát hiện văn bản chủ quan trong khai phá quan điểm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -   * - NGUYỄN NGỌC TRƯỜNG PHÁT HIỆN VĂN BẢN CHỦ QUAN TRONG KHAI PHÁ QUAN ĐIỂM LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -   * - NGUYỄN NGỌC TRƯỜNG PHÁT HIỆN VĂN BẢN CHỦ QUAN TRONG KHAI PHÁ QUAN ĐIỂM Ngành: Công Nghệ Thông Tin Chuyên ngành: Kỹ Thuật Phần Mềm Mã số: 60.48.10 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ ANH CƯỜNG Hà Nội - 2015 NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… LỜI CÁM ƠN Để hoàn thành luận văn “Phát văn chủ quan khai phá quan điểm” này, nhận hướng dẫn giúp đỡ nhiệt tình Thầy Cơ, Anh Chị Bạn Lời đầu tiên, xin bày tỏ lòng biết ơn chân thành đến Ban lãnh đạo quý Thầy Cô khoa Công nghệ thông tin - Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội tận tình dạy dỗ, truyền đạt kiến thức, kinh nghiệm quý báu tạo điều kiện thuận lợi cho suốt thời gian học tập trường thực đề tài Đặc biệt, xin bày tỏ lòng biết ơn sâu sắc đến Thầy giáo hướng dẫn, PGS TS Lê Anh Cường, người tận tình hướng dẫn, giúp đỡ tơi suốt q trình thực đề tài Tôi xin gửi lời cảm ơn tới nghiên cứu sinh Nguyễn Thị Xuân Hương Anh Chị, Bạn sinh viên nhóm nghiên cứu hỗ trợ tơi nhiều q trình thực luận văn Tôi xin gửi lời cảm ơn tới Bạn khóa K19 ủng hộ khích lệ tơi suốt thời gian học tập trường Tơi xin trân trọng gửi đến Gia đình, Bạn bè Người thân tình cảm tốt đẹp giúp đỡ động viên tơi suốt q trình học tập thực hoàn thành luận văn Mặc dù tơi cố gắng để hồn thành luận văn cách tốt khơng tránh khỏi thiếu sót Kính mong nhận cảm thông bảo quý Thầy Cô, Anh Chị Bạn Hà Nội, ngày 01/11/2015 Học viên Nguyễn Ngọc Trường TÓM TẮT NỘI DUNG Trong năm gần đây, nghiên cứu khai phá quản điểm nhận quan tâm rộng rãi nhà nghiên cứu, công ty hàng đầu lĩnh vực công nghệ thông tin như: Yahoo, Google, Microsoft, IBM…, hội nghị lớn trích chọn thơng tin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL, ) đạt kết hữu ích mang lại lợi ích to lớn mặt khoa học lẫn công nghiệp Tuy nhiên, ngôn ngữ Tiếng Việt, nghiên cứu vấn đề khiêm tốn có nhiều tốn đặt cần tiếp tục nghiên cứu phát triển Luận văn “Phát văn chủ quan khai phá quan điểm” tập trung vào khảo sát phương pháp áp dụng cho ngôn ngữ khác giới, đặc biệt tập trung nghiên cứu để áp dụng cho ngôn ngữ tiếng Việt Trên sở áp dụng nghiên cứu cơng cụ xử lý ngôn ngữ tiếng Việt, luận văn tiến hành thực nghiệm việc phân lớp văn chủ quan - khách quan cho bình luận từ trang tiếng Việt Chúng sử dụng số đặc trưng để phân loại văn chủ quan bag of word, trích chọn động từ tính từ áp dụng phương pháp học máy thống kê cho toán Các kết ban đầu đạt khả quan Nội dung luận văn trình bày chương sau: Chương – Giới thiệu chung khai phá quan điểm Chương giới thiệu nội dung nhất, cung cấp nhìn khái quát khai phá quan điểm, đồng thời mô tả số khái niệm bản, cách tiếp cận, ý nghĩa số toán điển hình đặt khai phá quan điểm Chương – Các nghiên cứu phương pháp giải Chương giới thiệu chung số tiếp cận phân lớp văn đề xuất áp dụng cho toán khai phá quan điểm Chương - Bài toán phát văn chủ quan khai phá quan điểm Chương mô tả chi tiết toán phát văn chủ quan, số nghiên cứu bao gồm nghiên cứu tiếng Việt áp dụng để giải toán Chương - Thực nghiệm phân lớp hai miền liệu sản phẩm giá xăng Chương môt tả thực nghiệm từ việc tiến hành thu thập liệu, thực tiền xử lý liệu; sau tiến hành trích chọn số đặc trưng phân lớp chủ quan theo hai phương pháp Naive Bayes, SVM Cuối cùng, tổng hợp đánh giá kết cho phương pháp Lời cam đoan Tôi xin cam đoan luận văn với đề tài “Phát văn chủ quan khai phá quan điểm” cơng trình nghiên cứu riêng Các số liệu, kết trình bày luận văn hồn tồn trung thực chưa công bố cơng trình khác Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan nước quốc tế Trong nội dung trình bày luận văn, tơi thể rõ ràng xác tơi đóng góp Luận văn hồn thành thời gian làm Học viên Khoa Công Nghệ Thông tin, Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội Học viên Nguyễn Ngọc Trường MỤC LỤC Chương 1: Giới thiệu chung khai phá quan điểm 1.1 Tổng quan kiện act v quan điểm (Opinions) 1.3 Định nghĩa quan điểm 1.4 Một ố b i toán điển hình phân tích quan điểm 11 1.5 Vai trò v ứng dụng 15 1.6 Những khó khăn v thách thức khai phá quan điểm tiếng Việt 18 Chương : Bài toán phân lớp v phân tích quan điểm 20 Các b i toán phân lớp 20 2.2 Phân lớp quan điểm 21 Quá trình phân lớp 21 Khái quát ố phương pháp phân lớp văn 22 4.1 Phân lớp d a luật 22 Phân lớp dụng phương pháp học máy có giám át 23 4.3 Phân lớp dụng học máy không giám sát 34 4.4 Phân lớp dụng học máy bán giám át 35 2.5 Kết luận chung 36 Chương 3: Phát văn chủ quan khai phá quan điểm 37 3.1 Phân biệt chủ quan v khách quan 37 3.1.1 Thông tin chủ quan 37 3.1.2 Thông tin khách quan 37 B i tốn «Xây d ng phân lớp để phân lớp văn v o hai lớp chủ quan khách quan» 39 .1 Phát biểu b i toán 39 Mơ tả b i tốn 39 3.3 Trích chọn đặc trưng 39 3.3.1 Đặc trưng v cách biểu diễn 39 3.3 Vấn đề trích chọn đặc trưng 46 3.3.3 Phương pháp trích chọn đặc trưng 47 3.4 Áp dụng ố phương pháp phân lớp 53 Chương 4: Th c nghiệm phân lớp cho hai miền liệu 54 4.1 Môi trường th c nghiệm 54 4.1.1 Phần cứng 54 4.1 Phần mềm v công cụ 54 Quá trình th c nghiệm 55 .1 Dữ liệu dụng cho th c nghiệm 55 Th c gán nhãn liệu 57 .3 Trích chọn đặc trưng hệ thống 58 .4 Bộ phân lớp Naive Baye 60 .5 Bộ phân lớp VM 63 4.3 Đánh giá kết 66 4.3.1 Phương pháp đánh giá 66 4.3 Nhận xét 67 Kết Luận 68 T i liệu tham khảo 70 Danh sách hình vẽ ình 1.1: Tốc độ tăng trưởng tên miền Tiếng Việt ình : Độ tuổi người dụng Internet o với tổng dân ố Việt Nam ình 1.3: Tổng hợp quan điểm điện thoại 14 ình 1.4: Tổng hợp kiến o ánh hai điện thoại với .14 ình 1.5: Khai phá quan điểm người dùng 16 ình 1.6: Trang web entiment140 với từ khóa tìm kiếm l iphone 17 ình 1.7: Kết phân lớp quan điểm entiment140 18 ình 1: Ví dụ phân lớp nhị phân VM 20 ình : Ví dụ mơ hình phân lớp dụng học máy có giám át 22 ình 3: Ví dụ định 25 ình 4: Mơ hình phân lớp dụng phân lớp Naive Baye 26 ình 5: iêu phẳng với lề c c đại cho VM phân tách liệu thuộc hai lớp 32 ình 6: phân lớp VM dụng ố h m nhân 34 ình 3.1: Mơ hình biểu diễn chủ quan v khách quan 37 ình : Mơ hình không gian vector Chri tian Perone 41 ình 3.3: Biểu diễn văn dạng vector 42 ình 3.4: Biểu diễn văn dạng vector term frequency .42 ình 3.5: Tạo liệu huấn luyện dụng phân lớp d a luật 48 ình 4.1: Minh họa chương trình thu thập bình luận báo điện tử 56 ình : Minh họa chương trình thu thập bình luận trên mạng xã hội .56 ình 4.3: Giao diện giới thiệu chương trình thu thập bình luận 57 ình 4.4: Minh họa xây d ng từ điển đặc trưng 59 ình 4.5: Giao diện form học từ liệu huấn luyện Training 61 ình 4.6: Giao diện form th c phân lớp NB Cla ify 62 ình 4.7: Giao diện form giới thiệu chương trình About 62 ình 4.8: Minh họa biểu diễn liệu huấn luyện 63 ình 4.9: Minh họa mảng vector huấn luyện 63 ình 4.10: Giao diện form th c phân lớp VM Cla ify .64 ình 4.11: Giao diện form chuyển đổi văn text ang vector 65 ình 4.1 : Giao diện giới thiệu chương trình phân lớp dụng VM 65 Danh sách bảng Bảng Bảng Bảng Bảng Bảng 3.1: Bảng : Bảng 3.3: Bảng 3.4: Bảng 3.5: Bảng 4.1: Bảng : Bảng 4.3: Bảng 4.4: Bảng 4.5: Bảng 4.6: Bảng 4.7: 1: Các mẫu cú pháp v ví dụ tron : Dữ liệu huấn luyện dụng ch 3: Phương pháp học bán giám 4: Phương pháp học bán giám o ánh thông tin chủ quan v k Trích chọn mẫu loại Một ố mẫu tập tốt Trích chọn mẫu loại hai Một ố mẫu tập tốt Cấu hình phần cứng hệ thống Danh ách ố phần mềm v ố lượng mẫu bình luận dùng Minh họa trình gán nhãn liệu Kết th Kết th Kết tổng hợp Danh mục từ viết tắt Ký hiệu viết tắt SVM MEM POS NLP IR KDD HMM TSVM SGT TF*IDF LibSVMsharp nh 4.3: Giao diện giới thiệu chương tr nh thu thập b nh luận Th c tr nh tiền xử lý liệu: - Loại bỏ bình luận tiếng Việt viết khơng có dấu ửa lỗi tả v viết tắt: th c “k”, “ko” – ửa th nh “không”, “đc” – mong muốn áp dụng ố cơng cụ t phần n y - ửa lỗi tả tay chẳng hạn như: ửa th nh “được”…) Tương lai, chúng tơi động ửa lỗi tả cho tiếng Việt cho - Loại bỏ từ dừng top-word) cho tập liệu huấn luyện v kiểm thử: Sau văn áp dụng công cụ phân đoạn từ gán nhãn từ loại v trước đánh trọng ố cho từ khố chúng tơi tiến h nh loại bỏ từ dừng Danh ách từ dừng chúng tơi xây d ng đính kèm phần t i liệu tham khảo Gán nhãn liệu cho tập huấn luyện: Tiến h nh gán nhãn liệu tay cho 3/4 tổng ố bình luận thu thập vào hai loại nhãn chủ quan ub v khách quan obj gọi l tập liệu huấn luyện au đó, dụng 1/4 ố bình luận cịn lại gọi l tập kiểm thử để tiến h nh kiểm tra kết phân lớp 4.2.2 Th c gán nhãn liệu Gán nhãn liệu l trình quan trọng cách tiếp cận dụng học máy có giám át Nó l để tìm hiểu mẫu pattern chứa quan điểm Trong luận văn n y, liệu huấn luyện gán hai loại nhãn l : < ub> chủ quan (khách quan) 57 Một ố ví dụ minh họa cho q trình gán nhãn: Câu chủ quan Nếu n y chết xăng lên, thứ lên theo, m lương khơng lên Tất vấn đề xấu ẽ xảy bắt nguồn từ việc tăng giá xăng vơ tội vạ Đang mùa nắng nóng mua trữ nguy hiểm cho tính mạng v người dân xung quanh Cái điện thoại n y thấy đẹp Tôi thấy iphone plu dùng pin lion bền o với iphone dùng pin lipo Bảng 4.4: Minh họa tr nh gán nhãn liệu 4.2.3 Trích chọn đ c trưng hệ thống Chúng tiến h nh thử nghiệm v đánh giá ảnh hưởng đặc trưng khác tới kết phân lớp Đ c trưng thứ nhất: Đặc trưng dụng l bag-of-word Để dụng bag-of-word, dụng công cụ tách từ tiếng Việt vnTokenizer Thầy Lê ồng Phương Theo kết cơng bố cơng cụ n y có độ xác khoảng 98% miền liệu tiếng Việt [31] Các bước th c mô tả ví dụ au đây: B nh luận 1: Khơng thể chấp nhận Không biết giá xăng tăng đến mức au dụng vnTokenizer ta nhận au: không_thể chấp_nhận giá xăng tăng đến mức dụng Regex C# với cú pháp: var words = Regex.Split(text.Trim(), @"\W+"); Ta thu danh sách từ bình luận words = [“không thể”, “chấp nhận”, “được”, “không”, “biết”, “giá”, “xăng”, “tăng”, “đến”, “mức”, “nào”, “nữa”, “đây”]; 58 Th c cơng việc với tất bình luận tập liệu huấn luyện Từ danh ách từ tất bình luận tập huấn luyện, th c loại bỏ top-word cần , au đó, ta xây d ng từ điển đặc trưng Trong đó, phần từ từ điển mơ tả sau: = ; Ví dụ: nghĩa l từ “không thể” xuất lớp cla 100 lần Tiếp theo, lưu trữ từ điển đặc trưng xây d ng v o liệu databa e lên đĩa cứng harddi k Xem hình minh họa bên dưới: nh 4.4: Minh họa xây d ng từ điển đ c trưng B nh luận 2: SAMSUNG có em phổ thơng sim sóng, wifi 3G đầy đủ, chụp hình 5Mp lun, xài cảm ứng good máy đẹp, em khơng bán ch nh thức VN, xài qua tháng em tuyệt vời, đặc biết không giá au dụng vnTokenizer ta nhận au: SAMSUNG có em phổ_thơng sim sóng , wifi 3G đầy_đủ , chụp hình 5Mp lun , xài cảm_ứng good máy đẹp , em khơng bán ch nh_thức VN , xài qua tháng em tuyệt_vời , đặc biết nhất_là không mất_giá Đ c trưng thứ hai: Đặc trưng dụng l động từ tính từ tiếng Việt Để trích chọn đặc trưng n y, chúng tơi dụng công cụ tách từ gán nhãn từ loại tiếng Việt vn.hus.nlp.tagger-4.2.0 Thầy Lê ồng Phương Theo kết cơng bố cơng cụ n y có độ xác khoảng 96% miền liệu tiếng Việt [31] Ví dụ bình luận: Khơng thể chấp nhận Không biết giá xăng tăng đến mức au dụng vnTagger ta nhận au: không_thể/R chấp_nhận/V được/R / không/R biết/V giá/N xăng/N tăng/V đến/E mức/N nào/P nữa/R đây/P / dụng Regex C# với cú pháp: 59 var re = new Regex(@"\w+/[VA]"); var words = re.Matches(text); Ta thu danh ách từ l tính từ động từ bình luận words = [“chấp nhận”, “biết”]; Th c công việc với tất bình luận tập liệu huấn luyện Từ danh ách từ tất bình luận tập huấn luyện, th c loại bỏ top-word cần , au đó, ta xây d ng từ điển đặc trưng Trong đó, phần từ từ điển mô tả au: = ; Ví dụ: nghĩa l từ “không thể” xuất lớp cla 100 lần Tiếp theo, lưu trữ từ điển đặc trưng xây d ng v o liệu databa e lên đĩa cứng drive Xem hình minh họa bên B nh luận 2: SAMSUNG có em phổ thơng sim sóng, wifi 3G đầy đủ, chụp hình 5Mp lun, xài cảm ứng good máy đẹp, em khơng bán ch nh thức VN, xài qua tháng em tuyệt vời, đặc biết không giá au dụng vnTokenizer ta nhận au: SAMSUNG/Np có/V 1/M em/N phổ_thơng/N /M sim/N /M sóng/N ,/, wifi/V 3G/M /M đầy_đủ/A ,/, chụp/V hình/N 5Mp/M lun/N ,/, xài/V cảm_ứng/N rất/R good/A và/CC máy/N rất/R đẹp/A ,/, chỉ/R là/V em/N nó/P khơng/R bán/V ch nh_thức/A ở/E VN/Np ,/, mình/P xài/V qua/E 6/M tháng/N em/N nó/P đúng/A là/C tuyệt_vời/A ,/, đặc/A biết/V nhất_là/X không/R mất_giá/V / 4.2.4 Bộ phân lớp Naive Bayes 4.2.4.1 Tiến h nh phân lớp Th c việc c i đặt chương trình theo thuật tốn trình b y phần Chúng áp dụng kỹ thuật l m trơn Additive smoothing Đầu v o chương trình l mẫu huấn luyện gán nhãn Chương trình ẽ học từ liệu huấn luyện n y au th c phân lớp cho t i liệu cần phân lớp Chương trình n y t viết gồm ố bước au: - Dữ liệu huấn luyện phân đoạn từ trích chọn tính từ v động từ au đó, dùng để xây d ng từ điển đặc trưng cho lớp Key: tên đặc trưng, Value: tần uất xuất đặc trưng lớp - Tính xác uất lớp P Ci) = từ liệu th c nghiệm - Tính xác uất đặc trưng đồng thời áp dụng kỹ thuật l m trơn Additive smoothing - Tính tích xác uất tất đặc trưng - Đưa kết phân lớp cho mẫu kiểm chứng Xem chi tiết c i đặt phần mô chương trình 60 4.2.4.2 Kết th Bộ phân lớp Nạve Baye chủ quan dụng đặ kết bảng Miền liệu ản phẩm Giá xăng 4.2.4.3 Giao diện chương tr nh th c nghiệm nh 4.5: Giao diện form học từ liệu huấn luyện (Training) 61 nh 4.6: Giao diện form th c phân lớp NBS (Classify) nh 4.7: Giao diện form giới thiệu chương tr nh About 62 4.2.5 Bộ phân lớp VM 4.2.5.1 Tiến h nh phân lớp Từ liệu huấn luyện gán nhãn lưu file text mô tả au đây: nh 4.8: Minh họa biểu diễn liệu huấn luyện Chúng xây d ng từ điển đặc trưng theo phương pháp mô tả phân lớp Naïve Bayes Th c việc chuyển đổi liệu từ dạng text ang vector theo phương pháp trình bày mơ hình vector chương Đối với trường hợp đặc trưng dạng Bag-ofWord kết hợp với điều kiện tần uất từ lớn để giảm ố chiều vector đặc trưng Chúng thu tập vector huấn luyện minh họa au với vị trí thể xuất hay không xuất đặc trưng n o nh 4.9: Minh họa mảng vector huấn luyện Để huấn luyện VM, tập liệu xét mơ hình hóa ma trận A mxn) Trong đó, m l ố mẫu huấn luyện, n l ố lượng đặc trưng 63 Trong th c nghiệm n y l máy học SVM với h m nhân kernel SVMKernelType.RBF Th c nghiệm thử nghiệm với ố tham ố khác C Gama, tham ố chọn phương pháp thử nghiệm t đánh giá cá nhân 4.2.5.2 Kết th c nghiệm Tiến h nh th c nghiệm ghi nhận kết au đây: Miền liệu ản phẩm Giá xăng Bảng 4.6: Kết th c nghiệm với phân lớp VM Giao diện chương tr nh th c nghiệm: nh 4.10: Giao diện form th c phân lớp VM Classify 64 nh 4.11: Giao diện form chuyển đổi văn text sang vector nh 4.12: Giao diện giới thiệu chương tr nh phân lớp sử dụng VM 65 4.3 Đánh giá kết Do ố lượng câu gán nhãn tay hạn chế nên ban đầu tiến hành th c nghiệm xây d ng phân lớp dụng Naïve Baye , VM cho hai miền liệu l ản phẩm v giá xăng 4.3.1 Phương pháp đánh giá Do đặc tính đa nghĩa ngơn ngữ t nhiên, phức tạp b i toán phân lớp dẫn đến dù người hay phân lớp t động th c việc phân lớp xảy sai sót iệu phân lớp thường đánh giá qua việc o ánh định phân lớp với định người tiến h nh tập kiểm thử te t et) Có ba độ đo điển hình dụng để đánh giá độ chất lượng thuật tốn phân lớp, l độ xác π preci ion , độ hồi tưởng ρ recall v độ đo làm rõ phần au [20] Độ xác π (precision): l khả mơ hình để d đốn xác nhãn lớp liệu hay liệu chưa biết Nói ngắn gọn, thể độ xác thuật tốn Độ hồi tưởng ρ (recall): thể mức độ bao phủ thuật tốn Độ đo F1: tính tốn d a độ xác v độ hồi tưởng Một số tiêu ch đánh giá khác: - Tốc độ peed Tốc độ l chi phí tính tốn liên quan đến q trình tạo v dụng mơ hình - ức mạnh robu tne ức mạnh l khả mơ hình tạo ta d đốn từ liệu noi e hay liệu với giá trị thiếu - Khả mở rộng calability Khả mở rộng l khả th c thi hiệu lượng lớn liệu mơ hình học - Tính hiểu interpretability Tính hiểu l mức độ hiểu v hiểu rõ kết inh mơ hình học - Tính đơn giản implicity Tính đơn giản liên quan đến kích thước định hay độ cô đọng luật Công thức t nh: Giả t i liệu thuộc v o hai lớp v thuật toán cần học lớp hai lớp đó, giá trị: S ubject/chủ quan / O object/khách quan ; Giá trị qua phân lớp: T đúng/ ai; TS (true subjective), TO (true object), FS (false subjective), FO (false object) giải thích chi tiết đây: - TS: tỷ lệ câu chủ quan thuật toán phân lớp cho giá trị - TO: tỷ lệ câu khách quan thuật toán phân lớp cho giá trị - FS: tỷ lệ câu chủ quan thuật toán phân lớp cho giá trị sai 66 - FO: tỷ lệ câu khách quan thuật toán phân lớp cho giá trị 4.3.2 Nhận xét Kết tổng hợp bảng đây: Bảng 4.7: Kết tổng hợp Từ kết thu chúng tơi có ố nhận xét au: thuật toán VM v NB quan có kết xấp xỉ phân lớp văn chủ VM l 82.7% v với NB 80.8% tiếng Việt Kết tốt với Đặc trưng “động từ v tính từ” phân lớp văn chủ quan có độ xác cao đặc trưng bag-of-word Như với máy học VM với đặc trưng “động từ + tính từ” cho kết phân loại 67 Kết Luận Phân tích quan điểm người dùng l b i tốn có nhiều nghĩa v th c tiễn năm gần Từ việc nghiên cứu b i toán phân lớp văn chủ quan – khách quan miền liệu ản phẩm v giá xăng, luận văn tổng hợp hướng tiếp cận v áp dụng ố phương pháp để giải tốn nói Qua kết th c nghiệm đạt cho thấy mơ hình áp dụng l hoàn toàn khả thi v đem lại hiệu Luận văn n y đạt kết sau: - Trình b y cách khái quát khai phá quan điểm v ứng dụng khai phá quan điểm th c tế - Tìm hiểu v áp dụng ố phương pháp phân lớp văn chủ quan – khách quan phương pháp trích chọn đặc trưng để phân lớp - Sử dụng kỹ thuật học máy VM, phương pháp phân lớp dụng xác uất Bayesian để th c b i toán phân lớp - Khóa luận th c nghiệm với phương pháp trích chọn mẫu với hai đặc trưng bag-of-word v động từ tính từ Adj and Verb cho kết tốt Luận văn số hạn chế Bên cạnh kết đạt được, hạn chế mặt thời gian, kiến thức chuyên môn v mức độ am hiểu chuyên âu ngôn ngữ tiếng Việt, luận văn ố hạn chế sau: - Khóa luận chưa th c nghiệm với đặc trưng thông tin cú pháp… - Dữ liệu th c nghiệm cịn dẫn đến ố lượng vecto đặc trưng chưa nhiều ố chiều vector đặc trưng lớn m chưa áp dụng kỹ thuật giảm chiều vector (trình b y chương 3), l nguyên nhân dẫn đến kết th c nghiệm chưa cao Các hướng nghiên cứu v phát triển Do nhiều hạn chế thời gian v kiến thức, luận văn n y ố vấn đề phải tiếp tục ho n thiện v phát triển thời gian tới Định hướng nghiên cứu tương lai, luận văn ẽ phát triển tiếp công việc sau: - Bổ ung th c nghiệm với nhiều đặc trưng nữa: chẳng hạn bigram, thông tin cú pháp - dụng phương pháp ửa lỗi tả, viết tắt…, để loại bỏ liệu nhiễu tốt - Th c nghiệm nhiều miền liệu lớn hơn, cải tiến chương trình đủ đề học v phân lớp với ố lượng đặc trưng lớn 68 - Tiến h nh th c nghiệm với nhiều thuật tốn học khác để tìm thuật tốn có hiệu nhất, độ xác cao với toán phân lớp văn chủ quan tiếng Việt - Nghiên cứu áp dụng phương pháp học bán giám át để tận dụng nguồn liệu chưa gán nhãn, giảm thời gian xây d ng liệu huấn luyện 69 T i liệu tham khảo T i liệu tiếng Việt Tú Bảo, Lương Chi Mai Về xử lý tiếng Việt công nghệ thông tin Viện Công nghệ Thông tin, Viện Khoa học v Công nghệ Tiên tiến Nhật [1] [2] 2007 Quang Thụy & nhóm khai phá liệu v ứng dụng Bà [3] Nguyễn Trần Thiên Thanh, Trần Khải o ng, Tìm hiểu hướng tiếp cận toán phân loại văn xây dựng phần mềm phân loại tin tức báo điện tử, Khóa luận cử nhân tin học 005 [4] Trần Thị Oanh, Thuật toán self-training co-training ứng dụng phân lớp văn bản, Khóa luận cử nhân Cơng nghệ thơng tin 2006 [5] Nguyễn Thị Thùy Linh, Nghiên cứu thuật toán phân lớp liệu dựa định, Khóa luận cử nhân Cơng nghệ thơng tin 2005 [6] Trần Cao Đệ v Phạm Nguyên Khang, Phân loại văn với máy học vector hỗ trợ định, Tạp chí Khoa học 01 : 1a -63 T i liệu tiếng Anh [20] Bing Liu Sentiment Analysis and Opinion Mining Morgan &Claypool Publishers, May 2012 [21] Thorsten Joachims SVM multiclass Multi-Class Support Vector Machine Cornell University Department of Computer Science [22] Janyce Wiebe and Ellen Rilo Creating Subjective and Objective Sentence Classiers from Unannotated Texts In Proceedings of the 6th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing-05) [23] Tran-Thai Dang, Anh-Cuong Le Automatically Learning Patterns in Subjectivity Classification for Vietnamese University of Engineering and Technology Vietnam National University, Ha Noi (springer-2014) [24] Nguyen Cam Tu JVnTextpro: A Java-based Vietnamese Text Processing Toolkit SISLab Software Utility College of Technology, Vietnam National University, Hanoi [25] Nguyen Hung Son Rule based classifiers Faculty of Mathematics, Informatics and Mechanics, Poland Warsaw University Christopher D.Manning, Hinrich Schutze, Foundations Of Statistical Natural Language Processing [26] [27] Christopher D Manning, Prabhakar Raghavan & Hinrich Schütze, Introduction to Information Retrieval, 2008 [28] Christian S Perone, Machine Learning Text feature extraction (tf-idf) – Part I, 2011 70 [29] Xiaojin Zhu Semi-Supervised Learning with Graphs PhD thesis, Carnegie Mellon University, CMU-LTI-05-192, May 2005 [30] Xiaojin Zhu Semi-Supervised Learning Literature Survey Computer Sciences TR 1530, University of Wisconsin – Madison, February 22, 2006 [31] Lê ồng Phương, vnTokenizer 4.1.1 Userguide, Department of Mathematics, Mechanics and Informatics, Vietnam National University, Hanoi, Vietnam (December 2009) [32] Ellen Rillof, Janyce Wiebe, Theresa Wilson, Learning Subjective Nouns using Extraction Pattern Bootstrapping 2003 Conference on Natural Language Learning (CoNLL-03), ACL SIGNLL, 2003 [33] T Joachims Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning (ICML), 1999 [34] T Joachims Transductive learning via spectral graph partitioning Proceeding of The Twentieth International Conference on Machine Learning (ICML2003): 290-297 [35] Kevin P Murphy Machine Learning A Probabilistic Perspective The MIT Press Cambridge, Massachusetts London, England [36] Chih-Wei Hsu, Chih-Chung Chang, and Chih-Jen Lin A Practical Guide to Support Vector Classification Department of Computer Science National Taiwan University, Taipei 106, Taiwan, 2010 Websites tham khảo [40] http://wikipedia.org/wiki/Đặc_trưng_ nhận_dạng_mẫu [41] https://en.wikipedia.org/wiki/Co-training [42] http://xahoithongtin.com.vn/2014 internet-viet-nam-phat-trien-ngoan-muc- d23040.html [43] http://netnam.vn/index.php/en/news/about-netnam/52-bao-chi-noi-v-netnam/328- viet-nam-vao-top-20-quoc-gia-co-nhieu-nguoi-dung-internet-nhat.html [44] http://ictnews.vn/internet/tinh-hinh-pho-cap-internet-o-viet-nam-119725.ict [45] http://laodong.com.vn/lao-dong-cuoi-tuan/bo-loc-thong-tin-hieu-qua-95659.bld [46] http://www.sentiment140.com [47] https://en.wikipedia.org/wiki/Naive_Bayes_classifier [48] http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/machine-learning- trong-nlp/thuat-toan-entropy-cuc-dai 71 ... chung số tiếp cận phân lớp văn đề xuất áp dụng cho toán khai phá quan điểm Chương - Bài toán phát văn chủ quan khai phá quan điểm Chương mô tả chi tiết toán phát văn chủ quan, số nghiên cứu bao... 36 Chương 3: Phát văn chủ quan khai phá quan điểm 37 3.1 Phân biệt chủ quan v khách quan 37 3.1.1 Thông tin chủ quan 37 3.1.2 Thông tin khách quan ... quan trọng, đặc biệt xét đến ngơn ngữ Tiếng Việt 36 Chương 3: Phát văn chủ quan khai phá quan điểm Theo Wiebe, Bruce v O' ara, phân lớp chủ quan l phân lớp câu v o hai lớp: chủ quan v khách quan

Ngày đăng: 11/11/2020, 22:10

Tài liệu cùng người dùng

Tài liệu liên quan