(Luận văn thạc sĩ) nghiên cứu giải thuật học cộng tác (co training) và ứng dụng vào bài toán khai phá quan điểm

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VÕ VĂN THƢỞNG NGHIÊN CỨU GIẢI THUẬT HỌC CỘNG TÁC (COTRAINING) VÀ ỨNG DỤNG VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VÕ VĂN THƢỞNG NGHIÊN CỨU GIẢI THUẬT HỌC CỘNG TÁC (COTRAINING) VÀ ỨNG DỤNG VÀO BÀI TỐN KHAI PHÁ QUAN ĐIỂM Ngành: Cơng nghệ Thơng tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS.Nguyễn Trí Thành Hà Nội - 2012 Trang LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu giải thuật học cộng tác ứng dụng vào toán khai phá quan điểm” cơng trình nghiên cứu tơi dƣới hƣớng dẫn khoa học TS Nguyễn Trí Thành Các nội dung cơng bố kết trình bày luận văn hoàn toàn trung thực chƣa đƣợc cá nhân hay tổ chức không liên quan cơng bố cơng trình Các nguồn tài liệu tham khảo đƣợc rõ trích dẫn danh mục tài liệu tham khảo Trang MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU CHƢƠNG – GIỚI THIỆU 1.1 Lý chọn đề tài 1.2 Mục tiêu, phạm vi nghiên cứu đề tài 10 CHƢƠNG – KHAI PHÁ QUAN ĐIỂM VÀ ỨNG DỤNG 11 2.1 Khai phá quan điểm (Opinion mining) 11 2.1.1 Các khái niệm liên quan 11 2.1.2 Khai phá quan điểm 12 2.1.3 2.1.4 Động lực Ứng dụng Khai phá quan điểm 13 Thách thức Khai phá quan điểm 14 2.1.5 Các mức văn toán khai phá quan điểm 15 2.2 Các thuật tốn học có giám sát 15 2.2.1 Học máy - Machine Learning 16 2.2.2 2.2.3 Học có giám sát - Supervised Learning 18 Thuật tốn học có giám sát Support Vector Machines (SVM) 19 2.2.4 Các thuật tốn học có giám sát khác 24 2.3 Các thuật toán học bán giám sát 25 2.3.1 Thuật toán Co-training 26 2.3.2 Thuật toán bán giám sát cực đại EM đại phƣơng 28 2.3.3 Thuật toán Self-training 29 2.4 Phƣơng pháp đánh giá phân lớp 30 2.5 Kết luận 31 CHƢƠNG – ỨNG DỤNG HỌC BÁN GIÁM SÁT VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM 33 3.1 Tổng quát hƣớng tiếp cận giải toán 33 3.2 Lựa chọn liệu 34 3.2.1 3.2.2 Kho tài liệu MPQA2.0(Multi-Perspective Question Answering) 35 SentiWordNet 39 Trang 3.3 Trích chọn đặc trƣng xác định nhãn 40 3.3.1 Đặc trƣng SentiWordNet Score (SS) 40 3.3.2 Đặc trƣng POS Statistics (PS) 41 3.3.3 Đặc trƣng Word Count (WC) 44 3.3.4 Đặc trƣng TFIDF 45 3.3.5 3.3.6 Xác định nhãn tính chủ quan (sự tồn cảm nghĩ) 47 Xác định nhãn tính phân cực cảm nghĩ 47 3.4 Tiền xử lý liệu 48 3.5 Chuẩn bị liệu 48 3.5.1 Thống kê liệu sau tiền xử lý 49 3.5.2 Các tiêu chí chuẩn bị liệu 50 3.5.3 Các cách chọn liệu 50 3.6 Huấn luyện, đánh giá 53 3.6.1 Thƣ viện LibSVM 54 3.6.2 Học có giám sát 55 3.6.3 Học bán giám sát Co-training 55 3.7 Kết luận 55 CHƢƠNG – THỰC NGHIỆM 56 4.1 Thực nghiệm 56 4.2 Thực nghiệm 57 4.3 Thực nghiệm 60 KẾT LUẬN 62 5.1 Kết luận 62 5.1.1 Những kết đạt đƣợc 62 5.1.2 Nhƣợc điểm 62 5.2 Hƣớng phát triển 62 5.2.1 Khắc phục nhƣợc điểm 62 5.2.2 Mở rộng, ứng dụng cho tiếng Việt 63 TÀI LIỆU THAM KHẢO 64 PHỤ LỤC 65 Trang DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ICML/COLT: International Conference on Machine Learning and Annual Conference on Learning Theory TFIDF: Term Frequency Inverse Document Frequency Trang DANH MỤC CÁC BẢNG Bảng 2.1 Cách xác định giá trị TP, TN, FP, FN 30 Bảng 3.1 Bảng danh sách từ với giá trị SentiWordNet 41 Bảng 3.2 Bảng mô tả chi tiết kí hiệu từ loại 42 Bảng 3.3 Xác định từ loại từ câu 44 Bảng 3.4 Các thông số liên quan đến đặc trƣng TFIDF 45 Bảng 3.5 Thông số TFIDF từ thuộc câu s1 46 Bảng 3.6 Thông số TFIDF từ thuộc câu s2 46 Bảng 3.7 Thống kê liệu tập ORI 49 Bảng 3.8 Thống kê liệu tập ULA 49 Bảng 3.9 Thống kê liệu tập XBANK 50 Bảng 3.10 Chọn liệu cho Thực nghiệm 51 Bảng 3.11 Chọn liệu cho Thực nghiệm 52 Bảng 3.12 Chọn liệu cho Thực nghiệm 53 Bảng 4.1 Kết Thực nghiệm theo nhãn tính chủ quan 56 Bảng 4.2 Kết Thực nghiệm theo nhãn tính phân cực cảm nghĩ 57 Bảng 4.3 Các đặc trƣng, thông số tốt cho toán phân lớp 57 Bảng 4.4 Số lƣợng mẫu huấn luyện/đánh giá dùng cho Thực nghiệm 58 Bảng 4.5 Kết Thực nghiệm theo nhãn tính chủ quan 59 Bảng 4.6 Kết Thực nghiệm theo nhãn tính phân cực cảm nghĩ 59 Bảng 4.7 Kết Thực nghiệm chọn L, U theo tỉ lệ 10%, 70% 60 Bảng 4.8 Kết Thực nghiệm chọn L, U theo tỉ lệ 20%, 60% 60 Bảng 4.9 Kết Thực nghiệm chọn L, U theo tỉ lệ 30%, 50% 61 Bảng 4.10 Kết Thực nghiệm chọn L, U theo tỉ lệ 40%, 40% 61 Bảng 4.11 Kết Thực nghiệm chọn L, U theo tỉ lệ 50%, 30% 61 Bảng 4.12 Kết Thực nghiệm chọn L, U theo tỉ lệ 60%, 20% 61 Trang DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 2.1 Minh họa “Máy học” 17 Hình 2.2 Minh họa hƣớng nghiên cứu học máy 18 Hình 2.3 Mối quan hệ siêu phẳng phân cách 21 Hình 2.4 Siêu phẳng tối ƣu biên 22 Hình 3.1 Mơ hình minh họa bƣớc giải tốn 34 Hình 3.2 Cấu trúc lƣu trữ kho liệu MPQA2.0 37 Hình 3.3 Minh họa vị trí từ có tính cảm nghĩ tiêu cực SentiWordNet 40 Hình 3.4 Tiền xử lý liệu 48 Hình 3.5 Chuẩn bị liệu 49 Hình 3.6 Huấn luyện, đánh giá 53 Trang MỞ ĐẦU Ý kiến đánh giá khách hàng, ngƣời dùng, cá nhân sản phẩm, dịch vụ, sách hay vấn đề tồn với số lƣợng lớn kho lƣu trữ công ty, mạng internet Đối với công ty, việc khai thác lƣợng thông tin giúp họ hiểu rõ khách hàng, sản phẩm, dịch vụ Với tổ chức, phủ nguồn cung cấp thơng tin hữu ích hỗ trợ cho việc định, điều chỉnh sách Bên cạnh thuật tốn học có giám sát, thuật tốn học bán giám sát hƣớng nghiên cứu có nhiều ứng dụng thực tế Đề tài hƣớng tới tìm hiểu thuật toán học cộng tác - thuật toán học bán giám sát - ứng dụng vào toán khai phá quan điểm Do đặc điểm cần lƣợng nhỏ liệu đƣợc gắn nhãn với lƣợng lớn liệu chƣa đƣợc gắn nhãn làm liệu huấn luyện Điều giúp cho việc thu thập, gắn nhãn cho tập liệu huấn luyện tốn Những nghiên cứu, luận văn liên quan đến phân tích tính chủ quan phân tích cảm nghĩ nhiều mức khác nhƣ liên quan đến kỹ thuật Co-training xuất nhiều Tuy nhiên việc kết hợp chúng lại với nhau, dùng kỹ thuật Co-training vào phân tích tính chủ quan phân tích cảm nghĩ, chƣa đƣợc phổ biến nhiều qua báo, tiếng Việt tiếng Anh, đƣợc cơng khai mạng Ngồi việc phân tích mức câu trở ngại so với mức tài liệu [5] Đề tài luận văn định hƣớng giải toán phân lớp câu cảm nghĩ nhƣ sau: Cho tập văn gồm nhiều câu văn tiếng Anh Phân lớp xem câu câu mô tả cảm nghĩ, câu không Đối với câu mô tả cảm nghĩ, dùng phân lớp phân cực để xác định câu mơ tả cảm nghĩ tích cực, tiêu cực hay trung lập Trong đó, phân lớp đƣợc xây dựng dựa kỹ thuật Co-training Trên sở định hƣớng đó, nội dung trình bày báo cáo luận văn bao gồm: (1) lý do, mục tiêu đề tài đề tài nghiên cứu liên quan – Chƣơng 1; (2) trình bày kiến thức sở liên quan – Chƣơng 2; (3) cách tiếp cận giải toán – Chƣơng 3; (4) thực nghiệm kết - Chƣơng 4; (5) kết luận hƣớng phát triển đề tài Trang CHƢƠNG – GIỚI THIỆU 1.1 Lý chọn đề tài Khai phá liệu (KPDL) chuyên ngành mới, thu hút đƣợc nhiều nghiên cứu thời gian gần Hƣớng tiếp cận giải vấn đề dựa KPDL hoàn toàn khác so với cách xử lý Cơ sở liệu (CSDL) truyền thống Trong xử lý CSDL truyền thống, thao tác xử lý truy xuất đƣa thơng tin có dƣới dạng liệt kê giá trị dựa tính toán, thống kê giá trị ghi báo cáo gồm tập hợp nhiều giá trị ghi, giá trị tính tốn, thống kê khác KPDL đƣa kết tri thức tiềm ẩn tập liệu mà xử lý truyền thống nhƣ trƣớc truy vấn đƣợc Trong KPDL, liệu thích hợp vấn đề quan trọng để khám phá đƣợc tri thức có giá trị Tùy vào cấu trúc liệu mà KPDL có tên gọi tƣơng ứng thích hợp Riêng liệu text đƣợc gọi Khai phá text Dữ liệu dạng text dạng liệu tự nhiên chiếm tỉ lệ nhiều dạng liệu mà ngƣời tạo Trên Internet, có khoảng tỉ tài liệu dạng text đƣợc đánh số máy tìm kiếm phổ biến (Sullivan, 2005) Trong công ty, lƣợng lớn liệu text thƣ điện tử, ghi chú, trang cổng thơng tin, tài liệu cơng ty đƣợc số hóa Một số ƣớc lƣợng có đến 85% lƣợng liệu công ty đƣợc lƣu trữ dƣới dạng tài liệu text khơng có cấu trúc (McKnight, 2005) Việc khai thác tri thức từ lƣợng thông tin yêu cầu thiết thực nhân loại Dữ liệu text thƣờng ẩn chứa nhiều tri thức có giá trị mà ngƣời tạo nhằm chia sẻ với ngƣời kinh nghiệm trãi qua Do đó, cần đƣa định gì, thƣờng tham khảo đến kinh nghiệm ngƣời trƣớc cách tìm kiếm Internet Với cơng cụ Khai phá quan điểm, việc trích xuất tri thức đƣợc thực cách tự động có hệ thống Giúp nắm bắt đƣợc khía cạnh liên quan đến quan điểm cơng chúng vấn đề cần quan tâm Từ giúp cho việc định có sở vững Với lƣợng liệu text sẵn có lớn nhƣ cộng thêm nhu cầu ngƣời muốn khai thác hay phân tích khía cạnh liên quan đến quan điểm việc nghiên cứu toán khai phá quan điểm chắn có nhiều ứng dụng tƣơng lai Trang 53 Bảng 3.12 Chọn liệu cho Thực nghiệm Tập huấn Tập huấn luyện Tập đánh Học có luyện có nhãn không nhãn giá giám sát Học bán giám sát 10%ULA 70%ULA 20%ULA Có Có 20%ULA 60%ULA 20%ULA Có Có 30%ULA 50%ULA 20%ULA Có Có 40%ULA 40%ULA 20%ULA Có Có 50%ULA 30%ULA 20%ULA Có Có 60%ULA 20%ULA 20%ULA Có Có Để thực nghiệm cho kết khách quan nhất, với tỉ lệ nhƣ Bảng 3.12, đƣợc tiến hành thực nghiệm lần Kết cuối cho tỉ lệ kết trung bình lần chạy 3.6 Huấn luyện, đánh giá Tùy theo thực nghiệm mà việc huấn luyện/đánh giá dựa học có giám sát học bán giám sát đƣợc thực đơn lẻ (chỉ học có giám sát Thực nghiệm 1) song song (cả học có giám sát lẫn học bán giám sát Thực nghiệm 3) Hình 3.6 cho cài nhìn tổng quan bƣớc huấn luyện, đánh giá Hình 3.6 Huấn luyện, đánh giá Trang 54 Do ƣu thuật toán phân lớp SVM toán khai phá quan điểm nên SVM đƣợc chọn làm phân lớp sở cho hƣớng tiếp cận Các thực nghiệm luận văn đƣợc cài đặt dựa thƣ viện LibSVM Cụ thể, gói biên dịch LibSVM cho Windows đƣợc gọi từ kịch phân lớp tƣơng ứng liệu đƣợc chuẩn bị 3.6.1 Thư viện LibSVM LibSVM phần mềm đơn giản, dễ sử dụng, hiệu để giải tốn phân lớp hồi quy SVM Nó giải toán phân lớp CSVM, phân lớp nu-SVM Trong luận văn này, phiên đƣợc sử dụng LibSVM3.1 Để giảm thiểu số lƣợng tham số phân lớp SVM liên quan, thực nghiệm đƣợc tiến hành với kiểu phân lớp C-SVM Để huấn luyện, ta dùng cú pháp svm-train [options] training_set_file [model_file] Trong đó, tham số options sau liên quan đến phân lớp: -s svm_type : kiểu SVM (mặc định 0) C-SVC nu-SVC -t kernel_type : kiểu hàm kernel (mặc định 2) – hàm tuyến tính: u'*v – hàm đa thức: (gamma*u'*v + coef0)^degree – hàm radial bản: exp(-gamma*|u-v|^2) sigmoid: tanh(gamma*u'*v + coef0) -b probability_estimates : có ước lượng xác suất hay không, thiết lập (mặc định 0) File huấn luyện training_set_file theo cấu trúc nhƣ sau: : : Mỗi dòng mẫu huấn luyện kết thúc kí tự xuống dịng số nguyên lớp số giá trị vector () và tăng dần lên đơn vị đến hết Cú pháp dùng cho đánh giá svm-predict [options] test_file model_file output_file Trong đó, tham số options sau liên quan đến phân lớp: -b probability_estimates : có ước lượng xác suất hay không, thiết lập (mặc định 0) Trang 55 model_file : file mơ hình sinh rởi svm-train test_file : file đánh giá cần dự đốn, có cấu trúc giống file huấn luyện output_file : file kết dự đoán svm-predict 3.6.2 Học có giám sát Hai tốn phân lớp toán khai phá quan điểm đƣợc thực thi dựa thƣ viện LibSVM Trong đó, phân lớp tính chủ quan phân lớp nhị phân phân lớp tính phân cực cảm nghĩ phân lớp đa lớp (cụ thể lớp) Ở Thực nghiệm 1, tất đặc trƣng đƣợc đánh giá để tìm đặc trƣng tốt cho nhãn phân lớp Các Thực nghiệm đƣợc tiến hành đặc trƣng tốt số đặc trƣng Thực nghiệm Các tham số SVM đƣợc chọn từ Thực nghiệm dùng cho Thực nghiệm theo cách tƣơng tự nhƣ 3.6.3 Học bán giám sát Co-training Khơng phụ thuộc vào tốn phân lớp (hay nhãn phân lớp), thuật toán Co-training đƣợc cài đặc với đặc trƣng tốt (khung nhìn) tham số phân lớp SVM tối ƣu tìm đƣợc từ Thực nghiêm Theo cách phân loại Cotraining nhƣ mục 2.3.1, thuật tốn Co-training đƣợc cài đặt luận văn Co-training dựa việc phân chia khung nhìn 3.7 Kết luận Chƣơng trình bày từ mơ hình tổng qt giải tốn Trong đó, bƣớc có mục tiêu riêng, nên cần thực nghiệm riêng Các mục từ 3.2 đến 3.6 trình bày chi tiết bƣớc khai phá liệu mục tiêu (thực nghiệm) với cách trích chọn đặc trƣng, cách xác định nhãn từ sơ đồ đánh dấu (annotation scheme) kho liệu MPQA2.0 Ngoài ra, thƣ viện LibSVM đƣợc dùng nhƣ phân lớp sở cho hai cách tiếp cận dựa học có giám sát học bán giám sát Các hƣớng dẫn liên quan đến thƣ viện LibSVM đƣợc trích dẫn từ tài liệu hƣớng dẫn Trang 56 CHƢƠNG – THỰC NGHIỆM Chƣơng trình bày kết thực nghiệm 4.1 Thực nghiệm Theo cách chọn liệu cho Thực nghiệm (Bảng 3.10), sau tiến hành huấn luyện dự đốn, ta có kết độ xác cho phân lớp tính chủ quan phân lớp tính phân cực cảm nghĩ lần lƣợt nhƣ Bảng 4.1 Bảng 4.2 Bảng 4.1 Kết Thực nghiệm theo nhãn tính chủ quan Độ xác Phân lớp tính chủ quan Đặc trƣng\S.T 0.0 0.1 0.2 0.3 39,70% 39,83% 39,75% 39,75% wc2 58,33% 50,35% 57,90% 57,59% ss2 ss3 60,73% 50,48% 58,55% 58,12% 60,12% 58,68% 60,08% 39,79% ps0 59,99% 58,68% 60,12% 39,75% ps1 60,03% 58,46% 60,12% 39,75% ps2 60,17% 58,33% 60,17% 39,75% ps3 60,17% 58,20% 60,12% 39,75% ps4 60,17% 58,03% 60,12% 40,75% ps5 60,03% 57,81% 59,95% 41,40% ps6 60,17% 58,03% 60,34% 46,55% ps7 60,38% 58,03% 60,34% 40,10% ps8 ps9 60,38% 58,20% 59,99% 41,14% max 39,83% 60,73% 60,38% Trang 57 Bảng 4.2 Kết Thực nghiệm theo nhãn tính phân cực cảm nghĩ Độ xác Phân lớp tính phân cực Đặc trƣng\S.T 0.0 0.1 0.2 0.3 max 67,02% wc2 67,15% 67,10% 66,97% 67,15% 65,23% 65,66% 65,49% 65,49% ss2 65,62% ss3 65,75% 65,10% 65,40% 65,75% 59,77% 64,70% 62,52% 67,02% ps0 60,60% 64,66% 62,57% 67,02% ps1 61,04% 64,49% 62,52% 67,02% ps2 61,04% 65,01% 62,39% 67,02% ps3 60,99% 65,05% 62,26% 67,02% ps4 60,91% 64,88% 62,30% 67,02% ps5 60,95% 64,75% 62,26% 67,02% ps6 60,95% 64,66% 62,13% 67,02% ps7 61,13% 64,53% 62,13% 67,02% ps8 60,86% 64,49% 62,17% 67,02% 67,02% ps9 Trong thực nghiệm 1, tỉ lệ Số mẫu huấn luyện / Số mẫu đánh giá = 11.111 / 2.292 = 4,85 Trong Bảng 4.1 Bảng 4.2, cột “max” độ xác cao theo nhóm đặc trƣng (SS, PS, WC) Căn vào giá trị max (đƣợc in đậm nghiêng), ta xác định đƣợc đặc trƣng tham số phân lớp SVM (cột “S.T”) tốt Theo đó, đặc trƣng tốt tham số phân lớp SVM tối ƣu (S.T) cho phân lớp tính chủ quan/tính phân cực cảm nghĩ đƣợc chọn nhƣ bảng 4.3 dƣới Bảng 4.3 Các đặc trưng, thông số tốt cho tốn phân lớp Phân lớp Tính chủ quan Phân lớp Tính phân cực cảm nghĩ Khung nhìn Khung nhìn S.T ps9 ss3 0.0 ss3 wc2 0.1 4.2 Thực nghiệm Sử dụng tập huấn luyện có nhãn/đánh giá cho học có giám sát lẫn học bán giám sát Các đặc trƣng, tham số phân lớp SVM đƣợc thiết lập theo Trang 58 Bảng 4.3 Mục đích xem xét ảnh hƣởng số lƣợng từ khóa tối thiểu câu tập huấn luyện có nhãn đến chất lƣợng học bán giám sát Tham số Co-training với phân lớp tính chủ quan (nhị phân) đƣợc thiết lập theo tỉ lệ mẫu dƣơng/mẫu âm tập huấn luyện ORI: p=15, n=15 Với phân lớp tính phân cực cảm nghĩ (3 lớp), tham số đƣợc thiết lập: p=7, n=3, neu=20 Với cách chọn liệu nhƣ Hình 3.11, ta có thống kê số lƣợng mẫu huấn luyện/đánh giá nhƣ Bảng 4.4 độ xác sau đánh giá nhƣ Bảng 4.5 Bảng 4.6 Bảng 4.4 Số lượng mẫu huấn luyện/đánh giá dùng cho Thực nghiệm Từ khóa tối thiểu câu thuộc L (MinKW) Tập huấn luyện có nhãn (L) Tập huấn Tập luyện không đánh giá nhãn (U) 11.111 2.292 11.053 58 2.292 10.855 256 2.292 10.508 603 2.292 10.046 1.065 2.292 9.434 1.677 2.292 8.763 2.348 2.292 8.006 3.105 2.292 7.186 3.925 2.292 6.391 4.720 2.292 Trang 59 Bảng 4.5 Kết Thực nghiệm theo nhãn tính chủ quan Phân lớp tính chủ quan MinKW\ Khung nhìn Học có giám sát ps9 ss3 60,08% 57,90% 60,08% 58,25% 60,34% 58,33% 59,34% 58,16% 58,38% 58,38% 57,85% 56,33% 60,03% 59,25% 60,17% 59,34% 57,59% 60,25% 57,24% 61,17% Co-training (p=15, n=15) ps9 ss3 Độ xác đƣợc cải thiện ps9 ss3 59,95% 60,51% 59,99% 59,29% 58,81% 58,81% 60,03% 59,95% 59,90% -0,13% 0,17% 0,65% 0,92% 0,96% -1,22% -0,13% 2,36% 2,66% 58,20% 57,90% 57,77% 57,77% 57,64% 57,11% 54,84% 54,84% 55,67% -0,04% -0,44% -0,39% -0,61% 1,31% -2,14% -4,49% -5,41% -5,50% Độ xác phân lớp tính chủ quan đƣợc cải thiện nhiều (ở mức 0,96% 1,31%, đƣợc in đậm nghiêng) chọn câu có từ khóa tối thiểu vào tập huấn luyện có nhãn Bảng 4.6 Kết Thực nghiệm theo nhãn tính phân cực cảm nghĩ MinKW\ Khung nhìn Phân lớp tính Phân cực cảm nghĩ Co-training (p=7, n=3, Độ xác neu=20) Học có giám sát đƣợc cải thiện wc2 wc2 wc2 ss3 ss3 ss3 65,49% 62,52% 65,36% 62,52% 65,36% 62,57% 65,36% 62,26% 65,36% 62,65% 65,40% 62,57% 65,36% 63,00% 65,27% 61,65% 65,45% 63,09% 65,27% 61,74% 65,45% 63,31% 65,23% 61,61% 65,53% 63,70% 65,23% 60,56% 65,49% 58,90% 65,23% 60,34% 65,53% 58,99% 65,23% 58,73% 65,53% 58,60% 0,00% 0,00% -0,04% 0,17% 0,17% 0,31% 0,26% 0,31% 0,31% 0,04% 0,39% 0,44% 1,44% 1,57% 2,09% -1,66% -1,35% -0,13% Trang 60 Độ xác phân lớp tính phân cực cảm nghĩ đƣợc cải thiện nhiều nhất, đƣợc in đậm nghiêng, chọn câu có từ khóa tối thiểu vào tập huấn luyện có nhãn Tóm lại, lựa chọn tập liệu có nhãn cho Co-training với tập liệu ORI nên chọn câu có số từ khóa tối thiểu Lúc đó, hiệu Co-training đƣợc cải thiện đáng kể so với tiếp cận học có giám sát 4.3 Thực nghiệm Với tỉ lệ chọn tập L, U, thực nghiệm đƣợc tiến hành lần Tham số Co-training đƣợc thiết lập (p=15,n=15) cho phân lớp tính chủ quan (p=7, n=3, neu=20) cho phân lớp tính phân cực cảm nghĩ Kết trung bình lần chạy theo tỉ lệ nhƣ Bảng 4.7 đến 4.12 Bảng 4.7 Kết Thực nghiệm chọn L, U theo tỉ lệ 10%, 70% Có giám sát Co-training Cải thiện Phân lớp tính chủ quan ps9 ss3 61,57% 60,22% 61,18% 59,52% -0,39% -0,70% Phân lớp tính phân cực ss3 wc2 67,36% 67,28% 67,36% 67,36% 0,00% 0,09% Bảng 4.8 Kết Thực nghiệm chọn L, U theo tỉ lệ 20%, 60% Có giám sát Co-training Cải thiện Phân lớp tính chủ quan ps9 ss3 64,44% 62,92% 66,54% 64,18% 2,09% 1,26% Phân lớp tính phân cực ss3 wc2 67,45% 67,49% 67,54% 67,32% 0,09% -0,17% Trang 61 Bảng 4.9 Kết Thực nghiệm chọn L, U theo tỉ lệ 30%, 50% Có giám sát Co-training Cải thiện Phân lớp tính chủ Phân lớp tính phân cực quan ps9 ss3 ss3 wc2 64,23% 62,31% 67,36% 67,28% 64,62% 61,83% 67,36% 67,32% 0,39% -0,48% 0,00% 0,04% Bảng 4.10 Kết Thực nghiệm chọn L, U theo tỉ lệ 40%, 40% Phân lớp tính chủ quan Phân lớp tính phân cực ps9 ss3 ss3 wc2 65,39% 64,00% 68,70% 68,70% Có giám sát 65,83% 64,65% 68,70% 68,70% Co-training 0,43% 0,65% 0,00% 0,00% Cải thiện Bảng 4.11 Kết Thực nghiệm chọn L, U theo tỉ lệ 50%, 30% Phân lớp tính chủ quan Phân lớp tính phân cực ps9 ss3 ss3 wc2 64,05% 63,40% 67,32% 67,28% Có giám sát 63,40% 62,79% 67,32% 67,23% Co-training -0,65% -0,61% 0,00% -0,04% Cải thiện Bảng 4.12 Kết Thực nghiệm chọn L, U theo tỉ lệ 60%, 20% Phân lớp tính chủ quan Phân lớp tính phân cực ps9 ss3 ss3 wc2 64,10% 62,53% 66,58% 66,49% Có giám sát 64,49% 62,79% 66,58% 66,54% Co-training 0,39% 0,26% 0,00% 0,04% Cải thiện Từ kết trên, ta thấy phân lớp tính phân cực đƣợc cải thiện nhiều thực với Co-training chọn tỉ lệ L, U 20%, 60% Với phân lớp tính phân cực cảm nghĩ tỉ lệ tốt L, U 10%, 70% Trang 62 KẾT LUẬN 5.1 Kết luận 5.1.1 Những kết đạt Luận văn thực hệ thống khai phá liệu cụ thể toán khai phá quan điểm với giai đoạn xây dựng mơ hình đánh giá mơ hình Trong đó, hầu hết tất bƣớc đƣợc thực cách tự động từ tiền xử lý liệu, đến tổng hợp kết Thông qua thực nghiệm cụ thể, đánh giá ảnh hƣởng đặc trƣng, tham số phân lớp SVM đến chất lƣợng phân lớp (Thực nghiệm 1) Qua đó, tìm đặc trƣng tốt nhất, tham số phân lớp SVM tốt cho toán phân lớp với cách chọn liệu cụ thể Đã đánh giá hiệu thuật toán học bán giám sát, cụ thể Cotraining, so với học có giám sát Thơng qua thực nghiệm, tìm đƣợc cách chọn tập huấn luyện có nhãn cho hiệu đƣợc cải thiện so với học có giám sát 5.1.2 Nhược điểm Độ xác phân lớp chƣa đƣợc cao (cao 68,70%, nhƣ Bảng 4.10) Hiệu phân lớp dựa học bán giám sát, Cotraining, chƣa cao Độ xác đƣợc cải thiện cao 2,09% (Bảng 4.6 Bảng 4.8), thời gian xử lý Co-training lớn nhiều lần so với học có giám sát Chƣa đƣa nhiều thực nghiệm với nhiều đặc trƣng, tham số Co-training, tham số phân lớp SVM Cũng nhƣ chƣa thực nghiệm phân lớp sở khác với SVM Hiệu Co-training có đƣợc cải thiện so với học có giám sát nhƣng khơng phải trƣờng hợp Do đó, đƣa đƣợc nhận định bƣớc đầu, chƣa thể đánh giá toàn diện Co-training toán khai phá quan điểm mức câu 5.2 Hƣớng phát triển Để đƣa đƣợc đánh giá tồn diện thuật tốn Co-training nhƣ ứng dụng đƣợc mơ hình vào thực tế, cần tiếp tục thực theo hai hƣớng sau 5.2.1 Khắc phục nhược điểm Trang 63 Để khắc phục độ xác thấp, cần thực nghiệm với nhiều loại đặc trƣng khác Về tốc độ xử lý Co-training thấp, cần thực nghiệm nhiều tham số Cotraining (p, n) khác để tìm tham số tốt thỏa mãn hai tiêu chí độ xác tốc độ xử lý Thực nghiệm với nhiều kho liệu khác để so sánh với kết thực kho MPQA2.0 từ đánh giá xác mơ hình 5.2.2 Mở rộng, ứng dụng cho tiếng Việt Hiện thao tác kết khai phá liệu đƣợc thực liệu tiếng Anh, từ liệu ban đầu kho MPQA2.0 mơ hình xây dựng đƣợc, nên không ứng dụng đƣợc cho liệu tiếng Việt Để ứng dụng đƣợc cho liệu tiếng Việt, có hƣớng cần xem xét: (1) dùng mơ hình đƣợc huấn luyện tập liệu tiếng Anh liệu tiếng Việt cần đƣợc dịch từ tiếng Việt sang tiếng Anh; (2) xây dựng kho liệu tiếng Việt phục vụ huấn luyện đánh giá toán khai phá quan điểm Trang 64 TÀI LIỆU THAM KHẢO Tiếng Việt Hà Quang Thụy (Chủ biên), Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Giáo trình Khai phá Dữ liệu Web, Nhà xuất Giáo Dục Việt Nam, tr.221-223, 231233, 235-236, 238 Vũ Thanh Nguyên, Trang Nhật Quang (2009), Ứng dụng thuật toán phân lớp rút trích thơng tin văn FSVM Internet Tạp chí Phát triển KH&CN, tập 12, số 05 – 2009 Tiếng Anh Lizhen Qu, Cigdem Toprak, Niklas Jakob, Iryna Gurevych (2008), Sentence Level Subjectivity and Sentiment Analysis Experiments in NTCIR-7MOAT Challenge, Tokyo, Japan Avrim Blum, Tom Mitchell (1998), Combining Labeled and Unlabeled Data with Co-Training, Carnegie Mellon University, Pittsburgh, USA Missen, M.M.S.(2009), Challenges for Sentence Level Opinion Detection in Blogs, Toulouse, France Tom M Mitchell (1997), Machine Learning, McGraw Hill, USA Soumen Chakrabarti (2003), Mining the Web: discovering knowledge from hypertext data, Morgan Kaufmann Publishers, USA JanyceWiebe, TheresaWilson, ClaireCardie (2005), Annotating Expressions of Opinions and Emotions in Language, Pittsburgh, USA Theresa Ann Wilson (2008), Fine-grained Subjectivity and Sentiment Analysis: Recognizing the Intensity, Polarity, and Attitudes of Private States, Ph.D thesis, University of Pittsburgh Trang 65 PHỤ LỤC DANH SÁCH TỪ DỪNG TRONG THƢ VIỆN PATTERN2.0 a again alongside amid another anywhere as at backs become being best but case clearly daren't differently done during ending every excepting far first full gave given goods grouped hasn't he'll herself him however aboard against already amidst anti are ask aught bar becomes beings better by cases come despite down each ends everybody excluding felt five fully general gives got grouping have he's high himself i about all also among any area asked away barring been below between came certain concerning did does down early enough everyone face few following further generally go great groups haven't her high his i'd above almost although amongst anybody areas asking back be before beneath beyond can certainly considering didn't doesn't downed either even everything faces fewer for furthered get goes greater had having here high hisself i'll across alone always an anyone aren't asks backed became began beside big can't circa could differ doing downing end evenly everywhere fact find four furthering gets going greatest hadn't he here's higher how i'm after along am and anything around astride backing because behind besides both cannot clear couldn't different don't downs ended ever except facts finds from furthers give good group has he'd hers highest how's i've Trang 66 idem inside is just known latest like make member minus much near needs newest if interest isn't keep knows least likely making members more must necessary neither next ilk interested it keeps large less long man men most mustn't need never no important interesting it's kind largely let longer many might mostly my needed new nobody noone nowhere old oneself opens orders our over past plus present put right same seconds seen she show since somebody states sure nor number older only opposite other ours own pending point presented puts right save see sees she'd showed small someone still take not numbers oldest onto or others ourself part per pointed presenting quite room saw seem self she'll showing smaller something still taken nothing of on open order otherwise ourselves parted perhaps pointing presents rather rooms say seemed several she's shows smallest somewhat such than in interests its knew last let's longest may mightn't mr myself needing new non notwithstandin g off once opened ordered ought out parting place points problem really round says seeming shall should side so somewhere suchlike that including into itself know later lets made me mine mrs naught needn't newer none now often one opening ordering oughtn't outside parts places possible problems regarding said second seems shan't shouldn't sides some state sundry that's Trang 67 the then they'd things though thus too turned underneath us very wants we'd went whatever thee there they'll think thought thyself took turning unless use via was we'll were whatsoeve r their there's they're thinks thoughts till tother turns unlike used vis-a-vis wasn't we're weren't theirs therefore they've this three to toward twain until uses want way we've what them these thine those through today towards two up various wanted ways well what's themselve s they thing thou throughout together turn under upon versus wanting we wells whatall when's where where's whether which whichever who's whomsoeve r with working year you'd younger whoever whole whose within works years you'll youngest whosoever without worth yet you're your whereas whichsoeve r wherewith when wherewitha l while who whom why won't would yon you've yours whomever why's work wouldn't yonder you-all yourself whomso will worked ye you young yourselves ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VÕ VĂN THƢỞNG NGHIÊN CỨU GIẢI THUẬT HỌC CỘNG TÁC (COTRAINING) VÀ ỨNG DỤNG VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM Ngành: Công nghệ Thông... sát, thuật tốn học bán giám sát hƣớng nghiên cứu có nhiều ứng dụng thực tế Đề tài hƣớng tới tìm hiểu thuật tốn học cộng tác - thuật toán học bán giám sát - ứng dụng vào toán khai phá quan điểm. .. nêu Chƣơng Trang 33 CHƢƠNG – ỨNG DỤNG HỌC BÁN GIÁM SÁT VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM 3.1 Tổng quát hƣớng tiếp cận giải toán Bài toán khai phá quan điểm mà đề tài giải đƣợc mơ tả nhƣ sau: Cho

Định dạng
Số trang	69
Dung lượng	1,66 MB