Nghiên cứu giải thuật học cộng tác (co training) và ứng dụng vào bài toán khai phá quan điểm

70 14 0
Nghiên cứu giải thuật học cộng tác (co training) và ứng dụng vào bài toán khai phá quan điểm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VÕ VĂN THƢỞNG NGHIÊN CỨU GIẢI THUẬT HỌC CỘNG TÁC (COTRAINING) VÀ ỨNG DỤNG VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VÕ VĂN THƢỞNG NGHIÊN CỨU GIẢI THUẬT HỌC CỘNG TÁC (COTRAINING) VÀ ỨNG DỤNG VÀO BÀI TỐN KHAI PHÁ QUAN ĐIỂM Ngành: Cơng nghệ Thơng tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS.Nguyễn Trí Thành Hà Nội - 2012 Trang LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu giải thuật học cộng tác ứng dụng vào toán khai phá quan điểm” cơng trình nghiên cứu tơi dƣới hƣớng dẫn khoa học TS Nguyễn Trí Thành Các nội dung cơng bố kết trình bày luận văn hoàn toàn trung thực chƣa đƣợc cá nhân hay tổ chức không liên quan cơng bố cơng trình Các nguồn tài liệu tham khảo đƣợc rõ trích dẫn danh mục tài liệu tham khảo Trang MỤC L LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU CHƢƠNG – GIỚI THIỆU 1.1 Lý chọn đề tài 1.2 Mục tiêu, phạm vi nghiên cứu củ CHƢƠNG – KHAI PHÁ QUAN ĐIỂM VÀ ỨNG DỤNG 2.1 Khai phá quan điểm (Opinion mi 2.1.1 Các khái niệm liên quan 2.1.2 Khai phá quan điểm 2.1.3 Động lực Ứng dụng Khai phá quan điểm 2.1.4 Thách thức Khai phá quan điểm 2.1.5 Các mức văn toán khai phá quan điểm 2.2 Các thuật tốn học có giám sát 2.2.1 Học má 2.2.2 Học có giám sát - Supervised Learning 2.2.3 Thuật tốn học có giám sát Support Vector Machines (SVM) 2.2.4 Các thuật tốn học có giám sát khác 2.3 Các thuật toán học bán giám sát 2.3.1 Thuật to 2.3.2 Thuật toán bán giám sát cực đại EM đại phƣơng 2.3.3 Thuật to 2.4 Phƣơng pháp đánh giá phân lớ 2.5 Kết luận CHƢƠNG – ỨNG DỤNG HỌC BÁN GIÁM SÁT VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM 3.1 Tổng quát hƣớng tiếp cận g 3.2 Lựa chọn liệu 3.2.1 3.2.2 Kho tài SentiW Trang 3.3 Trích chọn đặc trƣng xác định 3.3.1.Đặc tr 3.3.2.Đặc tr 3.3.3.Đặc tr 3.3.4.Đặc tr 3.3.5.Xác đ 3.3.6.Xác đ 3.4 Tiền xử lý liệu 3.5 Chuẩn bị liệu 3.5.1.Thống 3.5.2.Các ti 3.5.3.Các cá 3.6 Huấn luyện, đánh giá 3.6.1.Thƣ v 3.6.2.Học c 3.6.3.Học b 3.7 Kết luận CHƢƠNG – THỰC NGHIỆM 4.1 Thực nghiệm 4.2 Thực nghiệm 4.3 Thực nghiệm KẾT LUẬN 5.1 Kết luận 5.1.1.Những 5.1.2.Nhƣợ 5.2 Hƣớng phát triển 5.2.1.Khắc 5.2.2.Mở rộ TÀI LIỆU THAM KHẢO PHỤ LỤC Trang DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ICML/COLT: International Conference on Machine Learning and Annual Conference on Learning Theory TFIDF: Term Frequency Inverse Document Frequency Trang DANH MỤC CÁC BẢNG Bảng 2.1 Cách xác định giá trị TP, TN, FP, FN 30 Bảng 3.1 Bảng danh sách từ với giá trị SentiWordNet 41 Bảng 3.2 Bảng mơ tả chi tiết kí hiệu từ loại 42 Bảng 3.3 Xác định từ loại từ câu .44 Bảng 3.4 Các thông số liên quan đến đặc trƣng TFIDF 45 Bảng 3.5 Thông số TFIDF từ thuộc câu s1 46 Bảng 3.6 Thông số TFIDF từ thuộc câu s2 46 Bảng 3.7 Thống kê liệu tập ORI 49 Bảng 3.8 Thống kê liệu tập ULA 49 Bảng 3.9 Thống kê liệu tập XBANK 50 Bảng 3.10 Chọn liệu cho Thực nghiệm 51 Bảng 3.11 Chọn liệu cho Thực nghiệm 52 Bảng 3.12 Chọn liệu cho Thực nghiệm 53 Bảng 4.1 Kết Thực nghiệm theo nhãn tính chủ quan 56 Bảng 4.2 Kết Thực nghiệm theo nhãn tính phân cực cảm nghĩ .57 Bảng 4.3 Các đặc trƣng, thông số tốt cho toán phân lớp 57 Bảng 4.4 Số lƣợng mẫu huấn luyện/đánh giá dùng cho Thực nghiệm 58 Bảng 4.5 Kết Thực nghiệm theo nhãn tính chủ quan 59 Bảng 4.6 Kết Thực nghiệm theo nhãn tính phân cực cảm nghĩ .59 Bảng 4.7 Kết Thực nghiệm chọn L, U theo tỉ lệ 10%, 70% 60 Bảng 4.8 Kết Thực nghiệm chọn L, U theo tỉ lệ 20%, 60% 60 Bảng 4.9 Kết Thực nghiệm chọn L, U theo tỉ lệ 30%, 50% 61 Bảng 4.10 Kết Thực nghiệm chọn L, U theo tỉ lệ 40%, 40% 61 Bảng 4.11 Kết Thực nghiệm chọn L, U theo tỉ lệ 50%, 30% 61 Bảng 4.12 Kết Thực nghiệm chọn L, U theo tỉ lệ 60%, 20% 61 Trang DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 2.1 Minh họa “Máy học” 17 Hình 2.2 Minh họa hƣớng nghiên cứu học máy 18 Hình 2.3 Mối quan hệ siêu phẳng phân cách .21 Hình 2.4 Siêu phẳng tối ƣu biên 22 Hình 3.1 Mơ hình minh họa bƣớc giải toán 34 Hình 3.2 Cấu trúc lƣu trữ kho liệu MPQA2.0 37 Hình 3.3 Minh họa vị trí từ có tính cảm nghĩ tiêu cực SentiWordNet 40 Hình 3.4 Tiền xử lý liệu 48 Hình 3.5 Chuẩn bị liệu 49 Hình 3.6 Huấn luyện, đánh giá 53 Trang MỞ ĐẦU kiến đánh giá khách hàng, ngƣời dùng, cá nhân sản phẩm, dịch vụ, sách hay vấn đề tồn với số lƣợng lớn kho lƣu trữ công ty, mạng internet Đối với công ty, việc khai thác lƣợng thông tin giúp họ hiểu rõ khách hàng, sản phẩm, dịch vụ Với tổ chức, phủ nguồn cung cấp thơng tin hữu ích hỗ trợ cho việc định, điều chỉnh sách Ý Bên cạnh thuật tốn học có giám sát, thuật toán học bán giám sát hƣớng nghiên cứu có nhiều ứng dụng thực tế Đề tài hƣớng tới tìm hiểu thuật tốn học cộng tác - thuật toán học bán giám sát - ứng dụng vào toán khai phá quan điểm Do đặc điểm cần lƣợng nhỏ liệu đƣợc gắn nhãn với lƣợng lớn liệu chƣa đƣợc gắn nhãn làm liệu huấn luyện Điều giúp cho việc thu thập, gắn nhãn cho tập liệu huấn luyện tốn Những nghiên cứu, luận văn liên quan đến phân tích tính chủ quan phân tích cảm nghĩ nhiều mức khác nhƣ liên quan đến kỹ thuật Co-training xuất nhiều Tuy nhiên việc kết hợp chúng lại với nhau, dùng kỹ thuật Co-training vào phân tích tính chủ quan phân tích cảm nghĩ, chƣa đƣợc phổ biến nhiều qua báo, tiếng Việt tiếng Anh, đƣợc cơng khai mạng Ngồi việc phân tích mức câu trở ngại so với mức tài liệu [5] Đề tài luận văn định hƣớng giải toán phân lớp câu cảm nghĩ nhƣ sau: Cho tập văn gồm nhiều câu văn tiếng Anh Phân lớp xem câu câu mô tả cảm nghĩ, câu không Đối với câu mô tả cảm nghĩ, dùng phân lớp phân cực để xác định câu mơ tả cảm nghĩ tích cực, tiêu cực hay trung lập Trong đó, phân lớp đƣợc xây dựng dựa kỹ thuật Co-training Trên sở định hƣớng đó, nội dung trình bày báo cáo luận văn bao gồm: (1) lý do, mục tiêu đề tài đề tài nghiên cứu liên quan – Chƣơng 1; (2) trình bày kiến thức sở liên quan – Chƣơng 2; (3) cách tiếp cận giải toán – Chƣơng 3; (4) thực nghiệm kết - Chƣơng 4; (5) kết luận hƣớng phát triển đề tài Trang CHƢƠNG – GIỚI THIỆU 1.1 Lý chọn đề tài Khai phá liệu (KPDL) chuyên ngành mới, thu hút đƣợc nhiều nghiên cứu thời gian gần Hƣớng tiếp cận giải vấn đề dựa KPDL hoàn toàn khác so với cách xử lý Cơ sở liệu (CSDL) truyền thống Trong xử lý CSDL truyền thống, thao tác xử lý truy xuất đƣa thơng tin có dƣới dạng liệt kê giá trị dựa tính tốn, thống kê giá trị ghi báo cáo gồm tập hợp nhiều giá trị ghi, giá trị tính tốn, thống kê khác KPDL đƣa kết tri thức tiềm ẩn tập liệu mà xử lý truyền thống nhƣ trƣớc truy vấn đƣợc Trong KPDL, liệu thích hợp vấn đề quan trọng để khám phá đƣợc tri thức có giá trị Tùy vào cấu trúc liệu mà KPDL có tên gọi tƣơng ứng thích hợp Riêng liệu text đƣợc gọi Khai phá text Dữ liệu dạng text dạng liệu tự nhiên chiếm tỉ lệ nhiều dạng liệu mà ngƣời tạo Trên Internet, có khoảng tỉ tài liệu dạng text đƣợc đánh số máy tìm kiếm phổ biến (Sullivan, 2005) Trong công ty, lƣợng lớn liệu text thƣ điện tử, ghi chú, trang cổng thông tin, tài liệu cơng ty đƣợc số hóa Một số ƣớc lƣợng có đến 85% lƣợng liệu công ty đƣợc lƣu trữ dƣới dạng tài liệu text khơng có cấu trúc (McKnight, 2005) Việc khai thác tri thức từ lƣợng thông tin yêu cầu thiết thực nhân loại Dữ liệu text thƣờng ẩn chứa nhiều tri thức có giá trị mà ngƣời tạo nhằm chia sẻ với ngƣời kinh nghiệm trãi qua Do đó, cần đƣa định gì, thƣờng tham khảo đến kinh nghiệm ngƣời trƣớc cách tìm kiếm Internet Với cơng cụ Khai phá quan điểm, việc trích xuất tri thức đƣợc thực cách tự động có hệ thống Giúp nắm bắt đƣợc khía cạnh liên quan đến quan điểm cơng chúng vấn đề cần quan tâm Từ giúp cho việc định có sở vững Với lƣợng liệu text sẵn có lớn nhƣ cộng thêm nhu cầu ngƣời muốn khai thác hay phân tích khía cạnh liên quan đến quan điểm việc nghiên cứu tốn khai phá quan điểm chắn có nhiều ứng dụng tƣơng lai Trang 54 Do ƣu thuật toán phân lớp SVM toán khai phá quan điểm nên SVM đƣợc chọn làm phân lớp sở cho hƣớng tiếp cận Các thực nghiệm luận văn đƣợc cài đặt dựa thƣ viện LibSVM Cụ thể, gói biên dịch LibSVM cho Windows đƣợc gọi từ kịch phân lớp tƣơng ứng liệu đƣợc chuẩn bị 3.6.1 Thư viện LibSVM LibSVM phần mềm đơn giản, dễ sử dụng, hiệu để giải toán phân lớp hồi quy SVM Nó giải tốn phân lớp CSVM, phân lớp nu-SVM Trong luận văn này, phiên đƣợc sử dụng LibSVM3.1 Để giảm thiểu số lƣợng tham số phân lớp SVM liên quan, thực nghiệm đƣợc tiến hành với kiểu phân lớp C-SVM Để huấn luyện, ta dùng cú pháp svm-train [options] training_set_file [model_file] Trong đó, tham số options sau liên quan đến phân lớp: -s svm_type : kiểu SVM (mặc định 0) C-SVC nu-SVC -t kernel_type : kiểu hàm kernel (mặc định 2) – hàm tuyến tính: u'*v – hàm đa thức: (gamma*u'*v + coef0)^degree – hàm radial bản: exp(-gamma*|u-v|^2) sigmoid: tanh(gamma*u'*v + coef0) -b probability_estimates : có ước lượng xác suất hay khơng, thiết lập (mặc định 0) File huấn luyện training_set_file theo cấu trúc nhƣ sau: : : Mỗi dòng mẫu huấn luyện kết thúc kí tự xuống dịng số ngun lớp số giá trị vector () và tăng dần lên đơn vị đến hết Cú pháp dùng cho đánh giá svm-predict [options] test_file model_file output_file Trong đó, tham số options sau liên quan đến phân lớp: -b probability_estimates : có ước lượng xác suất hay không, thiết lập (mặc định 0) Trang 55 model_file : file mơ hình sinh rởi svm-train test_file : file đánh giá cần dự đốn, có cấu trúc giống file huấn luyện output_file : file kết dự đoán svm-predict 3.6.2 Học có giám sát Hai tốn phân lớp toán khai phá quan điểm đƣợc thực thi dựa thƣ viện LibSVM Trong đó, phân lớp tính chủ quan phân lớp nhị phân phân lớp tính phân cực cảm nghĩ phân lớp đa lớp (cụ thể lớp) Thực nghiệm 1, tất đặc trƣng đƣợc đánh giá để tìm đặc trƣng tốt cho nhãn phân lớp Các Thực nghiệm đƣợc tiến hành đặc trƣng tốt số đặc trƣng Thực nghiệm Các tham số SVM đƣợc chọn từ Thực nghiệm dùng cho Thực nghiệm theo cách tƣơng tự nhƣ Ở 3.6.3 Học bán giám sát Co-training Không phụ thuộc vào toán phân lớp (hay nhãn phân lớp), thuật toán Co-training đƣợc cài đặc với đặc trƣng tốt (khung nhìn) tham số phân lớp SVM tối ƣu tìm đƣợc từ Thực nghiêm Theo cách phân loại Cotraining nhƣ mục 2.3.1, thuật tốn Co-training đƣợc cài đặt luận văn Co-training dựa việc phân chia khung nhìn 3.7 Kết luận Chƣơng trình bày từ mơ hình tổng qt giải tốn Trong đó, bƣớc có mục tiêu riêng, nên cần thực nghiệm riêng Các mục từ 3.2 đến 3.6 trình bày chi tiết bƣớc khai phá liệu mục tiêu (thực nghiệm) với cách trích chọn đặc trƣng, cách xác định nhãn từ sơ đồ đánh dấu (annotation scheme) kho liệu MPQA2.0 Ngoài ra, thƣ viện LibSVM đƣợc dùng nhƣ phân lớp sở cho hai cách tiếp cận dựa học có giám sát học bán giám sát Các hƣớng dẫn liên quan đến thƣ viện LibSVM đƣợc trích dẫn từ tài liệu hƣớng dẫn Trang 56 CHƢƠNG – THỰC NGHIỆM Chƣơng trình bày kết thực nghiệm 4.1 Thực nghiệm Theo cách chọn liệu cho Thực nghiệm (Bảng 3.10), sau tiến hành huấn luyện dự đốn, ta có kết độ xác cho phân lớp tính chủ quan phân lớp tính phân cực cảm nghĩ lần lƣợt nhƣ Bảng 4.1 Bảng 4.2 Bảng 4.1 Kết Thực nghiệm theo nhãn tính chủ quan Độ xác Phân lớp tính chủ quan Đặc trƣng\S.T wc2 ss2 ss3 ps0 ps1 ps2 ps3 ps4 ps5 ps6 ps7 ps8 ps9 Trang 57 Bảng 4.2 Kết Thực nghiệm theo nhãn tính phân cực cảm nghĩ Độ xác Phân lớp tính phân cực Đặc trƣng\S.T wc2 ss2 ss3 ps0 ps1 ps2 ps3 ps4 ps5 ps6 ps7 ps8 ps9 Trong thực nghiệm 1, tỉ lệ Số mẫu huấn luyện / Số mẫu đánh giá = 11.111 / 2.292 = 4,85 Trong Bảng 4.1 Bảng 4.2, cột “max” độ xác cao theo nhóm đặc trƣng (SS, PS, WC) Căn vào giá trị max (đƣợc in đậm nghiêng), ta xác định đƣợc đặc trƣng tham số phân lớp SVM (cột “S.T”) tốt Theo đó, đặc trƣng tốt tham số phân lớp SVM tối ƣu (S.T) cho phân lớp tính chủ quan/tính phân cực cảm nghĩ đƣợc chọn nhƣ bảng 4.3 dƣới Bảng 4.3 Các đặc trưng, thơng số tốt cho tốn phân lớp Phân lớp Tính chủ quan Phân lớp Tính phân cực cảm nghĩ 4.2 Thực nghiệm Sử dụng tập huấn luyện có nhãn/đánh giá cho học có giám sát lẫn học bán giám sát Các đặc trƣng, tham số phân lớp SVM đƣợc thiết lập theo Trang 58 Bảng 4.3 Mục đích xem xét ảnh hƣởng số lƣợng từ khóa tối thiểu câu tập huấn luyện có nhãn đến chất lƣợng học bán giám sát Tham số Co-training với phân lớp tính chủ quan (nhị phân) đƣợc thiết lập theo tỉ lệ mẫu dƣơng/mẫu âm tập huấn luyện ORI: p=15, n=15 Với phân lớp tính phân cực cảm nghĩ (3 lớp), tham số đƣợc thiết lập: p=7, n=3, neu=20 Với cách chọn liệu nhƣ Hình 3.11, ta có thống kê số lƣợng mẫu huấn luyện/đánh giá nhƣ Bảng 4.4 độ xác sau đánh giá nhƣ Bảng 4.5 Bảng 4.6 Bảng 4.4 Số lượng mẫu huấn luyện/đánh giá dùng cho Thực nghiệm Trang 59 Bảng 4.5 Kết Thực nghiệm theo nhãn tính chủ quan MinKW\ Khung nhìn Độ xác phân lớp tính chủ quan đƣợc cải thiện nhiều (ở mức 0,96% 1,31%, đƣợc in đậm nghiêng) chọn câu có từ khóa tối thiểu vào tập huấn luyện có nhãn Bảng 4.6 Kết Thực nghiệm theo nhãn tính phân cực cảm nghĩ MinKW\ Khung nhìn Trang 60 Độ xác phân lớp tính phân cực cảm nghĩ đƣợc cải thiện nhiều nhất, đƣợc in đậm nghiêng, chọn câu có từ khóa tối thiểu vào tập huấn luyện có nhãn Tóm lại, lựa chọn tập liệu có nhãn cho Co-training với tập liệu ORI nên chọn câu có số từ khóa tối thiểu Lúc đó, hiệu Co-training đƣợc cải thiện đáng kể so với tiếp cận học có giám sát 4.3 Thực nghiệm Với tỉ lệ chọn tập L, U, thực nghiệm đƣợc tiến hành lần Tham số Co-training đƣợc thiết lập (p=15,n=15) cho phân lớp tính chủ quan (p=7, n=3, neu=20) cho phân lớp tính phân cực cảm nghĩ Kết trung bình lần chạy theo tỉ lệ nhƣ Bảng 4.7 đến 4.12 Bảng 4.7 Kết Thực nghiệm chọn L, U theo tỉ lệ 10%, 70% Có giám sát Co-training Cải thiện Bảng 4.8 Kết Thực nghiệm chọn L, U theo tỉ lệ 20%, 60% Có giám sát Co-training Cải thiện Trang 61 Bảng 4.9 Kết Thực nghiệm chọn L, U theo tỉ lệ 30%, 50% Có giám sát Co-training Cải thiện Bảng 4.10 Kết Thực nghiệm chọn L, U theo tỉ lệ 40%, 40% Có giám sát Co-training Cải thiện Bảng 4.11 Kết Thực nghiệm chọn L, U theo tỉ lệ 50%, 30% Có giám sát Co-training Cải thiện Bảng 4.12 Kết Thực nghiệm chọn L, U theo tỉ lệ 60%, 20% Có giám sát Co-training Cải thiện Từ kết trên, ta thấy phân lớp tính phân cực đƣợc cải thiện nhiều thực với Co-training chọn tỉ lệ L, U 20%, 60% Với phân lớp tính phân cực cảm nghĩ tỉ lệ tốt L, U 10%, 70% Trang 62 KẾT LUẬN 5.1 Kết luận 5.1.1 Những kết đạt Luận văn thực hệ thống khai phá liệu cụ thể toán khai phá quan điểm với giai đoạn xây dựng mơ hình đánh giá mơ hình Trong đó, hầu hết tất bƣớc đƣợc thực cách tự động từ tiền xử lý liệu, đến tổng hợp kết Thông qua thực nghiệm cụ thể, đánh giá ảnh hƣởng đặc trƣng, tham số phân lớp SVM đến chất lƣợng phân lớp (Thực nghiệm 1) Qua đó, tìm đặc trƣng tốt nhất, tham số phân lớp SVM tốt cho toán phân lớp với cách chọn liệu cụ thể Đã đánh giá hiệu thuật toán học bán giám sát, cụ thể Cotraining, so với học có giám sát Thơng qua thực nghiệm, tìm đƣợc cách chọn tập huấn luyện có nhãn cho hiệu đƣợc cải thiện so với học có giám sát 5.1.2 Nhược điểm Độ xác phân lớp chƣa đƣợc cao (cao 68,70%, nhƣ Bảng 4.10) Hiệu phân lớp dựa học bán giám sát, Cotraining, chƣa cao Độ xác đƣợc cải thiện cao 2,09% (Bảng 4.6 Bảng 4.8), thời gian xử lý Co-training lớn nhiều lần so với học có giám sát Chƣa đƣa nhiều thực nghiệm với nhiều đặc trƣng, tham số Cotraining, tham số phân lớp SVM Cũng nhƣ chƣa thực nghiệm phân lớp sở khác với SVM Hiệu Co-training có đƣợc cải thiện so với học có giám sát nhƣng khơng phải trƣờng hợp Do đó, đƣa đƣợc nhận định bƣớc đầu, chƣa thể đánh giá toàn diện Co-training toán khai phá quan điểm mức câu 5.2 Hƣớng phát triển Để đƣa đƣợc đánh giá tồn diện thuật tốn Co-training nhƣ ứng dụng đƣợc mơ hình vào thực tế, cần tiếp tục thực theo hai hƣớng sau 5.2.1 Khắc phục nhược điểm Trang 63 Để khắc phục độ xác thấp, cần thực nghiệm với nhiều loại đặc trƣng khác Về tốc độ xử lý Co-training thấp, cần thực nghiệm nhiều tham số Cotraining (p, n) khác để tìm tham số tốt thỏa mãn hai tiêu chí độ xác tốc độ xử lý Thực nghiệm với nhiều kho liệu khác để so sánh với kết thực kho MPQA2.0 từ đánh giá xác mơ hình 5.2.2 Mở rộng, ứng dụng cho tiếng Việt Hiện thao tác kết khai phá liệu đƣợc thực liệu tiếng Anh, từ liệu ban đầu kho MPQA2.0 mơ hình xây dựng đƣợc, nên không ứng dụng đƣợc cho liệu tiếng Việt Để ứng dụng đƣợc cho liệu tiếng Việt, có hƣớng cần xem xét: (1) dùng mơ hình đƣợc huấn luyện tập liệu tiếng Anh liệu tiếng Việt cần đƣợc dịch từ tiếng Việt sang tiếng Anh; (2) xây dựng kho liệu tiếng Việt phục vụ huấn luyện đánh giá toán khai phá quan điểm Trang 64 TÀI LIỆU THAM KHẢO Tiếng Việt Hà Quang Thụy (Chủ biên), Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Giáo trình Khai phá Dữ liệu Web, Nhà xuất Giáo Dục Việt Nam, tr.221-223, 231233, 235-236, 238 Vũ Thanh Nguyên, Trang Nhật Quang (2009), Ứng dụng thuật toán phân lớp rút trích thơng tin văn FSVM Internet Tạp chí Phát triển KH&CN, tập 12, số 05 – 2009 Tiếng Anh Lizhen Qu, Cigdem Toprak, Niklas Jakob, Iryna Gurevych (2008), Sentence Level Subjectivity and Sentiment Analysis Experiments in NTCIR-7MOAT Challenge, Tokyo, Japan Avrim Blum, Tom Mitchell (1998), Combining Labeled and Unlabeled Data with Co-Training, Carnegie Mellon University, Pittsburgh, USA Missen, M.M.S.(2009), Challenges for Sentence Level Opinion Detection in Blogs, Toulouse, France Tom M Mitchell (1997), Machine Learning, McGraw Hill, USA Soumen Chakrabarti (2003), Mining the Web: discovering knowledge from hypertext data, Morgan Kaufmann Publishers, USA JanyceWiebe, TheresaWilson, ClaireCardie (2005), Annotating Expressions of Opinions and Emotions in Language, Pittsburgh, USA Theresa Ann Wilson (2008), Fine-grained Subjectivity and Sentiment Analysis: Recognizing the Intensity, Polarity, and Attitudes of Private States, Ph.D thesis, University of Pittsburgh Trang 65 PHỤ LỤC DANH SÁCH TỪ DỪNG TRONG THƢ VIỆN PATTERN2.0 a again alongside amid another anywhere as at backs become being best but case clearly daren't differently done during ending every excepting far first full gave given goods grouped hasn't he'll herself him however idem inside is just known latest like make member minus much near needs newest noone nowhere old oneself opens orders our over past plus present put right same seconds seen she show since somebody states sure the then they'd things though thus too turned underneath us very wants we'd went whatever whereas whichsoeve r whom why won't would yon you've yours ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VÕ VĂN THƢỞNG NGHIÊN CỨU GIẢI THUẬT HỌC CỘNG TÁC (COTRAINING) VÀ ỨNG DỤNG VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM Ngành: Công nghệ Thông... CHƢƠNG – KHAI PHÁ QUAN ĐIỂM VÀ ỨNG DỤNG 2.1 Khai phá quan điểm (Opinion mi 2.1.1 Các khái niệm liên quan 2.1.2 Khai phá quan điểm 2.1.3 Động lực Ứng dụng Khai phá quan điểm ... sát, thuật tốn học bán giám sát hƣớng nghiên cứu có nhiều ứng dụng thực tế Đề tài hƣớng tới tìm hiểu thuật tốn học cộng tác - thuật toán học bán giám sát - ứng dụng vào toán khai phá quan điểm

Ngày đăng: 11/11/2020, 21:53

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan