Phân lớp đa nhãn, đa thể hiện và áp dụng trong quản lý danh tiếng

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	38
Dung lượng	2,54 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Thị Thơm PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG LUẬN VĂN THẠC SỸ HÀ NỘI - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Thị Thơm PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy HÀ NỘI – 2015 Lời cảm ơn Trước tiên, em xin bày tỏ lòng biết ơn chân thành sâu sắc tới Thầy giáo, PGS.TS Hà Quang Thụy tận tình bảo, hướng dẫn, động viên giúp đỡ em suốt trình thực đề tài luận văn Em xin gửi lời cảm ơn sâu sắc tới Thầy Cô Khoa Công nghệ thông tin truyền đạt kiến thức quý báu cho em sáu năm học vừa qua Em xin gửi lời cảm ơn tới thầy cô, anh chị, bạn, em sinh viên nhóm “Khai phá liệu” phòng thí nghiệm KT-Sislab đề tài cấp ĐHQGHN GQ.14.13 giúp em nhiều việc hỗ trợ kiến thức chun mơn để hồn thành tốt luận văn Con xin nói lên lòng biết ơn vơ hạn Cha Mẹ nguồn động viên, chăm sóc khích lệ bước đường học vấn Cuối cùng, xin chân thành cảm ơn Anh Chị Bạn Bè, thành viên lớp K53CB, K53CLC K19HTTT ủng hộ, giúp đỡ suốt thời gian học tập giảng đường thực đề tài luận văn Tôi xin chân thành cảm ơn! Hà Nội, ngày 09 tháng 04 năm 2015 Học viên Phan Thị Thơm PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG Phan Thị Thơm Khóa K19HTTT, ngành cơng nghệ thơng tin Tóm tắt Luận văn: Hệ thống quản lý danh tiếng hệ thống quan trọng việc quản lý thương hiệu, sử dụng rộng rãi nhiều công ty tổ chức khác Đối với công ty hay sản phẩm, hệ thống quản lý danh tiếng tiến hành thu thập nhận xét người dùng, phân tích quan điểm nhận xét đấy, tạo tổng kết quan điểm người dùng lớp đặc trưng sản phẩm hay công ty Tuy nhiên, số nhận xét người dùng thường có chứa nhiều nội dung, đa phần liệu đa nhãn đa thể Vì vậy, vấn đề trọng tâm hệ thống quản lý danh tiếng việc xử lý liệu đa nhãn đa thể Theo Zhou cộng sự, 2012 [2], hướng tiếp cận để giải toán phân lớp liệu đa nhãn, đa thể (MIML) sử dụng phương pháp phân rã toán MIML thành tốn đơn giản Trong thuật toán học máy MIML phát triển dựa thuật toán học máy (SVM, Bayes, Boost, ) MIMLSVM, MIML Bayes, MIMLBoost Từ luận văn đề xuất mơ hình phân lớp quan điểm người dùng toán quản lý danh tiếng cách áp dụng MIMLSVM Thực nghiệm miền liệu tập nhận xét người dùng 1000 khách sạn Việt Nam website (http://chudu24.com ) Kết phân lớp áp dụng phương pháp phân lớp thông thường SVM 84.84% kết áp dụng mơ hình phân lớp quan điểm luận văn đề xuất 85.76% Kết cho thấy phương pháp xây dựng mơ hình phân lớp quan điểm áp dụng MIMLSVM có tính hiệu cao Lời cam đoan Tôi xin cam đoan mơ hình phân lớp quan điểm người dùng toán quản lý danh tiếng cách áp dụng MIMLSVM trình bày luận văn thực hướng dẫn PGS.TS Hà Quang Thụy Tất tham khảo từ nghiên cứu liên quan đề nêu nguồn gốc rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày 09 tháng 04 năm 2015 Tác giả Phan Thị Thơm Mục lục Mở đầu .1 Chương 1: Giới thiệu chung quản lý danh tiếng .2 1.1 Tổng quan hệ thống quản lý danh tiếng .2 1.1.1 Hệ thống quản lý danh tiếng .2 1.1.2 Tầm quan trọng hệ thống quản lý danh tiếng 1.2 Bài toán phân lớp liệu đa nhãn đa thể quản lý danh tiếng Tổng kết chương Chương : Tổng quan phân lớp đa nhãn đa thể MIML .8 2.1 Phân lớp đa nhãn đa thể .8 2.2 Phương pháp chuyển đổi toán học máy MIML 10 2.2.1 MIMLSVM 10 2.2.2 MIMLBOOST 13 Tổng kết chương hai 16 Chương 3: Áp dụng phương pháp MIMLSVM tốn quản lý danh tiếng 17 3.1 Mơ tả phương pháp 17 3.2 Mơ hình đề xuất .17 3.3 Pha 1: Huấn luyện mơ hình 18 3.3.1 Tiền xử lý xây dựng vector đặc trưng 18 3.3.2 Chuyển đổi từ MIML thành SIML 19 3.3.3 Chuyển đổi từ SIML thành SISL 19 3.4 Pha 2: Phân lớp sử dụng mơ hình huấn luyện 21 Tổng kết chương ba 22 Chương Thực nghiệm đánh giá 23 4.1 Môi trường công cụ sử dụng thực nghiệm 23 4.1.1 Cấu hình phần cứng 23 4.1.2 Các phần mềm sử dụng .23 4.2 Xây dựng tập liệu thử nghiệm 24 4.3 Thử nghiệm 25 4.4 Kết thực nghiệm 25 4.5 Đánh giá hệ thống 26 Kết luận 27 Tài liệu tham khảo 28 Danh sách hình vẽ Hình 1.1 : Sơ đồ phân loại danh tiếng .2 Hình 1.2: Hai mơ hình hệ thống Hình 1.2: Mơ hình 3(a) 3(b) thực tế Hình 2.1: Dữ liệu đa nhãn đa thể .8 Hình 3.1: Mơ hình đề xuất .18 Hình 3.2 : Bốn tập liệu tổ chức phân lớp theo chuyển đổi nhị phân .20 Hình 4.1: So sánh thực nghiệm 26 Danh sách bảng biểu Bảng 4.1 Cấu hình hệ thống thử nghiệm 23 Bảng 4.2: Công cụ phần mềm sử dụng 23 Bảng 4.3 : Tập liệu thực nghiệm 24 Bảng 4.4: Tập liệu huấn luyện 24 Bảng 4.5: Kết thực nghiệm 25 Bảng 4.6: Kết thực nghiệm 25 Danh sách từ viết tắt MIML Multi instance multi label SVM Support Vector Machine MISL Multi-instance, single-label learning SISL Single-instance single-label learning SIML Single-instance, multi-label learning MIMLSVM Multi instance multi label Support Vector Machine MIMLBOOST Multi instance multi label boost Bước 1: Mỗi mẫu MIML (Xu, Yu) (u=1,2,…,m) chuyển thành |Ƴ| túi đa thể hiện, ví dụ {[(Xu,y1),Ψ(Xu,y1)], [(Xu,y2),Ψ(Xu,y2)], , [(Xu,y|Ƴ|),Ψ(Xu,y|Ƴ|)]} với [(Xu,yv),Ψ(Xu,yv)] (v=1,2, ,|Ƴ|) túi đa thể gán nhãn (Xu,yv)   túi chứa nu số thể hiện, ví dụ {(xu1,yv), (xu2,yv), , xu , , yv }   X u , yv  1, 1 nu nhãn túi Do đó, liệu nguyên thủy MIML chuyển thành liệu đa thể chứa m | Ƴ| túi thứ tự {[(X1,y1),Ψ(X1,y1)], , [(X1,y|Ƴ|),Ψ(X1,y|Ƴ|)], [(X2,y1),Ψ(X2,y1)], , [(Xm,y|Ƴ|),Ψ(Xm,y|Ƴ|)]} [(X(i),y(i)),Ψ(X(i),y(i))] túi thứ i m | Ƴ| túi chứa ni thể Bước 2: Khởi tạo trọng số túi Wi   i  1, 2, , m  У  m У Bước 3: Chạy T vòng lặp với biến chạy t = 1,2, , T Từ tập liệu học hàm học đa thể fMIL thực hàm MIML mong muốn fMIL(X*) = {y|sign[fMIL(X*,y)] = +1} Để thực hàm fMIL tác giả sử dụng thuật toán MIBoosting Để thuận tiện, kí hiệu (B,g) túi [(X,y),Ψ(X,y)], B  ẞ, g  G E kỳ vọng Sau đó, mục tiêu học hàm F(B) cực tiểu hóa độ suy giảm theo hàm mũ bậc túi EẞEG[exp(-gF(B))], sau ước lượng hàm log lẻ bậc túi Pr( g  1| B) log tập Pr( g  1| B) huấn luyện Trong vòng khuếch đại, mục tiêu tăng F(B) thành F(B)+cf(B), ví dụ thêm phân lớp yều mới, để độ suy giảm theo mũ nhỏ Giả sử rằng, tất thể túi độc lập có đóng góp vào nhãn túi, từ thu f ( B)  nB  j h(b j ) h(b j ) 1, 1 dự báo phân lớp bậc thể h(.) cho thể thứ j túi B nB số thể B [2] cho thấy hàm f(B) tốt thêm vào thu tìm kiếm hàm h(.) làm cực đại hóa  i - ni j 1  i  i  i    W g h(b j )  , cho trước trọng số bậc túi W = exp(-gF(B))  ni  Bước 3.a: Bằng việc gán cho thể nhãn túi trọng số tương ứng Wi  / ni , h . học cách cực tiểu hóa lỗi phân lớp bậc thể - Bước 3.b: Với túi thứ i, tính tỷ lễ lỗi ei   0,1 cách đếm số thể bị phân lớp nhầm túi Ví dụ: 14 i  e   ni j 1  ht ( xji  , y i  )    ( X i  , y i  )      ni - Bước 3.c: Nếu e(i) < 0.5 với i 1, 2, , m  У  chuyển sang bước - Bước 3.d: Khi tìm f(B), hệ số nhân c tốt > tìm cách tối ưu hóa trực tiếp độ suy giảm theo hàm mũ:   g  i   h(bji  )   j    i W exp c     ni     i  EẞEG[exp(-gF(B)+c(-gf(B)))] i i   i W   exp (2e   1)c  ei   ni  j h(bji  )  g i  ) (được tính bước 3b) Để tính cực tiểu kỳ vọng này, kỹ thuật tối ưu số phương pháp tựa Newton sử dụng - Bước 3.e: Nếu c

Ngày đăng: 07/12/2017, 16:21

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1] Pierce, J. “The world internet project report 2009”. Technical report, The World Internet Project, 2008

Sách, tạp chí

Tiêu đề:	The world internet project report 2009”. "Technical report

[2] Z.-H. Zhou, M.-L. Zhang, S.-J. Huang, and Y.-F. Li. “Multi-instance multi- label learning”. Artificial Intelligence, 2012, 176(1): 2291-2320

Sách, tạp chí

Tiêu đề:	Multi-instance multi-label learning”. "Artificial Intelligence

[3] Jianjun He, Hong Gu, Zhelong Wang (2012). “Bayesian multi-instance multi- label learning using Gaussian process prior”. Machine Learning, 88 (1-2): 273-295, July 2012

Sách, tạp chí

Tiêu đề:	Bayesian multi-instance multi-label learning using Gaussian process prior”." Machine Learning
Tác giả:	Jianjun He, Hong Gu, Zhelong Wang
Năm:	2012

[4] Yao Wang. “Trust and Reputation Management in Decentralized Systems”. A Thesis Submitted to the College of Graduate Studies and Research, 2010

Sách, tạp chí

Tiêu đề:	Trust and Reputation Management in Decentralized Systems”. "A Thesis Submitted to the College of Graduate Studies and Research

[5] Resnick P. and Zeckhauser R., “Trust among Strangers in Internet Transactions: Empirical Analysis of eBay’s Reputation System”. NBER Workshop on Empirical Studies of Electronic Commerce, 2000

Sách, tạp chí

Tiêu đề:	Trust among Strangers in Internet Transactions: Empirical Analysis of eBay’s Reputation System"”. NBER Workshop on Empirical Studies of Electronic Commerce

[6] Bing Liu. “Opinion Mining & Summarization - Sentiment Analysis”, Tutorial given at WWW-2008, April 21, 2008 in Beijing

Sách, tạp chí

Tiêu đề:	Opinion Mining & Summarization - Sentiment Analysis”, "Tutorial given at WWW-2008

[7] Laudon, J. and Laudon, K. “Management Information Systems: Managing the Digital Firm & Multimedia”. Prentice Hall, 2007, 10th edition

Sách, tạp chí

Tiêu đề:	Management Information Systems: Managing the Digital Firm & Multimedia”. "Prentice Hall

[8] Stair, R. M., Reynolds, G. and Reynolds, G. W. “Principles of Information System”. Course Technology, 2010, 9th edition

Sách, tạp chí

Tiêu đề:	Principles of Information System”. "Course Technology

[9] Hoffman, K., Zage, D. and Nita-Rotaru, C. “A survey of attack and defense techniques for reputation systems”. ACM Computing Surveys, 2009. 42(1), 1-31

Sách, tạp chí

Tiêu đề:	A survey of attack and defense techniques for reputation systems”. "ACM Computing Surveys

[10] Zheng, W. and Jin, L. “Online reputation systems in web 2.0 era”. In Americas Conference on Information Systems (AMCIS) Proceedings, 2009. 296-306

Sách, tạp chí

Tiêu đề:	Online reputation systems in web 2.0 era”. "In Americas Conference on Information Systems (AMCIS) Proceedings

[11] Grigorios Tsoumakas , Ioannis Katakis. “Multi-label Classification : An Overview”. International Journal of Data Warehousing & Mining, 3(3), 1-13, July- September 2007

Sách, tạp chí

Tiêu đề:	Multi-label Classification : An Overview”. "International Journal of Data Warehousing & Mining

[12] Fabrizio Sebastiani. “Machine Learning in Automated Text Categorization”. ACM Computing Survey, 34(1) pages 1-47, 2002

Sách, tạp chí

Tiêu đề:	Machine Learning in Automated Text Categorization”. "ACM Computing Survey

[13] Thi-Ngan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen, Quang-Thuy Ha (2013)."Hidden Topic Models for Multi-label Review Classification: An Experimental Study", Computational Collective Intelligence. Technologies and Applications, Lecture Notes in Computer Science Volume 8083:603-611

Sách, tạp chí

Tiêu đề:	Hidden Topic Models for Multi-label Review Classification: An Experimental Study
Tác giả:	Thi-Ngan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen, Quang-Thuy Ha
Năm:	2013