Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 38 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
38
Dung lượng
2,54 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Thị Thơm PHÂNLỚPĐANHÃN,ĐATHỂHIỆNVÀÁPDỤNGTRONGQUẢNLÝDANHTIẾNG LUẬN VĂN THẠC SỸ HÀ NỘI - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Thị Thơm PHÂNLỚPĐANHÃN,ĐATHỂHIỆNVÀÁPDỤNGTRONGQUẢNLÝDANHTIẾNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy HÀ NỘI – 2015 Lời cảm ơn Trước tiên, em xin bày tỏ lòng biết ơn chân thành sâu sắc tới Thầy giáo, PGS.TS Hà Quang Thụy tận tình bảo, hướng dẫn, động viên giúp đỡ em suốt trình thực đề tài luận văn Em xin gửi lời cảm ơn sâu sắc tới Thầy Cô Khoa Công nghệ thông tin truyền đạt kiến thức quý báu cho em sáu năm học vừa qua Em xin gửi lời cảm ơn tới thầy cô, anh chị, bạn, em sinh viên nhóm “Khai phá liệu” phòng thí nghiệm KT-Sislab đề tài cấp ĐHQGHN GQ.14.13 giúp em nhiều việc hỗ trợ kiến thức chun mơn để hồn thành tốt luận văn Con xin nói lên lòng biết ơn vơ hạn Cha Mẹ nguồn động viên, chăm sóc khích lệ bước đường học vấn Cuối cùng, xin chân thành cảm ơn Anh Chị Bạn Bè, thành viên lớp K53CB, K53CLC K19HTTT ủng hộ, giúp đỡ suốt thời gian học tập giảng đường thực đề tài luận văn Tôi xin chân thành cảm ơn! Hà Nội, ngày 09 tháng 04 năm 2015 Học viên Phan Thị Thơm PHÂNLỚPĐANHÃN,ĐATHỂHIỆNVÀÁPDỤNGTRONGQUẢNLÝDANHTIẾNGPhan Thị Thơm Khóa K19HTTT, ngành cơng nghệ thơng tin Tóm tắt Luận văn: Hệ thống quảnlýdanhtiếng hệ thống quantrọng việc quảnlý thương hiệu, sử dụng rộng rãi nhiều công ty tổ chức khác Đối với công ty hay sản phẩm, hệ thống quảnlýdanhtiếng tiến hành thu thập nhận xét người dùng, phân tích quan điểm nhận xét đấy, tạo tổng kết quan điểm người dùnglớp đặc trưng sản phẩm hay công ty Tuy nhiên, số nhận xét người dùng thường có chứa nhiều nội dung, đaphần liệu đa nhãn đathể Vì vậy, vấn đề trọng tâm hệ thống quảnlýdanhtiếng việc xử lý liệu đa nhãn đathể Theo Zhou cộng sự, 2012 [2], hướng tiếp cận để giải toán phânlớp liệu đanhãn,đathể (MIML) sử dụng phương pháp phân rã toán MIML thành tốn đơn giản Trong thuật toán học máy MIML phát triển dựa thuật toán học máy (SVM, Bayes, Boost, ) MIMLSVM, MIML Bayes, MIMLBoost Từ luận văn đề xuất mơ hình phânlớpquan điểm người dùng toán quảnlýdanhtiếng cách ápdụng MIMLSVM Thực nghiệm miền liệu tập nhận xét người dùng 1000 khách sạn Việt Nam website (http://chudu24.com ) Kết phânlớpápdụng phương pháp phânlớp thông thường SVM 84.84% kết ápdụng mơ hình phânlớpquan điểm luận văn đề xuất 85.76% Kết cho thấy phương pháp xây dựng mơ hình phânlớpquan điểm ápdụng MIMLSVM có tính hiệu cao Lời cam đoan Tôi xin cam đoan mơ hình phânlớpquan điểm người dùng toán quảnlýdanhtiếng cách ápdụng MIMLSVM trình bày luận văn thực hướng dẫn PGS.TS Hà Quang Thụy Tất tham khảo từ nghiên cứu liên quan đề nêu nguồn gốc rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày 09 tháng 04 năm 2015 Tác giả Phan Thị Thơm Mục lục Mở đầu .1 Chương 1: Giới thiệu chung quảnlýdanhtiếng .2 1.1 Tổng quan hệ thống quảnlýdanhtiếng .2 1.1.1 Hệ thống quảnlýdanhtiếng .2 1.1.2 Tầm quantrọng hệ thống quảnlýdanhtiếng 1.2 Bài toán phânlớp liệu đa nhãn đathểquảnlýdanhtiếng Tổng kết chương Chương : Tổng quanphânlớpđa nhãn đathể MIML .8 2.1 Phânlớpđa nhãn đathể .8 2.2 Phương pháp chuyển đổi toán học máy MIML 10 2.2.1 MIMLSVM 10 2.2.2 MIMLBOOST 13 Tổng kết chương hai 16 Chương 3: Ápdụng phương pháp MIMLSVM tốn quảnlýdanhtiếng 17 3.1 Mơ tả phương pháp 17 3.2 Mơ hình đề xuất .17 3.3 Pha 1: Huấn luyện mơ hình 18 3.3.1 Tiền xử lý xây dựng vector đặc trưng 18 3.3.2 Chuyển đổi từ MIML thành SIML 19 3.3.3 Chuyển đổi từ SIML thành SISL 19 3.4 Pha 2: Phânlớp sử dụng mơ hình huấn luyện 21 Tổng kết chương ba 22 Chương Thực nghiệm đánh giá 23 4.1 Môi trường công cụ sử dụng thực nghiệm 23 4.1.1 Cấu hình phần cứng 23 4.1.2 Các phần mềm sử dụng .23 4.2 Xây dựng tập liệu thử nghiệm 24 4.3 Thử nghiệm 25 4.4 Kết thực nghiệm 25 4.5 Đánh giá hệ thống 26 Kết luận 27 Tài liệu tham khảo 28 Danh sách hình vẽ Hình 1.1 : Sơ đồ phân loại danhtiếng .2 Hình 1.2: Hai mơ hình hệ thống Hình 1.2: Mơ hình 3(a) 3(b) thực tế Hình 2.1: Dữ liệu đa nhãn đathể .8 Hình 3.1: Mơ hình đề xuất .18 Hình 3.2 : Bốn tập liệu tổ chức phânlớp theo chuyển đổi nhị phân .20 Hình 4.1: So sánh thực nghiệm 26 Danh sách bảng biểu Bảng 4.1 Cấu hình hệ thống thử nghiệm 23 Bảng 4.2: Công cụ phần mềm sử dụng 23 Bảng 4.3 : Tập liệu thực nghiệm 24 Bảng 4.4: Tập liệu huấn luyện 24 Bảng 4.5: Kết thực nghiệm 25 Bảng 4.6: Kết thực nghiệm 25 Danh sách từ viết tắt MIML Multi instance multi label SVM Support Vector Machine MISL Multi-instance, single-label learning SISL Single-instance single-label learning SIML Single-instance, multi-label learning MIMLSVM Multi instance multi label Support Vector Machine MIMLBOOST Multi instance multi label boost Bước 1: Mỗi mẫu MIML (Xu, Yu) (u=1,2,…,m) chuyển thành |Ƴ| túi đathể hiện, ví dụ {[(Xu,y1),Ψ(Xu,y1)], [(Xu,y2),Ψ(Xu,y2)], , [(Xu,y|Ƴ|),Ψ(Xu,y|Ƴ|)]} với [(Xu,yv),Ψ(Xu,yv)] (v=1,2, ,|Ƴ|) túi đathể gán nhãn (Xu,yv) túi chứa nu số thể hiện, ví dụ {(xu1,yv), (xu2,yv), , xu , , yv } X u , yv 1, 1 nu nhãn túi Do đó, liệu nguyên thủy MIML chuyển thành liệu đathể chứa m | Ƴ| túi thứ tự {[(X1,y1),Ψ(X1,y1)], , [(X1,y|Ƴ|),Ψ(X1,y|Ƴ|)], [(X2,y1),Ψ(X2,y1)], , [(Xm,y|Ƴ|),Ψ(Xm,y|Ƴ|)]} [(X(i),y(i)),Ψ(X(i),y(i))] túi thứ i m | Ƴ| túi chứa ni thể Bước 2: Khởi tạo trọng số túi Wi i 1, 2, , m У m У Bước 3: Chạy T vòng lặp với biến chạy t = 1,2, , T Từ tập liệu học hàm học đathể fMIL thực hàm MIML mong muốn fMIL(X*) = {y|sign[fMIL(X*,y)] = +1} Để thực hàm fMIL tác giả sử dụng thuật toán MIBoosting Để thuận tiện, kí hiệu (B,g) túi [(X,y),Ψ(X,y)], B ẞ, g G E kỳ vọng Sau đó, mục tiêu học hàm F(B) cực tiểu hóa độ suy giảm theo hàm mũ bậc túi EẞEG[exp(-gF(B))], sau ước lượng hàm log lẻ bậc túi Pr( g 1| B) log tập Pr( g 1| B) huấn luyện Trong vòng khuếch đại, mục tiêu tăng F(B) thành F(B)+cf(B), ví dụ thêm phânlớp yều mới, để độ suy giảm theo mũ nhỏ Giả sử rằng, tất thể túi độc lập có đóng góp vào nhãn túi, từ thu f ( B) nB j h(b j ) h(b j ) 1, 1 dự báo phânlớp bậc thể h(.) cho thể thứ j túi B nB số thể B [2] cho thấy hàm f(B) tốt thêm vào thu tìm kiếm hàm h(.) làm cực đại hóa i - ni j 1 i i i W g h(b j ) , cho trước trọng số bậc túi W = exp(-gF(B)) ni Bước 3.a: Bằng việc gán cho thể nhãn túi trọng số tương ứng Wi / ni , h . học cách cực tiểu hóa lỗi phânlớp bậc thể - Bước 3.b: Với túi thứ i, tính tỷ lễ lỗi ei 0,1 cách đếm số thể bị phânlớp nhầm túi Ví dụ: 14 i e ni j 1 ht ( xji , y i ) ( X i , y i ) ni - Bước 3.c: Nếu e(i) < 0.5 với i 1, 2, , m У chuyển sang bước - Bước 3.d: Khi tìm f(B), hệ số nhân c tốt > tìm cách tối ưu hóa trực tiếp độ suy giảm theo hàm mũ: g i h(bji ) j i W exp c ni i EẞEG[exp(-gF(B)+c(-gf(B)))] i i i W exp (2e 1)c ei ni j h(bji ) g i ) (được tính bước 3b) Để tính cực tiểu kỳ vọng này, kỹ thuật tối ưu số phương pháp tựa Newton sử dụng - Bước 3.e: Nếu c