Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 43 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
43
Dung lượng
801,18 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Thị Thơm PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG LUẬN VĂN THẠC SỸ HÀ NỘI - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Thị Thơm PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy HÀ NỘI – 2015 Lời cảm ơn Trước tiên, em xin bày tỏ lòng biết ơn chân thành sâu sắc tới Thầy giáo, PGS.TS Hà Quang Thụy tận tình bảo, hướng dẫn, động viên giúp đỡ em suốt trình thực đề tài luận văn Em xin gửi lời cảm ơn sâu sắc tới Thầy Cô Khoa Công nghệ thông tin truyền đạt kiến thức quý báu cho em sáu năm học vừa qua Em xin gửi lời cảm ơn tới thầy cô, anh chị, bạn, em sinh viên nhóm “Khai phá liệu” phịng thí nghiệm KT-Sislab đề tài cấp ĐHQGHN GQ.14.13 giúp em nhiều việc hỗ trợ kiến thức chun mơn để hồn thành tốt luận văn Con xin nói lên lịng biết ơn vơ hạn Cha Mẹ nguồn động viên, chăm sóc khích lệ bước đường học vấn Cuối cùng, xin chân thành cảm ơn Anh Chị Bạn Bè, thành viên lớp K53CB, K53CLC K19HTTT ủng hộ, giúp đỡ suốt thời gian học tập giảng đường thực đề tài luận văn Tôi xin chân thành cảm ơn! Hà Nội, ngày 09 tháng 04 năm 2015 Học viên Phan Thị Thơm PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG Phan Thị Thơm Khóa K19HTTT, ngành cơng nghệ thơng tin Tóm tắt Luận văn: Hệ thống quản lý danh tiếng hệ thống quan trọng việc quản lý thương hiệu, sử dụng rộng rãi nhiều công ty tổ chức khác Đối với công ty hay sản phẩm, hệ thống quản lý danh tiếng tiến hành thu thập nhận xét người dùng, phân tích quan điểm nhận xét đấy, tạo tổng kết quan điểm người dùng lớp đặc trưng sản phẩm hay công ty Tuy nhiên, số nhận xét người dùng thường có chứa nhiều nội dung, đa phần liệu đa nhãn đa thể Vì vậy, vấn đề trọng tâm hệ thống quản lý danh tiếng việc xử lý liệu đa nhãn đa thể Theo Zhou cộng sự, 2012 [2], hướng tiếp cận để giải toán phân lớp liệu đa nhãn, đa thể (MIML) sử dụng phương pháp phân rã toán MIML thành tốn đơn giản Trong thuật toán học máy MIML phát triển dựa thuật toán học máy (SVM, Bayes, Boost, ) MIMLSVM, MIML Bayes, MIMLBoost Từ luận văn đề xuất mơ hình phân lớp quan điểm người dùng toán quản lý danh tiếng cách áp dụng MIMLSVM Thực nghiệm miền liệu tập nhận xét người dùng 1000 khách sạn Việt Nam website (http://chudu24.com ) Kết phân lớp áp dụng phương pháp phân lớp thông thường SVM 84.84% kết áp dụng mơ hình phân lớp quan điểm luận văn đề xuất 85.76% Kết cho thấy phương pháp xây dựng mơ hình phân lớp quan điểm áp dụng MIMLSVM có tính hiệu cao Lời cam đoan Tôi xin cam đoan mơ hình phân lớp quan điểm người dùng toán quản lý danh tiếng cách áp dụng MIMLSVM trình bày luận văn thực hướng dẫn PGS.TS Hà Quang Thụy Tất tham khảo từ nghiên cứu liên quan đề nêu nguồn gốc rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày 09 tháng 04 năm 2015 Tác giả Phan Thị Thơm Mục lục Mở đầu Chương 1: Giới thiệu chung quản lý danh tiếng 1.1 Tổng quan hệ thống quản lý danh tiếng 1.1.1 Hệ thống quản lý danh tiếng 1.1.2 Tầm quan trọng hệ thống quản lý danh tiếng 1.2 Bài toán phân lớp liệu đa nhãn đa thể quản lý danh tiếng Tổng kết chương Chương : Tổng quan phân lớp đa nhãn đa thể MIML 2.1 Phân lớp đa nhãn đa thể 2.2 Phương pháp chuyển đổi toán học máy MIML 10 2.2.1 MIMLSVM 10 2.2.2 MIMLBOOST 13 Tổng kết chương hai 16 Chương 3: Áp dụng phương pháp MIMLSVM tốn quản lý danh tiếng 17 3.1 Mơ tả phương pháp 17 3.2 Mơ hình đề xuất 17 3.3 Pha 1: Huấn luyện mơ hình 18 3.3.1 Tiền xử lý xây dựng vector đặc trưng 18 3.3.2 Chuyển đổi từ MIML thành SIML 19 3.3.3 Chuyển đổi từ SIML thành SISL 19 3.4 Pha 2: Phân lớp sử dụng mơ hình huấn luyện 21 Tổng kết chương ba 22 Chương Thực nghiệm đánh giá 23 4.1 Môi trường công cụ sử dụng thực nghiệm 23 4.1.1 Cấu hình phần cứng 23 4.1.2 Các phần mềm sử dụng 23 4.2 Xây dựng tập liệu thử nghiệm 24 4.3 Thử nghiệm 25 4.4 Kết thực nghiệm 25 4.5 Đánh giá hệ thống 26 Kết luận 27 Tài liệu tham khảo 28 Danh sách hình vẽ Hình 1.1 : Sơ đồ phân loại danh tiếng Hình 1.2: Hai mơ hình hệ thống Hình 1.2: Mơ hình 3(a) 3(b) thực tế Hình 2.1: Dữ liệu đa nhãn đa thể Hình 3.1: Mơ hình đề xuất 18 Hình 3.2 : Bốn tập liệu tổ chức phân lớp theo chuyển đổi nhị phân 20 Hình 4.1: So sánh thực nghiệm 26 Danh sách bảng biểu Bảng 4.1 Cấu hình hệ thống thử nghiệm 23 Bảng 4.2: Công cụ phần mềm sử dụng 23 Bảng 4.3 : Tập liệu thực nghiệm 24 Bảng 4.4: Tập liệu huấn luyện 24 Bảng 4.5: Kết thực nghiệm 25 Bảng 4.6: Kết thực nghiệm 25 Danh sách từ viết tắt MIML SVM MISL SISL SIML MIMLSVM MIMLBOOST Tổng kết chương hai Trong chương này, luận văn giới thiệu tổng quan phân lớp đa nhãn đa thể hai thuật toán MIMLSVM, MIMLBOOST Zin-Hua Zhou cộng [2] đề xuất để giải toán phân lớp liệu đa nhãn đa thể Chương tiếp theo, luận văn trình bày mơ hình đề xuất từ việc áp dụng thuật toán MIMLSVM hệ thống phân lớp quan điểm người dùng áp dụng quản lý danh tiếng 16 Chương 3: Áp dụng phương pháp MIMLSVM tốn quản lý danh tiếng 3.1 Mơ tả phương pháp Dựa kết khả quan phương pháp phân lớp liệu đa nhãn đa thể MIMLSVM [2] thuật toán SVM thuật toán sử dụng không gian vector đặc trưng lớn (10.000 chiều) phù hợp cho việc ứng dụng phân lớp văn bản, luận văn tiến hành áp dụng phương pháp để phân lớp liệu đa nhãn đa thể Trong giải pháp này, luận văn tiến hành thực nghiệm miền liệu Tiếng việt bao gồm nhận xét người dùng 1000 khách sạn Việt Nam Phát biểu toán : Áp dụng phương pháp phân lớp liệu đa nhãn đa thể MIMLSVM miền liệu Tiếng việt Đầu vào : Một tập văn (text) nhận xét người dùng 1000 khách sạn Việt Nam Đầu : Phân loại nhận xét người dùng vào lớp tương ứng Các pha chính: Huấn luyện mơ hình Phân lớp sử dụng mơ hình huấn luyện 3.2.Mơ hình đề xuất Từ nghiên cứu đề cập trên, luận văn đưa hệ thống phân lớp đa nhãn đa thể cho liệu Tiếng việt sử dụng MIMLSVM Hệ thống mô tả cách tổng quan sau 17 Dữ lệu học Dữ liệu kiểm tra Phân cụm thể Áp dụng phân lớp nhị phân SVM Mơ hình phân lớp Tập kết Hình 3.1: Mơ hình đề xuất Chi tiết bước pha chi tiết giải pháp đề xuất trình bày mục 3.3 Pha 1: Huấn luyện mơ hình 3.3.1 Tiền xử lý xây dựng vector đặc trưng Trong mơ hình này, luận văn coi nhận xét người dùng tài liệu Giả sử tập tài liệu D = {d1, d2, …., dm} Luận văn sử dụng đặc trưng TF.IDF trình phân lớp liệu đa nhãn đa thể : TF.IDF kỹ thuật thống kê đánh giá ý nghĩa, độ quan trọng cụm văn bản, môt lớp Term Frequency (TF) độ đo tần số : tần suất xuất cụm từ văn bản: ∑ Trong : tần suất xuất từ khóa ti tài liệu j 18 Inverse Document Frequency (IDF) độ đo tổng quát độ quan trọng cụm từ : * ∈ + Trong : |D| số lượng tài liệu tập D * ∈ + số lượng tài liệu mà từ khóa ti xuất Từ TF.IDF tính cơng thức : Trọng số TF.IDF từ mục biểu diễn độ quan trọng từ mục TF.IDF từ mục tài liệu giảm từ xuất hầu hết văn Vì vậy, từ xuất quá nhiều đánh giá quan trọng so với từ xuất cân Khi đó, luận văn thu vector trọng số TF.IDF từ tập từ khóa liệu học : D(d) = (tfidf(d,1), tfidf(d,2), …., tfidf(d,n)) Với n số lượng từ khóa riêng biệt 3.3.2 Chuyển đổi từ MIML thành SIML Để chuyển đổi từ toán phân lớp liệu đa nhãn đa thể thành toán phân lớp đa nhãn đơn thể hiện, luận văn áp dụng trình phân lớp cấu trúc ZinHua Zhou cộng [2] Luận văn tiến hành phân cụm đặc trưng thu từ bước 3.3.1 Qua trình thực nghiệm, luận văn sử dụng số cụm 60 cho tập liệu huấn luyện Khi với vector đặc trưng T = {f 1, f2, …, fn} (n số đặc trưng) sau trình phân cụm 60 cụm thu vector T = {d 1, d2, …, d60} d1, d2, …, d60 khoảng cách từ vector T đến vector đại diện cụm 1, cụm 2,…, cụm 60 Tập vector đặc trưng sau trình phân lớp cấu trúc tập đầu vào cho trình học 3.3.3 3.3.3 Chuyển đổi từ SIML thành SISL Sau trình chuyển đổi từ MIML thành SIML, luận văn tiếp tục áp dụng phương pháp chuyển đổi nhị phân cho tập liệu đa nhãn Phương pháp nhị phân phương pháp xây dựng |L| phân lớp nhị phân: * + cho L nhãn khác Dữ liệu phân lớp gán nhãn l1 thuộc lớp L1, liệu 19 khác gán nhãn – Phương pháp phương pháp hiểu để sử dụng phân lớp nhị phân vào phân lớp đa nhãn Hình 6, biểu diễn bốn tập liệu kết thu sử dụng phương pháp chuyển đổi nhị phân Theo [11], nhiều cơng trình nghiên cứu Boutell (2004) , Goncalves Quaresma (2003) , Lauser Hotho (2003) , Li Ogihara (2003) chứng tỏ phương pháp có tính hiệu Hình 3.2 : Bốn tập liệu tổ chức phân lớp theo chuyển đổi nhị phân Áp dụng phương pháp chuyển đổi nhị phân cho việc phân lớp miền liệu khách sạn 1000 khách sạn Việt Nam, luận văn tiến hành xây dựng tập nhãn (lớp) lĩnh vực sau : Sự phục vụ nhân viên : Dữ liệu thuộc lớp bao gồm: o Những đánh giá thái độ phục vụ nhân viên khách sạn bao gồm : lễ tân, dọn phòng, bảo vệ, quản lý, nhân viên nhà hàng, o Các dịch vụ phục vụ kèm Chất lượng phòng, khách sạn : Bao gồm đánh giá hình thức sau : o Nhận xét cảm tưởng chung khách sạn o Nhận xét chất lượng phòng ốc Chất lượng đồ ăn : Bao gồm đánh giá chất lượng đồ ăn, bữa ăn Vị trí giá : Dữ liệu lớp bao gồm : 20 o Những đánh giá vị trí, khơng gian, mức độ thuận lợi mà khách sạn mang lại cho khách hàng o Những đánh giá giá phòng, giá đồ ăn giá dịch vụ kèm Trang thiết bị : Bao gồm đánh giá trang thiết bị, nội thất khách sạn 3.4.Pha 2: Phân lớp sử dụng mơ hình huấn luyện Dữ liệu thực nghiệm liệu đánh giá người dùng 1000 khách sạn Việt Nam Kết liệu sau pha 2, tập nhận xét người dùng phân lớp vào lớp tương ứng phần 3.3.3 Tập liệu huấn luyện kĩ thuật học máy giám sát ln địi hỏi phải làm trước đưa vào huấn luyện Trên Internet có nhiều thơng tin xuất nhiều dạng khác Để lọc nhiễu cho liệu huấn luyện, phải loại bỏ thơng tin dạng hình ảnh, âm thanh, quảng cáo, thông tin không nằm nội dung trang web, thẻ html,… Sau lọc nhiễu, liệu đưa qua module tách câu Mỗi câu biểu diễn dòng Module tách câu lọc liệu, loại bỏ câu cảm thán, câu nghĩa Ví dụ, nội dung nhận xét khách hàng lĩnh vực khách sạn sau qua tách câu sau: Tôi đêm, khoảng thời gian tuyệt vời, tiện nghi vàthoải mái Giá tuyệt vời, mong đợi, mà chất lượng phịng khơng có để bàn cãi Cảm ơn! Sau liệu loại bỏ câu cảm thán, câu ý nghĩa sau: Tơi đêm, khoảng thời gian tuyệt vời, tiện nghi thoải mái Giá tuyệt vời, mọng đơi, mà chất lượng phịng khơng có để bàn cãi Dữ liệu sau lọc câu khơng có ý nghĩa tiền xử lý xây dựng vector đặc trưng giống phần 3.3.1 3.3.2 Vector đặc trưng thu đưa vào phân lớp thu từ 3.3.3 kết phân lớp lớp tương ứng mà liệu phân vào 21 Tổng kết chương ba Chương ba luận văn trình bày việc áp dụng MIMLSVM phân lớp liệu đa nhãn đa thể hiên Tiếng việt Luận văn giới thiệu chi tiết pha bước pha phương pháp đề xuất Trong chương tiếp theo, luận văn tiến hành thực nghiệm phương pháp xây dựng đánh giá kết đạt phương pháp đề xuất 22 Chương Thực nghiệm đánh giá Dựa vào mơ hình đề xuất chương 3, luận văn tiến hành thực nghiệm việc đánh giá danh tiếng 1000 khách sạn Việt Nam dựa vào tập nhận xét người dùng Tiếng Việt Để làm rõ kết mơ hình đề xuất chương 3, luận văn tiến hành thực nghiệm nhỏ: Thực nghiệm 1: Thực việc phân lớp nhị phân thông thường cho liệu đa nhãn đa thể mà không qua pha chuyển đổi MIML thành SIML Thực nghiệm 2: Thực việc phân lớp sử dụng MIMLSVM với đủ pha chuyển đổi MIML thành SIML sau SIML thành SISL 4.1 Mơi trường công cụ sử dụng thực nghiệm 4.1.1 Cấu hình phần cứng Bảng 4.1 Cấu hình hệ thống thử nghiệm Thành phần CPU RAM OS Bộ nhớ 4.1.2 Các phần mềm sử dụng Bảng 4.2: Công cụ phần mềm sử dụng STT Tên phần mềm EclipseSDK-3.5- win32 WordSeg SVM 23 Ngồi cơng cụ trên, luận văn tiến hành cài đặt module xử lý dựa ngôn ngữ Java, bao gồm package sau : Module crawler : Tiến hành Crawl nội dung trang web, phân tích lấy mô tả khách sạn dựa vào cách lọc thẻ HTML Module VNStopWordDetector : Chuẩn hóa nội dung thu module crawl loại bỏ từ dừng, ký hiệu vô nghĩa, nội dung trống Module FeatureGeneratorCluster: Xây dựng vector đặc trưng từ tập câu nhận xét người dùng Module Classifier.svm : Tiến hành phân lớp quan điểm 4.2 Xây dựng tập liệu thử nghiệm Luận văn thực nghiệm miền liệu đánh giá khách hàng 1000 khách sạn Việt Nam Tập đánh giá người dùng thu thập từ website http://www.chudu24.com Tập liệu 3700 câu Tập liệu chia thành hai tập rời : Tập liệu huấn luyện tập liệu kiểm tra Trong đó, tập liệu huấn luyện gán nhãn tay Bảng 4.3 : Tập liệu thực nghiệm Tổng số tài liệu Tập liệu học Tập liệu kiểm tra Dữ liệu dùng cho huấn luyện với số lượng tài liệu cho lớp mô tả sau : Bảng 4.4: Tập liệu huấn luyện STT 24 4.3 Thử nghiệm Quá trình thực nghiệm gồm bước sau Xử lý liệu : Tiền xử lý liệu, xây dựng tập tài liệu học cho mơ hình phân lớp vector hóa liệu Xây dựng hàm phâm cụm: Tiến hành phân cụm tập thể để chuyển đổi từ đa thể thành đơn thể Xây dựng hàm phân lớp: Tiến hành xây dựng hàm phân lớp liệu đa nhãn xây dựng phân lớp nhị phân chuyển đổi 4.4 Kết thực nghiệm Luận văn tiến hành thực nghiệm tập liệu bảng 4.4 Luận văn chia liệu kiểm tra thành phần Data1, …, Data5 Thực nghiệm 1: Thực việc phân lớp nhị phân thông thường cho liệu đa nhãn đa thể Bảng 4.5: Kết độ xác thực nghiệm Nhãn lớp Data Data Data Data Data Trung bình Thực nghiệm : Phân lớp liệu đa nhãn Nhãn lớp Data Data Data Data Data Trung bình 25 Sau biểu đồ thể kết tổng hợp từ hai thực nghiệm 100 90 80 70 60 50 40 30 20 10 Nhân viên Hình 4.1: So sánh thực nghiệm 4.5 Đánh giá hệ thống Kết thực nghiệm cho thấy mơ hình hệ thống đề xuất chương ba mang tính khả thi với độ xác đạt 85.76% cải tiến so với phân lớp chưa sử dụng module xây dựng tập đặc trưng 84.84% 26 Kết luận Qua q trình tìm hiểu tốn quản lý danh tiếng, luận văn nêu bật nên sức ảnh hưởng việc phân lớp liệu đa nhãn đa thể Từ đó, luận văn áp dụng mô phân lớp MIMLSVM liệu miền Tiếng Việt toán quản lý danh tiếng Đặc biệt luận văn cịn áp dụng kết cơng bố khoa học [13] Luận văn đạt kết sau đây: Trình bày quản lý danh tiếng tầm quan trọng phân lớp liệu đa nhãn đa thể Áp dụng mô hình MIMLSVN cho tốn quản lý danh tiếng áp dụng kết công bố khoa học [13] Cài đặt mơ hình tiến hành thực nghiệm cho miền liệu Tiếng Việt Kết thực nghiệm cho thấy mơ hình đề xuất có cải tiến (84.84% 85.76%) làm tiền đề nghiên cứu Tuy nhiên, hạn chế mặt thời gian kiến thức nên luận văn tồn số hạn chế như: Chưa áp dụng thực nghiệm miền liệu phong phú, kết cải tiến chưa cao Trong thời gian tới, tiếp tục mở rộng luận văn cách sử dụng nhiều thuật toán phân lớp đa nhãn đa thể theo hướng chuyển đổi MIML thành MISL SISL, từ rút thuật tốn phù hợp Ngồi ra, chúng tơi tiếp tục mở rộng miền liệu để đánh giá danh tiếng cho khách sạn Việt Nam cách tổng quát áp dụng thực tế 27 Tài liệu tham khảo [1] Pierce, J “The world internet project report 2009” Technical report, The World Internet Project, 2008 [2] Z.-H Zhou, M.-L Zhang, S.-J Huang, and Y.-F Li “Multi-instance multi-label learning” Artificial Intelligence, 2012, 176(1): 2291-2320 [3] Jianjun He, Hong Gu, Zhelong Wang (2012) “Bayesian multi-instance multi-label learning using Gaussian process prior” Machine Learning, 88 (1-2): 273-295, July 2012 [4] Yao Wang “Trust and Reputation Management in Decentralized Systems” A Thesis Submitted to the College of Graduate Studies and Research, 2010 [5] Resnick P and Zeckhauser R., “Trust among Strangers in Internet Transactions: Empirical Analysis of eBay’s Reputation System” NBER Workshop on Empirical Studies of Electronic Commerce, 2000 [6] Bing Liu “Opinion Mining & Summarization - Sentiment Analysis”, Tutorial given at WWW-2008, April 21, 2008 in Beijing [7] Laudon, J and Laudon, K “Management Information Systems: Managing the Digital Firm & Multimedia” Prentice Hall, 2007, 10th edition [8] Stair, R M., Reynolds, G and Reynolds, G W “Principles of Information System” Course Technology, 2010, 9th edition [9] Hoffman, K., Zage, D and Nita-Rotaru, C “A survey of attack and defense techniques for reputation systems” ACM Computing Surveys, 2009 42(1), 1-31 [10] Zheng, W and Jin, L “Online reputation systems in web 2.0 era” In Americas Conference on Information Systems (AMCIS) Proceedings, 2009 296-306 [11] Grigorios Tsoumakas , Ioannis Katakis “Multi-label Classification : An Overview” International Journal of Data Warehousing & Mining, 3(3), 1-13, JulySeptember 2007 [12] Fabrizio Sebastiani “Machine Learning in Automated Text Categorization” ACM Computing Survey, 34(1) pages 1-47, 2002 [13] Thi-Ngan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen, Quang-Thuy Ha (2013)."Hidden Topic Models for Multi-label Review Classification: An Experimental Study", Computational Collective Intelligence Technologies and Applications, Lecture Notes in Computer Science Volume 8083:603-611 28 ... LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG Phan Thị Thơm Khóa K19HTTT, ngành cơng nghệ thơng tin Tóm tắt Luận văn: Hệ thống quản lý danh tiếng hệ thống quan trọng việc quản lý. .. chung quản lý danh tiếng 1.1 Tổng quan hệ thống quản lý danh tiếng 1.1.1 Hệ thống quản lý danh tiếng 1.1.2 Tầm quan trọng hệ thống quản lý danh tiếng 1.2 Bài toán phân lớp. .. phân lớp liệu đa nhãn đa thể quản lý danh tiếng Tổng kết chương Chương : Tổng quan phân lớp đa nhãn đa thể MIML 2.1 Phân lớp đa nhãn đa thể 2.2 Phương pháp chuyển đổi