Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
1,58 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Thị Thơm LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công nghệ thông tin HÀ NỘI - 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Thị Thơm LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công Nghệ Thông Tin Cán bộ hướng dẫn: PGS.TS. Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ HÀ NỘI - 2012 VIETNAMNATIONALUNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Thom Phan Thi FEATURES ENRICHING AND SELECTING IN MULTI-LABEL CLASSIFICATION IN REPUTATION MANAGEMENT Major: Information of Technology Supervisor:Assoc. Prof. Thuy Ha Quang Co-Supervisor:MSC. Vu Tran Mai HA NOI, 2012 Lời cảm ơn Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới Thầy giáo, PGS.TS Hà Quang Thụy và Thạc sỹ Trần Mai Vũ đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ em trong suốt quá trình thực hiện đề tài khóa luận. Em xin gửi lời cảm ơn sâu sắc tới các Thầy Cô trong Khoa Công nghệ thông tin đã truyền đạt kiến thức quý báu cho em trong bốn năm học vừa qua. Em cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị, các bạn và các em sinh viên trong phòng thí nghiệm KT-Sislab đã giúp em rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khóa luận. Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn động viên, chăm sóc và khích lệ con trên mỗi bước đường học vấn. Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, các thành viên lớp K53CB, K53CLC và đặc biệt là các thành viên của phòng 420C-KTX Ngoại Ngữ đã ủng hộ, giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường đại học và thực hiện đề tài khóa luận này. Tôi xin chân thành cảm ơn! Hà Nội, ngày 15 tháng 05 năm 2012 Sinh viên Phan Thị Thơm LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG Phan Thị Thơm Khóa QH-2008-I/CQ, ngành công nghệ thông tin. Tóm tắt Khóa luận tốt nghiệp: Hệ thống quản lý danh tiếng là một chủ đề khoa học công nghệ thu hút sự quan tâm trên thế giới. Hệ thống quản lý danh tiếng tiến hành thu thập ý kiến nhận xét của người dùng, phân tích quan điểm trong những nhận xét đấy, và tạo ra một bản tổng kết quan điểm cung cấp cho người dùng và công ty. Nhận xét của người dùng thường đề cập tới nhiều khía cạnh của công ty sản phNm nên chúng là những dữ liệu đa nhãn. Vì vậy, một trong các vấn đề trọng tâm của hệ thống quản lý danh tiếng là việc xử lý dữ liệu đa nhãn. Bài toán phân lớp dữ liệu đa nhãn có đặc điểm là số lượng đặc trưng lớn [2]. Việc tạo lập và lựa chọn tập đặc trưng dữ liệu có ý nghĩa rất quan trọng trong việc nâng cao hiệu quả của thuật toán phân lớp đa nhãn. Khóa luận đề xuất một mô hình kết hợp việc tạo lập đặc trưng dựa theo mô hình chủ đề Nn với giải pháp lựa chọn đặc trưng của Gomez-Verdejo và Michel Verleysen, 2007 [3]. Khóa luận thi hành thực nghiệm trên miền dữ liệu là tập nhận xét của người dùng về 1000 khách sạn ở Việt Nam ở website (http://chudu24.com ). Kết quả thu được cho thấy giải pháp kết hợp đặc trưng đã cải thiện kết quả phân lớp đa nhãn. Từ khóa : reputation management, multi-label, classification, feature selection. FEATURES ENRICHING AND SELECTINGIN MULTI-LABEL CLASSIFICATION IN REPUTATION MANAGEMENT Thom Phan Thi QH-2008-I/CQ course, information technology faculty Abtract thesis: From the late 20 th century, the reputation systems have been commonly adopted by Internet companies. For each companies or products, the reputation management crawled customer’s reviews. Then they found the opinion customers in there and constructed the report about opinion customers in features products or features companies. However, some customer review may belong to more than one class, almost them is multi-label data. So the importation problem in reputation management is classification multi-label. According to Guyon and Elisseeff, 2003 [2], feature selection is an important task in classification multi-label, as it can improve the interpretability of the problems, together with performances and learning time of prediction algorithms. Based on the methodology of Vanessa Gomez-Verdejo and Michel Verleysen, 2007 [3], we are given a methodology, which used features in hidden topic model and used mutual information to achieve feature selection in multi-label classification problems. We used the customer’s reviews about 1000 hotels in Viet Nam in website (http://chudu24.com ). Result on this database clearly demonstrate the interest of the approach which allows one to sharply reduce the dimension of the problem and to enhance the performance of classifiers. Keywords: reputation management, multi-label, classification, feature selection. Lời cam đoan Tôi xin cam đoan giải pháp làm giàu đặc trưng chủ đề Nn LDA và phương pháp lựa chọn đặc trưng dựa trên độ tương hỗ MI được trình bày trong khóa luận này là do tôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy và Thạc sỹ Trần Mai Vũ. Tất cả những tham khảo từ các nghiên cứu liên quan đề được nêu nguồn gốc một các rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. Hà Nội, ngày 15 tháng 05 năm 2012 Tác giả Phan Thị Thơm Mục lục MỞ ĐẦU 1 CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ QUẢN LÝ DANH TIẾNG 3 1.1. Danh tiếng và các khái niệm liên quan 3 1.2. Giới thiệu chung về hệ thống quản lý danh tiếng 4 1.2.1. Sơ bộ về hệ thống quản lý danh tiếng 4 1.2.3. Tầm quan trọng của hệ thống quản lý danh tiếng 6 1.3. Phân lớp dữ liệu đa nhãn và bài toán lựa chọn đặc trưng 7 Kết luận chương một 9 CHƯƠNG 2. PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ MÔ HÌNH CHỦ ĐỀ ẨN LDA 10 2.1. Phương pháp lựa chọn đặc trưng sử dụng độ tương hỗ (MI) 10 2.1.1. Bài toán lựa chọn đặc trưng 10 2.1.2. Phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ (MI) 11 2.1.2.1. Độ tương hỗ MI 11 2.1.2.2. Phương pháp thực hiện 11 2.1.2.3. Cách đánh giá 12 2.2. Mô hình chủ đề Nn 12 2.2.1. Mô hình sinh trong LDA 14 2.2.2. Ước lượng tham số và suy luận 15 Kết luận chương hai 16 CHƯƠNG 3. PHƯƠNG PHÁP LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN 17 3.1. Mô tả phương pháp 17 3.2. Mô hình đề xuất 18 3.3. Pha 1. Huấn luyện mô hình 19 3.3.1. Xây dựng tập đặc trưng bổ xung từ mô hình chủ đề n LDA 19 3.3.2. Xây dựng vector đặc trưng 20 3.3.3. Lựa chọn đặc trưng 21 3.3.4. Phân lớp đa nhãn 22 3.4. Pha 2. Phân lớp sử dụng mô hình huấn luyện 23 3.4.1. Tiền xử lý dữ liệu 23 3.4.2. Lựa chọn đặc trưng 24 3.4.3. Đánh giá độ chính xác của hệ thống 24 Kết luận chương ba 26 CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ 27 4.1. Môi trường và các cộng cụ sử dụng thực nghiệm 27 4.1.1. Cấu hình phần cứng 27 4.1.2. Các phần mềm sử dụng 28 4.2. Xây dựng tập dữ liệu thử nghiệm 28 4.3. Thử nghiệm 30 4.4. Kết quả thực nghiệm 31 4.5. Đánh giá hệ thống 35 Kết luận 36 Tài liệu tham khảo 37 Danh sách hình vẽ Hình 1.1 : Sơ đồ phân loại danh tiếng 3 Hình 1.2: (a) Hệ thống Vật giá, (b) Hệ thống Swooti; 5 (c,d) Hệ thống zoominfo: Giao diện (c); kiến trúc thành phần hệ thống (d) 5 Hình 1.3 : Hai kiểu mô hình hệ thống quản lý danh tiếng [4, 25] 6 Hình 2.1: Mô hình biểu diễn của LDA 14 Hình 3.1: Mô hình đề xuất 18 Hình 3.2 : Bốn tập dữ liệu được tổ chức phân lớp theo chuyển đổi nhị phân 22 Hình 4.1: So sánh kết quả thực nghiệm 1 và thực nghiệm 2 33 Hình 4.2: So sánh 4 thực nghiệm 34 [...]... pháp xây dựng tập đặc trưng hiệu quả cho hệ thống quản lý danh tiếng 9 CHƯƠNG 2 PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ MÔ HÌNH CHỦ ĐỀ ẨN LDA 2.1 Phương pháp lựa chọn đặc trưng sử dụng độ tương hỗ (MI) 2.1.1 Bài toán lựa chọn đặc trưng Lựa chọn đặc trưng là việc lựa chọn từ một tập hợp các đặc trưng đầu vào để đưa ra một tập nhỏ các đặc trưng có giá trị nhất Xét với một vector đặc trưng. .. phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ MI của Vanessa Gomez-Verdejo và Michel Verleysen [3] Chương ba sẽ trình bày chi tiết giải pháp đề xuất bổ xung đặc trưng mô hình chủ đề Nn và lựa chọn đặc trưng dựa vào độ tương hỗ MI để cải tiến độ chính xác của bộ phân lớp dữ liệu đa nhãn trong bài toán quản lý danh tiếng 16 CHƯƠNG 3 PHƯƠNG PHÁP LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN 3.1... danh tiếng, các định nghĩa liên quan đến danh tiếng và hệ thống quản lý danh tiếng Ngoài ra, khóa luận còn nêu lên được tầm quan trọng của bài toán phân lớp dữ liệu đa nhãn và lựa chọn đặc trưng trong hệ thống quản lý danh tiếng Chương tiếp theo, khóa luận sẽ đi sâu vào phân tích bài toán lựa chọn đặc trưng trong miền dữ liệu đa nhãn, giới thiệu các nghiên cứu liên quan, phương pháp bổ xung đặc trưng. .. đặc trưng lựa chọn Các bước : 1 Tính độ MI của mỗi đặc trưng với các nhãn lớp 2 Duyệt đối với mỗi bộ phân lớp nhị phân của mỗi nhãn lớp 2.1 Lựa chọn một đặc trưng có MI cao nhất đối với nhãn lớp trên 2.2 Duyệt mỗi đặc trưng 2.2.1 Lựa chọn đặc trưng sao cho giá trị MI của tập đặc trưng lựa chọn là cao nhất 2.2.2 Kiểm tra bằng cách loại bỏ lần lượt các đặc trưng ứng viên đặc trưng, nếu việc loại bỏ làm. .. nhị phân Tập dữ liệu đa nhãn sau khi áp dụng chuyển đổi nhị phân về các bộ phân lớp đơn nhãn, tiếp đó, khóa luận tiến hành lựa chọn tập đặc trưng tối ưu cho các bộ phân lớp đơn nhãn trên Và cuối cùng tập đặc trưng thu được sẽ là tập hợp đặc trưng của các tập đặc trưng nhỏ chọn được ở trên Thuật toán lựa chọn đặc trưng được thể hiện khá đơn giản như sau : Đầu vào : Tập đặc trưng ban đầu Đầu ra : Tập đặc. .. Chương 1: Giới thiệu khái quát về quản lý danh tiếng, hệ thống quản lý danh tiếng và tầm quan trọng của hệ thống này trong thực tế Sau đó, khóa luận còn trình bày về tầm quan trọng của việc xử lý dữ liệu đa nhãn trong hệ thống quản lý danh tiếng, tầm quan trọng của việc lựa chọn đặc trưng Chương 2 : Trình bày về bài toán lựa chọn đặc trưng trong việc phân lớp dữ liệu đa nhãn cùng một số nghiên cứu liên... liệu đa nhãn Phát biểu bài toán :Mô hình xây dựng đặc trưng tiến hành tạo lập vector đặc trưng cho văn bản từ những từ khóa trong tập dữ liệu học và những đặc trưng về xác suất topic trong mô hình chủ đề Nn LDA Mô hình lựa chọn đặc trưng và giảm thiểu những đặc trưng ít có giá trị bằng phương lựa chọn đặc trưng dựa vào độ tương hỗ MI Việc xây dựng vector đặc trưng như trên được áp dụng vào bộ phân lớp. .. 2007 [3] Chúng tôi đề xuất một phương pháp xây dựng tập đặc trưng cho việc phân lớp câu quan điểm trong bài toán quản lý danh tiếng Theo đó, chúng tôi áp dụng đặc trưng mô hình chủ đề Nn LDA kết hợp với lựa chọn đặc trưng dựa vào độ tương hỗ (MI) Phương pháp phân lớp Maximum Entropy được lựa chọn vì phương pháp này phù hợp với việc phân lớp dữ liệu có nhiều đặc trưng Nội dung của khóa luận được chia... phNm và các sự kiện, thông tin về uy tín của sản phNm, … sau đó tổng hợp thông tin này và công bố với mọi người Như vậy, quản lý danh tiếng được coi là tầng trên của khai phá quan điểm và bài toán phân lớp quan điểm được coi là bài toán trọng tâm của quản lý danh tiếng 1.3 Phân lớp dữ liệu đa nhãn và bài toán lựa chọn đặc trưng Hầu hết các ứng dụng của phân lớp phân cấp văn bản là bài toán đa nhãn, ... Phương pháp thực hiện Có rất nhiều cách thức để lựa chọn ra một tập nhỏ đặc trưng từ tập lớn ban đầu Theo Vanessa Gomez-Verdejo và cộng sự [3], thì phương pháp Forward-Backward là phương pháp hiệu quả trong việc lựa chọn đặc trưng cho phân lớp dữ liệu Phương pháp được biểu diễn qua 4 bước sau : Bước 1 : Lựa chọn đặc trưng đầu tiên trong tập đặc trưng {X1,…, Xn} trong đó giá trị MI của đặc trưng lựa chọn . SELECTINGIN MULTI-LABEL CLASSIFICATION IN REPUTATION MANAGEMENT Thom Phan Thi QH-2008-I/CQ course, information technology faculty Abtract thesis: From the late 20 th century, the reputation systems. khuyết là thi u vắng thành phần này. Tuy nhiên, trong nhiều trường hợp, mô hình ba thành phần cho một thi t kế đơn giản, dễ thi hành. Liu Ling [4] nhận định rằng cả hai mô hình nói trên còn thi u. năm 2012 Tác giả Phan Thị Thơm Mục lục MỞ ĐẦU 1 CHƯƠNG 1. GIỚI THI U CHUNG VỀ QUẢN LÝ DANH TIẾNG 3 1.1. Danh tiếng và các khái niệm liên quan 3 1.2. Giới thi u chung về hệ thống