1. Trang chủ
  2. » Luận Văn - Báo Cáo

PHƯƠNG PHÁP xếp HẠNG đa NHÃN TRONG QUẢN lý DANH TIẾNG

49 454 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 49
Dung lượng 914 KB

Nội dung

Danh tiếng của một công ty là một yếu tố vô cùng quan trọng quyết định đến doanh thu cũng như sự tồn vong của công ty đó. Những yếu tố tiêu cực về một công ty hay sản phẩm ảnh hưởng rất nhiều đến việc lựa chọn của khách hàng, từ đó ảnh hưởng đến hoạt động kinh doanh của công ty. Do vậy, ngày nay những ý kiến, đánh giá của khách hàng mang một vai trò rất quan trọng đối với quá trình kinh doanh của mỗi công ty. Nhưng một vấn đề gặp phải là lượng thông tin đánh giá về công ty trên mạng internet, cũng như mạng xã hội là rất lớn, nên việc tìm các thông tin để đánh giá một công ty là rất khó khăn. Vì thế, việc xây dựng hệ thống quản lý danh tiếng là một trong những cách tốt nhất để giải quyết vấn đề này. Đối với mỗi công ty hay sản phẩm, có rất nhiều đặc trưng để đánh giá công ty đó. Nhưng không phải bất kì người dùng nào cũng quan tâm đến tất cả các đặc trưng đó. Mà họ chỉ quan tâm đến những đặc trưng mà họ yêu thích và đặc trưng đó thực sự nổi bật trong công ty đó. Vì thế, mấu chốt của bài toán quản lý danh tiếng trong khuôn khổ của khóa luận, đưa ra một giải pháp xếp hạng tập các nhãn đối với đánh giá của người dùng. Trong khóa luận này, chúng tôi sử dụng phương pháp xếp hạng đa nhãn bằng so sánh theo cặp của “Brinker và cộng sự” 3. Chúng tôi đề xuất phương pháp xếp hạng đa nhãn kết hợp với việc lựa chọn đặc trưng về tần suất và độ liên quan MI để xây dựng hệ thống. Chúng tôi lựa chọn phương pháp Maximum Entropy để dùng làm bộ phân lớp nhị phân cho bài toán xếp hạng vì phương pháp này phù hợp với việc phân lớp dữ liệu có nhiều đặc trưng. Khóa luận tiến hành thực nghiệm mô hình phân lớp với tập các đặc trưng thu được và cho kết quả khả quan. Từ đó, khóa luận tiếp tục áp dụng bộ phân lớp này để đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam. Nội dung của khóa luận được chia thành các chương như sau : Chương 1: Khóa luận giới thiệu khái quát về quản lý danh tiếng, hệ thống quản lý danh tiếng và tầm quan trọng của hệ thống này trong thực tế. Sau đó, khóa luận còn trình bày về tầm quan trọng của việc xử lý dữ liệu đa nhãn,bài toán phân lớp đa nhãn và bài toán xếp hạng nhãn trong hệ thống quản lý danh tiếng. Chương 2: Khóa luận trình bày về các giải pháp phân lớp đa nhãn, xếp hạng đa nhãn. Ngoài ra khóa luận còn trình bày áp dụng phương pháp xếp hạng đa nhãn bằng so sánh theo cặp vào bài toán quản lý danh tiếng. Chương 3: Khóa luận đề xuất mô hình xếp hạng đa nhãn và giải pháp phát hiện quan điểm trong bài toán quản lý danh tiếng. Đồng thời khóa luận cũng trình bày chi tiết các pha cũng như các bước trong mô hình Chương 4: Khóa luận trình bày thực nghiệm cho việc áp dụng phương pháp xếp hạng đa nhãn đã được đề xuất. Từ đó, khóa luận sử dụng để đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam. Phần kết luận : Tóm lược kết quả đạt được của khóa luận và định hướng phát triển tương lai.

Danh sách hình vẽ Hình 1: Phân loại hệ thống quản lý danh tiếng 4 Hình 2 : Hai mô hình hệ thống 5 Hình 3 : Hệ thống quản lý danh tiếng tích hợp trong các trang web bán hàng 6 Hình 4 : Sử dụng hệ thống quản lý danh tiếng cho công ty BKAV 6 Hình 5 : Bốn tập dữ liệu được phân lớp theo phương pháp Pairwise Classification 14 Hình 6 : Ví dụ số lớp trên Swotti 21 Hình 7 : Mô hình thực nghiệm bài toán 23 Danh sách bảng biểu Bảng 1 : Dữ liệu để phân lớp đa nhãn 11 Bảng 2 : Phân lớp đa nhãn sử dụng PT2 11 Bảng 3 : Phân lớp đa nhãn sử dụng PT1 12 Bảng 4 : Phân lớp sử dụng PT3 12 Bảng 5 : Bốn tập dữ liệu được tổ chức phân lớp theo PT4 13 Bảng 6 : Bảng ký hiệu 26 Bảng 7 : Cấu hình phần cứng sử dụng trong thực nghiệm 28 Bảng 8 : Một số phần mềm sử dụng 28 Bảng 9 : Tập dữ liệu thực nghiệm 29 Bảng 10 : Tập dữ liệu huấn luyện 29 Bảng 11 : Kết quả đánh giá bộ phân lớp đa lớp sử dụng phương pháp Entropy 30 Danh sách các từ viết tắt ORM Online reputation management BR Binary relevance learning MLC Multilabel classification LR Label ranking MLR Multilabel ranking SVM Support vector machine Mở đầu Danh tiếng của một công ty là một yếu tố vô cùng quan trọng quyết định đến doanh thu cũng như sự tồn vong của công ty đó. Những yếu tố tiêu cực về một công ty hay sản phẩm ảnh hưởng rất nhiều đến việc lựa chọn của khách hàng, từ đó ảnh hưởng đến hoạt động kinh doanh của công ty. Do vậy, ngày nay những ý kiến, đánh giá của khách hàng mang một vai trò rất quan trọng đối với quá trình kinh doanh của mỗi công ty. Nhưng một vấn đề gặp phải là lượng thông tin đánh giá về công ty trên mạng internet, cũng như mạng xã hội là rất lớn, nên việc tìm các thông tin để đánh giá một công ty là rất khó khăn. Vì thế, việc xây dựng hệ thống quản lý danh tiếng là một trong những cách tốt nhất để giải quyết vấn đề này. Đối với mỗi công ty hay sản phẩm, có rất nhiều đặc trưng để đánh giá công ty đó. Nhưng không phải bất kì người dùng nào cũng quan tâm đến tất cả các đặc trưng đó. Mà họ chỉ quan tâm đến những đặc trưng mà họ yêu thích và đặc trưng đó thực sự nổi bật trong công ty đó. Vì thế, mấu chốt của bài toán quản lý danh tiếng trong khuôn khổ của khóa luận, đưa ra một giải pháp xếp hạng tập các nhãn đối với đánh giá của người dùng. Trong khóa luận này, chúng tôi sử dụng phương pháp xếp hạng đa nhãn bằng so sánh theo cặp của “Brinker và cộng sự” [3]. Chúng tôi đề xuất phương pháp xếp hạng đa nhãn kết hợp với việc lựa chọn đặc trưng về tần suất và độ liên quan MI để xây dựng hệ thống. Chúng tôi lựa chọn phương pháp Maximum Entropy để dùng làm bộ phân lớp nhị phân cho bài toán xếp hạng vì phương pháp này phù hợp với việc phân lớp dữ liệu có nhiều đặc trưng. Khóa luận tiến hành thực nghiệm mô hình phân lớp với tập các đặc trưng thu được và cho kết quả khả quan. Từ đó, khóa luận tiếp tục áp dụng bộ phân lớp này để đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam. Nội dung của khóa luận được chia thành các chương như sau : Chương 1: Khóa luận giới thiệu khái quát về quản lý danh tiếng, hệ thống quản lý danh tiếng và tầm quan trọng của hệ thống này trong thực tế. Sau đó, khóa luận còn trình bày về tầm quan trọng của việc xử lý dữ liệu đa nhãn,bài toán phân lớp đa nhãn và bài toán xếp hạng nhãn trong hệ thống quản lý danh tiếng. Chương 2: Khóa luận trình bày về các giải pháp phân lớp đa nhãn, xếp hạng đa nhãn. Ngoài ra khóa luận còn trình bày áp dụng phương pháp xếp hạng đa nhãn bằng so sánh theo cặp vào bài toán quản lý danh tiếng. Chương 3: Khóa luận đề xuất mô hình xếp hạng đa nhãn và giải pháp phát hiện quan điểm trong bài toán quản lý danh tiếng. Đồng thời khóa luận cũng trình bày chi tiết các pha cũng như các bước trong mô hình Chương 4: Khóa luận trình bày thực nghiệm cho việc áp dụng phương pháp xếp hạng đa nhãn đã được đề xuất. Từ đó, khóa luận sử dụng để đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam. Phần kết luận : Tóm lược kết quả đạt được của khóa luận và định hướng phát triển tương lai. Chương 1. Tổng quan về bài toán xếp hạng nhãn trong quản lý danh tiếng • Hệ thống quản lý danh tiếng Theo Liu,Ling [3], 2011 hệ thống quản lý danh tiếng là hệ thống làm nhiệm vụ thu thập ý kiến của người dùng về sản phẩm và các sự kiện, thông tin về uy tín của sản phẩm,… Sau đó tổng hợp thông tin này và công bố với mọi người. Mọi người dùng khác có thể sử dụng thông tin mà hệ thống quản lý danh tiếng mang lại như một tài liệu tham khảo để đưa ra quyết định. Với sự phát triển ngày càng lớn của Internet thì hệ thống quản lý danh tiếng ngày càng đóng một vai trò quan trọng. Đối với doanh nghiệp thì danh tiếng càng có tầm quan trọng lớn hơn. Việc quản lý danh tiếng là quá trình theo dõi thương hiệu và phản ứng khi có những phản hồi tiêu cực về công ty đang quản lý. Từ đó, công ty có thể tránh đươc những thảm họa tiềm ẩn như: ai đó nêu tên công ty trong một bài viết có tính chất xuyên tạc. Ngoài khả năng phòng vệ, việc làm này còn giúp công ty có thể tham gia vào những cuộc thảo luận xoay quanh các vấn đề của doanh nghiệp, từ đó giúp quảng bá hình ảnh công ty ra bên ngoài hiều hơn. Đối với người tiêu dùng, hệ thống quản lý danh tiếng mang lại cho người dùng một cái nhìn tổng quan về sản phẩm, uy tín của công ty và tổ chức mà người tiêu dùng đó quan tâm, giúp người tiêu dùng có thể dễ dàng có được những lựa chọn hợp lý. Sự thành công của eBay [5], một trang web bán hàng phổ biến đã là ví dụ điển hình cho thấy tầm quan trọng của quản lý danh tiếng. Với eBay, người mua hàng có thể dựa vào danh tiếng đánh giá cho sản phẩm, người bán để lựa chọn sản phẩm hợp lý. Với doanh nghiệp hay người bán hàng trên eBay, họ có thể xây dựng thương hiệu của mình để người mua tin tưởng và mua hàng của họ. • Phân loại hệ thống quản lý danh tiếng Hệ thống quản lý danh tiếng có thể được phân loại theo nhiều cách khác nhau. Dựa vào kiến trúc mạng có thể chia hệ thống thành hai loại là : hệ thống tập trung và hệ thống phân tán (Gutowska, 2009) [11] ; (Josang và cộng sự., 2007) [12]. Dựa vào nguồn gốc thông tin chúng ta có thể chia thành hệ thống explicit mechanisms và hệ thống im-plicit mechanisms. Với hệ thống explicit mechanisms thì thông tin chủ yếu lấy từ phần nhận xét của người sử dụng để đánh giá danh tiếng, ví dụ như đánh giá sự tiêu thụ của một quyển sách qua doanh số bán hàng hàng ngày. Ngoài ra, hệ thống quản lý danh tiếng còn được phân loại tùy thuộc vào mô hình : mô hình một chiều hay mô hình hai chiều. Với mô hình một chiều thì người dùng chỉ được hệ thống cung cấp các xếp hạng và đánh giá về công ty hay sản phẩm người dùng quan tâm. Với mô hình hai chiều thì ngoài việc được cung cấp các thông tin cần thiết, người dùng còn được phép tham gia đánh giá sản phẩm hay công ty. Hình 1: Phân loại hệ thống quản lý danh tiếng Theo như các nhiên cứu gần đây, có hai cách tiếp cận để xây dựng hệ thống quản lý danh tiếng. Theo (Laudon, 2007) [13], (Stair và cộng sự., 2010) [14], hệ thống được xây dựng gồm bốn phần : Dữ liệu đầu vào, phần xử lý, đầu ra và phần phản hồi của người dùng như hình 3(a). Trong khi đó theo (Hoffman và cộng sự., 2009) [15], (Zheng và Jin, 2009) [16], (Swamynathan và cộng sự., 2010) thì hệ thống chỉ được chia làm ba phần : phần thu thập thông tin, phần xử lý thông tin và phần hiển thị kết quả người dùng như hình 3(b). Hình 2 : Hai mô hình hệ thống So sánh hai cách tiếp cận trên thì mô hình thứ hai sử dụng thông tin được thu thập từ nguồn có uy tín sẽ cho độ chính xác cao hơn. Không những thế cách tiếp cận này còn tránh được sự gian lận của người dùng hay tổ chức, vì cách tiếp cận này không sử dụng thông tin phản hồi như là nguồn dữ liệu. Chính vì sự chính xác mà cách tiếp cận thứ hai mang lại nên chúng tôi quyết định xây dựng mô hình thực nghiệm ở chương ba theo cách tiếp cận thứ hai. • Các ứng dụng của hệ thống quản lý danh tiếng trong thực tế Hiện nay, ở Việt Nam có hai loại ứng dụng nổi bật của hệ thống quản lý danh tiếng là : • Tích hợp trong các trang web bán hàng : Việc đánh giá danh tiếng trong các trang web bán hàng giúp người dùng có thể lựa chọn được những sản phẩm phù hợp với túi tiền và yêu cầu của họ. Hiện nay, có một số trang web ở Việt Nam đã tích hợp hệ thống quản lý danh tiếng như : vatgia.com, chudu24.com, Hình 3 : Hệ thống quản lý danh tiếng tích hợp trong các trang web bán hàng • Là hệ thống theo dõi danh tiếng riêng biệt cho từng công ty, tổ chức : Việc theo dõi và bảo vệ danh tiếng cho từng công ty đã được ứng dụng trên thế giới từ lâu, xong hiện tại ở Việt Nam, hệ thống theo dõi danh tiếng cho từng công ty vẫn còn là vấn đề mới. Theo tìm hiểu của chúng tôi, hệ thống ORM là hệ thống thương mại về quản lý danh tiếng đầu tiên ở Việt Nam. [...]... các phương pháp phân lớp đa nhãn và ứng dụng của phương pháp đó trong việc học máy.Tiếp theo trong chương này, khóa luận sẽ trình bày bài toán xếp hạng đa nhãn, ứng dụng của thuật toán phân lớp trong phương pháp xếp hạng đa nhãn và ứng dụng của phương pháp xếp hạng đa nhãn trong bài toán quản lý danh tiếng Có 2 chuyên đề về học giám sát được quan tâm hiện nay là : Phân lớp đa nhãn (MLC) và xếp hạng nhãn. .. quan trọng nhất phương pháp đó còn được áp dụng vào phương pháp xếp hạng đa nhãn bằng so sánh theo cặp, là phương pháp đang rất được quan tâm hiện nay Vì thế, trong chương sau khóa luận sẽ trình bày mô hình sử dụng phương pháp xếp hạng đa nhãn theo cặp trong bài toán quản lý danh tiếng cho 1000 khách sạn ở Việt Nam Chương 3 : Mô hình xếp hạng đa nhãn phát hiện quan điểm trong quản lý danh tiếng • Một... của hệ thống quản lý danh tiếng Ngoài ra, chúng tôi còn nêu lên được tầm quan trọng của bài toán xếp hạng nhãn trong phân lớp dữ liệu đa nhãn Chương tiếp theo, chúng tôi sẽ đi sâu vào phân tích bài toán phân lớp dữ liệu đa nhãn, giới thiệu các phương pháp chuyển đổi phổ biến và ưu điểm của bài toán xếp hạng nhãn trong phân lớp dữ liệu đa nhãn Chương 2 : Phân lớp đa nhãn và xếp hạng nhãn Trong chương... độ ưu tiên của nhãn Với những ưu điểm trên của phương pháp xếp hạng nhãn so sánh theo cặp trong miền dữ liệu đa nhãn trong [Klaus Brinker], chúng tôi quyết định sử dụng phương pháp này trong việc xây dựng bộ phân lớp dữ liệu đa nhãn và ứng dụng để đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam Tổng kết chương một Trong chương một, chúng tôi đã giới thiệu về hệ thống quản lý danh tiếng, phân loại... ngưỡng = 0.5, với những nhãn nào có độ ưu tiên lớn hơn thì tập các nhãn đó chính là tập nhãn được gán cho tài liệu cần phân lớp • Tổng kết chương 2 Trong chương này, khóa luận đã giới thiệu các phương pháp phân lớp đa nhãn và các phương pháp xếp hạng nhãn Trong các phương pháp trên, phương pháp phân lớp Pairwise Classification được coi là phương pháp phổ biến và có khả năng áp dụng trong nhiều thuật toán... lớp đa nhãn về phân lớp đơn nhãn Trong phần này, khóa luận sẽ trình bày các phương pháp cơ bản để chuyển đổi từ phân lớp đa nhãn về phân lớp đơn nhãn Theo [17], có hai phương pháp cơ bản để chuyển đổi từ phân lớp đa nhãn về phân lớp đơn nhãn Phương pháp thứ nhất (PT1) chỉ đơn giản là loại bỏ tất cả các dữ liệu đa nhãn, chỉ giữ lại dữ liệu đơn nhãn và tiến hành phân lớp trên những dữ liệu này Phương pháp. .. lớn Sau đây là một số bài toán liên quan đến vấn đề xếp hạng đang được quan tâm : • Phân lớp đa nhãn : Như đã được nhắc đến trong phần trên của khóa luận thì bài toán xếp hạng đa nhãn với việc phân chia tập nhãn thành hai tập tích cực và tiêu cực cũng được ngầm hiểu như sử dụng bài toán xếp hạng đa nhãn dùng để phân lớp đa nhãn • Xếp hạng đối tượng : Trong bài toán này, những thông tin ưu tiên được đưa... phân (BR), phương pháp xếp hạng nhãn do AAAA [] đề xuất đã giải quyết được sự ảnh hưởng lẫn nhau giữa các nhãn lớp và cho kết quả phân lớp rất khả quan (điền kết quả ra) • Bài toán xếp hạng nhãn để phân lớp dữ liệu đa nhãn Bài toán xếp hạng nhãn là một bài toán đang rất được quan tâm hiện nay như Brinker và cộng sự [3], 20, Tsoumakas và cộng sự [], 20 Tuy nhiên, phương pháp xếp hạng nhãn theo cặp do...Hình 4 : Sử dụng hệ thống quản lý danh tiếng cho công ty BKAV • Bài toán xếp hạng nhãn trong hệ thống quản lý danh tiếng Như trình bày trong 1.1, hệ thống quản lý danh tiếng là làm nhiệm vụ thu thập ý kiến của người dùng về sản phẩm và các sự kiện, thông tin về uy tín của sản phẩm,… sau đó tổng hợp thông tin này và công bố với mọi người Trong khi đó, theo BingLiu và cộng sự, 2010... liệu để phân lớp đa nhãn Khi đó có hình 2 và hình 3 biểu diễn việc chuyển đổi từ phân lớp đa nhãn về phân lớp đơn nhãn sử dụng hai phương pháp trên Ex 1 2 3 4 Phục vụ X Ăn uống Vị trí Giá cả X X Vị trí Giá cả X X Bảng 2 : Phân lớp đa nhãn sử dụng PT2 Ex 3 Phục vụ X Ăn uống Bảng 3 : Phân lớp đa nhãn sử dụng PT1 Phương pháp tiếp theo (PT3) là phương pháp nhóm một tập nhãn vào thành một nhãn Hình 4 biểu . theo trong chương này, khóa luận sẽ trình bày bài toán xếp hạng đa nhãn, ứng dụng của thuật toán phân lớp trong phương pháp xếp hạng đa nhãn và ứng dụng của phương pháp xếp hạng đa nhãn trong. mại về quản lý danh tiếng đầu tiên ở Việt Nam. Hình 4 : Sử dụng hệ thống quản lý danh tiếng cho công ty BKAV • Bài toán xếp hạng nhãn trong hệ thống quản lý danh tiếng Như trình bày trong 1.1,. lai. Chương 1. Tổng quan về bài toán xếp hạng nhãn trong quản lý danh tiếng • Hệ thống quản lý danh tiếng Theo Liu,Ling [3], 2011 hệ thống quản lý danh tiếng là hệ thống làm nhiệm vụ thu thập

Ngày đăng: 21/07/2014, 09:19

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w