1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài toán quản lý danh tiếng

24 265 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 24
Dung lượng 864,39 KB

Nội dung

Bài toán quản lý danh tiếng

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Reputation Management Báo cáo môn các vấn đề hiện đại HTTT Ngành: Hệ thống thông tin HÀ NỘI - 2011 Nhóm Reputation Management Các thành viên trong nhóm 1. Trần Văn Độ (thành viên) a. MSSV : b. Lớp : K53CB 2. Nguyễn Phước Thảo (thành viên) a. MSSV : b. Lớp : K53CB 3. Phan Thị Thơm (nhóm trưởng) a. MSSV : 08020391 b. Lớp : K53CLC Bảng phân công công việc Nội dung Chi tiết Người thực hiện Nội dung tìm hiểu Tìm hiểu về các khái niệm liên quan đến quản lý danh tiếng và tầm quan trọng của nó. Phan Thị Thơm Tìm hiểu về cách xây dựng profiles cho từng công ty. Phan Thị Thơm Tìm hiểu về thuật toán Bayes và ứng dụng trong phân lớp Trần Văn Độ Tìm hiểu về phân lớp dữ liệu tweet theo yếu tố cảm xúc Nguyễn Phước Thảo Viết tài liệu báo cáo Chương 1 và tổng hợp báo cáo Phan Thị Thơm Chương 2, 3.1 Trần Văn Độ Chương 2, 3.2 Nguyễn Phước Thảo Mở đầu Quản lý danh tiếng (Reputation management) là cách thức giám sát danh tiếng doanh nghiệp trên Internet để đối phó với những bình luận và phàn nàn hoặc giải quyết những vụ tấn công nguy hiểm. Nó được coi như một hệ thống cảnh báo sớm để bảo vệ thương hiệu của doanh nghiệp. Hệ thống quản lý danh tiếng bao gồm các công việc : kiểm tra miền dữ liệu, phát hiện tri thức và cuối cùng là phân tích quan điểm của người dùng về một vấn đề [3]. Đây là lĩnh vực khó và nhận được sự quan tâm rất lớn từ các nhà nhiên cứu cũng như các hội nghị lớn trên thế giới. vd : WEPS3-2010, … Với xu hướng của xã hội hiện nay, mọi người thường chia sẻ quan điểm về sản phẩm, con người, tổ chức qua các trang web như blogs, mạng xã hội … Vì thế chúng em tập trung vào tìm hiểu về quản lý danh tiếng trên mạng xã hội (Tiwtter). Ý tưởng của hướng tiếp cận là với mỗi công ty chúng em tiến hành xây dựng một số bảng thông tin về công ty(profile) dựa vào các nguồn như : trang web của công ty, tập dữ liệu trả về tử google, … Sau đó tiến hành xây dựng vector đặc trưng cho từng mẩu tin (tweet) dựa vào độ trùng lặp của mẩu tin với từng bảng thông tin (profile). Cuối cùng chúng em sử dụng bộ phân lớp Bayes để xác định các mẩu tin thuộc về công ty đang quan tâm hay không, từ đó xác định các tập mẩu tin mang tính tích cực, tiêu cực và trung tính. Chương 1 : Khái quát về bài toán quản lý danh tiếng. 1.1. Bài toán quản lý danh tiếng. 1.1.1. Tầm quan trọng của quản lý danh tiếng. Quản lý danh tiếng là quá trình theo dõi thương hiệu và phản ứng khi có những phản hồi tiêu cực về công ty đang quản lý. Từ đó công ty có thể tránh được những thảm họa tiềm ẩn như : ai đó nêu tên công ty trong một bài viết có tính chất xuyên tạc. Ngoài khả năng phòng vệ, việc làm này còn giúp công ty có thể tham gia vào những cuộc thảo luận xoay quanh các vấn đề của doanh nghiệp, từ đó giúp quảng bá hình ảnh công ty ra bên ngoài nhiều hơn. Trong xã hội hiện nay, khi mà tin học ngày càng đóng vai trò quan trọng trong cuộc sống cũng như trong kinh doanh thì sự cạnh tranh về danh tiếng đóng một vai trò vô cùng quan trọng. Dù muốn hay không thì bất kỳ cá nhân, công ty hay tổ chức nào cũng phải xây dựng và phát triển danh tiếng dựa trên nhận thức của công chúng về danh tiếng đó. Người ta phải mất nhiều năm tháng để xây dựng danh tiếng, nhưng có thể hủy hoại nó chỉ trong chốc nát. Công ty Enron, ngành công nghiệp kế toán kiểm toán sau vụ Andersen, Wall Street,… là những ví dụ nổi bật. Chỉ sau khi quỵ ngã từ đỉnh cao danh vọng, những tổ chức này mới kinh ngạc nhận ra rằng không có gì quý giá hơn một danh tiếng tốt, và cũng không gì phù du hơn một danh tiếng tốt. Với danh tiếng tốt của doanh nghiệp sẽ thu hút khách hàng, nhà đầu tư và các nhân viên tài năng, dẫn đến lợi nhuận cao và giá cổ phiểu cao. Và với thời gian, những công ty biết nuôi dưỡng danh tiếng của mình sẽ khiến mọi người tin tưởng và không chê bai hoặc quay lưng với họ trong những thời điểm khó khăn hay khủng hoảng. 1.1.2. Quản lý danh tiếng trên mạng xã hội. Mạng xã hội là một hiện tượng bùng nổ trong vài năm gần đây. Hàng ngày hàng giờ luôn có người tham gia vào các mạng xã hội như : Twitter, Facebook … đối với một bộ phận người thì đây là việc làm gần như không thể thiếu trong đời sống. Theo [4] thì người dùng trên Twitter gửi trung bình 50 triệu thông điệp mỗi ngày. Mỗi thông điệp là một chia sẻ thông tin của người dùng về các vấn đề họ gặp trong cuộc sống. Phân tích những thông điệp trên chúng ta có thể biết được những hiện tượng xã hội nổi bật đang diễn ra. Tập các thông điệp trên Twitter là nguồn dữ liệu phong phú cho các cá nhân, công ty, tổ chức …để nghiên cứu và phân tích ý kiến của người dùng về các sản phẩm của họ. Để thực hiện được việc phân tích trên thì việc đầu tiên cần thực hiện là xác định xem thông điệp nào là thuộc công ty cần xem xét, sau đó cần xác định xem thông điệp đó mang ý nghĩa tích cực, tiêu cực hay trung tính. Chính vì thế hệ thống đề xuất có nhiệm vụ như sau : Đầu vào : tập các thông điệp trên Twitter. Đẩu ra : Tập các thông điệp theo từng nhóm: thuộc công ty và mang nghĩa tích cực, thuộc công ty và mang nghĩa tiêu cực, thuộc công ty và mang nghĩa trung tính, không thuộc công ty đang xét. 1.2. Khó khăn và thách thức. Bài toán quản lý danh tiếng là một bài toán khá mới, bao gồm nhiều bài toán con, thao tác trên tập lớn văn bản có độ dài nhỏ. Vì độ dài của mỗi thông điệp nhỏ nên gặp một số vấn đề trong việc xử lý ngôn ngữ tự nhiên và tính nhập nhằng của thông tin. Thứ nhất, hệ thống quản lý danh tiếng cần phải xác định một cách rõ ràng sự liên quan của thông điệp với công ty. Đây là một việc khá khó khăn vì các công ty thường lấy tên theo tên sản phẩm mà mình cung cấp. ví dụ : công ty Apple Inc chuyên cung cấp các loại táo (apple), vì thế trong quá trình xác định thường có sự nhập nhằng giữa sản phẩm và tên công ty. Thứ hai, mỗi thông điệp trên Twitter thường rất ngắn (nhỏ hơn 140 ký tự) nên lượng thông tin chứa trong đó là rất ít, các thông điệp thường có thêm những ký hiệu ngôn ngữ đặc biệt và đôi khi còn không đúng cú pháp. Cuối cùng, đó là sự phụ thuộc vào bước tiền xử lý : việc xác định các tập tin về công ty (profiles) là rất quan trọng. Mức độ phong phú và bao trùm của các tập tin ảnh hưởng trực tiếp đến độ chính xác của hệ thống. Xác định các profile của công ty càng tốt thì hệ thống càng cho kết quả cao. Tóm tắt chương một Trong chương này, chúng em đã giới thiệu khái quát tầm quan trong của hệ thống quản lý danh tiếng trong xã hội hiện nay đặc biệt là trong mạng xã hội và một số khó khăn gặp phải khi giải quyết bài toán. Trong chương tiếp theo, chúng em sẽ giới thiệu một số thuật toán phân lớp điển hình được áp dụng trong bài toán quản lý danh tiếng trong mạng xã hội trong một vài năm gần đây. Chương 2 : Một số thuật toán phân lớp có giám sát Bài toán quản lý danh tiếng trên mạng xã hội là một bài toán rộng bao gồm rất nhiều bài toán con như : bài toán xây dựng profiles cho từng công ty, bài toán phân lớp miền dữ liệu thuộc hay không thuộc công ty đang xét, bài toán phân lớp tính tích cực hay tiêu cực của dữ liệu … Chính vì thế bài toán phân lớp dữ liệu là một bài toán rất quan trọng, có ảnh hưởng lớn tới độ chính xác của một hệ thống quản lý danh tiếng. Trong chương này chúng em sẽ giới thiệu một vài thuật toán phân lớp có giám sát phổ biến. 2.1. Thuật toán phân lớp Naive Bayes Thuật toán phân lớp Bayes [1] là một trong những thuật toán phân lớp điển hình nhất trong học máy và khai phá dữ liệu. Đây cũng là một trong những thuật toán được sử dụng rộng rãi nhất trong phân lớp văn bản. Trong học máy, Bayes thường được coi như thuật toán học máy chuẩn để so sánh với sánh với các thuật toán khác. Một ứng dụng mang tính thực tiễn của lý thuyết Bayes là thuật toán phân lớp Naive Bayes. Bộ phân lớp Naive Bayes hoạt động theo các bước sau : i. Mỗi mẫu dữ liệu được biểu diễn bằng một vector đặc trưng n chiều X=(x1,x2,…,xn) tương ứng với n giá trị của n thuộc tính A1,A2,…,An. ii. Giả sử có m lớp C1,C2,…,Cm lấy một mẫu dữ liệu X chưa biết thuộc lớp nào. Thuật toán phân lớp sẽ dự đoán X thuộc về lớp có xác suất hậu nghiệm cao nhất với điều kiện biết trước X. Đó là bộ phân lớp Naive Bayes xếp một mẫu X vào lớp Ci nếu và chỉ nếu : Như vậy, P(Ci|X) là cực đại, theo công thức Bayes thì : iii. P(X) là không đổi với tất cả các lớp, vì vậy muốn P(Ci|X) cực đại thì P(X|Ci) và P(Ci) cực đại. Nếu xác suất P(Ci) không biết thì thường cho xác suất xuất hiện các lớp là như nhau P(C1) = P(C2) = …. = P(Cm) và vì vậy P(X|Ci) là cực đại. Ngược lại xác suất P(Ci) đã biết trước thì cực đại P(X|Ci).P(Ci). Xác suất P(C1) được ước lượng bằng công thức P(C1)=    trong đó Si là số mẫu trong tập dữ liệu học thuộc về lớp Ci, S là tổng số mẫu học. iv. Cho các tập dữ liệu với nhiều thuộc tính thì rất tốn kém để tính P(X|Ci), để giảm tốn kém này, thuật toán phân lớp Naive Bayes đưa ra giả định “lớp độc lập có điều kiện”. Nó cho rằng giá trị của các thuộc tính độc lập có điều kiện với nhau, không có sự phụ thuộc liên hệ giữa các thuộc tính, vì vậy :            Các xác suất     ,     , …,      được ước lượng dựa vào tập dữ liệu học. Trong đó : a) Nếu   có giá trị rời rạc, thì      =     ,   là số mẫu trong tập dữ liệu học thuộc lớp   có giá trị thuộc tính   bằng   và   tổng số mẫu học thuộc lớp   . b) Nếu   có giá trị liên tục, thì thuộc tính được giả định có dạng phân phối chuẩn Gaussian như sau : Trong đó ,        là hàm mật độ Gaussian cho thuộc tính   , còn   và   lần lượt là kỳ vọng và phương sai các giá trị của thuộc tính   của các mẫu học thuộc lớp   . v. Để phân lớp cho một mẫu X, P(X|Ci).P(Ci) được ước lượng cho mỗi lớp   . Mẫu X được xếp vào lớp   nếu và chỉ nếu : Nói cách khác X được xếp vào lớp   nếu P(X|  ).P(  ) cực đại. 2.2. Thuật toán SVM Thuật toán học máy hỗ trợ (Support Vector Machine - SVM) được áp dụng cho phân lớp nhị phân. Cơ sở của thuật toán là dựa trên phương pháp tiếp cận thống kê được Vapnik đề xuất. SVM rất hiệu quả để giải quyết các bài toán với dữ liệu có số chiều lớn như các vector biểu diễn văn bản và được coi là 10 thuật toán khai phá dữ liệu điển hình nhất. Xét bài toán phân lớp đơn giản nhất – phân lớp hai lớp với tập dữ liệu mẫu: Trong đó mẫu là các vector đối tượng được phân lớp thành các mẫu dương và mẫu âm như trong hình :  Các mẫu dương là các mẫu xi thuộc lĩnh vực quan tâm và được gán nhãn yi=1.  Các mẫu âm là các mẫu xi không thuộc lĩnh vực quan tâm và được gán yi = -1. Thực chất phương pháp này là một bài toán tối ưu, mục tiêu là tìm ra một không gian H và siêu mặt phẳng quyết định h trên H sao cho sai số phân lớp là thấp nhất. Trong trường hợp này, tập phân lớp SVM là mặt siêu phẳng phân tách các mẫu dương khỏi các mẫu âm với độ chênh lệch cực đại, trong đó độ chênh lệch – còn gọi là Lề (margin) xác định bằng khoảng cách giữa các mẫu dương và các mẫu âm gần mặt siêu phẳng nhất. Mặt siêu phẳng này được gọi là mặt siêu phẳng lề tối ưu. Các mặt siêu phẳng trong không gian đối tượng có phương trình là: Tương đương với công thức với i=1,…,n Với w = w1 + w2 + …+ wn là bộ hệ số siêu phẳng hay là vector trọng số, C là độ dịch, khi thay đổi w và C thì hướng và khoảng cách từ gốc toạ độ đến mặt siêu phẳng thay đổi. Tập phân lớp SVM được định nghĩa như sau: Trong đó sign(z) = +1 nếu z ≥ 0, sign(z) = -1 nếu z < 0. Nếu f(x) = +1 thì x thuộc về lớp dương (lĩnh vực được quan tâm), và ngược lại, nếu f(x) = -1 thì x thuộc về lớp âm (các lĩnh vực khác). Máy học SVM là một học các siêu phẳng phụ thuộc vào tham số vector trọng số w và độ dịch C. Mục tiêu của phương pháp SVM là ước lượng w và C để cực đại hoá lề giữa các lớp dữ liệu dương và âm. Các giá trị khác nhau của lề cho ta các họ siêu mặt phẳng khác nhau, và lề càng lớn thì năng lực của máy học càng giảm. Như vậy, cực đại hoá lề thực chất là việc tìm một máy học có năng lực nhỏ nhất. Quá trình phân lớp là tối ưu khi sai số phân lớp là cực tiểu. Ta phải giải phương trình sau : [...]... Bài toán quản lý danh tiếng là một bài toán khó và đang nhận được sự quan tâm lớn trong thời gian gần đây Về mặt nội dung thì chúng em đã tìm hiểu được :  Giới thiệu bài toán quản lý danh tiếng trong mạng xã hội và các khái niệm liên quan  Tìm hiểu và giới thiệu các thuật toán phân lớp điển hình như thuật toán Bayes, thuật toán SVM, thuật toán kNN để áp dụng phân lớp trong bài toán quản lý danh tiếng. .. cùng,chúng ta đưa ra tính toán thích hợp cho cảm xúc trong tin nhắn: Tóm tắt chương ba Trong chương này, chúng em đã trình bày 2 bài toán con cơ bản trong bài toán quản lý danh tiếng đó là bài toán phân lớp một tập tweets thuộc hay không thuộc một công ty đang xét và bài toán phân lớp theo yếu tố cảm xúc Thuật toán phân lớp mà chúng em sử dụng là thuật toán phân lớp Bayes, thuật toán trên đã cho kết quả... lý thuyết chúng em trình bày cách giải quyết hai bài toán cơ bản trong quản lý danh tiếng là phân lớp dữ liệu thuộc hay không thuộc một công ty và phân lớp dữ liệu theo yếu tố cảm xúc bằng thuật toán phân lớp Bayes Do thời gian tìm hiểu có hạn nên chúng em chưa đưa ra được mô hình đề xuất giải quyết bài toán Nên định hướng nghiên cứu tiếp theo của chúng em sẽ là :  Tiếp tục nghiên cứu trên cơ sở lý. .. toán Bayes, thuật toán SVM, thuật toán kNN và từ đó rút ra được những ưu điểm của thuật toán phân lớp Bayes Trong chương sau chúng em sẽ mô tả việc sử dụng thuật toán phân lớp Bayes trong việc phân lớp các Tweets lấy từ Twitter Chương 3 : Ứng dụng thuật toán phân lớp Bayes trong bài toán quản lý danh tiếng 3.1 Tiền xử lý dữ liệu 3.1.1 Xây dựng profiles cho từng công ty Có rất nhiều cách để tìm tập các... thuật toán phân lớp giới thiệu ở trên thì thuật toán phân lớp Bayes là thuật toán đòi hỏi ít dữ liệu huấn luyện trong quá trình ước lượng các tham số nhất.Chính vì thế Bayes là phù hợp nhất trong việc phân lớp tập dữ liệu tweets lấy từ Twitter Tóm tắt chương hai Trong chương 2 này chúng em đã giới thiệu ba thuật toán phân lớp có giám sát điển hình là thuật toán Bayes, thuật toán SVM, thuật toán kNN... đó ta có phương trình tổng quát của siêu phẳng tìm ra bởi thuật toán SVM là : Với i= 1, …, n Trong đó n là số dữ liệu huấn luyện Sau khi đã tìm được phương trình của siêu phẳng bằng thuật toán SVM, áp dụng công thức này để tìm ra nhãn lớp cho các dữ liệu mới 2.3 Thuật toán K-Nearest neighbor (kNN) Thuật toán kNN là thuật toán khá nổi tiếng theo hướng tiếp cận thống kê đã được nghiên cứu trong nhiều... của chủ đề cj được tự động học sử dụng một tập văn bản hợp lệ được chọn ra từ tập huấn luyện Để chọn được tham số k tốt nhất cho thao tác phân loại, thuật toán cần được chạy thử nghiệm trên nhiều giá trị k khác nhau, giá trị k càng lớn thì thuật toán càng ổn định và sai sót càng thấp 2.4 Nhận xét Để xây dựng được bộ phân lớp có độ tin cậy cao đòi hỏi phải có một số lượng lớn các mẫu dữ liệu huấn luyện... trực tiếp vào việc xây dựng các vector đặc trưng cho quá trình phân lớp Chính vì thế kết quả phân lớp tốt khi và chỉ khi các thực thể trong profile phải bao trùm tập tweets Tuy nhiên chúng ta không thể quản lý được mức độ phong phú của tập tweets nên tập profiles cần được xây dựng độc lập, từ nhiều nguồn khác nhau Dưới đây là các cách xây dựng profile :  Homepage profile : để xây dựng profile cho công... Bằng cách áp dụng định lý Bayes chúng ta có thể được xác xuất của một tweet bất kỳ có liên quan tới công ty hay không Chúng ta hãy biểu diễn sự phân bố xác suất đặc trưng của tweet liên quan tới một công ty với (2) Và sự phân bố xác xuất đặc trưng của tweet không liên quan tới một công ty với (3) Sau đó, với một tweet bất kỳ t, sử dụng trích chọn các chức năng chúng ta tính toán các giá trị đặc trưng... cho thực nghiệm  Xây dựng mô hình thực nghiệm và tiến hành đánh giá với các kết quả trước đó Tài liệu tham khảo Tiếng Việt : [1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú Giáo trình khai phá dữ liệu Web Nhà xuất bản giáo dục Việt Nam, 2009 Tiếng Anh : [2] Surender Reddy Yerva, Zolan Mikos, and Karl Aberer It was easy, when apples and blackberries were . Chương 1 : Khái quát về bài toán quản lý danh tiếng. 1.1. Bài toán quản lý danh tiếng. 1.1.1. Tầm quan trọng của quản lý danh tiếng. Quản lý danh tiếng là quá trình theo dõi thương. trong bài toán quản lý danh tiếng trong mạng xã hội trong một vài năm gần đây. Chương 2 : Một số thuật toán phân lớp có giám sát Bài toán quản lý danh. không thuộc công ty đang xét. 1.2. Khó khăn và thách thức. Bài toán quản lý danh tiếng là một bài toán khá mới, bao gồm nhiều bài toán con, thao tác trên tập lớn văn bản có độ dài nhỏ. Vì độ

Ngày đăng: 21/07/2015, 16:24

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w