Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
2,51 MB
Nội dung
BÀI GIẢNG KHAI PHÁ QUAN ĐIỂM VÀ KHAI PHÁ PHƯƠNG TIỆN XÃ HỘI CHƯƠNG GIỚI THIỆU CHUNG VỀ KHAI PHÁ DỮ LiỆU, KHAI PHÁ QUAN ĐIỂM VÀ KHAI PHÁ PHƯƠNG TIỆN XÃ HỘI PGS TS HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nội dung Giới thiệu chung khai phá liệu Giới thiệu chung khai phá quan điểm Giới thiệu chung khai phá phương tiện xã hội Giới thiệu khai phá liệu 1.1 Nhu cầu khai phá liệu Sự bùng nổ liệu Lý công nghệ: Công nghệ điện tử (Định luật Moore, Công nghệ CSDL, Công nghệ mạng) Lý xã hội: Dữ liệu cá nhân sinh Thể hiện: Dữ liệu bùng nổ, giá thành giảm Ngành kinh tế định hướng liệu Kinh tế tri thức Phát tri thức từ liệu Bùng nổ liệu: Tác nhân tạo Mở rộng tác nhân tạo liệu Phần tạo liệu người dùng ngày tăng Hệ thống trực tuyến người dùng, Mạng xã hội… Mạng xã hội Facebook chứa tới 40 tỷ ảnh 2010: 900 EB người dùng tạo (trong 1260 EB tổng thể) Nguồn: IDC Digital Universe Study, sponsored by EMC, May 2010 Kinh tế tri thức Kinh tế tri thức Tri thức tài nguyên Sử dụng tri thức động lực chủ chốt cho tăng trưởng kinh tế Hình vẽ: Năm 2003, đóng góp tri thức cho tăng GDP/đầu người Hàn Quốc gấp đôi so với đóng góp lao động vốn TFP: Total Factor Productivity (The World Bank Korea as a Knowledge Economy, 2006) Kinh tế dịch vụ: Từ liệu tới giá trị Kinh tế dịch vụ Xã hội loài người chuyển dịch từ kinh tế hàng hóa sang kinh tế dịch vụ Lao động dịch vụ vượt lao động nông nghiệp (2006) Mọi kinh tế kinh tế dịch vụ Đơn vị trao đổi kinh tế xã hội dịch vụ Dịch vụ: liệu & thông tin ⇒ tri thức ⇒ giá trị Khoa học: liệu & thông tin ⇒ tri thức Kỹ nghệ: tri thức ⇒ dịch vụ Quản lý: tác động tới toàn quy trình thi hành dịch vụ Jim Spohrer (2006) A Next Frontier in Education, Employment, Innovation, and Economic Growth, IBM Corporation, 2006 Ngành kinh tế định hướng liệu Ngành công nghiệp quản lý phân tích liệu “Chúng ta nhập liệu mà đói khát tri thức” Đáng giá 100 tỷ US$ vào năm 2010 Tăng 10% hàng năm, gần gấp đôi kinh doanh phần mềm nói chung vài năm gần tập đoàn lớn chi khoảng 15 tỷ US$ mua công ty phân tích liệu Tổng hợp Kenneth Cukier Nhân lực khoa học liệu CIO chuyên gia phân tích liệu có vai trò ngày cao Người phân tích liệu: người lập trình + nhà thống kê + “nghệ nhân” liệu Mỹ có chuẩn quy định chức Tham khảo trao đổi “Tản mạn hội ngành Thống kê (và KHMT) Nguyễn Xuân Long ngày 03/7/2009 http://www.procul.org/blog/2009/07/03/t%e1%ba%a3n-m%e1%ba%a1n-v%e1%bb %81-c%c6%a1-h%e1%bb%99i-trong-nganh-th%e1%bb%91ng-ke-va-khmt/ 1.2 Khái niệm KDD KPDL Knowledge discovery from databases Trích chọn mẫu tri thức hấp dẫn (không tầm thường, ẩn, chưa biết hữu dụng tiềm năng) từ tập hợp lớn liệu KDD KPDL: tên gọi lẫn lộn? theo ba(hai) tác giả|Khai phá liệu Data Mining bước trình KDD May 7, 2017 Quá trình KDD [FPS96] Đánh giá [FPS96] Usama M Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth (1996) From Data Mining to Knowledge Discovery: An Overview, Advances in Knowledge Discovery and Data Mining 1996: 1-34 May 7, 2017 Mô hình trình KDD lặp [CCG98] Một mô hình cải tiến trình KDD Định hướng kinh doanh: Xác định 1-3 câu hỏi mục đích hỗ trợ đích KDD Kết thi hành được: xác định tập kết thi hành dựa mô hình đánh giá Lặp kiểu vòng đời phát triển phần mềm [CCG98] Kenneth Collier, Bernard Carey, Ellen Grusy, Curt Marjaniemi, Donald Sautter (1998) A Perspective on Data Mining, Technical Reporrt, Northern Arizona University May 7, 2017 10 A distibution of OM papers up to 2007 Source (July 2, 2007) http://liinwww.ira.uka.de/bibliography/Misc/Sentiment.html#stats http://patty.isti.cnr.it/~esuli/research/sentiment/Sentiment.bib Truy vấn "opinion mining" OR "sentiment analysis" cho Google Scholar ngày 15/9/2013 42 Khai phá quan điểm: ứng dụng Quan điểm: trung tâm hành động Quan điểm xuất phát điểm hành vi Thu nhận quan điểm hỗ trợ định Tổ chức: thu thập nhận xét sản phẩm/dịch vụ Cá nhân: định hành động Khai phá quan điểm với phương tiện xã hội Phương tiện xã hội (social media) truyền bá quan điểm Ứng dụng rộng rái miền ứng dụng: sản phẩm tiêu dùng, dịch vụ, y tế, dịch vụ tài → kiện xã hội, bầu cử trị Công trình công bố ứng dụng KPDL 43 KPQĐ: ví dụ nguồn tài liệu quan điểm Bài viết Tổng thống Putin New York Times 11/9/2013 http://www.nytimes.com/2013/09/12/opinion/putin-plea-for-caution-from-russia-on-syria.html?_r=1& Tới 11:30 ngày 15/9/2013: 4447 lời bình luận (4447 comments) “We shouldn't disregard a common sense argument just because it’s Russian” May 7, 2017 44 KPQĐ: mức (bài toán) Mức tài liệu - document-level sentiment classification Toàn tài liệu thể quan điểm tích cực (positive) / tiêu cực (negative) Phân lớp chứa/không quan điểm Bài toán phân lớp: Tài liệu chứa quan điểm: tích cực / tiêu cực Mức câu May 7, 2017 sentence level: subjectivity classification Cho quan điểm tích/tiêu cực trung tính (neutral) Trung tính ~ quan điểm Phân lớp câu: khách quan (objective sentences) chủ quan (subjective sentence) Câu chủ quan không tương đương câu có quan điểm Câu khách quan “Tôi mua xe tháng trước gạt nước bị rơi” có quan điểm 45 KPQĐ: mức khía cạnh so sánh Mức thực thể khía cạnh - Entity and Aspect level / aspect level / feature level feature-based opinion mining and summarization Đối tượng khía cạnh đối tượng Mức khía cạnh phát xác thích không thích Toàn đối tượng khía cạnh, Chi tiết theo khía cạnh, hấp dẫn phức tạp Một số ví dụ "mặc dù dịch vụ không đáng kể, thích nhà hàng này“ Toàn nhà hàng: tích cực, khóa cạnh dịch vụ : Tiêu cực "chất lượng gọi iPhone tốt, tuổi thọ pin ngắn” Khía cạnh gọi: tích cực”, khía cạnh tuổi thọ pin: tiêu cực Quan điểm so sánh May 7, 2017 So sánh hai hay nhiều thực thể với So sánh nhất: tốt/tồi So sánh kém: So sánh không thứ bậc: hai khía cạnh khác 46 KPQĐ: số vấn đề liên quan Từ quan điểm - Từ quan điểm: dấu hiệu nhận diện quan điểm Từ vựng quan điểm (SentiWordNet) Spam quan điểm - Tìm kiếm trang web: SEM (Search Engine Maketing) SEO (Search Engine Optimizing) Spam quan điểm: tự động sinh câu quan điểm - Các chương May 7, 2017 47 KPQĐ: Ví dụ mức khía cạnh [QTH11] Quang-Thuy Ha, Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu (2011) An Upgrading Feature-based Opinion Mining Model on Product Reviews in Vietnamese, AMT’2011: 173-185 May 7, 2017 48 Giới thiệu khai phá PTXH Giới thiệu mạng xã hội Social Network: Cấu trúc xã hội gồm tập cá nhân/tổ chức tập quan hệ xã hội cá nhân/tổ chức mạng [EK10] Có tính xã hội hóa gắn liền với internet Phát triển nhanh chóng Online social network: thi hành online social network service Giới thiệu phương tiện xã hội Social Media - SM (“Phương tiện truyền thông xã hội”): ý nghĩa nội dung với dịch vụ mạng xã hội Thông qua SM, nội dung người dùng tạo (user-generated content: UGC) thành phần có tỷ trọng lớn tập liệu tổng thể mà loài người có [EK10] David Easley, Jon Kleinberg (2010) Networks, Crowds, and Markets: Reasoning about a Highly Connected World, Cambridge University Press May 7, 2017 49 Facebook: tăng trưởng nhanh David Cohen, editor of AllFacebook (2012) Facebook Projected To Top Billion Users In August, http://allfacebook.com/facebook-billion_b73632 http://allfacebook.com/ May 7, 2017 50 Twitter: tăng trưởng nhanh [Ben12] Shea Bennet (2012) Twitter On Track For 500 Million Total Users By March, 250 Million Active Users By End Of 2012, http://www.mediabistro.com/alltwitter/twitter-active-total-users_b17655 http://www.mediabistro.com/alltwitter/ May 7, 2017 51 Đặc trưng phân loại mạng XH Twitter ? Phân loại mạng xã hội [KH10] theo độ diện xã hội/độ phong phú phương tiện truyền thông (social presence/media richness) đặc trưng tự trình bày/tự tiết lộ (self-presentation/self-disclosure) [KH10] Andreas M Kaplan and Michael Haenlein (2010) Users of the world, unite! The challenges and opportunities of Social Media, Business horizons (2010), 53:59-68 May 7, 2017 52 Mạng xã hội: tác động Giới thiệu - Tác động lớn, lan tỏa nhanh Tăng cường nguồn vốn xã hội (social capital), Facebook với “Mùa xuân Ả rập 2011” Facebook với bạo loạn Anh năm 2011 “Phóng viên nhân dân” Twitter trợ giúp thông tin “thảm họa kép động đất-sóng thần” Nhật Bản 2011 Tác động khoa học: ngành xã hội học May 7, 2017 Nội dung nghiên cứu đặc thù: Phân tích mô tả người sử dụng, Động lực sử dụng Facebook, Trình bày danh tính, Vai trò Facebook tương tác xã hội, Tính riêng tư việc tiết lộ thông tin Hình thành số chuyên ngành Netnography" = “Inter[net]” and “eth[nography]”, "Child-led Research“ 53 Mạng xã hội: khai phá liệu Khai phá nội dung - Nội dung viết đối tượng khai phá DL Khai phá liệu văn Đặc thù: (i) mạng xã hội (chẳng hạn, viết không chuẩn đặc biệt ký hiệu viết tắt, thán từ … Khai phá cấu trúc - Mối liên hệ nút (cung) mạng xã hội: dự báo cung nói chung cung loại Tính chất đặc thù mạng xã hội: ký hiệu đặc tả Khai phá kết hợp nội dung + cấu trúc May 7, 2017 Kết hợp hai loại giải pháp Cach tiếp cận riêng 54 55 SMU: Trung tâm phân tích sống LARC với the Living Analytics Adaptive Learning Loop Quan sát (Observe): quan sát tương tác quan hệ người dùng mạng thời gian thực thu thập dấu vết kỹ thuật số Phân tích, Dự báo (Analyse, Predict): tiếp nhận, phân tích dấu vết số, phát mẫu để dự báo hành vi người dùng xu hướng mạng Thực nghiệm(Experiment): kiểm tra cách cá nhân/nhóm phù hợp với thay đổi nội dung, cung cấp dịch vụ, kinh nghiệm tương tác, giá ưu đãi Hành động người (Human Action): người dùng tạo trả lời từ thực May 7, 017 nghiệm thông qua thông tin phản hồi ⇒ liệu cho pha Quan sát http://centres.smu.edu.sg/larc/essence-of-living-analytics/ Một số tài liệu khái quát 2011 ACM SIGMOD Conference Tutorial [Lesk11] Jure Leskovec (2011) Tutorial on Social Media Analytics, Tutorial at the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (Part 1: Information flow, Part2: Rich Interactions), 2011 NMHoàng có buổi trình bày 2010 ACM SIGMOD Conference Tutorial [HSYY10] Jiawei Han, Yizhou Sun, Xifeng Yan, Philip S Yu (2010) Mining Knowledge from Databases: An Information Network Analysis Approach 56 - Luận án TS Lescovic [Lesk08] Jure Leskovec (2008) Dynamics of large networks, PhD Thesis, Carnegie Mellon University (ACM SIGKDD Dissertation Award 2009) Sách mạng xã hội (K51&K52: tiểu luận) [EK10] David Easley, Jon Kleinberg (2010) Networks, Crowds, and Markets: Reasoning About a Highly Connected World, Cambridge University Press, 9/2010 Nên tham khảo tiểu luận K51&K52 May 7, 017