Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
318,04 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ BÍCH NHẬT TRÍCH CHỌN VÀ XẾP HẠNG ĐẶC TRƢNG SẢN PHẨM TRONG PHÂN TÍCH QUAN ĐIỂM LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội, năm 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ BÍCH NHẬT TRÍCH CHỌN VÀ XẾP HẠNG ĐẶC TRƢNG SẢN PHẨM TRONG PHÂN TÍCH QUAN ĐIỂM Chuyên ngành: Khoa học máy tính Mã số:60480101 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: PGS TS Lê Anh Cƣờng XÁC NHẬN CỦA CTHĐ XÁC NHẬN CỦA GVHD PGS TS Phạm Bảo Sơn PGS TS Lê Anh Cƣờng Hà Nội, năm 2015 MỤC LỤC DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH VẼ ERROR! BOOKMARK NOT DEFINED CÁC KÍ HIỆU VÀ CỤM TỪ VIẾT TẮT ERROR! BOOKMARK NOT DEFINED TÓM TẮT CHƢƠNG 1: GIỚI THIỆU 1.1 Các khái niệm khai phá quan điểm 1.3 Bài toán trích chọn thuộc tính 1.4 Mục tiêu luận văn CHƢƠNG 2: TRÍCH CHỌN THUỘC TÍNH ERROR! BOOKMARK NOT DEFINED 2.1 Mô hình chung cho toán phân tích quan điểm Error! Bookmark not defined 2.2 Dữ liệu Error! Bookmark not defined 2.3 Phƣơng pháp trích chọn thuộc tính Error! Bookmark not defined 2.3.1 Phƣơng pháp lan truyền kép Error! Bookmark not defined 2.3.2 Phƣơng pháp trích chọn dựa vào quan hệ phận - toàn bộ, mẫu “No”…Error! Bookmark not defined 2.4 Trích chọn đặc trƣng văn đánh giá Tiếng Việt Error! Bookmark not defined CHƢƠNG 3: THUẬT TOÁN HITS SẮP XẾP THUỘC TÍNHERROR! BOOKMARK NOT DEFINED 3.1 Đồ thị hai phía thuật toán HITS Error! Bookmark not defined 3.2 Phân loại thuộc tính Error! Bookmark not defined 3.3 Sắp xếp thuộc tính Error! Bookmark not defined CHƢƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ ERROR! BOOKMARK NOT DEFINED 4.1 Môi trƣờng thực nghiệm Error! Bookmark not defined 4.2 Xây dựng tập liệu Error! Bookmark not defined 4.3 Các bƣớc thực Error! Bookmark not defined 4.4 Kết thực nghiệm Error! Bookmark not defined KẾT LUẬN ERROR! BOOKMARK NOT DEFINED PHỤ LỤC ERROR! BOOKMARK NOT DEFINED DANH MỤC TÀI LIỆU THAM KHẢO TÓM TẮT Với phát triển nhanh chóng phong phú Web, nhiều hình thức kết nối, chia sẻ, trao đổi thông tin xuất diễn đàn, nhóm thảo luận trang mạng xã hội nhƣ blog, facebook … Web thay đổi đáng kể cách thức ngƣời dùng bày tỏ quan điểm internet Chúng ta dễ dàng bắt gặp ý kiến, cảm nghĩ, nhận xét, đánh giá ngƣời dùng sản phẩm mà họ sử dụng Tất đƣợc gọi chung nội dung ngƣời dùng tạo Xu hƣớng tạo lƣợng khổng lồ nguồn thông tin hữu ích đo lƣờng đƣợc có nhiều ứng dụng thực tế Ví dụ ngƣời muốn mua sản phẩm, họ không bị giới hạn góp ý bạn bè gia đình có nhiều đánh giá sản phẩm trang web Còn công ty, họ không thiết phải tốn nhiều chi phí để mở thăm dò khảo sát thuê tƣ vấn bên để thu thập ý kiến khách hàng liệu ngƣời dùng tạo cung cấp cho họ đầy đủ thông tin Trong nhiều năm trở lại đây, lĩnh vực khai phá thông tin tri thức phát triển toán nghiên cứu khai phá phân tích quan điểm Bài toán có ý nghĩa quan trọng thƣơng mại điện tử, kinh tế, trị, xã hội hóa Bài toán khai phá quan điểm đƣợc nhà khoa học nghiên cứu với chủ đề khác Mối quan tâm nhiều tập trung vào chủ đề tìm lọc viết giả (spam) nhằm làm hỏng danh tiếng sản phẩm, dịch vụ…hoặc với mục đích quảng cáo để bán sản phẩm, dịch vụ Sau đó, viết đƣợc phân loại câu chủ quan, câu khách quan nhằm tìm ý kiến ngƣời dùng sản phẩm tích cực hay tiêu cực, thích hay không thích Ngoài ra, khai phá quan điểm giải toán xác định tên, xác định thuộc tính, xác định câu đánh giá quan trọng… Sản phẩm phong phú, đa dạng Ứng với sản phẩm lại có tính thuộc tính khác chúng đƣợc thay đổi theo hƣớng ngày đại đa dạng Việc xác định thuộc tính theo phƣơng pháp truyền thống ngày trở nên khó khăn Vì việc nghiên cứu phát triển hệ thống tự động phát thuộc tính sản phẩm môi trƣờng internet cần thiết Trích chọn đặc trƣng sản phẩm toán quan trọng khai phá phân tích quan điểm Một câu nhận xét có nhiều đặc trƣng, giới hạn luận văn tập trung vào việc trích chọn thuộc tính sản phẩm xếp hạng theo mức độ quan trọng thuộc tính 3 Chúng ta xét ví dụ sau : “I bought a Sony camera yesterday, and its picture quality is great” Hệ thống phân tích quan điểm tự động xác định đƣợc quan điểm thuộc tính chất lượng hình ảnh Ở đây, Sony camera thực thể picture quality thuộc tính thực thể Sony camera Trong luận văn này, sâu vào nghiên cứu toán trích chọn xếp thuộc tính sản phẩm Điều có ý nghĩa quan trọng với liệu không xác định trƣớc miền Bằng việc nghiên cứu, phân tích phƣơng pháp đƣợc áp dụng trƣớc đó, lựa chọn trích chọn thuộc tính phƣơng pháp lan truyền kép, quan hệ toàn - phận, mẫu “No” sử dụng thuật toán HITS để xếp hạng thuộc tính sau đƣợc trích chọn 4 CHƢƠNG 1: GIỚI THIỆU 1.1 Các khái niệm khai phá quan điểm Quan điểm sản phẩm, dịch vụ, cá nhân, tổ chức, kiện, chủ đề đƣợc thể ngƣời tổ chức Thuật ngữ thực thể để đối tƣợng mục tiêu cần đánh giá Một thực thể bao gồm tập thành phần tập thuộc tính Mỗi thành phần lại có thành phần thuộc tính Do đó, BingLiu [5] định nghĩa thực thể nhƣ sau: Thực thể (entity): Một thực thể sản phẩm, dịch vụ, ngƣời, kiện, tổ chức chủ đề Nó đƣợc mô tả cặp e: (T, W), với T hệ phân cấp thành phần, thành phần v.v… W tập thuộc tính e Một thƣơng hiệu tiếng điện thoại di động đƣợc coi thực thể ví dụ nhƣ Iphone Nó bao gồm thành phần: hình, pin, vỏ … tập thuộc tính nhƣ chất lƣợng âm thanh, kích thƣớc, trọng lƣợng…Thành phần pin có thuộc tính riêng nó: tuổi thọ pin, kích thƣớc pin… Dựa khái niệm thực thể đƣợc thể dƣới dạng phân cấp Trong đó, gốc thực thể, nút gốc thành phần thành phần Mỗi liên kết phần mối quan hệ Mỗi nút đƣợc liên kết với tập hợp thuộc tính Một ý kiến đƣợc thể nút thuộc tính nút Ví dụ việc đƣa ý kiến điện thoại di động nhƣ: “Tôi không thích Iphone” thuộc tính “Chất lượng âm Iphone thật tệ hại” Chất lƣợng âm thuộc tính loa, loa thuộc tính điện thoại, thể thực thể Iphone “Không thích” “tệ hại” quan điểm ngƣời dùng Tƣơng tự nhƣ vậy, ngƣời ta đƣa ý kiến thành phần thực thể thuộc tính thành phần Trong thực tế, việc sử dụng hữu dụng nhằm đơn giản hóa định nghĩa hai lý Thứ nhất, việc học xử lý ngôn ngữ tự nhiên văn cách chi tiết nhƣ mô tả khó Thứ hai, ngƣời sử dụng thƣờng thấy phức tạp để sử dụng phân cấp Do đó, để đơn giản hóa san hai cấp việc sử dụng thuộc tính (aspect) để biểu thị hai (thành phần thuộc tính) Cây lúc có nút gốc thực thể nó, nút mức hai thuộc tính khác thực thể Thuộc tính (aspect): Các thuộc tính thực thể e thành phần thuộc tính e Một thể thuộc tính từ cụm từ xuất văn thuộc tính Ví dụ: Trong lĩnh vực điện thoại di động, thuộc tính đƣợc đặt tên chất lƣợng âm Có nhiều thể đƣợc thuộc tính nhƣ: âm thanh, tiếng nói, chất lƣợng âm thanh… Thuộc tính thƣờng danh từ cụm danh từ, động từ, tính từ, trạng từ Ví dụ “Âm điện thoại rõ ràng”, “âm thanh” thuộc tính với vai trò danh từ câu “Lớn” câu “Điện thoại lớn” thuộc tính tiềm ẩn ngụ ý kích thƣớc thuộc tính Nhiều thể thuộc tính ẩn tính từ trạng từ, mà bao hàm số thuộc tính cụ thể, ví dụ nhƣ đắt tiền (giá), đáng tin cậy (độ tin cậy) Thể thuộc tính ẩn không tính từ trạng từ mà phức tạp, ví dụ nhƣ "Điện thoại không dễ dàng phù hợp túi" Ở đây, "phù hợp túi" cho biết kích thƣớc hình dạng thuộc tính Trong luận văn này, tập trung chủ yếu vào thể thuộc tính rõ ràng, hầu hết thuộc tính tài liệu quan điểm đƣợc thể cách rõ ràng Cũng nhƣ thuộc tính, thực thể có tên thể thực thể Ví dụ, thƣơng hiệu Motorola (tên tổ chức) đƣợc thể nhiều cách nhƣ "Moto", "Mot" "Motorola" Thể thực thể (entity expression): thể thực thể từ cụm từ xuất văn thực thể Người đưa ý kiến (opinion holder): ngƣời tổ chức bày tỏ ý kiến Để đánh giá sản phẩm blog, chủ sở hữu quan điểm thƣờng tác giả đăng Quan điểm có hai loại chính: quan điểm thông thƣờng quan điểm so sánh Quan điểm thông thƣờng đƣợc gọi đơn giản quan điểm tài liệu nghiên cứu Một quan điểm so sánh thể mối quan hệ giống hay khác hai hay nhiều thực thể, mà thƣờng đƣợc thể cách sử dụng hình thức so sánh tính từ trạng từ Ở đây, ta tập trung vào quan điểm không thƣờng xuyên Về bản, quan điểm nhìn tích cực hay tiêu cực, thái độ, cảm xúc hay đánh giá thực thể hay thuộc tính thực thể từ ngƣời có quan điểm Tích cực, tiêu cực trung lập đƣợc gọi định hƣớng quan điểm Tên khác cho định hƣớng quan điểm định hƣớng tình cảm, định hƣớng ngữ nghĩa, phân cực Trong thực tế, trung lập thƣờng đƣợc hiểu ý kiến Ta có khái niệm quan điểm (Liu 2010) : Quan điểm (Opinion) : Mô ̣t quan điể m đƣơ ̣c biể u diễn là mô ̣t bô ̣ năm thành phầ n : (ej, ajk , soijkl, hi , tl) Trong đó: ej: thực thể mục tiêu ajk : khía cạnh thực thể soijkl : Giá trị quan điểm ngƣời h i khiá ca ̣nh a jk thực thể ej so có thể ở khẳng định, phủ định, trung lâ ̣p hoă ̣c nhiề u xế p ̣ng chi tiế t hi : Ngƣời đƣa quan điể m tl : Thời gian của quan điể m (ej, ajk) đƣợc gọi mục tiêu quan điểm không có nhiề u giá tri ̣sƣ̉ du ̣ng , quan điể m mà không có mu ̣c tiêu thì Sau đây, ta định nghĩa mô hình thực thể, mô hình tài liệu chứa quan điểm mục đích khai thác quan điểm đƣợc gọi chung khai thác quan điểm dựa thuộc tính Mô hình thực thể (model of entity): Một thực thể ei đƣợc thể bao gồm tập hữu hạn thuộc tínhAi= {ai1, ai2,…, ain} Chính thực thể có thể đƣợc thể tập thể thực thể OEi = {oei1, oei2,…, oeis} Mỗi thuộc tính aij Ai thực thể đƣợc thể tập hữu hạn thể thuộc tínhAEij = {aeij1, aeij2,…, aeijm} Mô hình tài liệu chứa quan điểm (Model of opinionated document): Một tài liệu chứa quan điểm d bao gồm quan điểm tập thực thể {e1, e2,…, er} từ ngƣời có quan điểm {h1, h2, …, hp} Quan điểm thực thể ei thể thực thể tập Aid thuộc tính Mục tiêu khai phá quan điểm: Với tập tài liệu chứa quan điểm D, khám phá tất quan điểm (ei, aij, ooijkl, hk, tl) D Những toán khai phá quan điểm Khai phá quan điểm hay gọi phân tích quan điểm có toán lớn sau [5]: - Tìm lọc liệu chứa quan điểm phân tích - Xác định tri thức liệu quan điểm - Phân tích thuộc tính sản phẩm - Những toán khác Tìm lọc liệu chứa quan điểm phân tích Đây toán đƣợc nghiên cứu nhiều nhà khoa học Trong Bing Liu[15] đƣa hai toán là: (1) Tìm lọc tài liệu chứa quan điểm (filter spam), (2) Phân loại câu, mệnh đề câu chủ quan hay khách quan Bài toán thứ toán phát loại bỏ viết giả (thƣ rác) Những viết đánh giá đƣợc coi thật, cố gắng gây hiểu lầm cho ngƣời đọc cho hệ thống tự động cách cho ý kiến tích cực không xứng đáng với đối tƣợng để thúc đối tƣợng (quảng cáo sản phẩm), ý kiến tiêu cực để làm hỏng danh tiếng đối tƣợng Phát thƣ rác nhƣ quan trọng khai phá quan điểm Bài toán xác định câu chủ quan, khách quan nghĩa xác định xem câu ý kiến hay không (thƣờng gọi câu chủ quan) Mặc dù câu ý kiến tích cực, tiêu cực hay trung lập dễ dàng cho việc phân tích, tổng hợp đánh giá Xác định tri thức liệu quan điểm Với toán phân lớp văn đánh giá nghĩa đƣa viết câu đánh giá sản phẩm, hệ thống xác định xem nhận xét sản phẩm tốt hay xấu, thích hay không thích Phân lớp thƣờng phân lớp mức câu mức tài liệu (nghĩa thể quan điểm toàn viết) Ta xét ví dụ sau: Sony is same as Nokia (1) Sony camera is good (2) Display is bad (3) Ở đây, câu (1) mang nghĩa trung lập Câu (2) mang nghĩa tích cực (khen) sản phẩm Câu (3) mang nghĩa tiêu cực Phân tích thuộc tính sản phẩm Bài toán sâu vào giải ba toán con: Phân loại thuộc tính tích cực hay tiêu cực (pos/neg), xếp hạng thuộc tính (rating), xác định trọng số (độ quan trọng thuộc tính) Phân loại thuộc tính tìm hiểu thuộc tính đối tƣợng mà ngƣời dùng đánh giá tích cực hay tiêu tực, thích hay không thích Quan điểm thƣờng đƣợc thể mức câu Ta xét ví dụ: “Tuổi thọ pin ngắn” Ngƣời dùng nhận xét thuộc tính “pin” ý kiến tiêu cực Bài toán xếp hạng thuộc tính toán đƣợc Bing Liu cộng đƣa [4] Nhiệm vụ toán xác định thuộc tính sản phẩm mà đƣợc đánh giá khách hàng sau xếp hạng thuộc tính theo tần số xuất chúng Bài toán xác định trọng số thuộc tính toán xác định thuộc tính sản phẩm sau tính trọng số xếp hạng chúng Bài toán có ý nghĩa quan trọng liệu mà không quan tâm tri thức văn đánh giá Những toán khác Ngoài toán trên, khai phá quan điểm giải toán: Xác định Tên văn (Name detection), xác định thuộc tính (aspect determination), xác định bình luận quan trọng (so sánh)… 1.3 Bài toán trích chọn thuộc tính Bài toán trích chọn thuộc tính khai phá quan điểm xác định thuộc tính viết nhiều khách hàng sản phẩm, dịch vụ, tổ chức… Trong viết đó, từ thuộc tính đƣợc trích chọn Phƣơng pháp dùng để trích chọn thuộc tính đƣợc Bing Liu [5] nêu coi danh từ, cụm danh từ thƣờng xuyên xuất đánh giá thuộc tính sản phẩm Tuy nhiên phƣơng pháp không trích chọn đƣợc thuộc tính mang nghĩa ngầm định Một hƣớng tiếp cận khác để trích chọn thuộc tính sử dụng phƣơng pháp thông tin tƣơng hỗ thời điểm (Pointwise Mutual Information – PMI) Hƣớng tiếp cận xác định danh từ cụm danh từ thuộc tính theo trọng số PMI, nghĩa giá trị PMI thấp không thuộc tính sản phẩm, giá trị PMI cao danh từ, cụm danh từ thuộc tính sản phẩm Nhƣợc điểm phƣơng pháp nhiều thời gian cho việc tính toán trọng số PMI cho tất danh từ, cụm danh từ Một phƣơng pháp đƣợc đề xuất Scaffidi [2] sử dụng mô hình ngôn ngữ để trích chọn thuộc tính sản phẩm Ý tƣởng phƣơng pháp tính tổng số lần xuất thuộc tính sản phẩm văn đánh giá Nhƣợc điểm phƣơng pháp áp dụng với liệu nhỏ, kết đạt đƣợc không cao Năm 2010, G Qiu, B Liu [8] đề xuất phƣơng pháp “lan truyền kép” (double propagation) để trích chọn thuộc tính Hƣớng tiếp cận sử dụng mối quan hệ thuộc tính sản phẩm từ chứa quan điểm Trƣớc đó, thuộc tính đƣợc xác định cách sử dụng từ quan điểm Từ chứa quan điểm thuộc tính sau trích chọn đƣợc sử dụng để trích chọn từ chứa quan điểm thuộc tính chƣa có Quá trình dừng lại không từ quan điểm, thuộc tính đƣợc trích chọn thêm 9 1.4 Mục tiêu luận văn DANH MỤC TÀI LIỆU THAM KHẢO [1] L Zhang and B Liu, “Extracting and ranking product features in opinion documents” in ACL, 2010, pp 575–580 [2] Christopher Scaffidi, Kevin Bierhoff, Eric Chang, Mikhael Felker, Herman Ng, and Chun Jin.Red opal: “Product-feature scoring from reviews” In Proceedings of the 8th ACM conference onElectronic commerce, EC '07, pages 182-191, New York, NY, USA, 2007 ACM ISBN 978-1-59593-653-0 [3] B Pang and L Lee “Opinion mining and sentiment analysis Found” Trends Inf Retr., 2(1-2):1–135, Jan 2008 [4] Hu, M and B Liu “Mining and summarizing customer reviews” In Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2004), 2004b [5] B Liu “Sentiment analysis and subjectivity” A chapper in Handbook of Natural Language Processing, 2nd, 2010 [6] Guang Qiu, Bing Liu, Jiajun Bu, and Chun Chen “Expanding domain sentiment lexicon throughdouble propagation” In Proceedings of the 21st international jont conference on Artifical intel li-gence , IJCAI'09, pages 1199 -1204, San Francisco, CA, USA, 2009 Morgan Kaufmann PublishersInc [7]Ana-Maria Popescu and Oren Etzioni “Extracting product features and opinions from reviews” InProceedings of the conference on Human Language Technology and Empirical Methods in NaturalLanguage Processing, HLT '05, pages 339346, Stroudsburg, PA, USA, 2005 Association forComputational Linguistics [8] Guang Qiu, Bing Liu, Jiajun Bu, and Chun Chen Opinion word expansion and target extractionthrough double propagation Comput Linguist , 37:9-27, 2011 ISSN 0891-2017 [9] Blair-Goldensohn, Sasha, Kerry, Hannan., Ryan, McDonald., Tyler, Neylon., George A Reis, Jeff, Reyna 2008 “Building Sentiment Summarizer for Local Service Reviews” In Proceedings of the Workshop of NLPIX WWW, 2008 [10] Kleinberg, Jon 1999 “Authoritative sources in hyperlinked environment” Journal of the ACM 46 (5): 604-632 1999 10 [11]Ana-Maria Popescu and Oren Etzioni “Extracting product features and opinions from reviews” In Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, HLT '05, pages 339346, Stroudsburg, PA, USA, 2005 Association for Computational Linguistics [12] Peter D Turney Thumbs up or thumbs down? Semantic orientation applied to unsupervised classi-fication of reviews Computational Linguistics, pages (July):8, 2002 URL http://cogprints.org/2321/ [13] Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu, and Quang-Thuy Ha A feature-based opin-ion mining model on product reviews in Vietnamese In Radoslaw Katarzyniak, Tzu-Fu Chiu, Chao-Fu Hong, and Ngoc Nguyen, editors, Semantic Methods for Know ledge Management and Communication, volume 381 of Studies in Computational Intel ligence , pages 2333 SpringerBerlin Heidelberg, 2011 ISBN 978-3-642-23417-0 [14] Liu, Bing 2006 Web Data Mining: Exploring Hyperlinks, contents and usage data Springer, 2006 [15] B Liu, “Opinion Mining”, A Chapter in the book: Web Data Mining, Springer, 2006