Vu trong hoa EXTRACTING ASPECT IN OPINIO

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Trọng Hóa TRÍCH XUẤT KHÍA CẠNH TRONG KHAI PHÁ QUAN ĐIỂM TWITTER BẰNG HỌC MÁY CRF TRÊN CHỦ ĐỀ ẨN KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Trọng Hóa TRÍCH XUẤT KHÍA CẠNH TRONG KHAI PHÁ QUAN ĐIỂM TWITTER BẰNG HỌC MÁY CRF TRÊN CHỦ ĐỀ ẨN KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hướng dẫn: PGS TS Hà Quang Thụy Cán đồng hướng dẫn: Th.S Phạm Thị Ngân HÀ NỘI - 2013 VIETNAM NATIONAL UNIVERSITY, HA NOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Vu Trong Hoa EXTRACTING ASPECT IN OPINION MINING TWITTER DATA BASED ON CONDITIONAL RANDOM FIELDS USING TOPIC MODELS BACHELOR THESIS Major: Information Technology Supervisor: Assoc Prof Ha Quang Thuy Co-Supervisor: M.Sc Pham Thi Ngan HÀ NỘI - 2013 Khóa luận tốt nghiệp Vũ Trọng Hóa LỜI CẢM ƠN Trước tiên, tơi xin gửi lời cảm ơn sâu sắc đến thầy giáo, PGS TS Hà Quang Thụy, Th.S Phạm Thị Ngân Th.S Vũ Tiến Thành, người tận tình bảo hướng dẫn tơi suốt q trình thực khóa luận tốt nghiệp Tơi xin bày tỏ lời cảm ơn sâu sắc đến thầy cô giảng dạy suốt bốn năm qua, kiến thức nhận giảng đường hành trang quan trọng giúp vững bước tương lai Tôi xin cảm ơn anh chị bạn sinh viên phịng thí nghiệm Cơng nghệ Trí thức KTLab giúp tơi tích lũy nhiều kiến thức chun mơn để hồn thành tốt khóa luận Tơi gửi lời cảm ơn tới tập thể lớp K54CD K54CLC ủng hộ khích lệ ln sát cánh bên tơi suốt trình học tập rèn luyện trường Cuối cùng, muốn gửi lời cảm ơn sâu sắc đến tất bạn bè, đặc biệt cha mẹ anh trai, người ủng hộ đường lựa chọn, giúp đỡ động viên tơi vượt qua khó khăn sống Hà Nội, ngày 12/5/2013 Sinh viên Vũ Trọng Hóa Khóa luận tốt nghiệp Vũ Trọng Hóa TRÍCH XUẤT KHÍA CẠNH TRONG KHAI PHÁ QUAN ĐIỂM TWITTER BẰNG HỌC MÁY CRF TRÊN CHỦ ĐỀ ẨN Vũ Trọng Hóa Khóa QH-2009-I/CQ, nghành Công Nghệ Thông Tin Khai phá quan điểm mạng xã hội nhận quan tâm đặc biệt cộng đồng nghiên cứu tính khoa học ứng dụng cao [1], [2], [3], [4] Đặc thù thông điệp ngắn mạng xã hội Twitter vừa tạo nên xu hướng tăng trưởng nhanh chóng hoạt động trao đổi quan điểm vừa tạo nên thách thức khai phá quan điểm Twitter Trích xuất khía cạnh tốn tảng khai phá quan điểm mức khía cạnh nhằm đáp ứng yêu cầu phân tích quan điểm đến mức chi tiết – mức khía cạnh [5] Trích xuất khía cạnh khai phá quan điểm từ liệu Twitter chủ đề nghiên cứu thời sự, giải pháp trích xuất khía cạnh dựa học máy sử dụng mơ hình chủ đề ẩn kỳ vọng tính hiệu Khóa luận tập trung nghiên cứu phương pháp trích xuất khía cạnh khai phá quan điểm, phương pháp học máy giám sát CRFs mơ hình chủ đề ẩn Trên sở nghiên cứu đó, khóa luận đề xuất mơ hình trích xuất khía cạnh dựa học máy giám sát CRFs sử dụng mơ hình chủ đề để trích xuất khía cạnh khai phá quan điểm Twitter Các thành phần mô hình đề xuất phân tích thấu tường minh ưu điểm cho phép thêm vào nhiều tri thức từ loại, quan hệ phụ thuộc … để trích xuất khía cạnh phổ biến, tận dụng lượng lớn liệu không gán nhãn thơng qua mơ hình chủ đề Kết thực nghiệm khóa luận tiến hành cho thầy mơ hình trích xuất khía cạnh đạt độ đo F1 đạt 77.97% (chỉ sử dụng đặc trưng bản), đạt 78.74% (sử dụng đặc trưng mơ hình song bỏ đặc trưng chủ đề ẩn) đạt 80.18% (sử dụng toàn đặc trưng) Thực nghiệm cho thấy trường hợp mơ hình 10 chủ đề ẩn sử dụng đặc trưng chủ đề ẩn có xác suất lớn liệu có tác dụng lớn Từ khóa: trích xuất khía cạnh, khai phá quan điểm Twitter, mơ hình chủ đề, học máy CRFs Khóa luận tốt nghiệp Vũ Trọng Hóa EXTRACTING ASPECT IN OPINION MINING TWITTER DATA BASED ON CONDITIONAL RANDOM FIELDS USING TOPIC MODELS Vũ Trọng Hóa QH-2009-I/CQ, Information Technology Aspect extraction is considered as crucial task in opinion mining, it is an enabling technology for some application like: opinion question answering, opinion summarization…In addition, Microblogging services, such as Twitter, have become popular channels for people to express their opinions towards a broad range of topics (i.e products, services, people) It is not only a chance but also a great challenge to build a system to leverage this rich-opinion resource In this thesis, I proposed a model to extract opinion aspects by using CRFs based on topic model It can employ rich features from nature language and leverage large amount of data from Twitter The experimental results show the effectiveness of the proposed approach Keywords: aspect extraction, topic model, CRFs, Twitter Khóa luận tốt nghiệp Vũ Trọng Hóa LỜI CAM ĐOAN Em xin cam đoan mơ hình trích xuất khía cạnh khai phá quan điểm Twitter học máy CRFs dựa chủ đề ẩn thực nghiệm trình bày khóa luận tơi thực hướng dẫn PGS TS Hà Quang Thụy ThS Phạm Thị Ngân Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày 12 tháng 05 năm 2013 Sinh viên Vũ Trọng Hóa Mục lục Danh sách hình vẽ .i Danh sách bảng biểu ii Danh sách từ viết tắt iii MỞ ĐẦU Chương TỔNG QUAN VỀ BÀI TỐN TRÍCH XUẤT KHÍA CẠNH KHAI PHÁ QUAN ĐIỂM TRÊN DỮ LIỆU MẠNG XÃ HỘI 1.1 Dữ liệu từ mạng xã hội 1.1.1 Mạng xã hội 1.1.2 Dữ liệu khai phá quan điểm từ mạng xã hội 1.2 Phát biều toán 1.2.1 Khía cạnh 1.2.2 Bài tốn trích xuất khía cạnh khai phá quan điểm mạng xã hội 1.3 Ý nghĩa toán thách thức thực 1.4 Tóm tắt chương Chương MƠ HÌNH CHỦ ĐỀ VÀ HỌC MÁY CRFs 10 2.1 Mơ hình chủ đề 10 2.1.1 Giới thiệu mơ hình chủ đề xác suất 10 2.1.2 LDA phân phối Dirichlet ẩn 10 2.1.3 Ước lượng LDA lấy mẫu Gibbs 14 2.1.4 Phân định chủ đề theo mơ hình LDA với lấy mẫu Gibbs 15 2.2 Học máy CRFs 16 2.21 Bài toán gán nhãn chuỗi 16 Khóa luận tốt nghiệp Vũ Trọng Hóa 2.22 Định nghĩa CRF 18 2.23 Huấn luyện CRFs 21 2.24 Suy diễn CRFs 23 2.3 Tổng kết chương 25 Chương MỘT SỐ TIẾP CẬN TRÍCH XUẤT KHÍA CẠNH TRONG KHAI PHÁ QUAN ĐIỂM 26 3.1 Phương pháp trích xuất khía cạnh sử dụng mơ hình chủ đề ẩn 27 3.1.1 Mơ hình Li cộng 27 3.1.2 Mơ hình Zhao Wayne Xin vào cộng 29 3.2 Tiếp cận học máy giám sát 30 3.2.1 Mơ hình Jin Wei Ho Hung Hay 30 3.2.2 Mơ hình Jakob Gurevych 32 3.2.3 Mơ hình Li Fangtao cộng 33 3.3 Nhận xét đánh giá 34 3.4 Tóm tắt chương 35 Chương PHƯƠNG PHÁP TRÍCH XUẤT KHÍA CẠNH TRONG KHAI PHÁ QUAN ĐIỂM TRÊN DỮ LIỆU TWITTER 36 4.1 Mơ tả tốn 36 4.2 Mô hình đề xuất 37 4.2.1 Mô tả mô hình 37 4.2.2 Lựa chọn đặc trưng cho học máy CRFs 39 4.3 Tóm tắt chương 41 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 42 5.1 Mô tả thực nghiệm 42 5.2 Dữ liệu thực nghiệm 43 5.2.1 Thu thập liệu 43 Khóa luận tốt nghiệp Vũ Trọng Hóa 5.2.2 Chuẩn bị liệu 43 5.2.3 Định dạng liệu đầu vào mơ hình 44 5.3 Đánh giá 46 5.3.1 Phương pháp đánh giá 46 5.3.2 Các đại lượng đo độ xác 46 5.4 Hệ thống baseline 48 5.5 Môi trường thực nghiệm 48 5.5.1 Hệ thống phần cứng 48 5.5.2 Hệ thống phần mềm sử dụng 48 5.6 Kết thực nghiệm 50 5.7 Đánh giá phân tích kết 51 Tổng kết 53 Tài liệu tham khảo 54 Khóa luận tốt nghiệp Vũ Trọng Hóa 5.2 Dữ liệu thực nghiệm 5.2.1 Thu thập liệu Dữ liệu dùng để huấn luyện mô hình thu thập trực tiếp từ giao diện lập trình Streaming API1 Twitter cung cấp, từ khóa sử dụng để truy vấn gồm có “iphone5” “ipad” 5.2.2 Chuẩn bị liệu Với đặc điểm mạng xã hội nêu chương trước cơng việc chuẩn bị liệu trở nên quan trọng Các liệu tweets tải trích xuất lấy nội dung text Tiếp đến xử lí tự động qua bốn giai đoạn Giai đoạn 1: Loại bỏ tweet trùng lặp retweet Qua trình thu thập liệu, tác giả nhận thấy liệu phần đáng kể tweet tương đối giống nhau, tượng phổ biến Một phần chức retweet Twitter, phần ứng dụng trò chơi tự động Twitter đăng lên, ví dụ Tribez-game2 Để loại bỏ tweet trùng này, sử dụng độ đo tương đồng Cosine3 với ngưỡng 0.7 Tức 𝐶𝑜𝑠𝑖𝑛 𝑆𝑖𝑚𝑎𝑙𝑎𝑟𝑖𝑡𝑦 (𝑎, 𝑏) ≥ 0.7 a tweet chọn b bị loại bỏ Giai đoạn 2: Vì liệu tweets chứa nhiều lỗi sai tả từ lóng nên khóa luận sử dụng từ điển chuẩn hóa [26] cho mạng xã hội, ví dụ: https://dev.twitter.com/docs/streaming-apis http://tribez-game.com/ http://en.wikipedia.org/wiki/Cosine_similarity 43 Khóa luận tốt nghiệp Vũ Trọng Hóa Từ viết sai, slang Dạng chuẩn Wooda would b'tween between Kidn kidding 10x thanks 1sec one second 2b4u too bad for you Bảng 5.1: Ví dụ từ điển chuẩn hóa Giai đoạn 3: Nhằm thu liệu tổng thể tốt cho việc trích xuất khía cạnh, xây dựng liệu tổng thể, khóa luận xây dựng phân lớp để tự động thu lấy tweet mang quan điểm Bộ phân lớp xây dựng dựa thuật toán học máy SVM đặc trưng sử dụng cơng trình Barbosa Feng 2010 [2] Giai đoạn 4: Gán nhãn lượng liệu cho mơ hình học máy Sau thực xử lí liệu qua ba giai đoạn trên, lượng liệu dùng cho thí nghiệm mơ tả bảng dưới: Tên thực thể Lượng liệu gán Lượng liệu cho nhãn tập tổng thể Iphone5 2000 tweets 500 000 tweets Ipad 2000 tweets Bảng 5.2: Số lượng liệu sử dụng thử nghiệm 44 Khóa luận tốt nghiệp Vũ Trọng Hóa 5.2.3 Định dạng liệu đầu vào mơ hình Dữ liệu đầu vào cho CRFs: Dữ liệu sau qua ba bước xử lí đưa định dạng thuật toán học máy chuỗi Mỗi token tweet đối tượng đầu vào (instance) Dưới ví dụ cho liệu gán nhãn: Iphone5 B_Aspect ‘s O lithium B_Aspect battery I_Aspect is O very O Bad O Trong định dạng trên, cột cột liệu quan sát, cột chuỗi trạng thái Mỗi token ghi dòng kèm theo nhãn chúng Các câu ngăn cách dịng trắng Hình ví dụ file liệu đầu vào cho CRFs: Hình 5.1: File liệu đầu vào cho CRFs 45 Khóa luận tốt nghiệp Vũ Trọng Hóa Dữ liệu đầu vào cho mơ hình LDA: Dữ liệu sau qua ba bước chuẩn hóa đưa dạng chuẩn LDA Blei đưa Mỗi dòng văn bản, có ba trường, phân cách dấu “phẩy” Trường tên văn Trường thứ hai chứa nhãn cho toán phân lớp, nhiên toán khơng quan tâm đến để “X” Trường cuối liệu text Do liệu tweet ngắn, nên văn đầu vào hợp thành từ 50 tweets khác Các token từ ngữ, dấu câu bị loại bỏ, tiếp đến loại bỏ stopword Hình 5.2: File liệu đầu vào cho LDA Bộ tách từ tokenizer, từ gốc lemma, gán nhãn từ loại (POSTagger), trích xuất phụ thuộc (parser) coreNLP Stanford1 sử dụng 5.3 Đánh giá 5.3.1 Phương pháp đánh giá Khóa luận sử dụng phương pháp đánh giá chéo 10 lần (10-fold cross-validation) Quá trình huần luyện thực 10 lần Tại lần huấn luyện, liệu huấn luyện chia thành 10 phần nhau, phần để kiểm tra, phần trộn lại để huấn luyện Ở bước lặp trình huấn luyện, hệ thống tiến hành đo số đánh giá độ xác: độ xác (precision), độ hồi tưởng (recall), độ đo F1 5.3.2 Các đại lượng đo độ xác Việc đánh giá độ xác mơ hình trích xuất khía cạnh quan trọng Nó cho phép ta so sánh độ xác mơ hình tập liệu huấn luyện, nữa, so sánh độ xác mơ hình ta xây dựng với mơ hình trích xuất khía http://www-nlp.stanford.edu/software/corenlp.shtml 46 Khóa luận tốt nghiệp Vũ Trọng Hóa cạnh có Có nhiều cách để đánh giá độ xác mơ hình gãn nhãn phân đoạn chuỗi, cách phổ biến sử dụng đo độ xác (precision), độ hồi tưởng (recall), độ đo F1 Độ đo F1 số cân độ xác độ hồi tưởng Nếu độ xác độ hồi tưởng cao cân độ đo F1 lớn, cịn độ xác hồi tưởng nhỏ khơng cân độ đo F1 nhỏ Mục tiêu ta xây dựng mơ hình trích xuất khía cạnh có số F1 cao Độ đo cho nhãn tính theo cơng thức sau: 𝑅 𝑎𝑙𝑙 = 𝑇𝑃 𝑁 𝑃𝑟 𝑖𝑠𝑖𝑜𝑛 = 𝐹1 = (5.2.1) 𝑇𝑃 𝑛 (5.2.2) 2𝑅 𝑎𝑙𝑙  𝑃𝑟 𝑖𝑠𝑖𝑜𝑛 𝑅 𝑎𝑙𝑙 𝑃𝑟 𝑖𝑠𝑖𝑜𝑛 (5.2.3) Trong đó:  Kí hiệu TP số lượng khía cạnh hệ thống gán nhãn  Kí hiệu N số lượng token văn khía cạnh  Kí hiệu n số lượng token hệ thống gán khía cạnh Sau có độ đo, ta tính kết trung bình cho độ đo bước lặp tương ứng Có loại kết trung bình Avg1 Avg2:  Kết trung bình loại Avg1 cho độ đo số tính trung bình cộng độ đo tương ứng  Kết trung bình loại Avg2 kết tính kết tổng thể Trong tường hợp độ đo tính dựa từ kết trung bình loại Avg2 kết trung bình loại Avg1 47 Khóa luận tốt nghiệp Vũ Trọng Hóa 5.4 Hệ thống baseline Trong hệ thống baseline lựa chọn để so sánh mơ hình đề xuất phương pháp trích xuất dựa từ quan điểm (lexicon-based method), sử dụng từ quan điểm quan hệ từ trích xuất phụ thuộc (dependency parser), cơng trình Zhuang cộng năm 2006, cơng trình Qui cộng năm 2011 [27] sử dụng Các mẫu quan hệ phụ thuộc Khía cạnh Từ mang quan điểm NN – amod – JJ NN JJ NN – nsubj – JJ NN JJ NN – nsubj –VB – dobj – NN NN NN cuối VB – advmod –RB VB RB Bảng 5.3: Các luật hệ thống baseline 5.5 Môi trường thực nghiệm 5.5.1 Hệ thống phần cứng Các thông số phần cứng hệ thống cài đặt thử nghiệm phương pháp thể bảng đây: Thành phần Chỉ số Bộ vi xử lý Intel Core i5-2430M (240GHz  4) Bộ nhớ 4GB Bộ nhớ 500GB Hệ điều hành Window 64bit Bảng 5.4: Môi trường phần cứng 48 Khóa luận tốt nghiệp Vũ Trọng Hóa 5.5.2 Hệ thống phần mềm sử dụng Q trình thử nghiệm hệ thống có sử dụng phần mềm: CoreNLP1: công cụ đầy đủ cho xử lý ngôn ngữ tự nhiên, cung cấp API lập trình cho java Các cơng cụ mà cung cấp như: tách từ, tách câu, gán nhãn từ loại, từ gốc (lemma), nhận diện thực thể (ner), phân tích cú pháp (parser), đồng tham chiếu(co-reference) Bộ cơng cụ đưa nhóm nghiên cứu xử lí ngôn ngữ tự nhiên của trường đại học Stanford2 Mallet3 cụ cho xử lí ngơn ngữ tự nhiên phương pháp xác suất thống kê, giải tốn: phân lớp văn bản, phân cụm, mơ hình chủ đề, gán nhãn-phân đoạn chuỗi, trích xuất thơng tin ứng dụng học máy khác cho văn Đối với tốn mơ hình chủ đề, mallet cung cấp cài đặt cho lấy mẫu Gibbs nhanh có khả xử lí liệu lớn Cịn tốn học máy chuỗi, mallet cung cấp cài đặt thuật toán HMMs linear chain CRFs Ngoài số phần mềm khác sử dụng như: Eclipse Indigo – Eclipse Foundation … http://www-nlp.stanford.edu/software/corenlp.shtml http://www-nlp.stanford.edu/ http://mallet.cs.umass.edu/ 49 Khóa luận tốt nghiệp Vũ Trọng Hóa 5.6 Kết thực nghiệm Bảng kết mơ hình thay đổi tham số LDA Tham số F1 Fold Fold Fold Fold Fold Fold Fold Fold Fold Fold k=10 n=1 k=20 n=2 k=20 n=3 k= 60 n= k=60 n=2 10 TB 72.8 86.87 84.09 76.75 78.87 78.6 79.22 84.3 75.3 85 80.18 76.42 80.75 84.43 75.3 76.77 79.062 64.54 88.62 85.43 76.74 76.89 80.08 79.18 82.44 78.53 79.7 79.26 k=10 n=2 71.48 89.38 84.1 80.46 76.35 76.35 75.5 73.27 79.7 80.08 81.57 73.21 77.31 80.3 78.3 81.3 81.12 73.97 80.14 85.23 82.84 76.93 84.1 78.455 64.2 89.1 66.6 88.31 82.81 74.74 74.87 75.96 83.64 80.91 78.21 83.86 78.99 Bảng 5.5: Kết thay đổi tham số LDA k: Số chủ đề xác định trước cho mơ hình LDA n: Số nhãn chủ đề sử dụng làm đặc trưng (đặc trưng chủ đề ẩn) 50 79.48 Khóa luận tốt nghiệp Vũ Trọng Hóa Bảng đưa kết thực nghiệm nêu mục 5.1 F1 Đặc Fold Fold Fold Fold Fold Fold Trưng Fold Fold Fold CB 60.25 85.7 77.9 77 75.3 82.4 80 82.8 76.2 Fold 10 TB 82.16 77.971 KCĐ 63.95 86.38 79.6 76.74 74.91 82.42 78.33 83.6 77.84 83.61 78.738 TCĐT 72.8 86.87 84.09 76.75 78.87 78.6 79.22 84.3 75.3 85 80.18 16.3% BL Bảng 5.6: Kết thực nghiệm so sánh đặc trưng Trong bảng phía trên: CB - Đặc trưng (Thực nghiệm 1), KCĐ - Tồn đặc trưng mơ hình đề xuất khơng có đặc trưng chủ đề (Thực nghiệm 2), TCĐT - Tất đặc trưng (Thực nghiệm 3) BL - Baseline (Thực nghiệm 4) 5.7 Đánh giá phân tích kết Từ bảng kết 5.5, ta thấy hiệu phương pháp học máy nói chung đóng góp đặc trưng chủ đề ẩn mơ hình đề xuất Kết mơ hình ln cao nhiều so với mơ hình baseline Sự nhập nhằng tự ngữ pháp tweet giải thích cho điều Mơ hình baseline sử dụng phân tích cú pháp, kết thấp thực liệu tự tweet Đặc trưng chủ đề ẩn đặc biệt có ý nghĩa cho mơ hình, nâng cao độ xác F1 từ 78.7 lên 80.18% Các đặc trưng gồm token, lemm, POS tỏ hiệu quả, liệu sử dụng không rộng, khía cạnh lặp lại tương đối nhiều Các đặc trưng quan điểm, cú pháp làm làm tăng độ xác lên khoảng 1% so với đặc trưng Điều giải thích tự ngữ pháp tweet 51 Khóa luận tốt nghiệp Vũ Trọng Hóa Để tìm tham số tối ưu cho mơ hình LDA, khóa luận thực số thực nghiệm nhỏ rút đặc trưng chủ đề đóng góp nhiều cố định số chủ đề cho mơ hình LDA 10 sử dụng nhãn chủ đề làm đặc trưng cho học máy CRFs, bảng 5.6 52 Kết luận Khai phá quan điểm mức khía cạnh miền ứng dụng mạng xã hội Twitter chủ đề nghiên cứu thới tính khoa học ứng dụng cao Khóa luận tập trung giải tốn trích xuất khía cạnh tốn quan trọng khai phá quan điểm mức khía cạnh twitter Kết nghiên cứu khóa luận tổng hợp trình bày đây:  Khóa luận trình bày ý nghĩa khai phá quan điểm Twitter để nêu bật động lực nghiên cứu khóa luận, đồng thời, tốn trích xuất khía cạnh miền ứng dụng Twitter trình bày cách tường minh  Hai tảng để giải tốn trích xuất khía cạnh miền ứng dụng Twitter mà khóa luận hướng tới học máy CRFs mơ hình chủ đề ẩn trình bày phân tích  Khóa luận trình bày phân tích số mơ hình khai phá quan điểm liên quan, thơng qua cho thấy mơ hình trích xuất khía cạnh miền ứng dụng Twitter dựa CRFs sử dụng mô hình chủ đề ẩn mà khóa luận đề nghị vừa có tính vừa có triển vọng hiệu  Kết thực nghiệm cho thấy mơ hình đề xuất bước đầu đáp ứng kỳ vọng tính hiệu Tuy nhiên thời gian kinh nghiệm, việc thi hành mơ hình cịn có hạn chế việc thu thập liệu chưa thật phong phú, sử dụng mơ hình chủ đề mức đơn giản (LDA) … Trong thời gian tới, khóa luận phát triển thêm cách sử dụng mơ hình chủ đề phức tạp LDA Ngoài ra, mạng xã hội phát triển mạnh Việt Nam, xây dựng mơ hình tương tự tiếng Việt có nhiều ứng dụng 53 Tài liệu tham khảo [1] Asur, Sitaram and Huberman, Bernardo A, "Predicting the Future with Social Media," in Proceedings of the 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology - Volume 01, IEEE Computer Society, 2010, pp 492-499 [2] Barbosa, Luciano and Feng, Junlan, "Robust sentiment detection on Twitter from biased and noisy data," in Proceedings of the 23rd International Conference on Computational Linguistics: Posters, Beijing, China, 2010 [3] Meng, Xinfan and Wei, Furu and Liu, Xiaohua and Zhou, Ming and Li, Sujian and Wang, Houfeng, "Entity-centric topic-oriented opinion summarization in twitter," in Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining, 2012 [4] Samuel Brody, Nicholas Diakopoulos, "Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs," EMNLP 2011, pp 562-570, 2011 [5] B Liu, Sentiment analysis and opinion mining (Synthesis Lectures on Human Language Technologies), Morgan & Claypool, 2012 [6] R Feldman , "Techniques and Applications for Sentiment Analysis," Commun ACM, Vols 56 No 4, Pages 82-89, pp 82-89, 2013 [7] T Hofmann, "Probabilistic latent semantic analysis," Uncertainty in Artificial Intelligence (UAI), 1999 54 [8] Blei, David M and Ng, Andrew Y and Jordan, Michael I., "Latent Dirichlet Allocation," Journal of Machine Learning, vol 3, pp 993-1022, 2003 [9] Diakopoulos, Nicholas A and Shamma, David A., "Characterizing debate performance via aggregated twitter sentiment," in Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, 2010 [10] M a L B Hu, "Mining and summarizing customer reviews," in Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining (KDD 2004), Seattle, WA, USA, 2004 [11] B DM, "Introduction to Probabilistic Topic Models," Comm ACM , p 55(4):77–84, 2011 [12] Andrieu, Christophe and de Freitas, Nando and Doucet, Arnaud and Jordan, MichaelI., "An Introduction to MCMC for Machine Learning," Machine Learning, vol 50, pp 5-43, 2003 [13] Nguyen, Cam-Tu and Phan, Xuan-Hieu and Horiguchi, Susumu and Nguyen, Thu-Trang and Ha, Quang-Thuy, "Web Search Clustering and Labeling with Hidden Topics," vol 8, pp 12:1 12:40, 2009 [14] L Rabiner, "A tutorial on hidden Markov models and selected applications in speech recognition," in Proceedings of the IEEE, 1989 [15] McCallum, Andrew and Freitag, Dayne and Pereira, Fernando C N., "Maximum Entropy Markov Models for Information Extraction and Segmentation," in Proceedings of the Seventeenth International Conference on Machine Learning, San Francisco, CA, USA, 2000 [16] Lafferty, John D and McCallum, Andrew and Pereira, Fernando C N., "Conditional Random Fields: Probabilistic Models for Segmenting and 55 Labeling Sequence Data," in Proceedings of the Eighteenth International Conference on Machine Learning, San Francisco, CA, USA, 2001 [17] Hammersley, J M and Clifford, P., "Markov field on finite graphs and lattices," Unpublished manuscript, 1971 [18] Malouf, Robert, "A comparison of algorithms for maximum entropy parameter estimation (COLING-02)," in Proceedings of the 6th conference on Natural language learning - Volume 20, Stroudsburg, PA, USA, 2002 [19] Liu, D C and Nocedal, J., "On the limited memory BFGS method for large scale optimization," Math Program., vol 45, pp 503-528, 1989 [20] Fangtao Li and Minlie Huang and Xiaoyan Zhu, "Sentiment Analysis with Global Topics and Local Dependency," in AAAI Conference on Artificial Intelligence 2010, 2010 [21] Zhao, Wayne Xin and Jiang, Jing and Yan, Hongfei and Li, Xiaoming, "Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid," in Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing EMNLP 2010, Cambridge, Massachusetts, 2010 [22] Jin, Wei and Ho, Hung Hay, "A novel lexicalized HMM-based learning framework for web opinion mining," in Proceedings of the 26th Annual International Conference on Machine Learning, Montreal, Quebec, Canada, 2009 [23] Jakob, Niklas and Gurevych, Iryna, "Extracting opinion targets in a single- and cross-domain setting with conditional random fields," in Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing EMNLP-2010, Cambridge, Massachusetts, 2010 [24] Li, Fangtao and Han, Chao and Huang, Minlie and Zhu, Xiaoyan and Xia, YingJu and Zhang, Shu and Yu, Hao, "Structure-aware review mining and 56 summarization," in Proceedings of the 23rd International Conference on Computational Linguistics COLING'10, Beijing, China, 2010 [25] Phan, Xuan-Hieu and Nguyen, Le-Minh and Horiguchi, Susumu, "Learning to classify short and sparse text & web with hidden topics from large-scale data collections," in Proceedings of the 17th international conference on World Wide Web, Beijing, China, 2008 [26] Han, Bo and Cook, Paul and Baldwin, Timothy, "Automatically Constructing a Normalisation Dictionary for Microblogs," in Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Jeju Island, Korea, 2012 [27] G a L B a B J a C C Qiu, "Opinion word expansion and target extraction through double propagation," Comput Linguist., vol 37, pp 9-27, 2011 57

Định dạng
Số trang	70
Dung lượng	1,53 MB

Vu trong hoa EXTRACTING ASPECT IN OPINIO

Mơ hình kết hợp LDA-MaxEnt

Cây cú pháp phụ thuộc