1. Trang chủ
  2. » Giáo Dục - Đào Tạo

TỰ ĐỘNG ĐÁNH GIÁ QUAN điểm NGƯỜI DÙNG

75 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI W—X Kiều Thanh Bình TỰ ĐỘNG ĐÁNH GIÁ QUAN ĐIỂM NGƯỜI DÙNG KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Cơng Nghệ Thơng Tin Hà Nội – 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI W—X Kiều Thanh Bình TỰ ĐỘNG ĐÁNH GIÁ QUAN ĐIỂM NGƯỜI DÙNG KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: GV hướng dẫn: Cơng Nghệ Thơng Tin TS Phạm Bảo Sơn Hà Nội – 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tự động đánh giá ý kiến người dùng Kiều Thanh Bình Lời mở đầu Với bùng nổ nguồn liệu Internet, tốn xử lý thơng tin như: trích chọn thơng tin, tóm tắt nội dung văn v.v… đời nhu cầu tất yếu Thông tin mạng thường gồm loại: việc quan điểm Ngược với loại quan điểm, thông tin việc nhiều công cụ giải máy tìm kiếm, lọc thơng tin, … Với thơng tin loại quan điểm khó hướng tới nhiên xét mức độ quan trọng thơng tin loại cần thiết hơn, với công ty buôn bán sản phẩm Đối với họ, ý kiến đánh giá sản phẩm mà người dùng đưa quan trọng việc điều chỉnh đưa chiến lược buôn bán hiệu Ra đời thiết yếu, hệ thống đánh giá quan điểm người dùng nghiên cứu mạnh mẽ năm gần đưa nhiều kết đáng mong đợi Trong có phương pháp đưa kết khả quan phương pháp sử dụng kết hợp phân lớp dựa luật, học giám sát học máy i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tự động đánh giá ý kiến người dùng Kiều Thanh Bình Lời cảm ơn Trước tiên, em xin gửi lời cảm ơn sâu sắc đến thầy Phạm Bảo Sơn, người không quản vất vả hướng dẫn em suốt thời gian làm khóa luận tốt nghiệp vừa qua Em chân thành cảm ơn người phòng HMI lab đặc biệt anh Nguyễn Bá Đạt bảo em có vấn đề vướng mắc Em xin bày tỏ lời cảm ơn sâu sắc đến thầy cô giáo Trường Đại Học Cơng Nghệ tận tình dạy dỗ em suốt bốn năm học qua Con xin cảm ơn bố, mẹ gia đình ln bên con, cho động lực để làm việc tốt Cảm ơn tất bạn bè sát cánh Hà Nội, ngày 20 tháng năm 2010 Kiều Thanh Bình ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tự động đánh giá ý kiến người dùng Kiều Thanh Bình Mục lục Lời mở đầu i Lời cảm ơn ii Mục lục iii Danh sách hình vẽ vi Danh sách bảng vii Chương Giới thiệu .1 Chương Các hướng tiếp cận cho toán đánh giá quan điểm 2.1 Xu hướng nghiên cứu gần 2.1.1 Xác định từ, cụm từ quan điểm 2.1.2 Xác định chiều hướng từ, cụm từ quan điểm 2.1.3 Phân lớp câu / tài liệu quan điểm 2.2 Những thách thức cơng việc tương lai .9 2.2.1 Các loại từ khác 2.2.2 Thuật ngữ quan điểm 10 2.2.3 Tính phủ định 10 2.2.4 Cấp độ quan điểm .11 2.2.5 Sự phức tạp câu / tài liệu 12 2.2.6 Quan điểm theo ngữ cảnh 13 2.2.7 Tài liệu không đồng 13 2.2.8 Một số vấn đề khác 14 Chương Giới thiệu GATE .15 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tự động đánh giá ý kiến người dùng Kiều Thanh Bình 3.1 Tổng quan GATE 15 3.1.1 Mơ hình kiến trúc GATE 16 3.1.2 Những khái niệm GATE 18 3.2 Xây dựng plugin GATE 18 3.3 Các thành phần quan trọng GATE .21 3.3.1 Bộ từ điển (Gazetteers) .21 3.3.2 Bộ luật JAPE 22 3.4 Các công cụ quản lý chất lượng 27 3.4.1 Công cụ đánh giá độ tương đồng gán nhãn hai văn (Annotation Diff) 27 3.4.2 Công cụ đánh giá chất lượng hệ thống (Corpus Benchmark tool) 28 Chương Hệ thống đánh giá quan điểm người dùng 30 4.1 Giới thiệu hệ thống 30 4.2 Thu thập liệu gán nhãn 31 4.2.1 Thu thập liệu 32 4.2.2 Gán nhãn liệu .33 4.3 Xây dựng hệ thống đánh giá quan điểm 34 4.3.1 Mô tả tổng quan hệ thống 35 4.3.2 Tiền xử lý 37 4.3.3 Xây dựng từ điển 38 4.3.4 Xây dựng luật .40 Chương Kết thực nghiệm phân tích lỗi 46 5.1 Tiến hành thực nghiệm 46 5.2 Kết thực nghiệm 47 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tự động đánh giá ý kiến người dùng Kiều Thanh Bình 5.2.1 Kết thực nghiệm đánh giá mức từ 47 5.2.2 Kết thực nghiệm đánh giá mức câu 48 5.2.3 Kết thực nghiệm đánh giá mức văn theo Features 49 5.2.4 Kết luận chung kết đánh giá 53 5.3 Phân tích lỗi .54 5.3.1 Lỗi gán nhãn từ loại (POS tag) 54 5.3.2 Lỗi luật .56 5.3.3 Lỗi tách câu 57 Chương Tổng kết hướng phát triển 59 Tài liệu tham khảo .60 Phụ lục A Annotation Guideline 63 Phụ lục B Bảng nhãn từ loại tiếng Việt 64 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tự động đánh giá ý kiến người dùng Kiều Thanh Bình Danh sách hình vẽ Hình - Giao diện GATE .16  Hình - Mơ hình kiến trúc GATE [6] 17  Hình - Giao diện thêm thành phần tích hợp vào GATE 20  Hình - Chọn thành phần cho ứng dụng GATE 21  Hình - Giao diện Annotation Diff 27  Hình - Giao diện Corpus Benchmark tool 28  Hình - Minh họa giao diện hệ thống 31  Hình - Những reviews người dùng đánh giá trang tinvadung.vn .33  Hình - Gán nhãn liệu .34  Hình 10 - Mơ tả chi tiết hệ thống đánh giá quan điểm người dùng GATE 36  Hình 11 - GATE sau POS Tag Lookup 40  Hình 12 - Lỗi POS Tag ảnh hưởng đến nhận dạng từ 55  Hình 13 - Lỗi POS tag ảnh hưởng đến tách câu .56  Hình 14 - Lỗi viết luật ảnh hưởng đến nhận dạng từ .57  Hình 15 – Lỗi tách câu .58  vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tự động đánh giá ý kiến người dùng Kiều Thanh Bình Danh sách bảng Bảng - Kết nhận dạng từ đánh giá tập huấn luyện .47  Bảng - Kết nhận dạng từ đánh giá tập kiểm tra 47  Bảng - Kết nhận dạng câu đánh giá tập huấn luyện .48  Bảng - Kết nhận dạng câu đánh giá tập kiểm tra 48  Bảng - Kết đánh giá Acer Aspire 3935 tập huấn luyện 50  Bảng - Kết đánh giá Apple Macbook Air MB543ZPA tập huấn luyện .50  Bảng - Kết đánh giá Acer Aspire AS4736 tập huấn luyện 51  Bảng - Kết đánh giá Feature tập huấn luyện 51  Bảng - Kết đánh giá Dell Inspiron 1210 tập kiểm tra 51  Bảng 10 - Kết đánh giá Compaq Presario CQ40 tập kiểm tra 52  Bảng 11 - Kết đánh giá HP Pavilion dv3 tập kiểm tra 52  Bảng 12 - Kết đánh giá Feature tập kiểm tra 53  vii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Giới thiệu toán đánh giá quan điểm Kiều Thanh Bình Chương Giới thiệu Hiện công nghệ ngày phát triển, đặc biệt với đời Web, lượng thông tin Web kho tàng đồ sộ nhiệm vụ làm để khai thác kho tàng to lớn Chính q khổng lồ lượng thông tin rác nhiều, làm để biết cần thiết dư thừa Các chuyên ngành Web mining, NLP (Nature Language Processing), hay Machine Learning tìm câu trả lời cho câu hỏi nhiên chúng tìm câu trả lời cho phần nhỏ câu hỏi mà Mỗi người quan tâm số lĩnh vực, người cần biết thông tin vài thứ mà Web bao gồm vơ vàn thơng tin lĩnh vực mà đa số người quan tâm, từ nhà doanh nghiệp đến khách hàng - người dùng quan tâm sản phẩm Người dùng quan tâm sản phẩm có tốt khơng, sản phẩm tốt chỗ chỗ khơng tốt Cịn doanh nghiệp lại thường quan tâm đến sản phẩm họ người tiếp đón nào, điểm chưa tốt để họ bổ sung sửa chữa, hay phát huy thêm điểm người dùng quan tâm … Câu trả lời cho câu hỏi nằm nghiên cứu “Opinion Mining” hay cịn gọi “phân tích quan điểm người dùng” Nghiên cứu xuất phát từ cần thiết doanh nghiệp người dùng, sử dụng công cụ có ích để đánh giá cách xác sản phẩm Với sản phẩm có điểm tính riêng (Features) nhiệm vụ từ review, comment, Feedback,… nguồn liệu khổng lồ Web để đánh giá xem tính sản phẩm người tiếp đón LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Kết thực nghiệm phân tích lỗi Loại Kiều Thanh Bình thống (số positive / số negative) (%) (số positive / số negative) vanhanh 1.0 (5/0) 0.875 (7/1) 87.5 % cauhinh 0.8333 (5/1) 0.625 (5/3) 79.17 % manhinh 0.6667 (2/1) 1.0 (6/0) 66.67 % gia 1.0 (3/0) 1.0 (3/0) 100.00 % kieudang 1.0 (11/0) 88.24 (15/2) 88.24 % Average 84.32 % Bảng 10 - Kết đánh giá Compaq Presario CQ40 tập kiểm tra Độ quan điểm tích cực Feature đánh giá hệ thống (số positive / số negative) Độ quan điểm tích cực Feature đánh giá chuẩn (%) (số positive / số negative) Correctness vanhanh 0.8 (12/3) 0.75 (15/5) 95.00 % cauhinh 0.875 (14/2) 0.7826 (18/5) 90.76 % manhinh 1.0 (10/0) 0.75 (12/4) 75.00 % 0.8333 (10/2) 0.9412 (16/1) 89.21 % 1.0 (12/0) 1.0 (16/0) 100.00 % Loại gia kieudang Average 89.99 % Bảng 11 - Kết đánh giá HP Pavilion dv3 tập kiểm tra Loại Độ quan điểm tích cực Feature đánh giá hệ thống (số positive / số negative) Độ quan điểm tích cực Feature đánh giá chuẩn (%) (số positive / số negative) Correctness 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Kết thực nghiệm phân tích lỗi Kiều Thanh Bình vanhanh 0.8182 (18/4) 0.7 (21/9) 88.18 % cauhinh 0.9 (18/2) 0.7143 (20/8) 81.43 % manhinh 1.0 (4/0) 1.0 (8/0) 100.00 % gia 0.0833 (2/22) 0.125 (4/28) 95.83 % kieudang 0.8824 (15/2) 0.8333 (20/4) 95.09 % Average 92.11 % Sau đánh giá sản phẩm tập huấn luyện rút kết độ xác trung bình cho hệ thống: Bảng 12 - Kết đánh giá Feature tập kiểm tra Sản phẩm Correctness Dell Inspiron 1210 84.32 % Compaq Presario CQ40 89.99% HP Pavilion dv3 92.11% All 88.81% Theo mức toàn văn theo Features đạt kết 88.81% theo phương pháp đánh giá Đây cách đánh giá theo phương pháp mà thấy hợp lý với hệ thống Trong tương lai chúng tơi hy vọng có phương pháp khác đánh giá chuẩn xác 5.2.4 Kết luận chung kết đánh giá Sau thử nghiệm nhận thấy kết khả quan theo mức từ (khoảng 77%), theo mức Feature (89%) cịn theo mức câu hệ thống có độ xác không cao (63%) chủ yếu lỗi tách câu lớn Tuy so với hệ thống giới kết hệ thống chúng tơi 53 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Kết thực nghiệm phân tích lỗi Kiều Thanh Bình khơng cao nhiên hệ thống xây dựng cho tiếng Việt điều mà chưa có hệ thống làm Và hệ thống mở đầu cho hướng giải toán dạng Tiếp theo từ kết đánh giá sâu lỗi sai hệ thống 5.3 Phân tích lỗi Trước hết liệu tự lấy từ trang web Internet khó tránh khỏi có nhiều lỗi viết sai người dùng Mặc dù đọc sửa lại theo dạng chuẩn nhiên khơng tránh khỏi cịn có lỗi viết sai, lỗi diễn đạt người dùng Trong phần chúng tơi tập trung vào lỗi có tầm ảnh hưởng quan trọng đến độ xác hệ thống là: gán nhãn từ loại (POS tag), luật, tách câu… 5.3.1 Lỗi gán nhãn từ loại (POS tag) Chúng sử dụng gán nhãn từ loại plugin Coltech.NLP.tokenizer với độ xác chưa cao Việc viết luật phụ thuộc nhiều vào cơng việc mà với sai lầm cơng việc ảnh hưởng khơng nhỏ đến độ xác việc nhận dạng từ, câu đánh giá quan điểm Ví dụ câu sau: “Laptop thỏa mãn hầu hết nhu cầu giải trí, làm việc, thời trang, tiện lợi thể đẳng cấp.” Trong câu nhận dạng từ PosWord thời trang, tiện lợi đẳng cấp Trong từ “thỏa mãn” mang ý nghĩa positive nhiên gán nhãn từ loại không xác định từ loại từ (nhãn X) [Hình 12] hệ thống không xác định từ quan điểm 54 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Kết thực nghiệm phân tích lỗi Kiều Thanh Bình Hình 12 - Lỗi POS Tag ảnh hưởng đến nhận dạng từ Một trường hợp nguy hiểm làm ảnh hưởng đến việc tách câu ví dụ: “Kiểu dáng máy đẹp, thời trang thời lượng dùng Pin dài.” Trong việc tách câu chúng tơi, chúng tơi có luật là: * + Thì chúng tơi tách vị trí dấu câu Tuy nhiên trường hợp từ “thời trang” theo gán nhãn từ loại “Na” tức danh từ xác phải tính từ Chính làm cho hệ thống tách câu sau: “Kiểu dáng máy đẹp” | “thời trang thời lượng dùng Pin dài.” [Hình 13] 55 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Kết thực nghiệm phân tích lỗi Kiều Thanh Bình Hình 13 - Lỗi POS tag ảnh hưởng đến tách câu 5.3.2 Lỗi luật Và cuối lỗi dường lẽ tất nhiên Chúng viết xác luật luật khơng thể xác hết cho trường hợp Chính mà việc nhận dạng sai điều đương nhiên Ở chúng tơi đưa số ví dụ mà với luật sai Ví dụ: “Tuy nhiên, độ nhạy thoải mái dùng lâu touchpad MacBook 13 inch đánh giá cao hơn.” Ở từ “lâu” nhận dạng từ PosWord dựa luật “ ” Tuy nhiên trường hợp việc nhận dạng sai [Hình 14] 56 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Kết thực nghiệm phân tích lỗi Kiều Thanh Bình Hình 14 - Lỗi viết luật ảnh hưởng đến nhận dạng từ 5.3.3 Lỗi tách câu Ở phần đánh giá đề cập đến việc độ xác mức câu khơng cao có nói nguyên nhân chủ yếu tách câu tất nhiên phần việc nhận dạng từ khơng chuẩn Lỗi tách câu thực viết luật tách thấy tầm quan trọng công việc Việc tách câu ghép thành câu đơn không dễ dàng với văn tiếng Việt độ xác phân tích cấu trúc câu khơng cao mà chúng tơi khơng thể mượn việc phân tích cấu trúc câu để tách câu Chúng tơi hồn tồn dựa vào luật với nhập nhằng câu gây nên nhiều vấn đề khó khăn để tách chúng Ví dụ: “Một máy tính hạng sang với tốc độ xử lí, dung lượng ổ cứng đáp ứng đủ cho yêu cầu đa số nhiều người” Câu tách thành câu cách khơng xác: 57 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Kết thực nghiệm phân tích lỗi Kiều Thanh Bình “Một máy tính hạng sang với tốc độ xử lí” “dung lượng ổ cứng đáp ứng đủ cho yêu cầu đa số nhiều người” Hình 15 – Lỗi tách câu Ngồi cịn nhiều ngun nhân từ việc tách từ hay sử dụng từ điển thiếu sót khơng phải vấn đề chủ yếu vài trường hợp gây số lỗi sai cho hệ thống Từ việc phân tích lỗi chúng tơi nhận thấy số lỗi có khả sửa để nâng cao độ xác hệ thống Ví dụ dùng luật xác đầy đủ cho ngữ cảnh hay dùng gán nhãn, tách từ có độ xác cao hơn, xây dựng từ điển chuẩn xác hơn, … Đó công việc tương lai để hệ thống có độ xác cao 58 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Tổng kết hướng phát triển Kiều Thanh Bình Chương Tổng kết hướng phát triển Chúng bước đầu xây dựng hệ thống đánh giá quan điểm người dùng cho tiếng Việt dựa luật phân lớp mức câu Hệ thống thiết kế GATE để cộng đồng dễ dàng tiếp cận phát triển cho toán đánh giá quan điểm người dùng Với kết độ xác thực liệu máy tính (computer) theo mức từ (F-measure: 77%), mức câu (F-measure: 63%) mức văn theo Features (89%) nói kết đáng khả quan mở đầu cho toán đánh giá quan điểm người dùng hệ thống tiếng Việt Tuy nhiên q trình xây dựng hệ thống cịn vài thiếu sót vấn đề khách quan lẫn chủ quan Trong tương lai cố gắng phát triển hệ thống cách chuẩn xác Bên cạnh hệ thống đánh giá quan điểm cho văn tiếng Việt, chúng tơi cịn xây dựng tài liệu định nghĩa tập liệu gán nhãn chuẩn Khi tập liệu gán nhãn đủ lớn, chúng tơi sử dụng thêm thành phần nhận dạng thực thể (từ, câu, features) phương pháp học máy, làm tăng sức mạnh hệ thống Với kết đạt khả cải tiển hệ thống nhiều mặt như: cải tiến từ điển, thêm thành phần xử lý sâu ngữ cảnh, kết hợp với nhận dạng sử dụng phương pháp học máy v.v… hứa hẹn đem lại hệ thống đánh giá quan điểm văn tiếng Việt đạt kết cao tương lai 59 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo Kiều Thanh Bình Tài liệu tham khảo [1] Eric Brill 1994 Some Advances in Transformation-Based Part of Speech Tagging Proceedings of the 12th National Conference on Artificial Intelligence 1994, Menlo Park, CA: AAAI Press, pp722–727 [2] Rebecca F Bruce and Janyce M Wiebe 1999 Recognizing subjectivity: a case study in manual tagging Natural Language Engineering 5(2):187–205 [3] H Cunningham, D Maynard, K Bontcheva, V Tablan 2002 GATE, A Framework and Graphical Development Environment for Robust NLP Tools and Applications Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics (ACL'02) Philadelphia, July 2002 [4] Kenneth Ward Church, Patrick Hanks.1989 Word association norms, mutual information and lexicography Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics.1989, Vancouver, B.C., Canada, pp76–83 [5] Dang Duc Pham, Giang Binh Tran, Son Bao Pham 2009 A Hybrid Approach to Vietnamese Word Segmentation using Part of Speech tags International Conference on Knowledge and Systems Engineering [6] Dat Ba Nguyen, Son Huu Hoang, Son Bao Pham and Thai Phuong Nguyen 2010 Named Entity Recognition for Vietnamese Springer Berlin / Heidelberg April , 2010 [7] David Day, Chad McHenry, Robyn Kozierok, Laurel Riek 2004 Callisto: A Configurable Annotation Workbench In Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC 2004) ELRA May, 2004 [8] Xiaowen Ding, Bing Liu, Lei Zhang 2009 Entity Discovery and Assignment for Opinion Mining Applications Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining 60 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo Kiều Thanh Bình [9] Andrea Esuli and Fabrizio Sebastiani 2006 Senti-WordNet: A Publicly Available Lexical Resource for Opinion Mining Proceedings of the 5th Conference on Language Resources and Evaluation (LREC-06) 2006, Genova, Italy [10] Christiane Fellbaum 1998 WordNet: an electronic lexical database MIT Press [11] Vasileios Hatzivassiloglou and Kathleen R McKeown 1997 Predicting the Semantic Orientation of Adjectives Proceedings of the 8th conference on European chapter of the Association for Computational Linguis- tics 1997, Madrid, Spain [12] Minqing Hu and Bing Liu 2004a Mining and summarizing customer reviews Proceedings of the 10th ACM SIGKDD international conference on Knowledge discovery and data mining Aug 22–25, 2004, Seattle, WA, USA [13] Minqing Hu and Bing Liu 2004b Mining opinion features in customer reviews Proceedings of 9th National Conference on Artificial Intellgience Jul 2004, San Jose, USA [14] Chris Manning and Hinrich Schutze 1999 Foundations of Statistical Natural Language Processing MIT Press, Cambridge, MA [15] Tetsuya Nasukawa, Jeonghee Yi 2003 Sentiment Analysis: Capturing Favorability Using Natural Language Processing Proceedings of the 2nd international conference on Knowledge capture Technology systems (SEALTS) [16] Mary S Neff, Roy J Byrd, and Branimir K Boguraev 2003 The Talent System: TEXTRACT Architecture and Data Model Proceedings of the HLTNAACL2003 Workshop on Software Engineering and Architecture of Language [17] Bo Pang, Lillian Lee and Shivakumar Vaithyanathan 2002 Thumbs up? Sentiment classification using machine learning techniques Proceedings of the 7th Conference on Empirical Methods in Natural Lan- guage Processing (EMNLP-02) [18] Bo Pang and Lillian Lee 2004 A sentiment education: sentiment analysis using subjectivity summrarization based on minimum cuts Proceedings of the Conference of the Association for Computational Linguistics (ACL-04) 61 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo Kiều Thanh Bình [19] Gong Tianxia Processing Sentiments and Opinions in Text: A Survey [20] Tong 2001 An operational system for detecting and tracking opinions in online discussion Proceedings of SIGIR Workshop on Operational Text Classification 2001, New York, pp1–6 [21] Peter Turney 2001 Mining the Web for synonyms: PMI-IR versus LSA on TOEFL Proceedings of the 12th European Conference on Machine Learning Berlin: Spinger-Verlag, pp 491–502 [22] Peter Turney 2002 Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL-02) Jun 2002, Philadelphia, PN, USA, pp.417–424 [23] Peter Turney and Michael Littman 2002 Unsupervised Learning of Semantic Orientation from a Hundred- Billion-Word Corpus Technical Report NRC Technical Report ERB-1094 Institute for Information Technology, National Research Council Canada [24] Peter Turney and Michael Littman 2003 Measuring praise and criticism: Inference of semantic orientation from association ACM Tranctions on Information Systems, 21(4): 315-346 [25] Janyce M Wiebe, Theresa Wilson and Matthew Bell 2001 Identifying collocations for recognizing opinions Proceedings of the ACL/EACL Workshop on Collocation 2001 [26] Hong Yu and Vasileios Hatzivassiloglou 2003 Towards answering opinion questions: Seperating facts from opinions and identifying the polarity of opinion sentences Proceedings of the 8th Conference on Empirical Methods in Natural Language Processing (EMNLP-03) 2003, Sapporo, Japan, pp129–136 62 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ lục Kiều Thanh Bình Phụ lục A Annotation Guideline • Feature tag: từ nêu lên đặc điểm sản phẩm như: giá, thiết kế, cấu hình, … • Entity tag: từ có ý đến feature sản phẩm như: bề -> feature thiết kế, số tiền -> giá, máy -> feature chung cho sản phẩm computer (laptop desktop), … • PosWord tag: từ nêu lên đặc điểm, tính chất entity có ý nghĩa đánh giá khen: đẹp, tốt, cao (đối với cấu hình), vừa phải (giá cả), bật (thiết kế), bắt mắt (thiết kế), … • NegWord tag: tương tự PosWord tag đánh giá chê: xấu, thấp (đối với cấu hình), cao (đối với giá), … • CompWord: từ mang ý nghĩa so sánh: xấu hơn, đẹp hơn, hơn, tốt nhất, tốt so với, … Chú ý từ so sánh mà không mang ý nghĩa so sánh: Máy tốt cấu hình cao -> câu bình thường khơng phải opinion sentence • ReverseWord: từ làm trái ngược ý nghĩa đánh giá như: khơng, khơng phải, chỉ, khơng được, … • PosSen: câu gồm từ mang ý nghĩa đánh giá tốt Chỉ gồm PosWord câu khơng có ReverseWord cho PosWord nào, có NegWord có ReverseWord cho NegWord • NegSen: trái ngược với PosSen • MixSen: có loại PosWord NegWord câu (tính ReverseWord cho rồi) hay khơng thuộc loại câu ko phải câu ko có ý nghĩa đánh giá • CompSen: Câu mang từ CompWord 63 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ lục Kiều Thanh Bình Phụ lục B Bảng nhãn từ loại tiếng Việt Np danh từ riêng proper noun Nc danh từ đơn thể countable noun Ng danh từ tổng thể collective noun Nt danh từ loại thể classifier noun Nu danh từ đơn vị concrete noun Na danh từ trừu tượng abstract noun Nn danh từ số lượng numeral Nl danh từ vị trí locative noun Vt động từ ngoại động transitive verb Vit động từ nội động intransitive verb Vim động từ cảm nghĩ impression verb Vo động từ hướng orientation verb Vs động từ tồn state verb Vb động từ biến hoá transformation verb Vv động từ ý chí volotive verb Va động từ tiếp thụ acceptation verb Vc động từ so sánh comparative verb Vm động từ chuyển động move verb Vla động từ "là" “là” verb Vtim động từ ngoại động cảm nghĩ transitive-impression verb 64 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ lục Kiều Thanh Bình Vta động từ ngoại động tiếp thụ transitive-acceptation verb Vtc động từ ngoại động so sánh transitive-comparative verb Vtb động từ ngoại động biến hoá transitive-transformation verb Vto động từ ngoại động hướng transitive-orientation verb Vts động từ ngoại động tồn transitive-state verb Vtm động từ ngoại động chuyển động transitive-move verb Vtv động từ ngoại động ý chí transitive-volotive verb Vitim động từ nội động cảm nghĩ intransitive-impression verb Vitb động từ nội động biến hoá intransitive-transformation verb Vits động từ nội động tồn intransitive-state verb Vitc động từ nội động so sánh intransitive-comparative verb Vitm động từ nội động chuyển động intransitive-move verb Aa tính từ hàm chất quality adjective An tính từ hàm lượng quantity adjective Pp đại từ xưng hô personal pronoun Pd đại từ không gian, thời gian demonstrative pronoun Pn đại từ số lượng quantity pronoun Pa đại từ hoạt động, tính chất quality pronoun Pi đại từ nghi vấn interrogative pronoun Jt phụ từ thời gian time adjunct Jd phụ từ mức độ degree adjunct Jr phụ từ so sánh rapport adjunct Ja phụ từ khẳng định, phủ định adjunct of negation and acceptation Ji phụ từ mệnh lệnh imperative adjunct 65 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ lục Kiều Thanh Bình Cm giới từ major/minor conjunction Cc liên từ combination conjunction E cảm từ emotion word I trợ từ introductory word X không xác định 66 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... toán đánh giá quan điểm Kiều Thanh Bình Chương Các hướng tiếp cận cho toán đánh giá quan điểm Với phát triển nhanh chóng tài nguyên mạng, đặc biệt quan điểm trực tuyến (quan điểm sản phẩm, quan điểm. .. thống đánh giá quan điểm người dùng Kiều Thanh Bình cauhinh, vanhanh… Như nói chương loại từ phủ định hay làm thay đổi đánh giá quan điểm xét đến gán nhãn ReverseOpinion Hệ thống đánh giá quan điểm. .. bên cạnh tính từ phó từ, động từ diễn tả quan điểm hệ thống đánh giá quan điểm họ Họ phân loại động từ có liên quan đến quan điểm thành loại Loại thứ trực tiếp thể quan điểm tích cực hay tiêu cực,

Ngày đăng: 01/11/2022, 20:14