Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 75 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
75
Dung lượng
3,01 MB
Nội dung
ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI WX Kiều Thanh Bình TỰĐỘNGĐÁNHGIÁQUANĐIỂMNGƯỜIDÙNG KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Hà Nội – 2010 ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI WX Kiều Thanh Bình TỰĐỘNGĐÁNHGIÁQUANĐIỂMNGƯỜIDÙNG KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin GV hướng dẫn: TS. Phạm Bảo Sơn Hà Nội – 2010 Tựđộngđánhgiá ý kiến ngườidùng Kiều Thanh Bình i Lời mở đầu Với sự bùng nổ của nguồn dữ liệu trên Internet, những bài toán về xử lý thông tin như: trích chọn thông tin, tóm tắt nội dung văn bản v.v… ra đời như một nhu cầu tất yếu. Thông tin trên mạng thường gồm 2 loại: sự việc và quan điểm. Ngược với loại quan điểm, thông tin về sự việc được rất nhiều công cụ giải quyết như máy tìm kiếm, lọc thông tin, … Với thông tin lo ại quanđiểm thì khó và ít hướng tới hơn tuy nhiên xét về mức độ quan trọng thì thông tin loại này cần thiết hơn, nhất là với những công ty buôn bán sản phẩm. Đối với họ, ý kiến đánhgiá về sản phẩm mà ngườidùng đưa ra là quan trọng nhất trong việc điều chỉnh và đưa ra những chiến lược buôn bán hiệu quả. Ra đời như một thiết yếu, hệ thống đ ánh giáquanđiểmngườidùng đã được nghiên cứu mạnh mẽ trong mấy năm gần đây và cũng đưa ra được nhiều kết quả đáng mong đợi. Trong đó có phương pháp đưa ra được kết quả khá khả quan như phương pháp sử dụng kết hợp phân lớp dựa trên luật, học giám sát và học máy. Tựđộngđánhgiá ý kiến ngườidùng Kiều Thanh Bình ii Lời cảm ơn Trước tiên, em xin gửi lời cảm ơn sâu sắc nhất đến thầy Phạm Bảo Sơn, người đã không quản vất vả hướng dẫn em trong suốt thời gian làm khóa luận tốt nghiệp vừa qua. Em cũng chân thành cảm ơn mọi người ở phòng HMI lab đặc biệt là anh Nguyễn Bá Đạt đã luôn chỉ bảo mỗi khi em có những vấn đề vướng mắc. Em xin bày tỏ lời cảm ơn sâu sắ c đến các thầy cô giáo trong Trường Đại Học Công Nghệ đã tận tình dạy dỗ em suốt bốn năm học qua. Con xin cảm ơn bố, mẹ và gia đình đã luôn bên con, cho con động lực để làm việc tốt hơn. Cảm ơn tất cả bạn bè đã luôn sát cánh cùng tôi. Hà Nội, ngày 20 tháng 5 năm 2010 Kiều Thanh Bình Tựđộngđánhgiá ý kiến ngườidùng Kiều Thanh Bình iii Mục lục Lời mở đầu i Lời cảm ơn ii Mục lục iii Danh sách hình vẽ vi Danh sách bảng vii Chương 1 Giới thiệu 1 Chương 2 Các hướng tiếp cận cho bài toán đánhgiáquanđiểm 3 2.1 Xu hướng các cuộc nghiên cứu gần đây 3 2.1.1 Xác định từ, cụm từquanđiểm 4 2.1.2 Xác định chiều hướng từ, cụm từquanđiểm 4 2.1.3 Phân lớp câu / tài liệ u chỉ quanđiểm 7 2.2 Những thách thức và công việc có thể trong tương lai 9 2.2.1 Các loại từ khác 9 2.2.2 Thuật ngữ chỉ quanđiểm 10 2.2.3 Tính phủ định 10 2.2.4 Cấp độ quanđiểm 11 2.2.5 Sự phức tạp của câu / tài liệu 12 2.2.6 Quanđiểm theo ngữ cảnh 13 2.2.7 Tài liệu không đồng nhất 13 2.2.8 Một số vấn đề khác 14 Chương 3 Giới thiệu GATE 15 Tựđộngđánhgiá ý kiến ngườidùng Kiều Thanh Bình iv 3.1 Tổng quan về GATE 15 3.1.1 Mô hình kiến trúc của GATE 16 3.1.2 Những khái niệm cơ bản trong GATE 18 3.2 Xây dựng plugin trên GATE 18 3.3 Các thành phần quan trọng của GATE 21 3.3.1 Bộ từ điển (Gazetteers) 21 3.3.2 Bộ luật JAPE 22 3.4 Các công cụ quản lý chất lượng 27 3.4.1 Công cụ đánhgiá độ tương đồng khi gán nhãn hai văn bản (Annotation Diff) 27 3.4.2 Công cụ đánhgiá chất lượng của hệ thống (Corpus Benchmark tool) 28 Chương 4 Hệ thống đánhgiáquanđiểm ng ười dùng 30 4.1 Giới thiệu hệ thống 30 4.2 Thu thập dữ liệu và gán nhãn 31 4.2.1 Thu thập dữ liệu 32 4.2.2 Gán nhãn dữ liệu 33 4.3 Xây dựng hệ thống đánhgiáquanđiểm 34 4.3.1 Mô tả tổng quan hệ thống 35 4.3.2 Tiền xử lý 37 4.3.3 Xây dựng bộ từ điển 38 4.3.4 Xây dựng bộ luật 40 Chương 5 Kết quả thực nghiệm và phân tích lỗi 46 5.1 Tiến hành thực nghiệm 46 5.2 Kết quả thực nghiệm 47 Tựđộngđánhgiá ý kiến ngườidùng Kiều Thanh Bình v 5.2.1 Kết quả thực nghiệm đánhgiá ở mức từ 47 5.2.2 Kết quả thực nghiệm đánhgiá ở mức câu 48 5.2.3 Kết quả thực nghiệm đánhgiá ở mức văn bản theo từng Features 49 5.2.4 Kết luận chung về kết quả đánhgiá 53 5.3 Phân tích lỗi 54 5.3.1 Lỗi do gán nhãn từ loại (POS tag) 54 5.3.2 Lỗi do luật 56 5.3.3 Lỗi do tách câu 57 Chương 6 Tổng kết và hướng phát triển 59 Tài liệu tham khả o 60 Phụ lục A. Annotation Guideline. 63 Phụ lục B. Bảng nhãn từ loại tiếng Việt 64 Tựđộngđánhgiá ý kiến ngườidùng Kiều Thanh Bình vi Danh sách hình vẽ Hình 1 - Giao diện của GATE 16 Hình 2 - Mô hình kiến trúc của GATE [6] 17 Hình 3 - Giao diện thêm một thành phần tích hợp vào GATE 20 Hình 4 - Chọn các thành phần cho ứng dụng GATE 21 Hình 5 - Giao diện của Annotation Diff 27 Hình 6 - Giao diện của Corpus Benchmark tool 28 Hình 7 - Minh họa giao diện hệ thống 31 Hình 8 - Những reviews do ngườidùngđánhgiá ở trang tinvadung.vn 33 Hình 9 - Gán nhãn dữ liệu 34 Hình 10 - Mô tả chi tiết hệ thống đánhgiáquanđiểmngườidùng trên GATE 36 Hình 11 - GATE sau khi POS Tag và Lookup 40 Hình 12 - Lỗi do POS Tag ảnh hưởng đến nhận dạng từ 55 Hình 13 - Lỗi do POS tag ảnh hưởng đến tách câu 56 Hình 14 - Lỗi do viết luật ảnh hưởng đến nhận dạng từ 57 Hình 15 – Lỗi do tách câu 58 Tựđộngđánhgiá ý kiến ngườidùng Kiều Thanh Bình vii Danh sách bảng Bảng 1 - Kết quả nhận dạng từđánhgiá trên tập huấn luyện 47 Bảng 2 - Kết quả nhận dạng từđánhgiá trên tập kiểm tra 47 Bảng 3 - Kết quả nhận dạng câu đánhgiá trên tập huấn luyện 48 Bảng 4 - Kết quả nhận dạng câu đánhgiá trên tập kiểm tra 48 Bảng 5 - Kết quả đánhgiá Acer Aspire 3935 trên tập huấn luyện 50 Bảng 6 - Kết quả đánhgiá Apple Macbook Air MB543ZPA trên tập huấn luyện 50 Bảng 7 - Kết quả đánhgiá Acer Aspire AS4736 trên tập huấn luyện 51 Bảng 8 - Kết quả đánhgiá Feature trên tập huấn luyện 51 Bảng 9 - Kết quả đánhgiá Dell Inspiron 1210 trên tập kiểm tra 51 Bảng 10 - Kết quả đánhgiá Compaq Presario CQ40 trên tập kiểm tra 52 Bảng 11 - Kết quả đánhgiá HP Pavilion dv3 trên tập kiểm tra 52 Bảng 12 - Kết quả đánhgiá Feature trên tập kiểm tra 53 Chương 1. Giới thiệu bài toán đánhgiáquanđiểm Kiều Thanh Bình 1 Chương 1 Giới thiệu Hiện nay nền công nghệ càng ngày càng phát triển, đặc biệt với sự ra đời của Web, lượng thông tin trên Web là một kho tàng đồ sộ và nhiệm vụ của chúng ta là làm thế nào để khai thác kho tàng to lớn đó. Chính vì nó quá khổng lồ cho nên lượng thông tin rác cũng rất nhiều, vậy làm thế nào để biết được cái gì là cần thiết và cái gì là dư thừa. Các chuyên ngành như Web mining, NLP (Nature Language Processing), hay Machine Learning đều đi tìm câu trả lời cho câu hỏi đó tuy nhiên chúng cũng chỉ tìm được câu trả lờ i cho những phần nhỏ của câu hỏi mà thôi. Mỗi ngườiquan tâm một số lĩnh vực, mỗi người cần biết thông tin về một vài thứ mà trên Web thì bao gồm vô vàn thông tin thế nhưng lĩnh vực mà đa số người đều quan tâm, từ những nhà doanh nghiệp đến khách hàng - những ngườidùng đều quan tâm đó chính là sản phẩm. Ngườidùng thì quan tâm sản phẩm này có tốt không, sản phẩm kia tốt ở chỗ nào và chỗ nào không t ốt. Còn doanh nghiệp thì lại thường quan tâm đến sản phẩm của họ được mọi người tiếp đón thế nào, những điểm nào chưa tốt để họ bổ sung sửa chữa, hay phát huy thêm những điểmngườidùngquan tâm … Câu trả lời cho những câu hỏi này nằm trong nghiên cứu về “Opinion Mining” hay còn gọi “phân tích quanđiểmngười dùng”. Nghiên cứu này của chúng tôi xuất phát từ sự cần thiết của doanh nghiệp và người dùng, sử dụng những công cụ có ích nhất để đánhgiá một cách chính xác nhất về sản phẩm. Với mỗi sản phẩm sẽ có những điểm tính năng riêng (Features) và nhiệm vụ của chúng tôi là từ những review, comment, Feedback,… trên nguồn dữ liệu khổng lồ Web để đánhgiá xem tính năng của sản phẩm này được mọi người tiếp đón thế nào. [...]... Chương 2 Hướng tiếp cận cho bài toán đánhgiáquanđiểm Kiều Thanh Bình Chương 2 Các hướng tiếp cận cho bài toán đánhgiáquanđiểm Với sự phát triển nhanh chóng của tài nguyên mạng, đặc biệt là những quanđiểm trực tuyến (quan điểm sản phẩm, quanđiểm phim ảnh,…) nhiều nghiên cứu hiện đang chú trọng vào mảng phân tích ý kiến, cũng được biết đến như mảng đánhgiáquanđiểm Đó là một chuyên ngành học mới... cạnh các tính từ và phó từ, thì các độngtừ cũng có thể diễn tả quanđiểm trong hệ thống đánh giáquanđiểm của họ Họ phân loại các độngtừ có liên quan đến quanđiểm thành 2 loại Loại thứ nhất trực tiếp thể hiện quanđiểm tích cực hay tiêu cực, theo lý giải của họ thì “beat” trong “X beats Y” Loại thứ hai không thể hiện quanđiểm trực tiếp nhưng dẫn đến những quanđiểm , giống như “is” trong “X is good”... mỗi từ chỉ quanđiểm Hu và Liu (2004a) [12] dự đoán xu hướng câu chỉ quanđiểm trong nghiên cứu của họ đối với nhận xét của ngườidùng Vì nghiên cứu của họ tập trung vào quanđiểm chung về đặc điểm riêng của sản phẩm nên việc phân loại quanđiểm đối với mỗi câu có quanđiểm được đưa vào sử dụng khi họ cần tập hợp các câu chỉ ý kiến đối với 7 Chương 2 Hướng tiếp cận cho bài toán đánh giáquanđiểm Kiều... kiến người viết; những quanđiểm chủ quan đó dựa trên những vấn đề mà anh ta hay cô ta đang tranh luận Việc rút ra những từ, cụm từ chỉ quanđiểm là giai đoạn đầu tiên trong hệ thống đánh giáquan điểm, vì những từ, cụm từ này là những chìa khóa cho công việc nhận biết và phân loại tài liệu sau đó Ứng dụng dựa trên hệ thống đánh giáquanđiểm hiện nay tập trung vào các từ chỉ nội dung câu: danh từ, động. .. hệ thống đánhgiáquanđiểm có mục đích, vấn đề trọng tâm, điểm nổi bật khác nhau; tuy nhiên chúng thường được chia thành 3 phần chính: xác định từ, cụm từ chỉ quan điểm; xác định xu hướng quanđiểm và phân loại câu hay văn bản chỉ quanđiểm Ba thành phần cơ bản này cũng là 3 thành phần cơ bản xây dựng trên hệ thống của chúng tôi 2.1.1 Xác định từ, cụm từquanđiểm Những từ, cụm từ chỉ quanđiểm là... hướng quanđiểm trong giai đoạn tiếp theo Những kĩ thuật phân tích ngôn ngữ tự nhiên khác như xóa stopwords, stemming cũng được sử dụng trong giai đoạn tiền xử lý để rút ra từ, cụm từ chỉ quanđiểm 2.1.2 Xác định chiều hướng từ, cụm từquanđiểm Trong phân tích quan điểm, xu hướng của những từ, cụm từ trực tiếp thể hiện quan điểm, cảm xúc của người viết bài Phương pháp chính để nhận biết xu hướng quan điểm. .. quanđiểm Khác với việc phân loại thể loại hay chủ đề, việc phân loại quanđiểm đòi hỏi sự am hiểu về chiều hướng cảm xúc trong bài viết Một số khía cạnh mang tính thách thức trong đánh giáquanđiểm tồn tại trong việc sử dụng những loại từ khác, việc xây dựng thuật ngữ quan điểm, những mức độ quanđiểm khác nhau, sự phức tạp của câu chữ, từ ngữ trong những văn cảnh khác nhau, việc phân loại quan điểm. .. năm, việc đánhgiáquanđiểm đã trở thành chủ đề nóng giữa các nhà nghiên cứu xử lý ngôn ngữ tự nhiên và trích chọn thông tin Nhiều nỗ lực 3 Chương 2 Hướng tiếp cận cho bài toán đánhgiáquanđiểm Kiều Thanh Bình lớn dành cho việc nghiên cứu ở mảng này, có khá nhiều các bài báo được xuất bản và những ứng dụng khác nhau có sử dụng hệ thống đánhgiáquanđiểm được phát triển và đưa vào trong hoạt động thương... cận cho bài toán đánhgiáquanđiểm Kiều Thanh Bình thành rất tích cực và kém tích cực là thích hợp nếu “rất” và “hơi” được phân tích và sử dụng để xác định mức độ đối lập Cấp độ quanđiểm này làm cho việc xét mức độ đánhgiáquanđiểm được chính xác hơn tuy nhiên trong hệ thống của chúng tôi bước đầu chỉ sử dụng 2 loại quanđiểm là positive và negative do vậy việc xét cấp độ quanđiểm của chúng tôi... chúng tôi dùng luật để xác định chiều hướng và từquanđiểm cũng chính là phương pháp dựa trên từ vựng 4 Chương 2 Hướng tiếp cận cho bài toán đánhgiáquanđiểm Kiều Thanh Bình 2.1.2.1 Sử dụng tính từ và phó từ Những hệ thống hiện tại dùng để nhận biết những từ chỉ quanđiểm hay xu hướng quanđiểm tập trung chủ yếu vào các tính từ và phó từ vì chúng được xem là sự biểu lộ rõ ràng nhất của tính chủ quan . Bình TỰ ĐỘNG ĐÁNH GIÁ QUAN ĐIỂM NGƯỜI DÙNG KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin GV hướng dẫn: TS. Phạm Bảo Sơn Hà Nội – 2010 Tự động đánh giá ý. các động từ cũng có thể diễn tả quan điểm trong hệ thống đánh giá quan điểm của họ. Họ phân loại các động từ có liên quan đến quan điểm thành 2 loại. Loại th ứ nhất trực tiếp thể hiện quan điểm. 47 Tự động đánh giá ý kiến người dùng Kiều Thanh Bình v 5.2.1 Kết quả thực nghiệm đánh giá ở mức từ 47 5.2.2 Kết quả thực nghiệm đánh giá ở mức câu 48 5.2.3 Kết quả thực nghiệm đánh