1. Trang chủ
  2. » Luận Văn - Báo Cáo

TỰ ĐỘNG ĐÁNH GIÁ QUAN ĐIỂM NGƯỜI DÙNG

119 355 2
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 119
Dung lượng 3,59 MB

Nội dung

Trong hệ thống của chúng tôi, tính từ và phó từ là hai từ loại rất hay được sử dụng trong luật để nhận dạng từ quan điểm

ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI -------- Kiều Thanh Bình TỰ ĐỘNG ĐÁNH GIÁ QUAN ĐIỂM NGƯỜI DÙNG KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Hà Nội – 2010 ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI -------- Kiều Thanh Bình TỰ ĐỘNG ĐÁNH GIÁ QUAN ĐIỂM NGƯỜI DÙNG KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin GV hướng dẫn: TS. Phạm Bảo Sơn Hà Nội – 2010 Tự động đánh giá ý kiến người dùng Kiều Thanh Bình Lời mở đầu Với sự bùng nổ của nguồn dữ liệu trên Internet, những bài toán về xử lý thông tin như: trích chọn thông tin, tóm tắt nội dung văn bản v.v… ra đời như một nhu cầu tất yếu. Thông tin trên mạng thường gồm 2 loại: sự việc và quan điểm. Ngược với loại quan điểm, thông tin về sự việc được rất nhiều công cụ giải quyết như máy tìm kiếm, lọc thông tin, … Với thông tin loại quan điểm thì khó và ít hướng tới hơn tuy nhiên xét về mức độ quan trọng thì thông tin loại này cần thiết hơn, nhất là với những công ty buôn bán sản phẩm. Đối với họ, ý kiến đánh giá về sản phẩm mà người dùng đưa ra là quan trọng nhất trong việc điều chỉnh và đưa ra những chiến lược buôn bán hiệu quả. Ra đời như một thiết yếu, hệ thống đánh giá quan điểm người dùng đã được nghiên cứu mạnh mẽ trong mấy năm gần đây và cũng đưa ra được nhiều kết quả đáng mong đợi. Trong đó có phương pháp đưa ra được kết quả khá khả quan như phương pháp sử dụng kết hợp phân lớp dựa trên luật, học giám sát và học máy. i Tự động đánh giá ý kiến người dùng Kiều Thanh Bình Lời cảm ơn Trước tiên, em xin gửi lời cảm ơn sâu sắc nhất đến thầy Phạm Bảo Sơn, người đã không quản vất vả hướng dẫn em trong suốt thời gian làm khóa luận tốt nghiệp vừa qua. Em cũng chân thành cảm ơn mọi người ở phòng HMI lab đặc biệt là anh Nguyễn Bá Đạt đã luôn chỉ bảo mỗi khi em có những vấn đề vướng mắc. Em xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo trong Trường Đại Học Công Nghệ đã tận tình dạy dỗ em suốt bốn năm học qua. Con xin cảm ơn bố, mẹ và gia đình đã luôn bên con, cho con động lực để làm việc tốt hơn. Cảm ơn tất cả bạn bè đã luôn sát cánh cùng tôi. Hà Nội, ngày 20 tháng 5 năm 2010 Kiều Thanh Bình ii Tự động đánh giá ý kiến người dùng Kiều Thanh Bình Mục lục ĐẠI HỌC CÔNG NGHỆ 1 ĐẠI HỌC QUỐC GIA HÀ NỘI 1 -------- .1 1 Kiều Thanh Bình 1 TỰ ĐỘNG ĐÁNH GIÁ 1 QUAN ĐIỂM NGƯỜI DÙNG 1 KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY 1 Ngành: Công Nghệ Thông Tin .1 Hà Nội – 2010 1 ĐẠI HỌC CÔNG NGHỆ 1 ĐẠI HỌC QUỐC GIA HÀ NỘI 1 -------- .1 1 Kiều Thanh Bình 1 TỰ ĐỘNG ĐÁNH GIÁ 1 QUAN ĐIỂM NGƯỜI DÙNG 1 KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY 1 Ngành: Công Nghệ Thông Tin .1 GV hướng dẫn: TS. Phạm Bảo Sơn 1 Hà Nội – 2010 1 Lời mở đầu .i Lời mở đầu .i Tự động đánh giá ý kiến người dùng Kiều Thanh Bình i iii Tự động đánh giá ý kiến người dùng Kiều Thanh Bình Với sự bùng nổ của nguồn dữ liệu trên Internet, những bài toán về xử lý thông tin như: trích chọn thông tin, tóm tắt nội dung văn bản v.v… ra đời như một nhu cầu tất yếu. Thông tin trên mạng thường gồm 2 loại: sự việc và quan điểm. Ngược với loại quan điểm, thông tin về sự việc được rất nhiều công cụ giải quyết như máy tìm kiếm, lọc thông tin, … Với thông tin loại quan điểm thì khó và ít hướng tới hơn tuy nhiên xét về mức độ quan trọng thì thông tin loại này cần thiết hơn, nhất là với những công ty buôn bán sản phẩm. Đối với họ, ý kiến đánh giá về sản phẩm mà người dùng đưa ra là quan trọng nhất trong việc điều chỉnh và đưa ra những chiến lược buôn bán hiệu quả. Ra đời như một thiết yếu, hệ thống đánh giá quan điểm người dùng đã được nghiên cứu mạnh mẽ trong mấy năm gần đây và cũng đưa ra được nhiều kết quả đáng mong đợi. Trong đó có phương pháp đưa ra được kết quả khá khả quan như phương pháp sử dụng kết hợp phân lớp dựa trên luật, học giám sát và học máy .i lii i Lời cảm ơn ii Lời cảm ơn ii Trước tiên, em xin gửi lời cảm ơn sâu sắc nhất đến thầy Phạm Bảo Sơn, người đã không quản vất vả hướng dẫn em trong suốt thời gian làm khóa luận tốt nghiệp vừa qua. Em cũng chân thành cảm ơn mọi người ở phòng HMI lab đặc biệt là anh Nguyễn Bá Đạt đã luôn chỉ bảo mỗi khi em có những vấn đề vướng mắc ii Em xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo trong Trường Đại Học Công Nghệ đã tận tình dạy dỗ em suốt bốn năm học qua .ii Con xin cảm ơn bố, mẹ và gia đình đã luôn bên con, cho con động lực để làm việc tốt hơn. Cảm ơn tất cả bạn bè đã luôn sát cánh cùng tôi. ii Hà Nội, ngày 20 tháng 5 năm 2010 .ii Kiều Thanh Bình .ii Mục lục iii Mục lục iii Danh sách hình vẽ li Danh sách hình vẽ li Hình 1 - Giao diện của GATE 16 .li Hình 2 - Mô hình kiến trúc của GATE [6] 17 li Hình 3 - Giao diện thêm một thành phần tích hợp vào GATE. 20 .li Hình 4 - Chọn các thành phần cho ứng dụng GATE 21 .li Hình 5 - Giao diện của Annotation Diff 27 .li Hình 6 - Giao diện của Corpus Benchmark tool 28 li Hình 7 - Minh họa giao diện hệ thống 31 li iv Tự động đánh giá ý kiến người dùng Kiều Thanh Bình Hình 8 - Những reviews do người dùng đánh giá ở trang tinvadung.vn 33 .li Hình 9 - Gán nhãn dữ liệu 34 .li Hình 10 - Mô tả chi tiết hệ thống đánh giá quan điểm người dùng trên GATE 36 li Hình 11 - GATE sau khi POS Tag và Lookup 40 li Hình 12 - Lỗi do POS Tag ảnh hưởng đến nhận dạng từ 54 li Hình 13 - Lỗi do POS tag ảnh hưởng đến tách câu 55 li Hình 14 - Lỗi do viết luật ảnh hưởng đến nhận dạng từ 56 .li Hình 15 – Lỗi do tách câu 57 li Danh sách bảng .lii Danh sách bảng .lii Chương 1 Giới thiệu .1 Chương 1 Giới thiệu .1 Chương 1. Giới thiệu bài toán đánh giá quan điểm Kiều Thanh Bình .1 Hiện nay nền công nghệ càng ngày càng phát triển, đặc biệt với sự ra đời của Web, lượng thông tin trên Web là một kho tàng đồ sộ và nhiệm vụ của chúng ta là làm thế nào để khai thác kho tàng to lớn đó. Chính vì nó quá khổng lồ cho nên lượng thông tin rác cũng rất nhiều, vậy làm thế nào để biết được cái gì là cần thiết và cái gì là dư thừa. Các chuyên ngành như Web mining, NLP (Nature Language Processing), hay Machine Learning đều đi tìm câu trả lời cho câu hỏi đó tuy nhiên chúng cũng chỉ tìm được câu trả lời cho những phần nhỏ của câu hỏi mà thôi. Mỗi người quan tâm một số lĩnh vực, mỗi người cần biết thông tin về một vài thứ mà trên Web thì bao gồm vô vàn thông tin thế nhưng lĩnh vực mà đa số người đều quan tâm, từ những nhà doanh nghiệp đến khách hàng - những người dùng đều quan tâm đó chính là sản phẩm. Người dùng thì quan tâm sản phẩm này có tốt không, sản phẩm kia tốt ở chỗ nào và chỗ nào không tốt. Còn doanh nghiệp thì lại thường quan tâm đến sản phẩm của họ được mọi người tiếp đón thế nào, những điểm nào chưa tốt để họ bổ sung sửa chữa, hay phát huy thêm những điểm người dùng quan tâm … Câu trả lời cho những câu hỏi này nằm trong nghiên cứu về “Opinion Mining” hay còn gọi “phân tích quan điểm người dùng”. Nghiên cứu này của chúng tôi xuất phát từ sự cần thiết của doanh nghiệp và người dùng, sử dụng những công cụ có ích nhất để đánh giá một cách chính xác nhất về sản phẩm. Với mỗi sản phẩm sẽ có những điểm tính năng riêng (Features) và nhiệm vụ của chúng tôi là từ những review, comment, Feedback, … trên nguồn dữ liệu khổng lồ Web để đánh giá xem tính năng của sản phẩm này được mọi người tiếp đón thế nào. .1 v Tự động đánh giá ý kiến người dùng Kiều Thanh Bình Hệ thống của chúng tôi sử dụng dữ liệu từ trên trang Web http//tinvadung.vn làm dữ liệu chuẩn để phát triển và kiểm thử hệ thống. Chúng tôi giải quyết bài toán dựa trên hướng tiếp cận về luật và phân lớp ở mức câu. Ở đây chúng tôi tạm thời chia thành 2 loại đánh giá của người dùng là hướng tích cực (positive) và hướng tiêu cực (negative). Hệ thống của chúng tôi được xây dựng trên nền GATE [3] – là một framework giúp phát triển các thành phần xử lý ngôn ngữ tự nhiên, và được sử dụng với dữ liệu về máy tính (laptop & desktop). Trong tương lai chúng tôi sẽ phát triển hệ thống để đưa ra một thước đo chính xác hơn về những đánh giá và mở rộng thêm với các lĩnh vực khác 1 2 1 Phần còn lại của khóa luận được chia thành 5 chương: .2 Chương 2: Chúng tôi giới thiệu về những hướng tiếp cận cho bài toán tự động đánh giá quan điểm người dùng, những công trình nghiên cứu hiện tại và những thách thức sẽ giải quyết trong tương lai. .2 Chương 3: Chúng tôi giới thiệu một cách tổng quan về khung làm việc GATE, và cách xây dựng một hệ thống tích hợp trong GATE 2 Chương 4: Chúng tôi mô tả chi tiết hệ thống tự động đánh giá quan điểm người dùng trong văn bản tiếng Việt được xây dựng trên khung làm việc GATE .2 Chương 5: Chúng tôi đưa ra những kết quả thực nghiệm và phân tích những lỗi vẫn còn tồn tại 2 Chương 6: Chúng tôi đưa ra những kết luận về hệ thống và hướng phát triển hệ thống trong tương lai 2 Chương 2 Các hướng tiếp cận cho bài toán đánh giá quan điểm .3 Chương 2 Các hướng tiếp cận cho bài toán đánh giá quan điểm .3 Chương 2. Hướng tiếp cận cho bài toán đánh giá quan điểm Kiều Thanh Bình 3 Với sự phát triển nhanh chóng của tài nguyên mạng, đặc biệt là những quan điểm trực tuyến (quan điểm sản phẩm, quan điểm phim ảnh,…) nhiều nghiên cứu hiện đang chú trọng vào mảng phân tích ý kiến, cũng được biết đến như mảng đánh giá quan điểm. Đó là một chuyên ngành học mới bao gồm: trích xuất thông tin (IR), xử lý ngôn ngữ tự nhiên (NLP) và ngôn ngữ học máy tính. Hệ thống đánh giá quan điểm thường cố gắng tìm ra những từ, cụm từ chỉ ý kiến, xác định chiều hướng của những từ, cụm từ, sau đó phân lớp câu, đoạn hay toàn bộ tài liệu dựa trên những xu hướng quan điểm đó. Bởi vậy, nhiệm vụ thông thường của hệ thống đánh giá quan điểm bao gồm nhận biết từ, cụm từ chỉ quan điểm và phân loại tài liệu hoặc câu theo các chiều hướng quan điểm. Khác với việc phân loại thể loại hay chủ đề, việc phân loại quan điểm đòi hỏi sự am hiểu về chiều hướng cảm xúc trong bài viết. Một số khía cạnh mang tính thách thức trong đánh giá quan điểm tồn tại trong việc sử dụng những loại từ khác, việc xây dựng thuật ngữ quan điểm, những mức vi Tự động đánh giá ý kiến người dùng Kiều Thanh Bình độ quan điểm khác nhau, sự phức tạp của câu chữ, từ ngữ trong những văn cảnh khác nhau, việc phân loại quan điểm trong bài viết phức tạp… Một số phương pháp đã được đề xuất để giải quyết những vấn đề trên, tuy nhiên trong tương lai sẽ có nhiều nghiên cứu hơn nữa nhằm giải quyết triệt để những thách thức đó 3 2.1 Xu hướng các cuộc nghiên cứu gần đây .3 2.1 Xu hướng các cuộc nghiên cứu gần đây .3 Từ cách đây một vài năm, việc đánh giá quan điểm đã trở thành chủ đề nóng giữa các nhà nghiên cứu xử lý ngôn ngữ tự nhiên và trích chọn thông tin. Nhiều nỗ lực lớn dành cho việc nghiên cứu ở mảng này, có khá nhiều các bài báo được xuất bản và những ứng dụng khác nhau có sử dụng hệ thống đánh giá quan điểm được phát triển và đưa vào trong hoạt động thương mại. Mặc dù các ứng dụng dựa trên hệ thống đánh giá quan điểm có mục đích, vấn đề trọng tâm, điểm nổi bật khác nhau; tuy nhiên chúng thường được chia thành 3 phần chính: xác định từ, cụm từ chỉ quan điểm; xác định xu hướng quan điểm và phân loại câu hay văn bản chỉ quan điểm. Ba thành phần cơ bản này cũng là 3 thành phần cơ bản xây dựng trên hệ thống của chúng tôi 3 14 3 2.1.1 Xác định từ, cụm từ quan điểm 4 Những từ, cụm từ chỉ quan điểm là những từ ngữ được sử dụng để diễn tả cảm xúc, ý kiến người viết; những quan điểm chủ quan đó dựa trên những vấn đề mà anh ta hay cô ta đang tranh luận. Việc rút ra những từ, cụm từ chỉ quan điểm là giai đoạn đầu tiên trong hệ thống đánh giá quan điểm, vì những từ, cụm từ này là những chìa khóa cho công việc nhận biết và phân loại tài liệu sau đó .4 Ứng dụng dựa trên hệ thống đánh giá quan điểm hiện nay tập trung vào các từ chỉ nội dung câu: danh từ, động từ, tính từ và phó từ. Phần lớn công việc sử dụng từ loại để rút chúng ra (Hu và Liu, 2004a [12]; Turney, 2002 [22]). Việc gán nhãn từ loại cũng được sử dụng trong công việc này, điều này có thể giúp cho việc nhận biết xu hướng quan điểm trong giai đoạn tiếp theo. Những kĩ thuật phân tích ngôn ngữ tự nhiên khác như xóa stopwords, stemming cũng được sử dụng trong giai đoạn tiền xử lý để rút ra từ, cụm từ chỉ quan điểm 4 2.1.2 Xác định chiều hướng từ, cụm từ quan điểm .4 Trong phân tích quan điểm, xu hướng của những từ, cụm từ trực tiếp thể hiện quan điểm, cảm xúc của người viết bài. Phương pháp chính để nhận biết xu hướng quan điểm của những từ, cụm từ chỉ cảm nghĩ là dựa trên thống kê hoặc dựa trên từ vựng. Hệ thống của chúng tôi dùng luật để xác định chiều hướng và từ quan điểm cũng chính là phương pháp dựa trên từ vựng 4 Những hệ thống hiện tại dùng để nhận biết những từ chỉ quan điểm hay xu hướng quan điểm tập trung chủ yếu vào các tính từ phó từ chúng được xem là sự biểu lộ ràng nhất của tính chủ quan (Hatzivassiloglou and McKeown, 1997 [11]; Wiebe and Bruce, 1999 [2]) 5 Hu và Liu (2004a) [12] áp dụng việc gán nhãn từ loại và kĩ thuật xử lý ngôn ngữ tự nhiên nhằm rút ra những tính từ cũng như những từ chỉ quan điểm (đã được nói đến ở mục 2.1.1). Sau đó họ xác định những dấu hiệu ở quan điểm về sản phẩm vì phương pháp của họ tập trung vào việc phân loại quan điểm dựa trên vii Tự động đánh giá ý kiến người dùng Kiều Thanh Bình những dấu hiệu. Họ định nghĩa một câu mà chứa một hay nhiều dấu hiệu sản phẩm và từ chỉ quan điểm được xem là một câu chỉ quan điểm 5 Sau đó với mỗi một câu trong dữ liệu chỉ quan điểm, họ rút ra tất cả những tính từ được coi là những từ chỉ quan điểm. Kết quả thực nghiệm việc rút ra những câu đánh giá quan điểm có độ chính xác (precision) khoảng 64.2% và recall là 69.3% .5 Họ sử dụng WordNet (Fellbaum, 1998 [10]) để xác định các tính từ được rút ra mang chiều hướng tích cực (positive) hay tiêu cực (negative). Trong WordNet, các tính từ được tổ chức thành các cụm từ lưỡng cực; nửa cụm thứ hai phần đầu là từ trái nghĩa của cụm thứ nhất. Mỗi nửa cụm là phần đầu của tập từ đồng nghĩa chính, tiếp theo là tập từ đồng nghĩa kèm theo – nó đại diện cho ngữ nghĩa tương tự như những tính từ quan trọng. Ngược với cách tiếp cận dựa trên từ điển, họ sử dụng định hướng quan điểm của những từ đồng nghĩa và từ trái nghĩa để dự đoán định hướng của các tính từ. Họ bắt đầu với một danh sách khởi đầu gồm 30 tính từ thông dụng được chọn thủ công (bằng tay). Sau đó sử dụng WordNet để dự đoán định hướng của tất cả các tính từ trong danh sách từ quan điểm được rút ra bằng cách tìm kiếm qua cụm lưỡng cực để tìm ra liệu các từ đồng nghĩa hay trái nghĩa có trong danh sách khởi đầu hay không. Một khi định hướng của tính từ được dự đoán, nó sẽ được bổ sung vào danh sách khởi đầu và có thể được sử dụng để xác định định hướng của các tính từ khác. Trong phương pháp này, danh sách khởi đầu sẽ dần tăng lên khi sự định hướng của các tính từ được nhận dạng; và khi nó ngừng gia tăng, tức qui mô của danh sách khởi đầu trùng với qui mô của danh sách từ chỉ quan điểm, thì tất cả định hướng của các tính từ đã được nhận biết và quá trình này kết thúc 5 Hatzivassiloglou và McKeown (1997) [11] đã dùng một phương pháp để rút trích tự động các thông tin định hướng quan điểm sử dụng các thông tin gián tiếp được thu thập từ tập corpus khổng lồ khi họ chỉ ra rằng những từ điển như Wordnet không bao gồm các thông tin định hướng quan điểm và thiếu sự liên kết trực tiếp giữa các từ đồng nghĩa và trái nghĩa đặc biệt khi chúng phụ thuộc về miền xác định. Đầu tiên, họ rút ra tất cả các cách kết hợp tính từ từ tập corpus với mối liên hệ hình thái học phù hợp. Sau đó họ sử dụng mô hình lặp tuyến tính hóa (log-linear) và kết hợp thông tin từ những cách liên kết khác nhau để xác định liệu hai tính từ được kết hợp có cùng hướng quan điểm hay không. Các tính từ được mô tả trên một đồ thị với giả thuyết có mối liên hệ cùng hay không cùng hướng quan điểm và sau đó được phân ra thành 2 nhóm định hướng nhỏ khác nhau bằng cách sử dụng thuật toán phân cụm (clustering). Cuối cùng họ so sánh tần số xuất hiện trung bình của mỗi nhóm tính từ và gán nhãn là nhóm có tần số xuất hiện cao hơn .6 Turney (2002) [22] sử dụng thông tin chung giữa 2 từ để phân loại định hướng của các tính từ hay phó từ. Trước khi phân loại quan điểm từ, họ sử dụng POS tagging để rút ra các tính từ và phó từ dựa trên phương pháp tiếp cận của Brill (1994) [1]. Thông tin tương hỗ (PMI) (Church and Hanks, 1989 [4]; Turney, 2001 [21]) là một thước đo mức độ liên hệ về quan điểm giữa 2 từ được sử dụng. Định hướng quan điểm của một từ hay cụm từ sau đó được tính toán theo PMI(x,“excellent”) và PMI(x,“poor”); sau đó từ hay cụm từ đó được phân loại là “positive” nếu nó có độ liên hệ mạnh với “excellent” và “negative” trong trường hợp còn lại. Họ lựa chọn các từ “excellent” và “poor” bởi vì hai từ này được dùng thông dụng để diễn tả các quan điểm cuối cùng của các bài phê bình .6 viii [...]... tôi dùng tool được viết lại dựa trên công cụ đánh giá chất lượng Corpus Benchmark tool 29 Chương 4 Hệ thống đánh giá quan điểm người dùng .30 Chương 4 Hệ thống đánh giá quan điểm người dùng .30 Chương 4 Hệ thống đánh giá quan điểm người dùng Kiều Thanh Bình 30 Như ở chương 2 chúng tôi đã đưa ra một số hướng tiếp cận cho bài toán đánh giá quan điểm. .. làm là phân loại câu đơn này theo 5 hướng: .44 Câu đánh giá positive (PosSen): chỉ gồm những từ đánh giá positive 44 Câu đánh giá negative (NegSen): chỉ gồm những từ đánh giá negative .44 Câu đánh giá cả hai hướng (MixSen): có cả hai loại từ đánh giá quan điểm positive và negative 44 Câu thông thường: câu không mang từ đánh giá quan điểm nào .44 Câu so sánh (CompSen): câu thông... đổi lớp cho những từ như vậy 11 2.2.4 Cấp độ quan điểm 11 Như trong Esuli và Sebastiani (2006) [9], một vài nhiệm vụ liên quan đến cấp độ quan điểm trong hệ thống đánh giá quan điểm Nhiệm vụ thứ nhất được gọi là SO-polarity, nhằm xác định ý kiến mang tính khách xi Tự động đánh giá ý kiến người dùng Kiều Thanh Bình quan hay chủ quan (Pang và Lee, 2004 [18]; Yu và Hatzivassiloglou,... nhau Để đánh giá toàn bộ hệ thống chúng tôi không thể dùng Annotation Diff mà chỉ dùng nó trong quá trình xây dựng từng luật cần nhìn trực quan Corpus Benchmark tool chính là một trong những công cụ để đánh giá hệ thống .28 3.4.2 Công cụ đánh giá chất lượng của hệ thống (Corpus Benchmark tool) 28 xx Tự động đánh giá ý kiến người dùng Kiều Thanh Bình Đây là công cụ cho phép người. .. liệu 34 4.3 Xây dựng hệ thống đánh giá quan điểm 34 4.3 Xây dựng hệ thống đánh giá quan điểm 34 Như trong chương 2 chúng tôi đã nói đến những hệ thống gần đây, hệ thống của chúng tôi cũng được xây dựng dựa trên 3 thành phần chính: xác định từ, cụm từ chỉ quan điểm; xác định xu hướng quan điểm; và phân lớp câu chỉ quan điểm Những phần trên được chúng tôi tách ra... 33 xxii Tự động đánh giá ý kiến người dùng Kiều Thanh Bình Đây là phần khá quan trọng nếu không nói là phần quan trọng nhất ảnh hưởng trực tiếp đến sản phẩm Công việc này yêu cầu độ chính xác cao, chỉ có vậy thì bộ từ điển và bộ luật chúng tôi xây dựng mới chính xác được 33 Hệ thống của chúng tôi có mục đích đánh giá quan điểm như vậy xét trong phạm vi từ, những từ về quan điểm là... chỉ tập trung vào 4 loại từ cơ bản là: Danh từ, Động từ, đặc biệt là Tính từ và Phó từ .9 x Tự động đánh giá ý kiến người dùng Kiều Thanh Bình 2.2.2 Thuật ngữ chỉ quan điểm .9 Nhiều công trình nghiên cứu như (Nasukawa và Yi, 2003 [15]; Bruce và Wiebe, 1999 [2]) định nghĩa các biểu hiện quan điểm trong thuật ngữ quan điểm của chính họ dựa trên biểu thị tính đối lập,... 34 4.3.1 Mô tả tổng quan hệ thống 35 Hệ thống đánh giá quan điểm của chúng tôi được chia thành 4 phần chính như sau: 35 Tiền xử lý: giải quyết những vấn đề cơ bản cho văn bản làm tiền đề cho bước xử lý sau .35 Xác định từ, cụm từ chỉ quan điểm và xu hướng quan điểm của nó 35 Xác định câu và phân lớp câu chỉ quan điểm 35 Đánh giá các đặc tính của sản phẩm... + -> từ mang quan điểm .42 Hay một luật đơn giản thứ hai cần xét đến đó là những từ quan điểm hay được người dùng đánh giá bằng nhiều từ để làm rõ lên ý kiến của anh ta (cô ta) như: 42 “Laptop cho doanh nhân Acer Aspire 3935 sử dụng thiết kế phá cách, hiện đại.” 42 Những từ này thường được đi cùng nhau và dùng những liên từ để nối chúng... chúng tôi đánh giá quan điểm xét ở mức câu chính vì vậy những nhãn về câu là không thể thiếu Chúng tôi cần các nhãn PosSen, NegSen, MixSen để phân biệt cho những câu đơn đơn giản mà có những đánh giá lần lượt là positive, negative và cả 2 loại Ngoài ra khi đối với câu không có từ quan điểm thì có một kiểu câu khác vẫn có ý nghĩa đánh giá quan điểm là câu so sánh Để giải quyết vấn đề này chúng tôi dùng thêm . cùng tôi. Hà Nội, ngày 20 tháng 5 năm 2010 Kiều Thanh Bình ii Tự động đánh giá ý kiến người dùng Kiều Thanh Bình Mục lục ĐẠI HỌC CÔNG NGHỆ..............................................................................................................................................1. Nội – 2010 ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI -------- Kiều Thanh Bình TỰ ĐỘNG ĐÁNH GIÁ QUAN ĐIỂM NGƯỜI DÙNG KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH

Ngày đăng: 25/04/2013, 10:42

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Eric Brill. 1994. Some Advances in Transformation-Based Part of Speech Tagging. Proceedings of the 12th National Conference on Artificial Intelligence. 1994, Menlo Park, CA: AAAI Press, pp722–727 Khác
[2] Rebecca F. Bruce and Janyce M. Wiebe. 1999. Recognizing subjectivity: a case study in manual tagging. Natural Language Engineering 5(2):187–205 Khác
[3] H. Cunningham, D. Maynard, K. Bontcheva, V. Tablan. 2002. GATE, A Framework and Graphical Development Environment for Robust NLP Tools and Applications. Proceedings of the 40 th Anniversary Meeting of the Association for Computational Linguistics (ACL'02). Philadelphia, July 2002 Khác
[4] Kenneth Ward Church, Patrick Hanks.1989. Word association norms, mutual information and lexicography. Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics.1989, Vancouver, B.C., Canada, pp76–83 Khác
[5] Dang Duc Pham, Giang Binh Tran, Son Bao Pham. 2009. A Hybrid Approach to Vietnamese Word Segmentation using Part of Speech tags. International Conference on Knowledge and Systems Engineering Khác
[7] David Day, Chad McHenry, Robyn Kozierok, Laurel Riek. 2004. Callisto: A Configurable Annotation Workbench. In Proceedings of the Fourth International Conference on Language Resources and Evaluation. (LREC 2004). ELRA. May, 2004 Khác
[8] Xiaowen Ding, Bing Liu, Lei Zhang. 2009. Entity Discovery and Assignment for Opinion Mining Applications. Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining Khác
[9] Andrea Esuli and Fabrizio Sebastiani 2006. Senti-WordNet: A Publicly Available Lexical Resource for Opinion Mining. Proceedings of the 5th Conference on Language Resources and Evaluation (LREC-06). 2006, Genova, Italy Khác
[11] Vasileios Hatzivassiloglou and Kathleen R. McKeown. 1997. Predicting the Semantic Orientation of Adjectives. Proceedings of the 8th conference on European chapter of the Association for Computational Linguis- tics. 1997, Madrid, Spain Khác
[12] Minqing Hu and Bing Liu. 2004a. Mining and summarizing customer reviews. Proceedings of the 10th ACM SIGKDD international conference on Knowledge discovery and data mining. Aug. 22–25, 2004, Seattle, WA, USA Khác
[13] Minqing Hu and Bing Liu. 2004b. Mining opinion features in customer reviews. Proceedings of 9th National Conference on Artificial Intellgience. Jul. 2004, San Jose, USA Khác
[14] Chris Manning and Hinrich Schutze. 1999. Foundations of Statistical Natural Language Processing. MIT Press, Cambridge, MA Khác
[15] Tetsuya Nasukawa, Jeonghee Yi. 2003. Sentiment Analysis: Capturing Favorability Using Natural Language Processing. Proceedings of the 2nd international conference on Knowledge capture. Technology systems (SEALTS) Khác
[16] Mary S. Neff, Roy J. Byrd, and Branimir K. Boguraev. 2003. The Talent System: TEXTRACT Architecture and Data Model. Proceedings of the HLT- NAACL2003 Workshop on Software Engineering and Architecture of Language Khác
[17] Bo Pang, Lillian Lee and Shivakumar Vaithyanathan. 2002. Thumbs up?Sentiment classification using machine learning techniques. Proceedings of the 7th Conference on Empirical Methods in Natural Lan- guage Processing (EMNLP-02) Khác
[18] Bo Pang and Lillian Lee. 2004. A sentiment education: sentiment analysis using subjectivity summrarization based on minimum cuts. Proceedings of the Conference of the Association for Computational Linguistics (ACL-04) Khác

HÌNH ẢNH LIÊN QUAN

Hình 1- Giao diện của GATE - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 1 Giao diện của GATE (Trang 70)
Hình 1 - Giao diện của GATE - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 1 Giao diện của GATE (Trang 70)
Hình 2- Mơ hình kiến trúc của GATE [6] - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 2 Mơ hình kiến trúc của GATE [6] (Trang 71)
Hình 3- Giao diện thêm một thành phần tích hợp vào GATE. - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 3 Giao diện thêm một thành phần tích hợp vào GATE (Trang 74)
Hình 3 - Giao diện thêm một thành phần tích hợp vào GATE. - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 3 Giao diện thêm một thành phần tích hợp vào GATE (Trang 74)
Hình 4- Chọn các thành phần cho ứng dụng GATE - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 4 Chọn các thành phần cho ứng dụng GATE (Trang 75)
Hình 4 - Chọn các thành phần cho ứng dụng GATE - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 4 Chọn các thành phần cho ứng dụng GATE (Trang 75)
Hình 5- Giao diện của Annotation Diff - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 5 Giao diện của Annotation Diff (Trang 81)
Hình 5 - Giao diện của Annotation Diff - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 5 Giao diện của Annotation Diff (Trang 81)
Giao diện của Corpus Benchmark tool như hình 6. - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
iao diện của Corpus Benchmark tool như hình 6 (Trang 82)
Hình 6 - Giao diện của Corpus Benchmark tool - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 6 Giao diện của Corpus Benchmark tool (Trang 82)
Sau đây là hình ảnh mơ tả giao diện và kết quả của hệ thống [Hình 7]. - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
au đây là hình ảnh mơ tả giao diện và kết quả của hệ thống [Hình 7] (Trang 85)
Hình 7 - Minh họa giao diện hệ thống - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 7 Minh họa giao diện hệ thống (Trang 85)
Hình 8- Những reviews do người dùng đánh giá ở trang tinvadung.vn - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 8 Những reviews do người dùng đánh giá ở trang tinvadung.vn (Trang 87)
Hình 8 - Những reviews do người dùng đánh giá ở trang tinvadung.vn - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 8 Những reviews do người dùng đánh giá ở trang tinvadung.vn (Trang 87)
Hình 9- Gán nhãn dữ liệu - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 9 Gán nhãn dữ liệu (Trang 88)
Hình 9 - Gán nhãn dữ liệu - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 9 Gán nhãn dữ liệu (Trang 88)
Hình 10 - Mơ tả chi tiết hệ thống đánh giá quan điểm người dùng trên GATE - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 10 Mơ tả chi tiết hệ thống đánh giá quan điểm người dùng trên GATE (Trang 90)
Hình 10 - Mô tả chi tiết hệ thống đánh giá quan điểm người dùng trên GATE - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 10 Mô tả chi tiết hệ thống đánh giá quan điểm người dùng trên GATE (Trang 90)
Hình 11 - GATE sau khi POS Tag và Lookup - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 11 GATE sau khi POS Tag và Lookup (Trang 94)
Hình 11 - GATE sau khi POS Tag và Lookup - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 11 GATE sau khi POS Tag và Lookup (Trang 94)
Bảng 1- Kết quả nhận dạng từ đánh giá trên tập huấn luyện - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Bảng 1 Kết quả nhận dạng từ đánh giá trên tập huấn luyện (Trang 101)
Bảng 1 - Kết quả nhận dạng từ đánh giá trên tập huấn luyện - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Bảng 1 Kết quả nhận dạng từ đánh giá trên tập huấn luyện (Trang 101)
Bảng 4- Kết quả nhận dạng câu đánh giá trên tập kiểm tra - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Bảng 4 Kết quả nhận dạng câu đánh giá trên tập kiểm tra (Trang 102)
Bảng 4 - Kết quả nhận dạng câu đánh giá trên tập kiểm tra - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Bảng 4 Kết quả nhận dạng câu đánh giá trên tập kiểm tra (Trang 102)
Bảng 3 - Kết quả nhận dạng câu đánh giá trên tập huấn luyện - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Bảng 3 Kết quả nhận dạng câu đánh giá trên tập huấn luyện (Trang 102)
Bảng 5- Kết quả đánh giá Acer Aspire 3935 trên tập huấn luyện - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Bảng 5 Kết quả đánh giá Acer Aspire 3935 trên tập huấn luyện (Trang 104)
Bảng 5 - Kết quả đánh giá Acer Aspire 3935 trên tập huấn luyện - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Bảng 5 Kết quả đánh giá Acer Aspire 3935 trên tập huấn luyện (Trang 104)
Bảng 8- Kết quả đánh giá Feature trên tập huấn luyện - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Bảng 8 Kết quả đánh giá Feature trên tập huấn luyện (Trang 105)
Bảng 9- Kết quả đánh giá Dell Inspiron 1210 trên tập kiểm tra - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Bảng 9 Kết quả đánh giá Dell Inspiron 1210 trên tập kiểm tra (Trang 105)
Bảng 8 - Kết quả đánh giá Feature trên tập huấn luyện - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Bảng 8 Kết quả đánh giá Feature trên tập huấn luyện (Trang 105)
Bảng 9 - Kết quả đánh giá Dell Inspiron 1210 trên tập kiểm tra - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Bảng 9 Kết quả đánh giá Dell Inspiron 1210 trên tập kiểm tra (Trang 105)
Bảng 10 - Kết quả đánh giá Compaq Presario CQ40 trên tập kiểm tra - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Bảng 10 Kết quả đánh giá Compaq Presario CQ40 trên tập kiểm tra (Trang 106)
Bảng 11 - Kết quả đánh giá HP Pavilion dv3 trên tập kiểm tra - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Bảng 11 Kết quả đánh giá HP Pavilion dv3 trên tập kiểm tra (Trang 106)
Bảng 12 - Kết quả đánh giá Feature trên tập kiểm tra - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Bảng 12 Kết quả đánh giá Feature trên tập kiểm tra (Trang 106)
Hình 12 - Lỗi do POS Tag ảnh hưởng đến nhận dạng từ - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 12 Lỗi do POS Tag ảnh hưởng đến nhận dạng từ (Trang 108)
Hình 12 -  Lỗi do POS Tag ảnh hưởng đến nhận dạng từ - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 12 Lỗi do POS Tag ảnh hưởng đến nhận dạng từ (Trang 108)
“Kiểu dáng máy đẹp” | “thời trang và thời lượng dùng Pin dài.” [Hình 13] - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
i ểu dáng máy đẹp” | “thời trang và thời lượng dùng Pin dài.” [Hình 13] (Trang 109)
Hình 13 - Lỗi do POS tag ảnh hưởng đến tách câu - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 13 Lỗi do POS tag ảnh hưởng đến tách câu (Trang 109)
Tuy nhiên trong trường hợp này thì việc nhận dạng này là sai [Hình 14]. - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
uy nhiên trong trường hợp này thì việc nhận dạng này là sai [Hình 14] (Trang 110)
Hình 14 - Lỗi do viết luật ảnh hưởng đến nhận dạng từ - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 14 Lỗi do viết luật ảnh hưởng đến nhận dạng từ (Trang 110)
Hình 15 – Lỗi do tách câu - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 15 – Lỗi do tách câu (Trang 111)
Hình 15 – Lỗi do tách câu - TỰ ĐỘNG ĐÁNH GIÁ  QUAN ĐIỂM NGƯỜI DÙNG
Hình 15 – Lỗi do tách câu (Trang 111)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w