Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 32 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
32
Dung lượng
1,39 MB
Nội dung
Bộ giáo dục và đào tạo Trường đại học dân lập hải phòng -------o0o------- TÌMHIỂUVỀMAXIMUMENTROPYCHOBÀITOÁNPHÂNLỚPQUANĐIỂM Đồ án tốt nghiệp đại học hệ chính quy Ngành:Công nghệ Thông tin Sinh viên thực hiện: Phạm Thị Hà Giáo viên hướng dẫn:Ths Nguyễn Thị Xuân Hương Mã sinh viên: 120797 Hải Phòng - 2012 MỤC LỤC MỤC LỤC . 1 LỜI CẢM ƠN . 3 CHƢƠNG 1: BÀITOÁNPHÂNLỚPQUANĐIỂM . 6 1.1 NHU CẦU VỀ THÔNG TIN QUANĐIỂM VÀ NHẬN XÉT . 6 1.2 BÀITOÁNPHÂNLỚPQUANĐIỂM 8 1.3 NHIỆM VỤ CỦA BÀITOÁNPHÂNLỚPQUANĐIỂM 9 1.3.1. Trích các đặc trưng . 10 1.3.2 Xây dựng mô hình phânlớp để phân loại tài liệu 10 CHƢƠNG 2: MÔ HÌNH ENTROPY CỰC ĐẠI 14 2.1 GIỚI THIỆU 14 2.2 XÂY DỰNG MÔ HÌNH 14 2.2.1 Tập dữ liệu huấn luyện 15 2.2.2 Những thống kê, đặc trưng và ràng buộc . 15 2.2.3 Nguyên lý Entropy cực đại . 17 2.2.4 Dạng tham số . 18 2.2.5 Mối quan hệ với cực đại Likelihood 19 2.3 BÀITOÁNPHÂNLỚPQUANĐIỂM SỬ DỤNG PHƢƠNG PHÁP HỌC MÁY MAXIMUMENTROPY CỰC ĐẠI . 21 CHƢƠNG 3: THỰC NGHIỆM . 23 3.1 DỮ LIỆU THỬ NGHIỆM . 23 3.2 CÔNG CỤ SỬ DỤNG 24 3.2.1 Công cụ sinh SRIML . 24 3.2.2 Công cụ phânlớp dữ liệu Maxent . 25 3.2.3 Kết quả thực nghiệm . Error! Bookmark not defined. KẾT LUẬN 31 TÀI LIỆU THAM KHẢO 32 LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới Thạc sĩ Nguyễn Thị Xuân Hương (Trường Đại học Dân lập Hải Phòng) đã chỉ bảo và hướng dẫn tận tình cho em trong suốt quá trình tìmhiểu và thực hiện khóa luận này. Em xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới các thầy, cô đã dạy dỗ em trong suốt quá trình học tập tại trường Đại học Dân lập Hải Phòng cũng như những giúp đỡ, những động viên trong suốt quá trình làm khóa luận. Và con xin gửi lời cảm ơn và biết ơn vô hạn tới bố, mẹ, những người thân yêu của đã nuôi nấng, dạy dỗ và luôn là chỗ dựa tinh thần cho con trong cuộc sống cũng như trong học tập. Mặc dù em đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót. Em kính mong nhận được sự cảm thông và tận tình chỉ bảo, góp ý của quý Thầy Cô và các bạn. Em xin chân thành cảm ơn! Hải Phòng, ngày… tháng… năm……. Sinh viên Phạm Thị Hà MỞ ĐẦU , , , thông tin, ế : Facebook, Twitter : Zing, , ,. . . , , (thể hiện như xu hướng của quan điểm) của cộng đồng đối với việc đánh giá một vấn đề, , . Các quan điểm, xu hướng này sẽ có tác động mạnh mẽ đến định hướng, quanđiểm của người dùng khác. Việc nghiên cứu các phương pháp học máy chobàitoánphânlớpquanđiểm đã và đang thu hút được một lượng lớn các nghiên cứu của các nhà khoa học trong lĩnh vực xử lý ngôn ngữ tự nhiên và khai phá dữ liệu. Các kết quả của nó được nghiên cứu trong lĩnh vực này đã có nhiều ứng dụng trên thực tế như: các hệ thống lấy ý kiến phản hồi khách hàng, các nhận xét, đánh giá được tích hợp trong các hệ thống phản hồi trực tuyến,… Chính vì lý do đó, em đã chọn đề tài “Tìm hiểuvềMaximumEntropychobàitoánphânlớpquan điểm” cho khóa luận tốt nghiệp của mình. Nội dung của khóa luận được tổ chức thành ba chương như sau: Chƣơng 1: Trình bày bàitoánphânlớpquan điểm, nhiệm vụ của bàitoánphânlớpquan điểm. Chƣơng 2: Trình bày về mô hình và thuật toánEntropy cực đại chobàitoánphânlớpquan điểm. Chƣơng 3: Trình bày những kết quả đánh giá thử nghiệm của khóa luận áp dụng chobàitoánphânlớpquan điểm. Cuối cùng là phần kết luận. Chƣơng 1: BÀITOÁNPHÂNLỚPQUANĐIỂM 1.1 NHU CẦU VỀ THÔNG TIN QUANĐIỂM VÀ NHẬN XÉT Những thông tin nhận xét đã luôn luôn là một phầnquan trọng t , lấy những thông tin này từ bạn bè, người thân hay các chuyên gia tư vấn tiêu dùng về sản phẩm dịch vụ quan tâm. Với sự bùng nổ của Internet và Web của những người , , trong không gian rộng lớn. Và ngược lại, . Theo Khả Kelsey group Horrigan, 2008: 81% người dùng Internet (60% người Mỹ) trực tuyến về một sản phẩm ít nhất một lần. 20% (15% của tất cả các người Mỹ) . 73% và 87% ảnh hưởng đáng kể . Người tiêu dùng sẵn sàng trả từ 20% đến 99% một mục 5 sao 4 sao). 18% của công dân ấ một bình luận trực tuyến . Với sự bùng nổ các dịch vụ web: blog, diễn đàn thảo luận, peer-to- peer mạng, và các loại khác nhau của các … Thống kê của FaceBook: Có hơn 500 triệu người dùng ở trạng thái hoạt động (active), mỗi người có trung bình 130 bạn (friends), trao đổi qua lại trên 900 triệu đối tượng . Twitter (5/2011): có hơn 200 triệu người dùng Một ngày có: hơn 300 nghìn tài khoản mới, trung bình hơn 190 triệu tin nhắn, xử lý trung bình khoảng 1.6 tỷ câu hỏi. Theo ướ Technorati : 75.000 blog mới được tạo ra. 1, 2 triệu bài viết. Ở Việt Nam các mạng xã hội: zing.vn, go.vn… thu hút được động đảo người dùng tham gia. Tạ chưa từng có và quyền chia sẻ kinh nghiệm và ý kiến của riêng họ tích cực hay tiêu cực. Khi các công ty lớn đang ngày càng nhận ra những tiếng nói của người tiêu dùng có thể vận dụng rất lớn ảnh hưởng trong việc hình thành ý kiến của người tiêu dùng khác, , trung thành thương hiệu của họ, quyết định mua và vận động cho chính thương hiệu của họ . Công ty có thể đáp ứng với những người tiêu dùng mà họ tạo ra thông qua phương tiện truyền thông xã hội và phân tích , , . Tuy nhiên, các nhà phân tích ngành công nghiệp lưu ý rằng việc tận dụng các phương tiện truyền thông mới cho mục đích hình ảnh sản phẩm đòi hỏi công nghệ mới. Các nhà tiếp thị luôn luôn cần giám sát các phương tiện truyền thông cho thông tin liên quan đến thương hiệu của mình cho dù đó là đối với các hoạt động quan hệ công chúng, vi phạm gian lận hoặc tình báo cạnh tranh. Nhưng phân mảnh các phương tiện truyền thông thay đổi hành vi của người tiêu dùng đã l truyền thống. Technorati ước tính rằng 75.000 blog mới được tạo ra mỗi ngày, cùng với 1.2 triệu bài viết mỗi ngày, nhiều ý kiến người tiêu dùng thảo luận về sản phẩm và dịch vụ. Vì vậy, cá nhân , hệ thống có khả năng tự động phân tích của người tiêu dùng. 1.2 BÀITOÁNPHÂNLỚPQUANĐIỂMBàitoán : - . - . Phânlớp câu/tài liệu chứa : , (positive) hay tiêu cực (negative), (neutral). Theo Bo Pang và Lillian Lee(2002) phânlớp câu/tài liệu chỉ quanđiểm không có sự nhận biết của mỗi từ/ cụm từ chỉ quan điểm. Họ sử dụng học máy có giám sát để phân loại những nhận xét về phim ảnh. Không cần phải phânlớp các từ hay cụm từ chỉ quan điểm, họ rút ra những đặc điểm khác nhau của các quanđiểm và sử dụng thuật toán Naïve Bayes (NB), MaximumEntropy (ME) và Support Vector Machine (SVM) để phânlớpquan điểm. Phương pháp này đạt độ chính xác từ 78,7% đến 82,9%. Input: . Output: (polarity) theo định hướng a ( , ). Phânlớp tài liệu theo định hướng quanđiểm thật sự là vấn đề thách thức và khó khăn trong lĩnh vự xử lý ngôn ngữ. Đó chính là bản chất phức tạp của ngôn ngữ của con người, đặc biệt là sự đa nghĩa và nhập nhằng nghĩa của ngôn ngữ. Sự nhập nhằng này rõ ràng sẽ ảnh hưởng đến độ chính xác bộ phânlớp của chúng ta một mức độ nhất định. Một khía cạnh thách thức của vấn đề này dường như là phân biệt nó với việc phân loại chủ đề theo truyền thống đó là trong khi những chủ đề này được nhận dạng bởi những từ khóa đứng một mình, quanđiểm có thể diễn tả một cách tinh tế hơn. Ví dụ câu sau: “Làm thế nào để ai đó có thể ngồi xem hết bộ phim này?” không chứa ý có nghĩa duy nhất mà rõ ràng là nghĩa tiêu cực. Theo đó, quanđiểm dường như đòi hỏi sự hiểu biết nhiều hơn, tinh tế hơn. 1.3 NHIỆM VỤ CỦA BÀITOÁNPHÂNLỚPQUANĐIỂMBàitoánphânlớpquanđiểm được biết đến như là bàitoánphânlớp tài liệu với mục tiêu là phân loại các tài liệu theo định hướng quan điểm. Đã có rất nhiều tiếp cận khác nhau được nghiên cứu để giải quyết cho loại bàitoán này. Để thực hiện, về cơ bản có thể chia thành hai nhiệm vụ chính như sau: Trích các đặc trưng nhằm khai thác các thông tin chỉ quanđiểm phục vụ mục đích phân loại tài liệu theo định hướng ngữ nghĩa. Xây dựng mô hình để phânlớp các tài liệu. 1.3.1. Trích các đặc trưng Trích những từ, cụm từ chỉ quanđiểm là những từ ngữ được sử dụng để diễn tả cảm xúc, ý kiến người viết; những quanđiểm chủ quan đó dựa trên những vấn đề mà anh ta hay cô ta đang tranh luận. Việc rút ra những từ, cụm từ chỉ quanđiểm là giai đoạn đầu tiên trong hệ thống đánh giá quan điểm, vì những từ, cụm từ này là những chìa khóa cho công việc nhận biết và phân loại tài liệu sau đó. Ứng dụng dựa trên hệ thống đánh giá quanđiểm hiện nay tập trung vào các từ chỉ nội dung câu: danh từ, động từ, tính từ và phó từ. Phần lớn công việc sử dụng từ loại để rút chúng ra. Việc gán nhãn từ loại cũng được sử dụng trong công việc này, điều này có thể giúp cho việc nhận biết xu hướng quanđiểm trong giai đoạn tiếp theo. Những kĩ thuật phân tích ngôn ngữ tự nhiên khác như xóa: stopwords, stemming cũng được sử dụng trong giai đoạn tiền xử lý để rút ra từ, cụm từ chỉ quan điểm. 1.3.2 Xây dựng mô hình phânlớp để phân loại tài liệu Trong phân tích quan điểm, xu hướng của những từ, cụm từ trực tiếp thể hiện quan điểm, cảm xúc của người viết bài. Phương pháp chính để nhận biết xu hướng quanđiểm của những từ, cụm từ chỉ cảm nghĩ là dựa trên thống kê hoặc dựa trên từ vựng. Với nhiệm vụ phânlớp các tài liệu đã có rất nhiều các phương pháp học máy thống kê được sử dụng cho mục đích này, như là: Naïve Bayes, phân loại maximum Entropy, máy vector tựa SVM, cây quyết định… Thuật toán gồm các bước sau: Thuật toán gồm 4 bước: . bài toán phân lớp quan điểm, nhiệm vụ của bài toán phân lớp quan điểm. Chƣơng 2: Trình bày về mô hình và thuật toán Entropy cực đại cho bài toán phân lớp. Theo đó, quan điểm dường như đòi hỏi sự hiểu biết nhiều hơn, tinh tế hơn. 1.3 NHIỆM VỤ CỦA BÀI TOÁN PHÂN LỚP QUAN ĐIỂM Bài toán phân lớp quan điểm được