1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tự động xác định các ưu điểm nhược điểm trong các nhận xét online

35 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 35
Dung lượng 1,78 MB

Nội dung

MỤC LỤC MỤC LỤC LỜI CẢM ƠN CHƢƠNG 1: BÀI TỐN PHÂN TÍCH QUAN ĐIỂM 1 Nhu cầu thông tin quan điểm nhận xét Lịch sử phân tích quan điểm khai thác quan điểm Nhiệm vụ phân tích quan điểm Bài toán phân lớp quan điểm CHƢƠNG 2: BÀI TOÁN TỰ ĐỘNG XÁC ĐỊNH CÁC ƢU, NHƢỢC ĐIỂM CỦA CÁC NHẬN XÉT ONLINE 10 Tổng quan 10 2 Giới Thiệu Bài Toán 10 Các ƣu điểm nhƣợc điểm nhận xét trực tuyến 12 Tìm kiếm ƣu nhƣợc điểm 13 Tự động gán nhãn câu ƣu điểm nhƣợc điểm 13 Mơ hình hóa với phân loại Maximum Entropy 15 Các đặc trƣng 16 2.5 Dữ Liệu 18 5.1 Tập liệu 1: Tự động gắn nhãn liệu 19 2.5 Tập liệu 2: Dữ liệu Complaints.com 20 2.6 Kết thực nghiệm 20 2.7 Nghiên cứu Kim Hovy để tự động phát câu từ chứa quan điểm 20 2.7.1 Thu thập nguồn liệu 21 2.7.1.1 Thu thập 1: sử dụng WordNet 21 2.7.1.2 Thu thập 2: Dữ liệu WSJ 23 2.7.1.3 Thu thập 3: với Columbia Wordlist 24 2.7.1.4 Thu thập 4: Trộn liệu cuối 24 CHƢƠNG 3: THỰC NGHIỆM 25 3.1 Cơng cụ ngơn ngữ lập trình 25 3.1.1 Ngôn ngữ JAVA 25 3.1.2 Bộ công cụ NetBeans IDE 26 Chƣơng trình thực nghiệm 26 Bài toán 26 2 Bộ liệu 28 3.2.3 Phƣơng pháp 30 3 Kết Quả 31 3.3.1 Một số giao diện chƣơng trình: 31 3.3.2 Giao diện 31 KẾT LUẬN 34 TÀI LIỆU THAM KHẢO 35 LỜI CẢM ƠN Trƣớc tiên, em xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới Cô Nguyễn Thị Xuân Hƣơng, Trƣờng Đại học Dân lập Hải Phịng bảo hƣớng dẫn tận tình cho em suốt trình tìm hiểu thực khóa luận Em xin chân thành cảm ơn Thầy, Cô Khoa Công nghệ Thông tin tận tình giảng dạy truyền cho em kiến thức quý báu cho em suốt trình học tập làm luận văn tốt nghiệp Em xin chân thành cảm ơn tới Thầy, Cô Cán bộ, Nhân viên trƣờng Đại học Dân Lập Hải Phòng tạo cho em điều kiện thuận lợi để học tập nghiên cứu Cuối em muốn gửi lời cảm ơn tới gia đình bạn bè ngƣời thân yêu bên cạnh động viên suốt q trình học tập làm khóa luận tốt nghiệp Mặc dù em cố gắng hoàn thành luận văn phạm vi khả cho phép nhƣng chắn không tránh khỏi thiếu sót Em kính mong nhận đƣợc cảm thơng tận tình bảo, góp ý q Thầy Cơ bạn Em xin chân thành cảm ơn! Hải Phòng, ngày… tháng… năm…… Sinh viên Nguyễn Thanh Cường CHƢƠNG 1: BÀI TỐN PHÂN TÍCH QUAN ĐIỂM 1 Nhu cầu thông tin quan điểm nhận xét "Những ngƣời khác nghĩ" ln ln phần quan trọ ới thiệu , thợ khí tự động yêu cầu tài liệu tham khảo liên quan đến xin việc từ đồng nghiệp, tƣ vấn tiêu dùng , ngƣờ , , ộng lớn Và ngƣợc lại, Internet Theo hai khảo sát 2000 ngƣời Mỹ trƣởng thành mỗi: 81% ngƣời dùng Internet (hoặc 60% ngƣời Mỹ) thực hiệ ực tuyến sản phẩm lần; 20% (15% tất ngƣời Mỹ) làm nhƣ ngày Trong số độc giả đánh giá trực tuyến nhà hàng, khách sạn, ịch vụ khác (ví dụ nhƣ, quan du lịch bác sĩ), 73% 87% báo cáo đánh giá có ảnh hƣởng đáng kể mua hàng họ Ngƣời tiêu dùng sẵn sàng trả từ 20% đến 99% mụ cao so với mục đánh giá sao, 32% cung cấp đánh giá sản phẩm, dịch vụ thông qua hệ thống xếp hạng trực tuyến, có 18% cơng dân trực tuyến cao cấp, có đăng bình luận trực tuyến xem xét sản phẩm hay dịch vụ ịch vụ động nhấ ặc thể hiệ ực tuyến Ví dụ, khảo sát 2500 ngƣời Mỹ trƣởng thành, Rainie Horrigan nghiên 31% ngƣời Mỹ - 60 triệu ngƣời - 2006 ngƣờ , ngƣời thu thập thông tin bầu cử năm 2006 trực tuyến trao đổ Trong số này: • 28% nói rằ ạt động trực tuyế ể ợc quan điểm từ bên cộng đồng họ, 34% cho biết lý để n ợc quan điểm từ bên ngồi cộng đồng họ • 27% xem đánh giá trực tuyến cho tán thành xếp hạng tổ chức bên ngồi • 28% cho biết hầu hết trang web mà họ sử dụng để chia sẻ quan điểm, nhƣng 29% nói phần lớn trang web mà họ sử dụng thách thức quan điểm họ, nhiều ngƣời không đơn giản tìm kiế ậ ực tuyến bình luận trị riêng họ ằng đa số ngƣời sử dụng internet Mỹ ệm tích cự ực tuyến, 58% cho thông tin trực tuyế , , khó hiể Vì vậy, ự quan tâm mà ngƣờ nhận xét trực tuyến sản phẩm dịch vụ, ảnh hƣở , diễn đàn thảo luận, Với bùng nổ tảng Web peer-to-peer mạng, loại khác củ • Thống kê Facebook: có 500 triệu ngƣời dùng trạng thái hoạt động (active) ngƣời có trung bình 130 bạn (friends), trao đổi qua lại 900 triệu đối tƣợng • Twitter (5/2011): có 200 triệu ngƣời dùng Một ngày có 300 nghìn tài khoản mới, trung bình 190 triệu tin nhắn, xử lý trung bình khoảng 1,6 tỷ câu hỏi • Ở Việt Nam: mạng xã hội zing.vn, go.vn … thu hút đƣợc đông đảo ngƣời dùng tham gia ền chia sẻ kinh nghiệm nhận xét riêng họ ực , hay tiêu cực Khi công ty lớn ngày nhận ra, tiếng nói ngƣời tiêu dùng vận dụng lớn ảnh hƣởng việc hình thành nhận xét ngƣời tiêu dùng khác, ệu họ, định mua, vận động cho thƣơng hiệu họ Cơng ty đáp ứng với nhữ ời tiêu dùng mà họ tạ phƣơng tiện truyền thông xã hộ , , Tuy nhiên, nhà phân tích ngành cơng nghiệp lƣu ý việc tận dụng phƣơng tiện truyền thông cho mụ ảnh sản phẩm đòi hỏ ệ Các nhà tiếp thị luôn cần giám sát phƣơng tiện truyền thông cho thông tin liên quan đến thƣơng hiệu - cho dù hoạt động quan hệ công chúng, vi phạm gian lận, tình báo cạnh tranh Nhƣng phân mảnh phƣơng tiện truyề ổi hành vi ngƣờ ền thống Technorati ƣớc tính 75 000 blog đƣợc tạo ngày, với 1, triệu viết ngày, ều nhận xét ngƣời tiêu dùng thảo luận sản phẩm dịch vụ Vì vậy, ân, , ệ thống có khả tự độ ngƣời tiêu dùng Lịch sử phân tích quan điểm khai thác quan điểm (sentiment analysis) hay khai (opinion mining) gần thu hút đƣợc quan tâm rộ ấ ộng nhận thức vấn đề nghiên cứu hộ Các nhân : • Sự gia tăng phƣơng pháp học máy, xử lý ngôn ngữ tự nhiên khôi phục thơng tin • Sự sẵn có củ ữ liệ Internet, cụ thể ật toán học máy, ự phát triể • Thực thách thức trí tuệ, thƣơng mại ứng dụ (Dave et al lý tập hợp kết tìm kiếm cho mộ sinh danh sách thuộc tính sản phẩm (chất lƣợng, tổng hợ , , , ) ụm từ song song củ khía cạnh định (Das Chen Tong, 2001) " biểu thị lĩnh vực nghiên cứu ất định, "ở Nhiệm vụ phân tích quan điểm Phân tích quan điể Có hai hƣớ : (Sentiment Extraction) ỹ thuật để : bả (tích cực, tiêu cực hay trunglập) : bao gồm nhiệm vụ là: , ) Bài toán phân lớp quan điểm : - : Cho , (positive) hay tiêu cực (negative), (neutral) Theo Bo Pang Lillian Lee(2002) phân lớp câu/tài liệu quan điểm khơng có nhận biết từ/ cụm từ quan điểm Họ sử dụng học máy có giám sát để phân loại nhận xét phim ảnh Không cần phải phân lớp từ hay cụm từ quan điểm, họ rút đặc điểm khác quan điểm sử dụng thuật toán Naive Bayes (NB), Maximum Entropy (ME) Support Vector Machine (SVM) để phân lớp quan điểm Phƣơng pháp đạt độ xác từ 78, 7% đến 82, 9% Input: Output: (polarity) theo định hƣớ , ) Phân lớp tài liệu theo hƣớng quan điểm thật vấn đề thách thức khó khăn lĩnh vự xử lý ngơn ngữ chất phức tạp ngơn ngữ ngƣời, đặc biệt đa nghĩa nhập nhằng nghĩa ngôn ngữ Sự nhập nhằng rõ ràng ảnh hƣởng đến độ xác phân lớp mức độ định Một khía cạnh thách thức vấn đề dƣờng nhƣ phân biệt với việc phân loại chủ đề theo truyền thống chủ đề đƣợc nhận dạng từ khóa đứng mình, quan điểm diễn tả cách tinh tế Ví dụ câu sau: “Làm để ngồi xem hết phim ?” khơng chứa ý có nghĩa mà rõ ràng nghĩa tiêu cực Theo đó, quan điểm dƣờng nhƣ đòi hỏi hiểu biết nhiều hơn, tinh tế Nhiệm vụ toán phân lớp quan điểm Bài toán phân lớp quan điểm đƣợc biết đến nhƣ toán phân lớp tài liệu với mục tiêu phân loại tài liệu theo định hƣớng quan điểm Đã có nhiều tiếp cận khác đƣợc nghiên cứu để giải cho loại toán Để thực hiện, chia thành hai nhiệm vụ nhƣ sau:  Trích đặc trƣng nhằm khai thác thông tin quan điểm phục vụ mục đích phân loại tài liệu theo định hƣớng ngữ nghĩa  Xây dựng mơ hình để phân lớp tài liệu CHƢƠNG 2: BÀI TOÁN TỰ ĐỘNG XÁC ĐỊNH CÁC ƢU, NHƢỢC ĐIỂM TRONG CÁC NHẬN XÉT ONLINE Tổng quan Các tác giả giới thiệu hệ thống tự động trích ƣu nhƣợc điểm từ đánh giá trực tuyến Mặc dù có nhiều phƣơng pháp đƣợc phát triển để trích xuất nhận xét từ văn bản, báo tác giả tập trung vào trích lý để đƣa nhận xét, mà chúng hai hình thức thể thơng tin thực tế quan điểm Tận dụng trang web xem trực tuyến với ƣu nhƣợc điểm đƣợc đƣa đó, họ đề xuất hệ thống cho việc gióng ƣu nhƣợc điểm với câu văn nhận xét Họ sử dụng mơ hình Maximum Entropy để huấn luyện tập kết gán nhãn cho ƣu, nhƣợc điểm trích từ trang web nhận xét Kết thực nghiệm họ cho thấy hệ thống xác định ƣu nhƣợc điểm với độ xác 66% thu hồi 76% 2 Giới Thiệu Bài Toán Nhiều nhận xét đƣợc thể trang web dạng nhƣ đánh giá sản phẩm, blog cá nhân nhóm nhận tin phản hổi Mọi ngƣời ngày gia tăng tham gia bày tỏ nhận xét họ phƣơng tiện trực tuyến Xu hƣớng đƣa nhiều đề tài nghiên cứu thú vị đầy thử thách nhƣ phát chủ quan, phân loại định hƣớng ngữ nghĩa, phân loại đánh giá Phát chủ quan nhiệm vụ xác định từ chủ quan, giải thích, câu (Wiebe et al, 1999; Hatzivassiloglou Wiebe, 2000; et al Riloff, 2003) Xác định chủ quan giúp phân tách nhận xét từ thông tin thực tế, hữu ích trả lời câu hỏi, tóm tắt, Phân loại định hƣớng ngữ nghĩa nhiệm vụ việc nhận xét tích cực hay tiêu cực từ (Hatzivassiloglou McKeown, 1997; Turney, 2002; Esuli Sebastiani, 2005) Nhận xét cụm từ câu đƣợc nghiên cứu (Kim Hovy, 2004; Wilson et al 2005) Phân loại nhận xét mức độ 10 2.7.1 Thu thập nguồn liệu Họ phát triển số thu thập từ học không chứa quan điểm chứa quan điểm Họ kết hợp chúng để đạt đƣợc danh sách từ tin cậy Họ đạt đƣơc danh sách từ thêm vào từ đại học Columbia 2.7.1.1 Thu thập 1: sử dụng WordNet Trƣớc tiên, họ thu thập tay tập từ chứa quan điểm (34 tính từ 34 động từ) Phân lớp đƣợc đƣa mà độ xác cao (hệ thống tìm câu chứa quan điểm), nhƣng danh sách từ nhỏ, độ hồi tƣởng lại nhỏ (nó bị số) Do đó, họ sử dụng danh sách từ đƣợc mở rộng cách sử dụng WordNet Giả thuyết họ từ đồng nghĩa trái nghĩa từ chứa quan điểm từ quan điểm tốt, ví du nhƣ: "nice, virtuous, pleasing, well-behaved, gracious, honorable, righteous" từ đồng nghĩa cho “good” "bad, evil, disreputable, unrighteous" từ trái nghĩa Tuy nhiên, không phái tất từ đồng nghĩa trái nghĩa sử dụng đƣợc: số từ dƣờng nhƣ có mặt ngữ cảnh chứa quan điểm không chứa quan điểm, nhƣ "solid, hot, full, ample" cho "good" Điều cho thấy cần thiết cho mức độ độ lớn giá trị Nếu đo độ :”gần chứa quan điểm” từ đồng nghĩa trái nghĩa để nhận biết quan điểm, sau xác định có hay khơng tập đƣợc mở rộng Để tính toán tỷ lệ, họ tạo danh sách từ chứa quan điểm tay tạo từ liên quan cho chúng sử dụng WordNet Để tránh thu thập từ không phổ biến, họ bắt đầu với danh sách từ phổ biến cho sinh viên nƣớc chuẩn bị cho thi TOEFL Từ đó, họ lấy ngẫu nhiên 462 tính từ 502 động từ cho gán nhãn tay Human1 human2 đƣợc gán nhãn 462 tính từ human3, human4 đƣợc gán nhãn 502 động từ, gán nhãn từ từ chứa quan điểm không chứa quan điểm từ khác Để đạt đƣợc độ đo độ nhấn mạnh quan điểm/không quan điểm, họ đo khảng cách WordNet từ đích (đồng nghĩa trái nghĩa) với hai tập từ giống đƣợc chọn tay cộng với từ mở rộng (hình 1) Họ xác định từ vào phân loại gần 21 Công thức cho tiếp cận nhƣ sau: (1) Trong đó: c bình luận (chứa quan điểm khơng chứa quan điểm) w từ đích Synn từ đồng nghĩa trái nghĩa từ cho WordNet Để tính tốn cơng thức (1), họ xây dựng mơ hình phân loại, cơng thức (2): Trong fk đặc trƣng c, thành viên tập từ mục tiêu w Count(fk, synset(w)) tổng tất xuất fk tập từ đồng nghĩa w Mục đích mơ hình phân loại tài liệu (Mặc dù họ sử dụng tập từ đồng nghĩa từ giống thu đƣợc từ WordNet, họ thay từ đặc trƣng thu đƣợc từ ngữ liệu ) Sau mở rộng, họ đạt đƣợc 2682 tính từ chứa quan điểm 2548 tính từ khơng chứa quan điểm, 1329 động từ chứa quan điểm 1760 động từ không chứa quan điểm, với giá trị nhấn mạnh Bằng cách sử dụng từ nhƣ đặc trƣng, họ xây dựng phân lớp Naive bayesian phân lớp đƣợc 32373 từ 22 2.7.1.2 Thu thập 2: Dữ liệu WSJ Các Thực nghiệm với tập không cho kết khả quan văn tùy ý Vì lý kết nối từ đồng nghĩa từ điển WordNet đơn giản không đủ mở rộng Tuy nhiên, biết tần suất tƣơng đối từ văn chứa quan điểm so với văn khơng chứa quan điểm, sử dụng thơng tin thống kê thay thơng tin từ vựng Đối với điều này, họ thu thập đƣợc số lƣợng lớn liệu để bù cho hạn chế sƣu tập Theo quan điểm Yu Hatzivassi-loglou (2003), họ thiết lập giả định thô từ mà xuất thƣờng xuyên xã luận báo chí thƣ cho ngƣời biên tập báo khơng biên tập từ tiềm chứa quan điểm (mặc dù xã luận bao gồm câu kiện thực tế) Họ sử dụng sƣu tập TREC để thu thập liệu, trích rút phân loại tất tài liệu Wall Street Journal từ Editorial nin-Editorial dựa xuất từ khóa "Letters to Editor" "Letter to Editor", "Editor" diện tiêu đề Việc tạo tổng số 7053 tài liệu biện tập 166 025 tài liệu không biên tập Họ tách từ quan điểm từ từ khơng có quan điểm cách xem xét tần suất liên quan chúng hai sƣu tập, dƣới dạng xác suất, cách sử dụng SRILM, cơng cụ ngơn ngữ mơ hình SRI Với từ W xuất tài liệu, họ tính tốn nhƣ sau: Họ sử dụng Kneser-Ney làm mịn (Kneser Ney, 1995) để xử lý từ chƣa biết / Để có xác suất họ tính tốn số điểm W nhƣ tỷ lệ sau đây: 23 Score(W) dấu hiệu xu hƣớng từ văn biên tập khơng biên tập Họ tính tốn điểm cho 86 674 738 từ tố Đƣơng nhiên, từ với số điểm gần không đáng tin cậy Để loại bỏ từ này, họ áp dụng lọc đơn giản nhƣ sau: họ chia sƣu tập Editorial non-Editorial thành tập Với từ cặp {Editorial, non-Editorial} họ tính tốn điểm (W) Họ giữ lại từ mà điểm tất cặp tập hợp lớn nhỏ Nói cách khác, họ giữ từ lặp lặp lại với xu hƣớng lặp lại theo Editorial non-Editorial Thủ tục giúp loại bỏ số từ không cần thiết, trả 15 568 từ 2.7.1.3 Thu thập 3: với Columbia Wordlist Phân đoạn đơn giản báo WSJ vào viết vào Editorial/non-Editorial khác biệt rõ ràng Để so sánh hiệu việc thực họ ý tƣởng với việc thực Yu Hatzivassiloglou Đại học Columbia, họ truy vấn danh sách từ họ Danh sách chứa 167 020 tính từ, 72 352 động từ, 168 614 danh từ, 9884 trạng từ Tuy nhiên, số tăng cao đáng kể đếm dự phòng từ với biến thể vốn từ dấu chấm câu Họ trộn danh sách có đƣợc sƣu tập Trong số từ này, họ lấy 2000 từ chứa quan điểm 2000 từ không chứa quan điểm cho danh sách từ cuối 2.7.1.4 Thu thập 4: Trộn liệu cuối Cho đến nay, họ phân loại từ chứa quan điểm không chứa quan điểm hai phƣơng pháp khác Phƣơng pháp tính tốn mức độ gần với tập từ chứa quan điểm không chứa quan điểm đƣợc chọn tay từ điển WordNet định lớp độ chắn chúng Khi từ có mức độ gần cho hai lớp khó khăn để tính định chủ 24 quan nó, WordNet khơng chứa từ từ đồng nghĩa nó, chẳng hạn nhƣ từ "antihomosexsual", họ khơng phân loại Phƣơng pháp thứ hai, phân loại từ sử dụng văn WSJ, đáng tin cậy so với phƣơng pháp từ vựng Tuy nhiên, xử lý thành cơng cho ví dụ "antihomosexual" Vì vậy, họ kết hợp kết hai phƣơng pháp (collections 2), đặc tính khác chúng bù đắp cho Sau họ kết hợp 4000 từ từ danh sách từ Columbia danh sách từ cuối 43700 Khi tất ba danh sách bao chứa mức độ 1, họ lấy trung bình cộng chúng, bình thƣờng hóa mức độ khoảng từ -1 đến +1, với giá trị quan điểm lớn gần với Các từ có giá trị hấp dẫn cao tất ba sƣu tập có mức độ tích cực tồn cao Khi có bỏ phiếu xung đột số ba cho từ, tự động suy yếu CHƢƠNG 3: THỰC NGHIỆM 3.1 Công cụ ngơn ngữ lập trình 3.1.1 Ngơn ngữ JAVA Có thể nói Java ngơn ngữ lập trình mạnh đƣợc sử dụng rộng rãi toàn giới Trên thực tế, Java đƣợc biết đến khơng ngơn ngữ lập trình mà cịn platform mơi trƣờng cơng nghệ phát triển riêng biệt Khi làm việc với Java, ngƣời lập trình đƣợc sở hữu thƣ viện lớn, có tính mở với lƣợng mã nguồn tái sử dụng khổng lồ ln có internet Ngồi ra, chƣơng trình viết Java có mơi trƣờng thực thi riêng với tính bảo mật, khả triển khai nhiều hệ điều hành khác 25 Java ngơn ngữ lập trình hƣớng đối tƣợng (OOP) Khác với phần lớn ngơn ngữ lập trình thơng thƣờng, thay biên dịch mã nguồn thành mã máy thơng dịch mã nguồn chạy, Java đƣợc thiết kế để biên dịch mã nguồn thành bytecode, bytecode sau đƣợc môi trƣờng thực thi (runtime environment) chạy Bằng cách này, Java thƣờng chạy nhanh ngôn ngữ lập trình thơng dịch khác nhƣ Python, Perl, PHP,… Java đƣợc phát triển từ C ++ C++ hậu duệ trực tiếp C, đo Java kế thừa cú pháp C tính hƣớng đối tƣợng C++ nhƣng có cú pháp hƣớng đối tƣợng đơn giản tính xử lý cấp thấp 3.1.2 Bộ công cụ NetBeans IDE NetBeans IDE “mơi trƣờng phát triển tích hợp” (Integrated Development Environment) kiểu nhƣ Visual Studio Microsoft đƣợc xem ứng dụng cần phải có dành cho nhà phát triển phần mềm NetBeans IDE hỗ trợ nhiều hệ điều hành khác nhƣ Windows, Mac, Linux, Solaris NetBean bao gồm IED mã nguồn mở tảng ứng dụng cho phép nhà phát triển nhanh chóng tạo nên ứng dụng dành cho web, doanh nghiệp,desktop thiết bị di động ngôn ngữ lập trình Java, C/C++, JavaScript, Ruby,Groovy,và PHP Chƣơng trình thực nghiệm Bài tốn Bài tốn tự động xác định ƣu điểm nhƣợc điểm nhận xét online đƣợc thực gồm có hai pha làm việc nhƣ sau: Khai thác liệu từ trang Web chứa bình luận có dạng: : (Epinion.com) Ví dụ: Pros: Great photos easy to use, very small Cons: Battery usage: included memory is stingy 26 I had never used a digital camera prior to purchasing have always used a SLR… Thực trình gán nhãn cách tự động cho câu ƣu điểm, nhƣợc điểm dựa vào tóm tắt ƣu, nhƣợc điểm bình luận Các liệu đƣợc gán nhãn đƣợc sử dụng làm liệu huấn luyện để áp dụng phƣơng pháp phân lớp quan điểm cho bình luận khơng có dạng ƣu nhƣợc điểm nhƣ Phần lớn phƣơng pháp đƣợc sử dụng để phân lớp quan điểm sử dụng liệu gán nhãn đƣợc thực tay Do đó, chi phí để thực cho xây dựng ngữ liệu huấn luyện đắt đỏ tốn Việc xây dựng phƣơng pháp gán nhãn tự động để tạo ngữ liệu có ý nghĩa quan trọng mang lại lợi ích cho nghiên cứu lý thuyết lẫn lợi ích kinh tế Dữ liệu đƣợc khai thác tự động giúp ích cho việc khai thác thác thông tin quan điểm đa dạng phong phú từ phát triển ứng dụng thực tế đặt Sử dụng phƣơng pháp phân lớp để xác định ƣu nhƣợc điểm nhận xét online dựa liệu huấn luyện thu thập đƣợc Trong khuôn khổ đồ án này, thực việc gán nhãn tự động câu bình luận tƣơng ứng với ƣu điểm nhƣợc điểm sản phẩm dịch vụ Dữ liệu sau đƣợc sử dụng để huấn luyện phân lớp câu chứa ƣu, nhƣợc điểm phục vụ cho việc xác định thông tin sản phẩm dịch vụ có phải xu hƣớng ngƣời dùng hay khơng 27 Input: Các bình luận đƣợc thu thập từ trang Web Output : Các câu bình luận đƣợc gán nhãn tƣơng ứng với ƣu điểm,nhƣợc điểm đƣợc tóm tắt đầu bình luận 2 Bộ liệu Chúng tơi thu thập 50 bình luận hệ điện thoại thông minh từ trang http: //www epinions.com để làm liệu đầu vào cho tốn Một bình luận có dạng: = No1 = Pros : good lookc slim, usable, fast Internet services, good picture quality Cons : slippery, typing problem My papa brought me Samsung Galaxy S II Smart phone on my birthday It is really useful and fantastic phone to use I can browse the Internet through this and can take pictures, videos.I like to watch videos in my phone I can easily find my nearest restaurants and other places through it it has high picture quality and videos I like to play games on it The games are interesting and easily down loadable I have taken my baby pictures with this product The photos are great The smart phone is usable for my husband for checking mails for job purpose Thin and light smartphones are easy to carry around and easier on the hand with extended use Since it is based on Android 4.0 we already know that it has a solid base Samsung flexed its software chops with the S III in a way that sets the phone apart from its competitors Samsung did some really interesting things with the camera The curved bump on the phone’s bottom can make it hard to hold, and the battery life needs improvement The faster the processor, the smoother a phone’s user interface, and the quicker you can browse the web, run apps and stream media s front-facing camera is great for video chatting, and the 8-megapixel primary camera on the back snaps high-quality photos – an LED flash helps The device’s total storage capacity is an impressive 48GB, with 16GB installed and up to an additional 32GB through an external microSD card The larger screen allowed me to adjust from a hard qwerty keyboard to the soft one on screen with ease 28 The display provides great viewing and the ability to join emails and other social accounts is the best Once I figure out how to make the Voice Actions work I'm sure it will be a total plus for me Chúng tiến hành gán nhãn câu 50 bình luận tƣơng ứng với ƣu điểm, nhƣợc điểm đƣợc liệt kê tay để dùng cho đánh giá liệu Một bình luận đƣợc gán nhãn có dạng sau: Pros:P1=good look,P2= slim,P3= usable, P4=fast Internet services,P5= good picture quality Cons:C1=slippery,C2=typing problem My papa brought me Samsung Galaxy S II Smart phone on my birthday P3:It is really useful and fantastic phone to use.I can browse the Internet through this and can take pictures, videos I like to watch videos in my phone P1:I can easily find my nearest restaurants and other places through it.it has high picture quality and videos I like to play games on it The games are interesting and easily down loadable P5:I have taken my baby pictures with this product The photos are great The smart phone is usable for my husband for checking mails for job purpose P2=Thin and light smartphones are easy to carry around and easier on the hand with extended use Since it is based on Android 4.0 we already know that it has a solid base Samsung flexed its software chops with the S III in a way that sets the phone apart from its competitors Samsung did some really interesting things with the camera C1:The curved bump on the phone’s bottom can make it hard to hold, and the battery life needs improvement P4:The faster the processor, the smoother a phone’s user interface, and the quicker you can browse the web, run apps and stream media 29 front-facing camera is great for video chatting, and the 8-megapixel primary camera on the back snaps high-quality photos – an LED flash helps The device’s total storage capacity is an impressive 48GB, with 16GB installed and up to an additional 32GB through an external microSD card The larger screen allowed me to adjust from a hard qwerty keyboard to the soft one on screen with ease P9=The display provides great viewing and the ability to join emails and other social accounts is the best Once I figure out how to make the Voice Actions work I'm sure it will be a total plus for me 3.2.3 Phƣơng pháp Dựa vào việc phân tích liệu thực tế nghiên cứu trƣớc cho thấy, ngƣời dùng thƣờng sử dụng đặc trƣng tính từ, trạng từ số dạng mở rộng động từ để thể nhận xét họ đặc trƣng hay trực tiếp sản phẩm hay dịch vụ Các đặc trƣng hay sản phẩm, dịch vụ đƣợc thể danh từ Ví dụ: đánh giá ƣu điểm: “good picture quality” Thì “pictrure quality” cụm danh từ thể đặc trƣng sản phẩm, cịn “good” tính từ thể nhận xét đặc trƣng Do đó, chúng tơi sử dụng phƣơng pháp đơn giản tìm kiếm danh từ, xuất tƣơng ứng danh từ, tính từ, trạng từ động từ đƣợc nhắc tới ƣu, nhƣợc điểm đƣợc tóm tắt đầu bình luận câu nhận xét để làm dấu hiệu gán nhãn ƣu, nhƣợc điểm cho câu 30 3 Kết Quả Chƣơng trình thử nghiệm gán nhãn cho 50 bình luận thu thập từ trang http: //www epinions.com Chúng so sánh kết với liệu gán nhãn tay 3.3.1 Một số giao diện chƣơng trình: 3.3.2 Giao diện 31 Mở file liệu: 32 Kết chạy: 33 KẾT LUẬN Luận văn hƣớng tới mục tiêu: Tự động trích ƣu điểm, nhƣợc điểm nhận xét online Đƣa kết luận sản phẩm dịch vụ có xu hƣớng ngƣời dùng hay không Tuy xem xét đƣợc tất mục tiêu nhƣ phần giới thiệu nhƣng thời gian có hạn, nên chúng tơi chƣa thể thực thành công tất mục tiêu đƣa Tuy nhiên, luận văn đạt đƣợc số kết quả:  Nghiên cứu trình bày tốn phân tích quan điểm  Nghiên cứu trình bày toán tự động xác định ƣu,nhƣợc điêm nhận xét online  Cài đặt thành cơng chƣơng trình tự động gán nhãn câu ƣu điểm nhƣợc điểm bình luận JAVA Do thời gian có hạn, nên chúng tơi nghiên cứu, thu thập gán nhãn liệu nhỏ tiến hành thực nghiệm để gán nhãn tự động câu ƣu điểm nhƣợc điểm bình luận Trong thời gian tới, chúng tơi tiếp tục phát triển việc gán nhãn tự động câu ƣu, nhƣợc điểm sử dụng thêm thông tin từ từ điển WordNet tiến hành phân loại câu ƣu nhƣợc điểm.Tự động đƣa đƣợc kết luận sản phảm hay dịch vụ có xu hƣớng ngƣời dùng hay không? Dựa vào nhà đầu tƣ,các nhà sản xuất có để điều chỉnh sản phẩm,dịch vụ theo xu hƣớng đa số ngƣời dùng Chúng mong nhận đƣợc ý kiến đóng góp từ Thầy, Cơ bạn Trân trọng cảm ơn 34 TÀI LIỆU THAM KHẢO Tiếng Việt : Ths Nguyễn Thị Xuân Hƣơng Ths Lê Thụy “phân tích quan điểm số hƣớng tiếp cận” Hội nghị khoa học lần thứ nhất, 2012, trƣờng ĐHDL Hải Phòng Đặng Thị Ngọc Thanh,Trích xếp đặc trƣng phân tích quan điểm khố luận tốt nghiệp hệ đại học ngành Công nghệ thông tin, Đại học Dân lập Hải Phòng, 2011 Tiếng Anh : Kim, Soo-Min and Eduard Hovy 2005 Automatic Detection of Opinion Bearing Words and Sentences In the Companion Volume of the Proceedings of IJCNLP-05, Jeju Island, Republic of Korea Kim, Soo-Min & Eduard Hovy (2006a) Automatic identification of pro and reasons in online reviews In Proceedings of the Poster Session at the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, Sydney, Australia, 17–21 July 2006, pp 483–490 http: //www epinions.com http: //www.complaints.com 35 ... khuyết điểm xác định Các ƣu điểm nhƣợc điểm nhận xét trực tuyến Xem xét việc xác định quan điểm nghiên cứu tác giả tính tốn ngơn ngữ, việc khó để định nghĩa quan điểm mơ hình tính tốn khó xác định. .. theo định hƣớng ngữ nghĩa  Xây dựng mô hình để phân lớp tài liệu CHƢƠNG 2: BÀI TOÁN TỰ ĐỘNG XÁC ĐỊNH CÁC ƢU, NHƢỢC ĐIỂM TRONG CÁC NHẬN XÉT ONLINE Tổng quan Các tác giả giới thiệu hệ thống tự động. .. phân loại nhận xét chúng, xác định ngƣời đƣa nhận xét chủ đề câu nhận xét Phân tích nhận xét mức tài liệu đƣợc áp dụng chủ yếu để phân loại nhận xét, tồn tài 12 liệu đƣợc viết cho nhận xét đƣợc

Ngày đăng: 06/04/2021, 18:30

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w