Xác định và phân tích quan điểm của người dùngXác định và phân tích quan điểm của người dùngXác định và phân tích quan điểm của người dùngXác định và phân tích quan điểm của người dùngXác định và phân tích quan điểm của người dùngXác định và phân tích quan điểm của người dùngXác định và phân tích quan điểm của người dùngXác định và phân tích quan điểm của người dùngXác định và phân tích quan điểm của người dùngXác định và phân tích quan điểm của người dùngXác định và phân tích quan điểm của người dùngXác định và phân tích quan điểm của người dùngXác định và phân tích quan điểm của người dùng
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - ĐẶNG QUANG HUY XÁC ĐỊNH VÀ PHÂN TÍCH QUAN ĐIỂM CỦA NGƢỜI DÙNG LUẬN VĂN THẠC SĨ KỸ THUẬT T eo ịn ƣ n ứn dụn HÀ NỘI - 2018 HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - ĐẶNG QUANG HUY XÁC ĐỊNH VÀ PHÂN TÍCH QUAN ĐIỂM CỦA NGƢỜI DÙNG CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 848.01.01 (Khoa học máy tính) LUẬN VĂN THẠC SĨ KỸ THUẬT NGƢỜI HƢỚNG DẪN KHOA HỌC PGS.TS: TỪ MINH PHƢƠNG HÀ NỘI - 2018 LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chƣa đƣợc cơng bố cơng trình khác Tác giả luận văn Đặng Quang Huy MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT i DANH SÁCH BẢNG ii DANH SÁCH HÌNH VẼ iv MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ XÁC ĐỊNH QUAN ĐIỂM NGƢỜI DÙNG 1.1 Bài toán xác định quan điểm ngƣời dùng 1.2 Một số ứng dụng tích hợp phần đánh giá ngƣời dùng 1.3 Xác định đặc trƣng đƣợc nhắc tới 11 1.4 Xác định quan điểm ngƣời dùng 13 1.5 Tổng kết chƣơng 15 CHƢƠNG 2: XÁC ĐỊNH ĐẶC TRƢNG CỦA SẢN PHẨM 16 2.1 Tổng quan kiến trúc hệ thống xác định quan điểm ngƣời dùng 16 2.2 Xác định đặc trƣng sản phầm 20 2.2.1 Trích chọn danh từ câu đánh giá 20 2.2.2 Xác đ nh đặc tr ng th 23 ng gặp c a s n ph m 2.2.3 Xác đ nh đặc tr ng hi m 2.3 Tổng kết chƣơng 28 29 CHƢƠNG 3: XÁC ĐỊNH QUAN ĐIỂM CỦA NGƢỜI DÙNG ĐỐI TỪNG ĐẶC TRƢNG SẢN PHẨM 31 3.1 Trích xuất từ đánh giá từ đặc trƣng sản phẩm 31 3.2 Xác định hƣớng ngữ nghĩa từ đánh giá câu 32 3.2.1 Ph ơng pháp xây dựng từ điển từ WordNet 33 3.2.2 Xác đ nh h ớng ngữ nghĩa c a từ đánh giá 39 3.3 Dự báo hƣớng ngữ nghĩa câu đánh giá 40 3.4 Tổng hợp quan điểm ngƣời dùng sản phẩm 44 3.5 Tổng kết chƣơng 47 CHƢƠNG 4: THỰC NGHIỆM VÀ KẾT QUẢ 48 4.1 Dữ liệu thử nghiệm 48 4.2 Đánh giá độ xác thông qua thực nghiệm 50 4.3 Tổng kết chƣơng 54 KẾT LUẬN 56 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 57 i DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Từ viết tắt Địn n ĩa CBA Thuật toán CBA-RG FBS Bài toán tổng hợp đặc trƣng (Feature-Based Summarization) NLP Xử lý ngôn ngữ tự nhiên (Natural Language Processing) IDE Mơi trƣờng phát triển tích hợp (Integrated Development Environmen) ii DANH SÁCH BẢNG Số iệu Tên Bảng 1.1 Ví dụ đánh giá thô ngƣời dùng Bảng 1.2 Bản tổng hợp đánh giá ngƣời dùng sau phân loại Bảng 1.3 Dữ liệu đánh giá ngƣời dùng cho điện thoại Bảng 1.4 Đánh giá ngƣời dùng cho điện thoại Bảng 1.5 Kết sau xác định quan điểm câu đánh giá Bảng 2.1 Tách từ gán nhãn từ loại cho câu đánh giá Bảng 2.2 Những câu đánh giá sau xác định quan điểm Bảng 2.3 Tổng hợp câu đánh giá Bảng 2.4 Kết sau thực gán nhãn với câu đánh giá Bảng 2.5 Treebank tiếng việt với danh từ Bảng 2.6 Tối ƣu thuật toán Apriori Bảng 2.7 Thuật toán xác định đặc trƣng Bảng 3.1 Thuật tốn xác định tính từ đánh giá Bảng 3.2 Kiểm tra thủ tục kết thúc thuật toán thu thập từ WordNet Bảng 3.3 Thuật toán xác định quan điểm cho câu đánh giá iii Bảng 3.4 Thuật toán xác định quan điểm cho từ đánh giá Bảng 3.5 Bản tổng hợp đánh giá quan điểm ngƣời dùng Bảng 4.1 Bảng mô tả liệu đánh giá Bảng 4.2 Bảng cơng thức tính độ xác độ bao phủ Bảng 4.3 So sánh kết thực nghiệm với đánh giá dựa tri thức ngƣời Bảng 4.4 So sánh kết thực nghiệm với đánh giá dựa tri thức ngƣời iv DANH SÁCH HÌNH VẼ Số iệu ìn vẽ Tên ìn vẽ Hình 1.1 Kiến trúc hệ thống xác định quan điểm ngƣời dùng Hình 2.1 Treebank cho tiếng việt Hình 3.1 Mơ tả WordNet Hình 3.2 Cấu trúc từ điển WordNet tiếng việt Hình 3.3 Danh sách tính từ đánh giá tích cực Hình 3.4 Danh sách tính từ đánh giá tiêu cực Hình 3.5 Danh sách từ phủ định Hình 4.1 Danh sách đánh giá ngƣời dùng cho sản phẩm iphone 6s MỞ ĐẦU Các trang bán hàng trực tuyến thƣờng yêu cầu khách hàng đánh giá sản phẩm mà họ mua Đối với dịch vụ trực tuyến nói chung trang thƣơng mại điện tử nói riêng, đánh giá ngƣời dùng đóng vai trò quan trọng khách hàng tiềm có nhu cầu lựa chọn mua sản phẩm Đồng thời, đánh giá cung cấp cho nhà sản xuất thông tin phản hồi từ khách hàng, để từ họ dễ dàng tiếp cận với thị hiếu ngƣời dùng Hầu hết đánh giá xuất dƣới dạng văn bản, nhận xét đánh giá đến nhiều khía cạnh sản phẩm Ví dụ: “Chiếc máy ảnh chụp vào ban đêm tối nhƣng kiểu dáng nhìn đẹp” Mà sản phẩm phổ biến số lƣợng đánh giá ngày nhiều, khách hàng tiềm mà nói khó nắm bắt đƣợc hết nội dung mà đánh diễn đạt Vậy nên cần thiết phải có phƣơng pháp hệ thống tự động phân tích tổng hợp quan điểm ngƣời dùng Có thể nói tốn phổ biến đƣợc cộng đồng nghiên cứu đặc biệt quan tâm đến tính thực tiễn cao sống Cụ thể em tập trung vào toán cụ thể nhƣ sau, với tập liệu văn đánh giá ngƣời dùng cho sản phẩm cho trƣớc, kết cần đạt đƣợc tóm tắt thông tin sản phẩm dựa đặc trƣng đánh giá ngƣời dùng Có thể nhận thấy cụ thể ta phải giải hai vấn đề: (1) xác định đƣợc đặc trƣng sản phẩm đƣợc ngƣời dùng đề cập đến thông qua đánh giá, (2) xác định đƣợc hƣớng đánh giá ngƣời dùng đặc trƣng đƣợc đề cập Cuối tạo tổng hợp tóm tắt phân loại dựa đặc trƣng sản phẩm, với 45 với đặc trƣng kèm số lƣợng chi tiết câu đánh giá tích cực, tiêu cực trung tính đặc trƣng sản phầm Mặc dù có số điểm giống với phƣơng pháp tóm tắt văn phổ biến, nhƣng luận văn này, em trình bày lại câu đánh giá sau phân loại xác định bƣớc trƣớc trình bày cách có cấu trúc, để giúp cho ngƣời dùng dễ dàng theo dõi đặc trƣng mà họ quan tâm Ở bƣớc cuối này, em thực mơ tả việc tóm tắt, hiển thị liệu đánh giá cho sản phầm nhƣ sau: Bản 3.5: Bản tổn ợp án iá quan iểm n ƣời dùn FINAL SUMMARY FOR IPHONE 6S!!! FREQUENT FEATURE ==================================== MÀN HÌNH Positive: 14 _ Ngồi hình xa Z3, S6 hay G4 chất lƣợng lẫn độ phân giải Ip6s ngon _ Màn hình 6splus full HD, nhiên e thấy hình 6s tốt rồi, nhƣ e nói , 2k mà giảm thời lƣợng pin e chọn full HD để tăng thời gian sử dụng _ Màn to nhƣng tối ƣu tốt ko gian hiển thị nên nhìn hình to note dù thực tế nh Negative: _ Màu sắc ổn nhiên lỗi hở sáng hình dù nhẹ 46 ko để ý kĩ ko thấy _ Màn hình xấu so với máy cao cấp khác _ Cầm iphone 6s hình 4.7 mà to ngang G2 5.2 " mà lại không full HD Neutral: _ So với iphone giá đắt nhƣng camera có phần vƣợt trội, đáng để cân nhắc INFREQUENT FEATURE ==================================== HỆ ĐIỀU HÀNH Positive: _ Nhiều mua điện thoại hay Mac hệ điều hành ngon ổn định Negative: _ Cái hệ điều hành không tùy biến tốt nhƣ android, tù Neutral:3 _ Hệ điều hành ổn định, nhƣng khó tùy chỉnh … Có thể nhận thấy rằng, tóm tắt cuối hồn tồn việc tạo nên cấu trúc rõ ràng để thể thông tin sản phẩm Đôi thực 47 tế thực tóm tắt, hồn tồn thể câu đánh giá tóm tắt nhƣ đƣờng dẫn để ngƣời đọc dễ dàng chuyển tới câu đánh giá đến đánh giá gốc Vì khn khổ luận văn đánh giá dài, ngƣời dùng đƣa ý kiến khác nhƣng số câu đánh giá sản phẩm ít, nên tổng hợp cuối cùng, em đƣa câu đánh xuất đặc trƣng sản phẩm Việc tùy biến với tổng hợp cuối phụ thuộc vào mong muốn ngƣời dùng để tuỳ chỉnh thay đổi phù hợp 3.5 Tổn kết c ƣơn Ở chƣơng này, em thực xác định hƣớng đánh giá cho câu chứa đặc trƣng sản phầm, phƣơng pháp thực đánh khơng q cầu kì, nhƣng cơng đoạn thu thập đƣợc liệu đánh giá cho seed_list từ phủ định cần tinh chỉnh cách kĩ lƣỡng độ phức tạp ngôn ngữ, nên việc xác định hƣớng ngữ nghĩa từ đánh giá đặc trƣng sản phẩm toán hoàn toàn phụ thuộc vào liệu từ điển thu thập từ WordNet Vì nên cơng đoạn thu thập từ việc tiền xử lý trở nên quan trọng không 48 CHƢƠNG 4: THỰC NGHIỆM VÀ KẾT QUẢ Trong chƣơng em trình bày chi tiết bƣớc thực kiểm nghiệm thuật tốn thơng qua việc thu thập liệu từ trang diễn đàn lớn công nghệ cho sản phẩm Phƣơng pháp đánh giá độ xác xác định quan điểm ngƣời dùng đƣợc thực việc so sánh kết thuật toán với tri thức ngƣời Ngồi để đánh giá tính thực tiễn tốn ảnh hƣởng bới nhiều yếu tố khác nhƣ hiệu suất hay số lƣợng liệu xử lý, nhƣng em không đề cập chi tiết luận văn Cuối cùng, thông qua việc so sánh thấy đƣợc điểm hạn chế phƣơng pháp định hƣớng khắc phục tƣơng lai 4.1 Dữ liệu t n iệm Để kiểm nghiệm thuật toán, em thu thập liệu từ trang diễn đàn lớn công nghệ cho sản phẩm nhƣ tinhte.vn, reviewdao.vn, fptshop.vn, sohoa.vnexpress.net, thegioididong.com, Việc thực kiểm nghiểm em thực theo bƣớc nhƣ sau: Thu thập đánh giá dạng văn dạng thô trang diễn đàn, trang bán hang trực tuyến Xây dựng chƣơng trình để thực hiện việc trích chọn phân loại đánh giá Thực việc trích chọn phân loại dựa tri thức ngƣời Thực việc tính tốn độ xác độ bao phủ dựa kết thực nghiệm việc phần loại hệ thống phân loại tay, So sánh kết luận Việc thực xây dựng hệ thống em thực máy tính cá nhân với cấu hình máy: Dell vostro 3450, Ram 8Gb, hệ điều hành Win 49 enterprise Ngơn ngữ đƣợc sử dụng cài đặt chƣơng trình JDK 8u152, IDE Eclipse Oxygen, với thƣ viện Jsoup 1.11.2, vnTagger 4.1.1c Số đánh giá em thu thập khoảng 1000 đánh giá Các đánh giá đƣợc em lƣu vào file reviews_data.txt Có định dạng nhƣ sau: Hìn 4.1: Dan sác án iá n ƣời dùn c o sản p ẩm ip one 6s Các đánh giá hồn tồn dựa vào đánh giá thực tế ngƣời dùng, nên có đánh giá dài ngắn lƣợng thông tin mang lại khác Em tổng hợp lại thông qua bảng đánh giá nhƣ sau: Bản 4.1: Bản mô tả liệu án iá Các đánh giá Số câu Số từ Số đặc trƣng Dài 86 Ngắn Trung bình 32 50 4.2 Đán iá ộ c ín xác t ôn qua t ực n iệm Để đánh giá, em thực việc đọc tất đánh giá Với câu đánh giá, câu bày t ý kiến ngƣời dùng, tất đặc trƣng mà đƣợc ngƣời dùng đánh giá đƣợc đánh dấu lại Bất kể câu đánh giá tích cực hay tiêu cực đƣợc xác định Nếu ngƣời dùng không đƣa ý kiến, câu khơng đƣợc đánh dấu lại ta quan tâm đến câu đƣợc đánh giá từ ngƣời dùng Với sản phẩm, em đƣa danh sách đặc trƣng sản phẩm Cột “Phân loại tay” bảng 4.3 thể số lƣợng đặc trƣng đƣợc xác định tay với sản phẩm Tất kết đƣợc sinh từ hệ thống đƣợc so sánh với kết đƣợc xác định tay Việc xác định hoàn toàn đơn giản với đặc trƣng sản phẩm ý kiến đánh giá Chỉ có phần khác biệt nh đặc trƣng tƣờng minh khơng tƣờng minh Cả hai đặc trƣng tƣờng minh không tƣờng minh dễ dàng xác định với ngƣời nhƣng với hệ thống chƣa thể xác định đƣợc Sau thu thập đủ liệu, em sử dụng thƣ viện vnTagger (http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer ) để gán nhãn từ loại Khi sử dụng WordNet để thu thập từ đánh giá, em sử dụng thƣ viện Jsoup để bóc tách liệu hiển thị từ trang web thông qua thẻ html Tất danh sách từ thu đƣợc đƣợc lƣu vào file thay cho sở liệu, để giảm thiểu phức tạp q trình thực đề tài Thơng qua việc áp dụng thuật toán, dựa vào đánh giá cuối cùng, em kiểm nghiệm độ xác thơng qua tri thức ngƣời, từ đánh giá đƣợc tính thực tiễn thuật tốn thực tế Các bƣớc thực chi tiết em thực nhƣ sau: - Bƣớc thực thuật toán, với đầu vào liệu ba sản phẩm đƣợc thu thập, thơng qua chƣơng trình để tạo tóm tắt, xác định quan điểm ngƣời dùng sản phẩm Trong tóm tắt, mơ tả đầy đủ 51 đặc trƣng, số lƣợng chi tiết câu đánh giá tích cực, tiêu cực câu trung tính - Bƣớc thứ hai thực đọc đánh giá phân loại thông qua cảm nhận, tri thức ngƣời để tính tốn số lƣợng câu đánh giá, số lƣợng đặc trƣng Ở bƣớc việc đánh giá đƣợc đánh giá ba ngƣời lấy trung bình kết - Bƣớc thứ ba việc so sánh kết hai tổng hợp sau lập bảng để đánh giá độ xác (precision) độ bao phủ (recall) thuật toán với tất giá trị: đặc trƣng thƣờng gặp, đặc trƣng hiếm, số câu đƣợc trích chọn, số câu đánh giá xác, bƣớc ghi lại kết Cơng thức tính đƣợc biểu diễn nhƣ sau: Hìn 4.2: Bản t ức tín ộ c ín xác ộ bao p ủ tp: Số lƣợng phân loại đúng, đƣợc phân loại chƣơng trình fp: Số lƣợng phân loại khơng đúng, đƣợc phân loại hệ thống fn: Số lƣợng phân loại đúng, đƣợc phân loại tay độ xác = độ bao phủ = 52 Với sản phẩm thực nghiệm, bảng đánh giá độ xác thuật tốn đƣợc mơ tả nhƣ sau: Bản 4.3: So sán kết t ực n iệm v i án iá dựa tri t ức n ƣời Số Tên sản phẩm Điện thoại Laptop Mảy ảnh Trung bình lƣợng Đặc trƣng thƣờng gặp Tỉa gọn Tỉa dƣ thừa Tỉa từ đơn Đặc trƣng Độ Độ Độ Độ Độ Độ Độ Độ Độ Độ đặc bao bao bao bao bao trƣng phủ xác phủ xác phủ xác phủ xác phủ xác 73 0.621 0.512 0.638 0.574 0.638 0.755 0.638 0.763 0.742 0.747 61 0.564 0.554 0.564 0.619 0.564 0.691 0.564 0.697 0.752 0.710 53 0.642 0.563 0.716 0.676 0.686 0.758 0.686 0.768 0.741 0.702 62 0.609 0.543 0.639 0.623 0.629 0.734 0.629 0.736 0.745 0.719 Từ bảng thấy việc xác định dặc trƣng thƣờng gặp sản phẩm mang lại kết có độ xác tƣơng đối Ngƣợc lại, đặc trƣng thiếu phƣơng pháp xén tỉa từ không liên quan nên mang lại hiệu suất chƣa đƣợc cao cơng đoạn thực nhiều hạn chế so với đặc trƣng thƣờng gặp Còn lại câu đánh giá cho kết mức trung bình khá, điều phụ thuộc nhiều vào thƣ viện đánh giá thu thập từ WordNet Sau thực lọc cập nhật vài lần với thƣ viện, hiệu suất có cải thiện rõ rệt Bảng 4.3 đƣa độ xác độ bao phủ kết chức trích chọn đặc trƣng hệ thống FBS Em đánh giá kết với 53 bƣớc thuật toán Trong bảng, cột danh sách sản phẩm Cột đƣa độ xác độ bao phủ cho đặc trƣng thƣờng gặp đƣợc sinh cho sản phẩm sau dùng thuật tốn trích chọn Kết đặc trƣng thƣờng gặp có nhiều lỗi Nếu dùng bƣớc kết cho khơng xác, độ xác thấp Cột - 10 kết sau thực phƣơng pháp xén tỉa hiệu Có thể thấy độ xác tăng lên đáng kể, nhƣng độ bao phủ hầu nhƣ khơng thay đổi Kết cột - hầu nhƣ mô tả hiệu phƣơng pháp xén tỉa Cột 11 12 đƣa kết việc trích chọn đặc trƣng Độ bao phủ cải thiện đáng kể độ xác giảm chút Tuy nhiên, khơng phải vấn đề quan trọng đặc trƣng thƣờng khơng đƣợc đánh giá cao, nên hồn tồn khơng ảnh hƣởng đến hầu hết ngƣời dùng 54 Bản 4.4: So sán kết t ực n iệm v i bƣ c tríc c ọn câu án Trích chọn câu đánh giá Tên sản phẩm iá Độ xác Độ bao phủ Độ xác câu đánh giá Điện thoại 0.675 0.614 0.821 Laptop 0.614 0.533 0.813 Mảy ảnh 0.626 0.785 0.662 Trung bình 0.638 0.644 0.765 Bảng 4.4 đánh giá hai kết hai bƣớc: xác định câu đánh giá độ xác câu đánh giá Trung bình độ bao phủ độ xác kết xác định câu đánh giá khoảng 64% Hệ thống thực có độ xác việc xác định hƣớng ngữ nghĩa câu đánh giá: độ xác trung bình khoảng 76% Điều phƣơng pháp sử dụng WordNet để xác định hƣớng ngữ nghĩa hƣớng đánh giá cho câu mang lại hiểu cao 4.3 Tổn kết c ƣơn Có thể thấy rằng, hƣớng ứng dụng đề tài hứa hẹn, đặc biệt việc phân tích hƣớng ngữ nghĩa câu Nhƣng thấy phƣơng pháp nhiều giới hạn nhƣ: (1) Chúng ta khơng thể phân tích câu mà xuất đại từ [17] Ví dụ, “Nó to vừa túi xách” Có thể hiểu câu ám đến kích thƣớc, nhƣng hồn tồn khó để phân tích đƣợc câu (2) Khi đánh giá đặc trƣng sản phẩm ta sử dụng tính từ, nhƣng thực tế hồn tồn dùng động từ để đánh giá đặc trƣng sản phẩm Ví dụ nhƣ “ Tơi 55 nghĩ bạn nên mua máy ảnh này” (3) Có thể nhận thấy, câu đánh giá tích cực hay tiêu cực, có câu đánh giá cách mạnh mẽ sản phẩm, nhƣng có câu đánh giá cách nhẹ nhàng Ví dụ nhƣ “Trời ơi, nhìn hình sắc nét đến tuyệt vời” , “Ờ, nhìn hình ƣợc ấy” Có thể thấy sắc thái biểu cảm hai câu có khác nhau, nên để đánh giá xác sản phẩm, ta đánh trọng số để phân loại câu nhƣ (4) Tuy không quan trọng nhƣng đặc trƣng điểm đáng ý toán xác định quan điểm, phƣơng pháp thực đơn giản, chƣa có phƣơng pháp xén tỉa đặc biệt để lƣợc b bớt từ không liên quan (5) Ngôn ngữ thƣờng có phát triển khơng ngừng, đơi từ ngữ đƣợc thêm vào, nên thƣ viện tách từ gán nhãn từ loại gán nhãn xác nhƣ khơng đƣợc cập nhật thƣờng xun, điều gây ảnh hƣởng đến phân tích cú pháp câu (6) Mặc dù em có trình bày phƣơng pháp xác định quan điểm câu đánh giá khách quan từ ngƣời dung, nhƣng hầu nhƣ câu có cấu trúc ngữ pháp hay ngữ nghĩa phức tạp tỷ lệ đánh giá xác khơng cao, cần thiết phải thực việc xác định quan điểm ngƣời dung đánh giá khách quan theo em tốn khó (7) Với ngơn ngữ việc phân tích văn nói từ viết tắt, từ đồng nghĩa khó khăn, chƣa kể tiếng việt ngơn ngữ khó, cộng đồng phát triển không nhiều, nên việc xử lý ngôn ngữ hoàn toàn bị hạn chế nhiều 56 KẾT LUẬN Trong luận văn sử dụng công nghệ khai phá liệu xử lý ngôn ngữ tự nhiên việc trích xuất tổng hợp ý kiến đánh giá khách hàng Mục tiêu đƣợc đề nghiên cứu tổng hợp đặc trƣng chung sản phẩm, mà nguồn liệu đƣợc tổng hợp thơng qua đánh giá khách hàng cho sản phẩm trang bán hàng trực tuyến mà họ quan tâm Việc tổng hợp đánh giá ngƣời dùng không hữu ích với ngƣời mua hàng mà cho ngƣời bán sản phẩm Tuy giải đƣợc toán tống hợp đánh giá ngƣời dùng lƣợng lớn liệu, nhƣng số hạn chế phức tạp vấn đề xử lý ngôn ngữ tự nhiên nhƣ danh từ không tƣờng minh, ý kiến quan điểm đƣợc thể trạng từ, động từ danh từ Công việc tƣơng lai cần cải thiện tinh chỉnh k thuật để giải vấn đề 57 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] Agrawal, R & Srikant, R 1994 Fast algorithm for mining association rules VLDB’94, 1994 [2] Agrawal, R & Srikant, R 1994 Fast algorithm for mining association rules VLDB’94, 1994 [3] Church, K.W and Hanks, P 1990 Word Association Norms, Mutual Information and Lexicography [4] Dave, K., Lawrence, S., and Pennock, D., 2003 Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews WWW’03 [5] Das, S and Chen, M., 2001 Yahoo! for Amazon: Extracting market sentiment from stock message boards APFA’01 [6] Daille, B 1996 Study and Implementation of Combined Techniques for Automatic Extraction of Terminology The Balancing Act: Combining Symbolic and Statistical Approaches to Language MIT Press, Cambridge [7] Fellbaum, C 1998 WordNet: an Electronic Lexical Database, MIT Press [8] Goldstein, J., Kantrowitz, M., Mittal, V., and Carbonell, J 1999 Summarizing Text Documents: Sentence Selection and Evaluation Metrics SIGIR'99 [9] Hu, M., and Liu, B 2004 Mining Opinion Features in Customer Reviews To appear in AAAI’04, 2004 [10] Hatzivassiloglou, V and Wiebe, 2000 J Effects of Adjective Orientation and Gradability on Sentence Subjectivity COLING’00 [11] Jacquemin, C., and Bourigault, D 2001 Term extraction and automatic indexing In R Mitkov, editor, Handbook of Computational Linguistics Oxford University Press 58 [12] Justeson, J S., and Katz, S.M 1995 Technical Terminology: some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1):9-27 [13] Le-Hong, P., T M H Nguyen, M Rossignol, and A Roussanaly An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts Actes du Traitement Automatique des Langues Naturelles (TALN-2010) [14] Liu, B., Hsu, W., Ma, Y 1998 Integrating Classification and Association Rule Mining KDD’98, 1998 [15] Morinaga, S., Ya Yamanishi, K., Tateishi, K, and Fukushima, T 2002 Mining Product Reputations on the Web KDD’02 [16] Manning, C and Schütze, H 1999 Foundations of Statistical Natural Language Processing, MIT Press Cambridge, MA: May 1999 [17] Minqing Hu and Bing Liu Mining and Summarizing Customer Reviews, Department of Computer Science University of Illinois at Chicago [18] Mani, I., and Bloedorn, E., 1997 Multi-document Summarization by Graph Search and Matching AAAI’97 [19] Miller, G., Beckwith, R, Fellbaum, C., Gross, D., and Miller, K 1990 Introduction to WordNet: An on-line lexical database International Journal of Lexicography (special issue), 3(4):235-312 [20] Pang, B., Lee, L., and Vaithyanathan, S., 2002 Thumbs up? Sentiment Classification Using Machine Learning Techniques In Proc of EMNLP 2002 [21] Salton, G Singhal, A Buckley, C and Mitra, M 1996 Automatic Text Decomposition using Text Segments and Text Themes ACM Conference on Hypertext [22] Turney, P 2002 Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews ACL’02 59 [23] Tait, J 1983 Automatic Summarizing of English Texts Ph.D Dissertation, University of Cambridge [24] Tetreault, J 1999 Analysis of Syntax-Based Pronoun Resolution Methods ACL’99 [25] Tong, R., 2001 An Operational System for Detecting and Tracking Opinions in on-line discussion SIGIR 2001 Workshop on Operational Text Classification [26] Yiwu Xie, Yutong Li, Chunli Wang, Mingyu Lu The Optimization and Improvement of the Apriori Algorithm ... TỔNG QUAN VỀ XÁC ĐỊNH QUAN ĐIỂM NGƢỜI DÙNG 1.1 Bài toán xác định quan điểm ngƣời dùng 1.2 Một số ứng dụng tích hợp phần đánh giá ngƣời dùng 1.3 Xác định đặc trƣng đƣợc nhắc tới 11 1.4 Xác định quan. .. 1.4 Xác định quan điểm ngƣời dùng 13 1.5 Tổng kết chƣơng 15 CHƢƠNG 2: XÁC ĐỊNH ĐẶC TRƢNG CỦA SẢN PHẨM 16 2.1 Tổng quan kiến trúc hệ thống xác định quan điểm ngƣời dùng 16 2.2 Xác định đặc trƣng... THƠNG - ĐẶNG QUANG HUY XÁC ĐỊNH VÀ PHÂN TÍCH QUAN ĐIỂM CỦA NGƢỜI DÙNG CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 848.01.01 (Khoa học máy tính) LUẬN VĂN THẠC SĨ KỸ THUẬT NGƢỜI HƢỚNG