Tổng hợp quan điểm trực tuyến của người tiêu dùng theo tính năng của sản phẩm

58 64 0
Tổng hợp quan điểm trực tuyến của người tiêu dùng theo tính năng của sản phẩm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ NHẠN TỔNG HỢP QUAN ĐIỂM TRỰC TUYẾN CỦA NGƯỜI TIÊU DÙNG THEO TÍNH NĂNG CỦA SẢN PHẨM LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ NHẠN TỔNG HỢP QUAN ĐIỂM TRỰC TUYẾN CỦA NGƯỜI TIÊU DÙNG THEO TÍNH NĂNG CỦA SẢN PHẨM Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 01 04 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN VIỆT ANH TS BÙI QUANG HƯNG HÀ NỘI - 2016 i Lời cam đoan Tôi xin cam đoan báo cáo luận văn viết hướng dẫn thầy giáo, Tiến sĩ Nguyễn Việt Anh Tiến sĩ Bùi Quang Hưng Tất kết đạt luận văn q trình tìm hiểu, nghiên cứu riêng tơi Trong toàn nội dung luận văn, điều trình bày cá nhân tơi tổng hợp từ nhiều nguồn tài liệu khác Các tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày …… tháng … năm 2016 Người cam đoan Vũ Thị Nhạn ii Mục lục Lời cam đoan i Mục lục ii Danh mục hình vẽ iv Danh mục bảng biểu v Lời cảm ơn vi Mở đầu Tổng quan khai phá quan điểm 1.1 Giới thiệu 1.2 Các thách thức khai phá quan điểm 1.2.1 Những người khác có phong cách viết khác 1.2.2 Quan điểm thay đổi theo thời gian 1.2.3 Độ mạnh quan điểm 1.2.4 Quan điểm theo ngữ cảnh 1.2.5 Các câu đánh giá có pha trộn 1.2.6 Quan điểm mang tính châm biếm, mỉa mai 1.2.7 Xử lý ngôn ngữ tự nhiên câu quan điểm 1.3 Các ứng dụng khai phá quan điểm 1.3.1 Nghiên cứu thị trường dành cho người mua bán 1.3.2 Cải thiện chất lượng sản phẩm, dịch vụ 1.3.3 Hệ thống gợi ý 1.3.4 Hỗ trợ thơng minh quyền 1.3.5 Hỗ trợ đưa định 1.4 Các toán khai phá quan điểm 1.4.1 Phân lớp quan điểm 1.4.2 Khai phá quan điểm so sánh 1.4.3 Tổng hợp quan điểm Các phương pháp tiếp cận tốn tổng hợp quan điểm theo tính sản phẩm 11 2.1 Xác định đối tượng 12 2.2 Trích xuất khía cạnh 14 iii 2.2.1 Sử dụng danh từ cụm danh từ thường xuyên 14 2.2.2 Sử dụng mối quan hệ từ quan điểm khía cạnh 15 2.2.3 Mơ hình chủ đề 21 2.3 Nhóm từ khía cạnh 21 2.4 Phân lớp chiều hướng quan điểm 24 2.5 Loại bỏ quan điểm Spam 24 Tổng hợp quan điểm trực tuyến người tiêu dùng Việt Nam theo tính sản phẩm 27 3.1 Trích xuất tính sản phẩm 28 3.1.1 Tiền xử lý liệu 29 3.1.2 Tách câu quan điểm 31 3.1.3 Trích xuất tính sản phẩm 34 3.2 Nhóm từ nói tính 35 3.3 Tổng hợp quan điểm 37 3.4 Độ đo tính xác hệ thống 38 Thực nghiệm đánh giá 39 4.1 Chuẩn bị liệu cài đặt 39 4.2 Tiến hành thực nghiệm đánh giá 39 Kết luận 45 5.1 Những vấn đề giải luận văn 45 5.2 Hướng nghiên cứu tương lai 45 Các cơng trình cơng bố 47 TÀI LIỆU THAM KHẢO 48 iv Danh mục hình vẽ Hình Khai phá quan điểm người dùng Hình 1.1 Mơ hình khai phá quan điểm Hình 2.1 Một ví dụ tổng hợp quan điểm dựa tính sản phẩm iPad 12 Hình 2.2 Một phần phân cấp khai thác từ mơ hình HASM, ứng dụng cho việc khai phá laptop 14 Hình 2.3 Một ví dụ quan hệ từ A từ B 16 Hình 2.4 Một ví dụ trích xuất khía cạnh đối tượng Qiu 17 Hình 2.5 Giải thuật lan truyền kép 19 Hình 2.6 Giải thuật luật lan truyền kép (tiếng Việt) 20 Hình 2.7 Giải thuật bán giám sát SVM-kNN để nhóm từ tính 23 Hình 3.1 Mơ hình tổng quan…………………………………………………………… .28 Hình 3.2 Mơ hình trích xuất tính sản phẩm…………………………………….29 Hình 3.3 Mơ hình đồ thị Bipartite Graph……………………………………………… 36 Hình 4.1 Một số kết ví dụ tách câu quan điểm………………………………………40 Hình 4.2 Tổng hợp ý kiến theo tính sản phẩm HTC One E8……………… …44 v Danh mục bảng biểu Bảng 3.1 Bảng từ viết tắt từ loại câu .300 Bảng 3.2 Một số luật câu 333 Bảng 4.1 Số ý kiến đánh giá làm thực nghiệm 39 Bảng 4.2 Dữ liệu thu sau tiền xử lý 39 Bảng 4.3 Kết thu sau tách câu 430 Bảng 4.4 Kết thu sau hệ thống trích chọn tính cho sản phẩm 411 Bảng 4.5 Kết PP1 PP2 trích xuất tính cho sản phẩm 411 Bảng 4.6 Tần suất xuất số tính sản phẩm HTC One .422 Bảng 4.7 Kết sau loại bỏ số tính số câu 433 Bảng 4.8 Đánh giá kết tổng hợp ý kiến theo tính sản phẩm 433 vi Lời cảm ơn Đầu tiên, muốn gửi lời cảm ơn sâu sắc đến cán hướng dẫn khoa học, thầy giáo, TS Nguyễn Việt Anh, TS Bùi Quang Hưng người đưa đến lĩnh vực nghiên cứu giảng dạy q trình tơi học tập trường Đại học Cơng Nghệ - Đại học Quốc Gia Hà Nội nghiên cứu Viện Công nghệ thông tin – Viện Hàn lâm Khoa học Công nghệ Việt Nam Thầy truyền cho nguồn cảm hứng, nhiệt huyết nghiên cứu khoa học tận tình hướng dẫn tơi, cho lời khuyên quý báu Mặc dù thầy bận với công việc giảng dạy nghiên cứu thầy dành cho nhiều thời gian thảo luận ý tưởng nghiên cứu, dẫn cách nghiên cứu, giải đáp thắc mắc động viên vượt qua vấn đề khó khăn hướng tơi tới nhiều vấn đề có giá trị khác khiến tơi muốn tìm hiểu nghiên cứu tương lai Tơi xin gửi lời cám ơn tới Thầy, Cô giáo Khoa Công nghệ thông tin, truyền dậy kiến thức bổ ích, đại lĩnh vực Hệ thống thông tin mà học tập Tôi tiếp cận môi trường học thuật cao, hiểu vất vả thành đạt tham gia nghiên cứu khoa học Cuối cùng, xin gửi lời cảm ơn sâu sắc tới bố mẹ, anh chị bạn bè Họ bên cạnh tôi, ủng hộ giúp đỡ suốt q trình học tập hồn thiện luận văn Học viên thực luận văn Vũ Thị Nhạn Mở đầu “Người khác nghĩ gì” ln câu hỏi đặt cho lần định Khi bạn có nhu cầu mua tivi, bạn có xu hướng tìm hiểu xem người khác nói sản phẩm Với số tiền bỏ ra, bạn lựa chọn sản phẩm có chức đáp ứng yêu cầu bạn cách thích hợp Hay chương trình Ai triệu phú phát sóng truyền hình, có hai ba quyền trợ giúp hỏi ý kiến người khác Cùng với phát triển kinh tế xã hội, Internet ngày phát triển Mọi người dần biết đến trang blog, diễn đàn hay trang mạng xã hội khác Đó nơi họ bày tỏ quan điểm vấn đề, kiện hay chất lượng sản phẩm Đó nguồn thơng tin quan trọng người có nhu cầu tìm hiểu vấn đề Đối với doanh nghiệp, họ đưa sản phẩm thị trường, họ cần biết người tiêu dùng đánh sản phẩm họ Từ đó, họ có chiến lược kinh doanh cho phù hợp Theo công ty lớn nhâṇ đinh,,̣ ý kiến khách hàng môt phần quan trong,̣ viêc,̣ hinhh̀ thành quan điểm ýkiến khách hàng khác vàsư ,̣tin tưởng vào thương hiêu,,̣ đinḥ mua hàng liên quan đến chinhh́ sách quảng bá thương hiêụ công ty ho.,̣Với sư ,̣phong phúcủa nguồn tài nguyên vềquan điểm nay, hội vàthách thức lớn việc sửdung,̣ cơng nghê ,̣thơng tin đểtìm kiếm vàhiểu đươc,̣ ýkiến người khác [24] Hình Khai phá quan điểm người dùng Người tiêu dùng đánh giá sản phẩm dịch vụ đó, họ đưa ý kiến tổng quan sản phẩm Ví dụ “Chiếc điện thoại Iphone 6s tốt” Nhưng lại có ý kiến đưa để đánh giá chất lượng tính (khía cạnh, đặc trưng) sản phẩm Ví dụ: “Màn hình Iphone 6s đẹp” “camera nét” Các ý kiến phản hồi người tiêu dùng đa dạng phong phú Việc tổng hợp ý kiến thủ công nhiều thời gian sức người Một công cụ tổng hợp ý kiến tự động người tiêu dùng làm giảm thời gian cơng sức Chính vậy, tơi chọn hướng nghiên cứu tổng hợp quan điểm theo tính sản phẩm người tiêu dùng Việt Nam với liệu chủ yếu lấy diễn đàn cơng nghệ Trong luận văn mình, tơi trình bày phương pháp tổng hợp quan điểm, sử dụng luật lan truyền kép kết hợp với việc tách câu ghép câu phức thành câu đơn (mỗi câu đơn chứa tính sản phẩm) dựa theo luật để trích xuất tính sản phẩm người tiêu dùng Việt Nam Tiếp theo, sử dụng kiến thức mẫu phổ biến để loại bỏ liệu nhiễu Và cuối cùng, sử dụng phương pháp thống kê để tổng hợp quan điểm đánh giá người tiêu dùng tính sản phẩm Luận văn tơi chia thành phần sau: Chương 1: Trong chương này, tơi trình bày tổng quan khai phá quan điểm số khái niệm liên quan Đồng thời, tơi trình bày khó khăn thách thức khai phá quan điểm nói chung vài lĩnh vực ứng dụng khai phá quan điểm ứng dụng giới Chương 2: Trình bày khái quát số pháp nhà nghiên cứu giới nghiên cứu áp dụng vào việc tổng hợp ý kiến theo tính sản phẩm giới Việt Nam Chương 3: Trong chương này, tơi trình bày cách chi tiết phương pháp tổng hợp ý kiến theo tính sản phẩm tơi nghiên cứu thử nghiệm với liệu tiếng Việt Chương 4: Kết thực nghiệm trình bày chương này, đồng thời đưa đánh giá phương pháp mà đề xuất chương Chương 5: Kết luận 36 kiện khơng có cạnh nối hai đỉnh thuộc tập Ví dụ mơ tả tính pin, người tiêu dùng thường dùng từ quan điểm bền, tốt, lâu Khi hai nhiều danh từ nhận xét từ quan điểm giống 80% tơi đưa danh từ tính lại thành nhóm Hình 3.3 Mơ hình đồ thị Bipartite Graph Hình 3.3 mơ tả mơ hình đồ thị Bipartite Graph Trong trường hợp này, coi tập đỉnh U tập tính sản phẩm Còn tập đỉnh V tập từ quan điểm Các liên kết đỉnh tập U đỉnh tập V thể kết hợp tính từ quan điểm câu (người dùng sử dụng từ quan điểm để đánh giá tính sản phẩm) Mỗi người tiêu dùng khác có đánh giá khác tính khác sản phẩm Thơng thường, tính quan trọng thường xuyên người tiêu dùng đánh giá chất lượng Ví dụ tính giá, pin,tốc độ xử lý, chất lượng hình ảnh, tốc độ lướt Web tính mà nhiều người tiêu dùng nhận xét đánh giá sản phẩm điện thoại di động Tôi vào tần suất xuất danh từ tính tập liệu để tìm tính thường xun người tiêu dùng đánh giá loại bỏ tính mà người tiêu dùng quan tâm Trên thực tế, https://en.wikipedia.org/wiki/Bipartite_graph 37 tính người tiêu dùng đề cập đến thường chúng không quan trọng không mang nhiều giá trị việc xử lý tốn có số lượng liệu lớn Sau loại bỏ danh từ tính người tiêu dùng đưa quan điểm tơi thu tính sản phẩm Tuy nhiên, số trường hợp mà danh từ mơ tả tính mang nghĩa chung chung, khơng rõ ràng Ví dụ câu: Em ngon Sau phân tích ta Em_này/NP q/P ngon/A Theo luật tơi xây dựng dựa vào tính từ ngon có từ điển, tơi tìm Em_này tính sản phẩm Nhưng thực tế, Em_này khơng phải tính cho sản phẩm Để khắc phục vấn đề này, sau thu thập danh từ tính cho sản phẩm, thực lược bỏ thủ công số danh từ mà nhầm lẫn sang từ mơ tả tính sản phẩm 3.3 Tổng hợp quan điểm Phân cụm câu đánh giá tính Các câu đánh giá đưa ý kiến nhóm tính năng, tơi thực nhóm câu đánh giá lại với để thực tổng hợp ý kiến theo tính cho sản phẩm Ví dụ: Các đánh giá pin sản phẩm HTC One E8 Pin tốt, Pin kém, Pin khá, Pin trâu, Pin bình_thường, Pin đuối Phân lớp câu quan điểm Trong phần này, thực phân lớp câu quan điểm nhóm phân loại từ bước trước theo ba chiều hướng tích cực, tiêu cực trung lập Để thực nhiệm vụ này, thực giải thuật phân lớp dựa vào nhãn từ quan điểm câu Nhãn câu tương ứng với nhãn từ quan điểm câu Ví dụ: Lướt Web nhanh Trong câu trên, nhanh từ quan điểm gán nhãn + nên câu gán nhãn + Pin kém, từ quan điểm gán nhãn - câu gán nhãn - Một số trường hợp riêng:  Đối với câu đánh giá có chứa từ phủ định khơng, chẳng, chưa, chả tơi thực gán nhãn cho câu ngược lại với nhãn từ quan điểm 38  Đối với từ quan điểm có nhãn +, có từ phủ định đứng trước tơi gán cho câu quan điểm nhãn - Ví dụ: Màn hình cảm ứng khơng mượt Từ quan điểm từ mượt có nhãn + Tuy nhiên, từ khơng từ mang nghĩa phủ định đứng trước nên câu câu khen mà lại câu chê, phải gán cho câu vào lớp -  Đối với từ quan điểm nhãn - tơi khơng gán nhãn cho câu quan điểm Ví dụ: hình ảnh không xấu; không xấu không mang nghĩa khen không mang nghĩa chê nên không gán nhãn cho câu quan điểm  Đối với từ quan điểm khơng có nhãn tơi gán nhãn - cho câu quan điểm Ví dụ: bình thường ->khơng bình thường  Một trường hợp khác câu có từ khơng nằm cụm khơng mà lại mang hàm nghĩa ngược lại Ví dụ: Hình ảnh khơng nét mà đẹp Trong câu nhận xét có xuất từ khơng ý kiến đánh giá chiều với từ quan điểm nằm từ điển mà tơi xây dựng Chính vậy, việc dựa vào từ điển xây dựng để phân lớp, bổ sung thêm số luật số trường hợp đặc biệt câu có liên từ khơng, khơng mà còn… 3.4 Độ đo tính xác hệ thống Để tính độ xác, độ hồi tưởng dựa số lượng phần tử dự đoán lớp dương (true positive), số lượng phần tử bị đoán nhầm từ lớp dương sang âm (false positive) số lượng phần tử dự đoán nhầm từ lớp âm sang lớp dương (false negative) Đối với lớp cần đánh giá ta có cơng thức sau: Độ xác P (Percision): = × 100% Độ hồi tưởng R (Recall): = × 100% Độ đo F (F-measure): = 2× × + 39 Thực nghiệm đánh giá 4.1 Chuẩn bị liệu cài đặt Trong phần này, tiến hành thực nghiệm đánh giá kết thu qua mơ hình mà tơi xây dựng chương Tôi thực liệu thu thập từ trang tinhte.vn với ý kiến trao đổi dòng điện thoại HTC One E8, Sony Z3 Sony Aqua M4 Các ý kiến sau thu thập được, dựa vào cấu trúc thẻ HTML để trích xuất ý kiến đánh giá người tiêu dùng, bỏ qua thông tin không cần thiết khác thông tin ngày tháng, người nêu quan điểm Tôi thực sàng lọc thủ công, bỏ qua ý kiến Spam ý kiến đánh giá đối tượng mà xử lý Bảng 4.1 Số ý kiến đánh giá chuẩn bị làm thực nghiệm Sản phẩm Số Review Số câu HTC One E8 300 389 Sony Z3 216 265 Sony Aqua M4 96 112 4.2 Tiến hành thực nghiệm đánh giá Dữ liệu đưa qua công cụ JnvTextPro để phân đoạn câu, tách câu, tách từ gán nhãn từ loại Hệ thống thực loại bỏ câu câu quan điểm Sau loại bỏ, hệ thống thu liệu bảng 4.2 Bảng 4.2 Dữ liệu thu sau tiền xử lý liệu Sản phẩm Số câu Số câu quan điểm HTC One E8 389 354 Sony Z3 265 232 Sony Aqua M4 112 90 Dữ liệu đưa qua tách câu quan điểm để tách câu phức câu ghép thành câu đơn mà tơi xây dựng dựa luật (đã trình bày chương 3) Tôi bỏ qua từ loại 40 khác mà quan tâm đến tính từ danh từ, từ phủ định từ nối Kết trả câu đơn phát biểu tính (gồm danh từ tính từ) Trong hình 4.1 tơi trình bày số ví dụ tách câu quan điểm từ câu phức, câu ghép thành câu đơn Hình 4.1 Một số kết ví dụ tách câu quan điểm Bảng 4.3 Kết liệu thu sau tách câu Sản phẩm Số câu tách qua hệ thống Số câu P R F1 tách thực tế HTC One E8 525 562 93,3% 87,18% 90,15% Sony Z3 332 316 96.02% 100% 97,9% 41 Sony Aqua M4 159 163 87,42% 85,27% 86,33% Tôi thực xây dựng từ điển theo phương pháp thủ công gồm khoảng 150 từ quan điểm dùng cho đánh giá sản phẩm vào ý kiến đánh giá người tiêu dùng Việt Nam trang web đánh giá sử dụng kỹ thuật lan truyền kép tơi trình bày chương Hệ thống thực trích xuất tính sản phẩm qua luật câu đưa vào hệ thống dựa vào từ điển xây dựng Tơi thu danh sách gồm tính sản phẩm giá, pin, cấu hình, hình, loa, vỏ, camera, sóng, âm,, Kết đánh giá thể bảng 4.3 Bảng 4.3 Kết thu sau hệ thống trích chọn tính cho sản phẩm Tên sản phẩm Số lượng tính Số lượng tính trích xuất qua hệ thống thu P thực tế R F1 HTC One E8 45 36 77,78% 97,22% 86,40% Sony Z3 21 16 80,9% Sony Aqua M4 19 16 73,68% 87,5% Trung bình 94,44% 87,18% 80% 77,45% 93,05% 84,53% Năm 2011, nhóm tác giả Hà Quang Thụy có cơng trình nghiên cứu việc trích xuất tính cho sản phẩm người tiêu dùng Việt Nam [27] Trong bảng 6, đưa kết phương pháp mà thực (PP1) với kết nghiên cứu Hà Quang Thụy (PP2) liệu tiếng Việt Bảng 4.4 Kết PP1 PP2 trích xuất tính cho sản phẩm Phương pháp P R F1 PP1 77,45% 93,05% 84,53% 42 PP2 87,56% 93,58% 90,32% Kết mà tơi thu có độ xác thấp so với kết nhóm tác giả Hà Quang Thụy nghiên cứu trước Ở đây, tơi không đưa đánh giá phương pháp tác giả Hà Quang Thụy có độ xác cao nguồn liệu đầu vào khác nhau, người có cách đánh giá sản phẩm khác Trong danh sách tính tơi thu có số tính người tiêu dùng mô tả số danh từ khác Camera mô tả Camera, máy ảnh Hệ thống thực phân nhóm danh từ tính Áp dụng phương pháp GFN tơi thu kết với độ xác 76,6% Phương pháp GFN có độ xác chưa cao số lượng liệu chưa nhiều Tiếp theo, hệ thống dựa vào tần suất xuất danh từ tính năng, chọn độ hỗ trợ tối thiểu (minsup = 4), sau loại bỏ danh từ mô tả tính xuất hệ thống trả lại kết với danh sách gồm 38 tính thường xuyên xuất ý kiến đánh giá sản phẩm HTC One E8, thu kết đạt 83% số danh từ lại tính cho sản phẩm Bảng 4.5 Tần suất xuất số tính sản phẩm HTC One Tính Số lần Tính Số lần Giá 49 Cấu hình 24 Pin 29 Màn hình 12 Loa 10 Camera 14 Vỏ 10 Thiết kế 12 Htc 11 Lướt Web Sóng Âm Tuy nhiên, liệu sau xử lý số danh từ mà ko phải để miêu tả tính mang hàm ý chung chung khác em này, này, máy Để tăng tính xác hệ thống tiến hành lược bỏ thủ công danh từ câu chứa danh từ 43 Bảng 4.6 Kết sau loại bỏ số tính số câu Tên sản phẩm HTC One E8 Số tính sau xử lý 26 Số câu sau xử lý 497 Sony Z3 17 268 Sony Aqua M4 15 135 Bảng 4.7 Đánh giá kết tổng hợp ý kiến theo tính sản phẩm Tên sản phẩm HTC One E8 Sony Z3 P R F1 97,58% 100% 98,78% 96,85% 100% 98,40% Sony Aqua M4 97,03% 99,24% 98,12% Cuối cùng, hệ thống thực phân lớp câu quan điểm theo tính (nhóm tính năng) mà xử lý giai đoạn trước Nhãn từ quan điểm lấy làm nhãn cho câu đánh giá Trong phần này, sử dụng phương pháp thống kê để đưa tổng hợp quan điểm theo tính sản phẩm Kết hệ thống phân lớp mô tả qua bảng 4.7 Bảng tổng hợp ý kiến đánh giá người tiêu dùng theo tính sản phẩm HTC One E8 biểu diễn hình 4.2 44 Hình 4.2.Tổng hợp ý kiến theo tính sản phẩm HTC One E8 Qua biểu đồ trên, thấy pin, camera tính người tiêu dùng đánh giá thấp nhất, giá cấu hình người tiêu dùng ủng hộ cao Người mua hàng vào kết đánh giá sản phẩm người dùng trước nhu cầu sử dụng để lựa chọn sản phẩm phù hợp 45 Kết luận 5.1 Những vấn đề giải luận văn Luận văn tiến hành nghiên cứu toán khai phá quan điểm mà cụ thể tổng hợp quan điểm theo tính sản phẩm Luận văn trình bày số phương pháp liên quan đến tổng hợp quan điểm theo tính sản phẩm giới Việt Nam Trong luận văn này, tơi trình bày phương pháp tổng hợp ý kiến đánh giá trực tuyến người tiêu dùng Việt Nam tính sản phẩm Hệ thống thực trích xuất tính sản phẩm dựa vào từ quan điểm Đặc biệt, luận văn thực tách câu phức câu ghép thành câu đơn Theo đó, câu đơn chứa tính sản phẩm từ quan điểm Luận văn thực phân nhóm câu quan điểm phát biểu tính tổng hợp quan điểm theo từ quan điểm câu dựa vào nhãn từ quan điểm theo chiều hướng tích cực, tiêu cực trung lập Bên cạnh đó, phạm vi luận văn, luận văn chưa thực việc trích xuất sản phẩm mà người tiêu dùng đánh giá câu quan điểm lọc quan điểm spam Trong q trình thực luận văn, tơi cố gắng tiếp cận phương pháp tổng hợp ý kiến theo tính sản phẩm người tiêu dùng Việt Nam tham khảo tài liệu liên quan xử lý ngôn ngữ tự nhiên học máy giới Việt Nam Tuy nhiên thời gian trình độ có hạn nên khơng tránh khỏi hạn chế thiếu sót định Do thật mong muốn nhận góp ý kiến thức chun mơn lẫn cách trình bày 5.2 Hướng nghiên cứu tương lai Khai phá quan điểm nhiều nhà nghiên cứu giới quan tâm ứng dụng rộng rãi lĩnh vực Trong luận văn tôi, chọn hướng nhỏ để nghiên cứu Trong tương lai, muốn mở rộng nghiên cứu cải thiện số vấn đề tồn để cải thiện kết cho mơ hình tổng hợp ý kiến theo tính sản phẩm:  Nghiên cứu phương pháp trích xuất thực thể (sản phẩm) câu đánh giá để có hệ thống có kết tối ưu 46  Cải tiến mơ hình trích xuất tính cho sản phẩm  Cải tiến phương pháp tách câu ghép câu phức thành câu đơn  Xử lý tốt việc nhóm từ tính  Thực xử lý quan điểm Spam, loại bỏ câu đánh giá đánh giá dành cho sản phẩm mà hệ thống xử lý 47 Các cơng trình cơng bố Vũ Thị Nhạn, Nguyễn Việt Anh, Nguyễn Khắc Giáo (2015) Một phương pháp tổng hợp ý kiến đánh giá tính sản phẩm người tiêu dùng Việt Nam, Kỷ yếu Hội thảo quốc gia lần thứ XVIII: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, tr.185-190 48 TÀI LIỆU THAM KHẢO Blair-Goldensohn, S.,Hannan, K., McDonald, R., Neylon, T., Reis,G.A., and Reyna,J (2008), Building a sentiment summarizer for local service reviews In Proceedings of International Conference on World Wide Web Workshop of NLPIX Blei, D.M., Ng, A.Y., Jordan,M.I.(2003), Latent dirichlet allocation.The Journal of Machine Learning Research 3: p 993-1022 Carenini, G., Ng, R., Pauls, A (2006), Multi-Document summarization of evaluative text In Proceeding of Conference of the European Chapter of the ACL(EACL-2006) Guo, H., Zhu, H., Guo, H., Zhang, X., Su, Z (2009), Product feature categorization with multilevel latent semantic association In Proceedings of ACM International Conference on Information and Knowledge Management H Lee, A Chang, Y Peirsman, N Chambers, M Surdeanu, D Jurafsky Deterministic Coreference Resolution Based on Entity-Centric, Precision-Ranked Rules Journal Computational Linguistics (4), December 2013 Pages 885-916) () Hofmann, Thomas (1999), Probabilistic latent semantic indexing In Proceedings of Conference on Uncertainty in Artificial Intelligence (UAI-1999) Hu, M., Liu, B (2004), Mining and summarizing customer reviews In Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining Jin, Wei, Ho,H.H., (2009), A novel lexicalized HMM-based learning framework for web opinion mining In Proceedings of International Conference on Machine Learning (ICML-2009) Kim, S., Zhang, J., Chen, Z., Oh, A.H., Liu, S (2013), “A hierarchical aspect – sentiment model for online reviews”, AAAI 10 Lafferty, John, Andrew McCallum, and Fernando Pereira (2001), Conditional random fields: Probabilistic models for segmenting and labeling sequence data In Proceedings of International Conference on Machine Learning (ICML-2001) 11 Liu, B (2009), Handbook Chapter: “Sentiment Analysis and Subjectivity” Handbook of Natural Language Processing Marcel Dekker, Inc New York, NY, USA 12 Liu, B ( 2010), “Sentiment analysis and subjectivity”, In Handbook of Natural Language Processing, Second Edition 13 Liu, B ( 2012), “Sentiment analysis and Opinion mining”, University Of Illinois at Chicago 49 14 Liu, B (2012), Sentiment Analysis and Opinion Mining Morgan & Claypool Publishers 15 Moghaddam, S.,Ester, M (2010), Opinion digger: an unsupervised opinion miner from unstructured product reviews In Proceedings of ACM International conference on Information and Knowledge Management, 2010 16 Moghaddam, S.,Ester, M (2011), ILDA: interdependent LDA model for learning latent aspects and their ratings from online product reviews In 46 Proceedings of ACM SIGIR International Conference on Information Retrieval 17 Qiu, G., Liu, B., Bu, J., Chen, C (2011), Opinion word expansion and target extraction through double propagation Computational Linguistics 18 Rabiner, Lawrence R (1989), A tutorial on hidden Markov models and selected applications in speech recognition Proceedings of the IEEE, 77(2): pp 257-286 19 Titov, I., and McDonald, R.(2008a), Modeling online reviews with multi-grain topic models In Proceedings of International Conference on World Wide Web 20 Titov, I., and McDonald, R.(2008b), A joint model of text and aspect ratings for sentiment summarization In Proceedings of Annual Meeting of the Association for Computational Linguistics 21 Yu, J., Zha, Z., Wang, M., Wang, K.,Chua, T (2011b) Domain-Assisted product aspect hierarchy generation: towards hierarchical organization of unstructured consumer reviews In Proceedings of Conference on Empirical Methods in Natural Language Processing 22 Zhang, L., Liu, B.(2014), "Aspect and Entity Extraction for Opinion Mining", book chapter in Data Mining and Knowledge Discovery for Big Data: Methodologies, Challenges, and Opportunities 23 Zhang, L., Liu, B., Lim, S., O’Brien-Strain, E., (2010), Extracting and ranking product features in opinion documents In Proceedings of International Conference on Computational Linguistics (COLING-2010) 24 Pang, B., Lee, B (2008), Opinion mining and sentiment analysis, Found Trends Inf Retr 2, 1-2, 1–135 25 Haseena,R.P (2014) “Opinion Mining and Sentiment Analysis -Challenges and Applications”, International Journal of Application or Innovation in Engineering & Management (IJAIEM) 26 Seerat, B., Azam, F (2012), “Opinion Mining: Issues and Challenges”, International Journal of Computer Applications 27 Thuy, H.Q , Thanh, V.T., Trang, P.H., To, L.C (2011) An upgrading feature-based opinion mining model on Vietnamese product reviews In: Active Media Technology, Lecture Notes in Computer Science, Springer Berlin Heidelberg, pp 173–185 50 28 Jindal, Nitin, Liu, B.(2007) Review spam detection In Proceedings of WWW (Poster paper) 29 Jindal, Nitin, Liu, B (2008) Opinion spam and analysis In Proceedings of the Conference on Web Search and Web Data Mining (WSDM-2008) 30 Mauge, K., Rohanimanesh, K., Ruvini, J.D., (2012) Structuring e-commerce inventory In Proceedings of Annual Meeting of the Association for Computational Linguistics (ACL-2012) 31 Zhai, Z., Liu, B., Xu, H., Jia, P (2010) Grouping product features using semisupervised learning with soft-constraints In Proceedings of International Conference on Computational Linguistics (COLING-2010) ... tốt” quan điểm phát biểu tính pin sản phẩm điện thoại Sony Yêu cầu đầu tổng hợp chi tiết chiều hướng quan điểm đến tính sản phẩm  Tổng hợp quan điểm khơng dựa khía cạnh Bài tốn vào tổng hợp quan. .. dụ tổng hợp quan điểm dựa tính sản phẩm iPad [22] Thông thường, tổng hợp quan điểm qua tính sản phẩm gồm bước sau [26]:  Xác định đối tượng  Trích xuất tính  Nhóm tính  Phân lớp quan điểm. .. Tổng hợp quan điểm trực tuyến người tiêu dùng Việt Nam theo tính sản phẩm 27 3.1 Trích xuất tính sản phẩm 28 3.1.1 Tiền xử lý liệu 29 3.1.2 Tách câu quan điểm

Ngày đăng: 09/10/2019, 09:29

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan