KHAI PHÁ lời BÌNH TRÊN các TRANG THƯƠNG mại điện tử để xác ĐỊNH cảm xúc của KHÁCH HÀNG LUẬN văn THẠC sĩ KHOA học máy TÍNH copy

37 17 0
KHAI PHÁ lời BÌNH TRÊN các TRANG THƯƠNG mại điện tử để xác ĐỊNH cảm xúc của KHÁCH HÀNG LUẬN văn THẠC sĩ KHOA học máy TÍNH    copy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA HOÀNG TIẾN SƠN KHAI PHÁ LỜI BÌNH TRÊN CÁC TRANG THƯƠNG MẠI ĐIỆN TỬ ĐỂ XÁC ĐỊNH CẢM XÚC CỦA KHÁCH HÀNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng – Năm 2017 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA HOÀNG TIẾN SƠN KHAI PHÁ LỜI BÌNH TRÊN CÁC TRANG THƯƠNG MẠI ĐIỆN TỬ ĐỂ XÁC ĐỊNH CẢM XÚC CỦA KHÁCH HÀNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Trương Ngọc Châu Đà Nẵng – Năm 2017 LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực hướng dẫn trực tiếp thầy TS.Trương Ngọc Châu Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian, địa điểm cơng bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm Học viên Hoàng Tiến Sơn MỤC LỤC MỞ ĐẦU 1 Tính cấp thiết đề tài Mục đích nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Bố cục đề tài Tổng quan tài liệu tham khảo Chương - CƠ SỞ LÝ THUYẾT 1.1 Khái niệm lời bình 1.2 Khái niệm cảm xúc 1.3 Tổng quan xử lý ngôn ngữ tiếng Anh 1.3.1 Đặc điểm tiếng Anh 1.3.2 Nhận xét tiếng Anh 1.4 Các phương pháp tách từ tiếng Anh 1.4.1 Phương pháp So khớp từ dài (Longest Matching) 1.4.2 Phương pháp Học cải tiến (Transformation-based Learning - TBL) 1.4.3 Phương pháp So khớp cực đại (Maximum Matching) 1.5 Các thuật toán phân loại 1.5.1 K láng giềng gần K-Nearest Neighbors (k-NN) 1.5.2 Linear Least Square Fit 1.5.3 Centroid – based vector 1.5.4 Cây định 1.5.5 C4.5 .12 1.5.6 Máy vector hỗ trợ Support Vector Machine .14 1.5.7 Thuật tốn phân lớp Nạve Bayes 16 1.6 Gán thẻ phân loại văn .18 1.6.1 Gán thẻ từ 18 1.6.2 Phân loại từ 19 Chương - PHÂN TÍCH HỆ THỐNG 21 2.1 Phân tích yêu cầu đề tài 21 2.2 Mơ hình đề xuất phân loại cảm xúc từ lời bình 21 2.3 Thu thập liệu (Crawler) 22 2.3.1 Nguyên lí thu thập liệu 22 2.3.2 Thu thập liệu từ trang web động 23 2.4 Bóc tách liệu (Extractor) .23 2.4.1 Các vấn đề liên quan đến phân tích HTML 23 2.4.2 Chuẩn hóa liệu 26 2.5 Đề xuất mơ hình phân loại lời bình 26 2.6 Phân tích cảm xúc 27 2.6.1 Xác định Holder 27 2.6.2 Xác định Target 28 2.6.3 Phân loại Polarity 28 2.7 Tại lựa chọn giải thuật Naïve Bayer để phân lớp 28 2.7.1 Bài toán tổng quan 28 2.7.2 Bài toán cụ thể 29 2.7.3 Ưu điểm 29 2.7.4 Nhược điểm .30 2.7.5 Đo lường hiệu giải thuật 30 2.8 Máy học tốn phân loại lời bình 31 2.8.1 Các tập liệu cần thiết ý nghĩa phân lớp với máy học 31 2.8.2 Phân rã thông tin từ văn .33 Chương - THIẾT KẾ VÀ CÀI ĐẶT HỆ THỐNG 35 3.1 Xây dựng chương trình mơ .35 3.1.1 Phần cứng 35 3.1.2 Phần mềm 35 3.2 Môi trường phát triển 36 3.3 Phân tích thiết kế hệ thống 36 3.3.1 Hoạt động hệ thống 36 3.3.2 Mô hình thiết kế hệ thống 37 3.3.3 Thiết kế .41 3.4 Kết đạt 42 3.5 Đánh giá kết .48 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50 Kết luận 50 Kết đạt 50 Hướng phát triển 50 TÀI LIỆU THAM KHẢO PHỤ LỤC TÓM TẮT LUẬN VĂN KHAI PHÁ LỜI BÌNH TRÊN CÁC TRANG THƯƠNG MẠI ĐIỆN TỬ ĐỂ XÁC ĐỊNH CẢM XÚC CỦA KHÁCH HÀNG Học viên: Hoàng Tiến Sơn Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Khóa: 31 Trường Đại học Bách khoa – ĐHĐN Tóm tắt – Trong thời đại thương mại điện tử, việc khai phá cảm xúc khác hàng nhằm đưa chiến lược kinh doanh nhu cầu tất yếu tất người tổ chức tham gia bán hàng Tuy nhiên chưa có sản phẩm chuyên lĩnh vực này, có mức thu thập phân tích liệu cách thủ cơng Vấn đề đặt làm để thu thập liệu phân loại liệu cảm xúc cách tự động từ lời bình người dùng thiết bị, sản phẩm từ trích xuất thơng tin có ích nhằm phục vụ nhu cầu phân tích lên kế hoạch kinh doanh Nghiên cứu này, nhằm mục đích đề xuất giải pháp tự động cho vấn đề Khai phá lời bình trang thương mại điện tử để xác định cảm xúc khách hàng từ xây dựng nên biểu đồ trực quan nhằm hỗ trợ tốt cho trình lên kế hoạch kinh doanh Dựa định lý Bayes mã nguồn mở xử lý ngôn ngữ tự nhiên, tác giả đề xuất mô hình giải pháp xây dựng thành chương trình thực tế đáp ứng nhu cầu nhất, đồng thời đưa hướng phát triển Từ khóa – lời bình, khai phá lời bình, python, thương mại điện tử, cảm xúc khách hàng MINING THE COMMENTS ON E-COMMERCE TO IDENTIFY CLIENTS' EMOTIONS Abstract – In the time of e-commerce, identify clients’ emotions to raise business plan is the most needed of sellers and merchants Actually, it does not have any automation specific product for this field, or if have, they are in manual collection and analytic way This research for purpose giving an automation method for Mining the comments on e-commerce to identify clients’ emotions and base on that, building visual diagram for the best support to business plan Base on Bayes theorem and Natural Language Toolkit, an open source, author raised a solution model and built demo that can support basic require, also raised improving plan in the future Key words – comment, comment mining, python, ecommerce, client sentiment DANH MỤC CÁC CHỮ VIẾT TẮT CÁC CHỮ VIẾT TẮT Tiếng Việt CSDL k-NN Cơ sở liệu K láng giềng gần Tiếng Anh DOM HTML kNN LLSF NLTK SVM TBL W3C Document Object Model Hyper Text Markup Language k Nearest Neighbor Linear Least Square Fit Natural Language Toolkit Support Vector Machine Transformation – Based Learning World Wide Web Consortium DANH MỤC CÁC HÌNH VẼ Số hiệu hình vẽ 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 3.20 Tên hình vẽ Mơ hình tự động lấy lời bình Mơ hình tự động bóc tách liệu từ trang web Mơ hình bóc tách liệu từ trang web động Hình minh họa cấu trúc HTML DOM Mơ hình nhận diện cảm xúc Mơ hình máy học phân loại lời bình Các tập liệu thường dùng máy học Hệ thống phân rã thơng tin đơn giản Mơ hình usecase Admin Mơ hình usecase user Biểu đồ xem thống kê theo tên nhãn hiệu Biểu đồ xem thống kê theo tên thiết bị Quan hệ bảng liệu Phân loại theo nhãn hiệu sản phẩm Lời bình phân loại theo nhãn hiệu Phân loại thống kê theo thiết bị Lời bình phân loại theo thiết bị Quá trình lấy liệu tự động Giao diện trang quản lý admin Admin quản lý nhãn hiệu Admin quản lý lời bình Admin quản lý thiết bị Admin quản lý root url Admin quản lý uris Admin chỉnh sửa thông tin nhãn hiệu Admin chỉnh sửa thông tin thiết bị Admin chỉnh sửa thông tin uri Admin thêm root url Trang 21 22 23 24 27 31 32 33 39 39 40 40 41 42 42 43 43 44 44 45 45 46 46 46 47 47 48 48 MỞ ĐẦU Tính cấp thiết đề tài Trong kỹ ngun thời đại cơng nghệ số việc khai phá thơng tin có ích tiềm ẩn sở liệu điều thiếu Hiện phần lớn thông tin khai phá chủ yếu lưu trữ hệ quản trị sở liệu có cấu trúc Tuy nhiên, với phát triển nhanh chóng ngày cịn nhiều kiến thức quan trọng chưa khai phá, tiềm ẩn giới World Wide Web (các websites), liệu tiềm lưu trữ dạng văn bản, dạng liệu phi cấu trúc bán cấu trúc Một số kiến thức quan trọng, đóng vai trò giúp đỡ nghiên cứu thị trường lĩnh vực kinh doanh mặt hàng bán lẻ khám phá cảm xúc, độ quan tâm người dùng mặt hàng, thể qua comment (lời bình) người dùng trang thương mại điện tử, từ có chiến lược điều chỉnh kinh doanh hợp lý Websites thương mại điện tử thường chứa nhiều lời bình Hiện việc thống kê liệu đánh giá độ quan tâm khách hàng tới sản phẩm thường tiến hành thủ công Vấn đề đặt làm để thu thập liệu phân loại liệu cảm xúc cách tự động từ lời bình người dùng thiết bị, sản phẩm từ trích xuất thơng tin có ích nhằm phục vụ nhu cầu phân tích lên kế hoạch kinh doanh Xuất phát từ lý trên, tơi chọn đề tài: “Khai phá lời bình trang thương mại điện tử để xác định cảm xúc khách hàng” làm luận văn thạc sỹ Mục đích nghiên cứu Tìm hiểu cảm xúc khách hàng thơng qua lời bình trang thương mại điện tử Đối tượng phạm vi nghiên cứu a Đối tượng nghiên cứu  Cảm xúc lời bình trang thương mại điện tử điện thoại di động thông minh  Các phương pháp phân loại cảm xúc văn tiếng Anh  Phân loại cảm xúc văn tiếng Anh phương pháp phân lớp Naive Bayes Classifiers 14 |𝑆𝑗 | |𝑆| Với |Sj| kích thước tập case có giá trị phân lớp Cj |S| kích thước tập liệu đào tạo Chỉ số thơng tin cần thiết cho phân lớp: I(S) với S tập cần xét phân phối lớp tính bằng: 𝑅𝐹(𝐶𝑗 , 𝑆) = 𝑥 𝐼(𝑆) = − ∑ 𝑅𝐹(𝐶𝑗 , 𝑆) log(𝑅𝐹(𝐶𝑗 , 𝑆)) 𝑗=1 Sau S phân chia thành tập S1, S2, …, St test B information gain tính bằng: |𝑆𝑖 | 𝐺(𝑆, 𝐵) = 𝐼(𝑆) − ∑ 𝐼(𝑆𝑖 ) |𝑆| Test B chọn có G(S,B) đạt giá trị lớn Tuy nhiên có vấn đề sử dụng G(S,B) ưu tiên test có số lượng lớn kết quả, ví dụ G(S,B) đạt cực đại với test mà Si chứa case đơn Tiêu chuẩn gain ratio giải vấn đề việc đưa vào thông tin tiềm (potential information) thân phân hoạch |𝑆𝑖 | |𝑆𝑖 | 𝑃(𝑆, 𝐵) = − ∑ log( ) |𝑆| |𝑆| Test B chọn có tỉ số giá trị 𝑔𝑎𝑖𝑛 𝑟𝑎𝑡𝑖𝑜𝑛 = 𝐺(𝑆,𝐵) 𝑃(𝑆,𝐵) lớn Trong mơ hình phân lớp C4.5, dùng hai loại số Information Gain hay Gain ratio để xác định thuộc tính tốt Trong Gain ratio lựa chọn mặc định C4.5 thuật toán hiệu cho tập liệu vừa nhỏ C4.5 có chế sinh định hiệu chặt chẽ việc sử dụng độ đo lựa chọn thuộc tính tốt information gain Các chế xử lý với giá trị lỗi, thiếu chống “quá vừa” liệu C4.5 với chế cắt tỉa tạo nên sức mạnh C4.5 Thêm vào đó, mơ hình phân lớp C4.5 cịn có phần chuyển đổi từ định sang luật if- then, làm tăng độ xác tính dễ hiểu kết phân lớp Đây tiện ích có ý nghĩa người sử dụng 1.5.6 Máy vector hỗ trợ Support Vector Machine Máy vectơ hỗ trợ (SVM - viết tắt tên tiếng Anh support vector machine) khái niệm thống kê khoa học máy tính cho tập hợp phương pháp học có giám sát liên quan đến để phân loại phân tích hồi quy SVM dạng chuẩn nhận liệu vào phân loại chúng vào hai lớp khác 15 Do SVM thuật tốn phân loại nhị phân Với ví dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng mơ hình SVM để phân loại ví dụ khác vào hai thể loại Một mơ hình SVM cách biểu diễn điểm không gian lựa chọn ranh giới hai thể loại cho khoảng cách từ ví dụ luyện tập tới ranh giới xa Các ví dụ biểu diễn khơng gian thuật tốn dự đốn thuộc hai thể loại tùy vào ví dụ nằm phía ranh giới Tổng quan máy vectơ hỗ trợ Một máy vectơ hỗ trợ xây dựng siêu phẳng tập hợp siêu phẳng không gian nhiều chiều vô hạn chiều, sử dụng cho phân loại, hồi quy, nhiệm vụ khác Một cách trực giác, để phân loại tốt siêu phẳng nằm xa điểm liệu tất lớp (gọi hàm lề) tốt, nói chung lề lớn sai số tổng qt hóa thuật toán phân loại bé Trong nhiều trường hợp, phân chia lớp liệu cách tuyến tính khơng gian ban đầu dùng để mơ tả vấn đề Vì vậy, nhiều cần phải ánh xạ điểm liệu không gian ban đầu vào không gian nhiều chiều hơn, để việc phân tách chúng trở nên dễ dàng khơng gian Để việc tính tốn hiệu quả, ánh xạ sử dụng thuật toán SVM địi hỏi tích vơ hướng vectơ liệu khơng gian tính dễ dàng từ tọa độ khơng gian cũ Tích vô hướng xác định hàm hạt nhân K(x,y) phù hợp.[5] Một siêu phẳng không gian định nghĩa tập hợp điểm có tích vơ hướng với vectơ cố định khơng gian số Vectơ xác định siêu phẳng sử dụng SVM tổ hợp tuyến tính vectơ liệu luyện tập không gian với hệ số αi Với siêu phẳng lựa chọn trên, điểm x không gian đặc trưng ánh xạ vào siêu mặt phẳng điểm thỏa mãn: Σi αi K(xi,x) = số Ghi K(x,y) nhận giá trị ngày nhỏ y xa dần khỏi x số hạng tổng dùng để đo độ tương tự x với điểm xi tương ứng liệu luyện tập Như vậy, tác dụng tổng so sánh khoảng cách điểm cần dự đoán với điểm liệu biết Lưu ý tập hợp điểm x ánh xạ vào siêu phẳng có độ phức tạp tùy ý khơng gian ban đầu, nên phân tách tập hợp chí khơng lồi khơng gian ban đầu 16 1.5.7 Thuật tốn phân lớp Naïve Bayes Naïve Bayes tập thuật tốn phân loại dựa Bayes’ theorem, khơng phải thuật toán riêng lẽ mà thuật tốn có họ hàng với chia sẻ nguyên tắc chung Naïve Bayes phương pháp phân loại dựa xác suất sử dụng rộng rãi lĩnh vực máy học (Mitchell trình bày năm 1996, Joachims trình bày năm 1997 Jason năm 2001) sử dụng lần lĩnh vực phân loại Maron vào năm 1961, sau trở nên phổ biến dùng nhiều lĩnh vực công cụ tìm kiếm mơ tả Ri sbergen năm 1970, lọc mail mô tả Sahami năm 1998, … Ý tưởng cách tiếp cận Nạve Bayes sử dụng xác suất có điều kiện từ chủ đề để dự đoán xác suất chủ đề văn cần phân loại Điểm quan trọng phương pháp chỗ giả định xuất tất từ văn độc lập với Với giả định phương pháp Nạve Bayes khơng sử dụng phụ thuộc nhiều từ vào chủ đề, không sử dụng việc kết hợp từ để đưa phán đoán chủ đề Định lý Bayes Cho X, C biến (rời rạc, liên tục, cấu trúc) Mục tiêu ta dự đoán C từ X Từ mơ hình Bayes ta lượng giá tham số P(X|C), P(C) trực tiếp từ tập huấn luyện Sau đó, ta sử dụng định lý Bayes để tính P(C|X=x) Độc lập điều kiện (conditional independence): X độc lập điều kiện với Y cho Z phân bố xác suất X độc lập với giá trị Y cho giá trị Z Ta thường viết P(X|Y,Z) = P(X|Z) Ví dụ: P(Sấm sét|Mưa,Chớp) = P(Sấm sét|Chớp) Naïve Bayes Giả sử D tập huấn luyện gồm mẫu biểu diễn dạng X = .Ci,D tập mẫu D thuộc lớp Ci(i = {1, …, m}) Các thuộc tính x1, …, xn độc lập điều kiện đơi với cho lớp C Thuật tốn Bước 1: Huấn luyện Naive Bayes tập liệu huấn luyện Lượng giá P(Ci) P(Xk|Ci) Bước 2: X_new gán vào lớp cho giá trị công thức lớn nhất: 𝑛 𝑎𝑟𝑔𝑚𝑎𝑥𝐶𝑘 P(Ci) ∏ 𝑃(𝑥𝑘 |𝐶𝑖 ) 𝑘=1 17 Bài tốn cụ thể Có Training Data Unseen data sau Sử dụng Naïve Bayes Classifier để phân lớp cho Unseen data (X) Class: C1:buys_computer =”yes”, C2:buys_computer =”no” Tính P(X|Ci) cho class X=(age

Ngày đăng: 09/09/2021, 14:35