Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - LÊ VĂN TRUNG LÊ VĂN TRUNG HỆ THỐNG PHÂN TÍCH THƠNG TIN PHẢN HỒI VỀ HỆ THỐNG THÔNG TIN 2016 - 2018 HỒ SẢN PHẨM CỦA KHÁCH HÀNG TRÊN WEBSITE THƯƠNG MẠI LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) CHÍ MINH 2017 TP.HỒ CHÍ MINH - 2017 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - LÊ VĂN TRUNG HỆ THỐNG PHÂN TÍCH THƠNG TIN PHẢN HỒI VỀ SẢN PHẨM CỦA KHÁCH HÀNG TRÊN WEBSITE THƯƠNG MẠI Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC TS TÂN HẠNH TP.HỒ CHÍ MINH - 2017 ii i LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết trình bày luận văn trung thực chưa công bố cơng trình khác Tp HCM, ngày 10 tháng 11 năm 2017 Học viên thực luận văn Lê Văn Trung ii LỜI CẢM ƠN Em xin gửi lời cảm ơn sâu sắc tới Thầy Tân Hạnh, cảm ơn Thầy tận tình hướng dẫn, truyền đạt cho em kiến thức kinh nghiệm quý báu Em xin gửi lời tri ân tới quý Thầy Cô Học Viện Cơng Nghệ Bưu Chính Viễn Thơng sở thành phố Hồ Chí Minh, cảm ơn Thầy Cơ tận tình bảo truyền đạt kiến thức thời gian vừa qua Trong suốt trình làm đề tài em nhận quan tâm giúp đỡ q thầy cơ, gia đình bạn bè Đó nguồn động viên quý giá, tiếp thêm động lực thêm sức mạnh cho em hoàn thành đồ án Tuy nhiên, với điều kiện thời gian kinh nghiệm hạn chế mình, đề tài khơng thể tránh thiếu sót Rất mong nhận bảo, đóng góp ý kiến Thầy Cơ để em có điều kiện bổ sung, nâng cấp đồ án sau Hy vọng ngày không xa, tiếp tục phát triển áp dụng vào thực tiễn Em xin chân thành cảm ơn! Tp HCM, ngày 10 tháng 11 năm 2017 Học viên thực luận văn Lê Văn Trung iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH SÁCH BẢNG vii DANH SÁCH HÌNH VẼ viii MỞ ĐẦU .1 Chương – TỔNG QUAN 1.1 Giới thiệu tổng quan 1.1.1 Mục tiêu nghiên cứu 1.1.2 Đối tượng phạm vi nghiên cứu 1.1.3 Ý nghĩa luận văn .6 1.2 Kết luận chương .6 Chương – CƠ SỞ LÝ THUYẾT 2.1 Truy hồi thông tin 2.1.1 Tổng quan hướng tiếp cận truy hồi thông tin 10 2.1.2 Truy hồi thông tin theo hướng thống kê 11 2.1.2.1 Mơ hình Boolean 12 2.1.2.2 Mô hình khơng gian vector 16 2.1.3 Truy hồi thông tin theo hướng ngữ nghĩa 233 2.1.3.1 Hướng tiếp cận xử lý ngôn ngữ tự nhiên 233 2.1.3.2 Hướng tiếp cận Ontology 26 2.2 Phân loại văn 29 iv 2.2.1 Naive Bayes 33 2.2.2 Thuật toán định .34 2.2.3 Thuật toán k láng giềng gần 36 2.2.4 Thuật toán Support Vector Machine (SVM) 39 2.3 Kết luận chương 41 Chương – XÂY DỰNG HỆ THỐNG 42 3.1 Kiến trúc tổng quan hệ thống .42 3.2 Xây dựng Web Crawler 444 3.3 Tiền xử lý văn .46 3.4 Sử dụng Bag Of Words để tạo features .47 3.5 Vector hóa cho tập liệu xử lý .477 3.6 Áp dụng hàm phân lớp 488 3.7 Các bước xử lý hệ thống .51 3.8 Kết luận chương .51 KẾT LUẬN VÀ KHUYẾN NGHỊ .53 DANH MỤC TÀI LIỆU THAM KHẢO 53 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh HTML HyperText Markup Language HTTP Hypertext Transfer Protocol DNS Domain Name Service TCP Transmission Control Protocol ML Machine Learning NLP Natural Language Processing NNA Neural NetWork Algorithms IR Information Retrieval SVM Support Vector Machine K-NN K-Nearest Neighbors DTS Decision Trees TF Term Frequency IDF Inverse Document Frequency URL Uniform Resource Locator nltk Natural Language Toolkit VNLP Vietnamese Natural Language Processing JVnTextPro A Java-based Vietnamese Text Processing Tool vnTokenizer Vietnamese Word Segmentation vi DANH SÁCH BẢNG Bảng 3.1: Bảng đánh giá chi tiết Linear SVM – Amazon…………………………….49 Bảng 3.2: Bảng đánh giá chi tiết Linear SVM – Lazada…………………………… 49 41 Bài toán tối ưu SVM toán lồi với hàm mục tiêu stricly convex, nghiệm toán Hơn nữa, tốn tối ưu lập trình bậc hai (Quadratic Programming - QP) 2.3 Kết luận chương Chương trình bày mơ hình truy hồi thơng tin tốn phân loại văn bản, số giải thuật áp dụng NLP 42 Chương – XÂY DỰNG HỆ THỐNG Chương khảo sát cài đặt mơ hình áp dụng cho tốn phân tích phản hồi khách hàng website thương mại Amazon Lazada: Mơ hình sử dụng thư viện Python để thu thập phản hồi người dùng trang Amazon cho tiếng Anh Lazada cho phần tiếng Việt Mơ hình sử dụng Bag of words để tạo features vector Mơ hình sử dụng ma trận term-document làm input cho hàm phân lớp Mơ hình sử dụng nhiều thuật giải phân lớp khác để đưa mơ hình hiệu (KNN, Decision Tree, Naive Bayes, SVM) 3.1 Kiến trúc tổng quan hệ thống … … ……… … ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… … … … PHÂN LOẠI SCORE VECTOR HĨA TỈ LỆ % TÍCH CỰC PHÂN TÍCH CÁC HÀM PHÂN LỚP 43 Hình 3.1: Tổng quan mục tiêu hệ thống Phân loại điểm (score): sau thu thập làm liệu, hệ thống phân loại điểm (score - sao) phản hồi Để phân biệt rõ phản hồi tích cực (lớn sao) tiêu cực (bé sao) Vector hóa: Sử dụng Bag of words để tạo features Bag of Words model xây dựng từ vựng thơng qua tập văn bản, sau mơ hình hóa văn (vector hóa) cách đếm số lần xuất từ xuất văn Phân tích hàm phân lớp: Ta sử dụng tập hàm phân lớp khác để chọn mơ hình cho kết xác cao Mục tiêu hệ thống phân tích tỉ lệ phần trăm phản hồi tích cực khách hàng webstie thương mại Amazon Lazada cho danh mục sản phẩm Để thực mục tiêu này, ta xây dựng theo giải pháp sau: CRAWLER CLEAN DATA PHÂN % TÍCH Hình 3.2: Giải pháp tổng quan Trong giải pháp đề xuất trên, cần cài đặt web crawler để thực việc thu thập phản hồi từ khách hàng website thương mại Amazon Lazada 44 Quy trình xử lý hệ thống gồm bước: Thu thập phản hồi từ Amazon Lazada web crawler thực Tiền xử lý văn phản hồi thu thập Vector hóa văn làm tham số cho hàm phân loại Áp dụng thuật toán phân loại Các phần trình bày cụ thể bước xử lý 3.2 Xây dựng Web Crawler Web crawler chương trình tự động tìm kiếm internet, trình thu thập web (còn gọi mạng nhện) chương trình duyệt World Wide Web cách có phương pháp, cách tự động Web crawler loại bot hay gọi bọ tìm kiếm Các web crawler thường dùng vào nhiều mục đích khác Có nhiều loại web crawler sử dụng, phổ biến quan tâm nhiều bot “bóc tách” website thu thập tài liệu để xây dựng mục tìm kiếm, cho cơng cụ tìm kiếm khác Chương trình trang web sau liên kết trang Web kho thông tin lưu trữ tập trung, mà tập gồm hàng trăm, hàng nghìn nhà cung cấp khác độc lập nhau, nhà cung cấp có dịch vụ riêng họ, nhà cung cấp đối thủ cạnh tranh Nói cách khác, web xem kho thông tin liên hợp kết hợp với tập giao thức chuẩn liệu thống TCP (Transmission Control Protocol), DNS (Domain Name Service), HTTP (Hypertext Transfer Protocol), HTML (Hypertext Maker Language) Thuật toán web crawler đơn giản: cho tập URL, web crawler tải tất trang web cho URL, trích xuất hyperlink sau tải trang web cho hyperlink Tuy nhiên, web crawler có thách thức như: mở rộng liên tục web, đánh đổi lượng 45 thông tin thu trang web thông lượng web crawler, bị nghi ngờ tin tặc, ngăn chặn từ nhà cung cấp,… Do yêu cầu cụ thể đề tài thu thập phản hồi sản phẩm khách hàng từ website thương mại Amazon Lazada nên định cụ thể URL cho web crawler thực thiện việc thu thập xây dựng tập tin cấu hình bao gồm phần: product/productId review/score review/summary review/text Tuy nhiên, ta quan tâm số yếu tố sau, để phục vụ cho việc phân tích: review/score: điểm đánh giá người dùng cụ thể review/text: phản hồi người dùng Các phản hồi từ khách hàng web crawler thu thập được, lưu trữ vào tập tin để phục vụ cho bước xử lý sau Các bước thực cho hệ thống Web Crawler: Đầu vào hệ thống đường dẫn link trang web thương mại điện tử (danh sách sản phẩm) như: Amazon, Lazada … Hệ thống thực thu thập mã sản phẩm trang Từ danh sách mã sản phẩm thu thập được, hệ thống thực crawler phản hồi khách hàng sản phẩm Trích lọc thơng tin cần láy cho việc phân tích sau Từ danh sách mã sản phẩm phản hồi tương ứng, hệ thống lưu vào tập tin để sử dụng cho việc làm liệu phân tích sau 46 3.3 Tiền xử lý văn Văn ngôn ngữ phi cấu trúc, cần phải chuyển đổi văn thành dạng cấu trúc để phân loại tự động Giai đoạn tiền xử lý văn bước đệm để việc vector hóa văn bước sau tiến hành thuận lợi có hiệu suất tốt cho q trình phân loại Các cơng việc giai đoạn tiền xử lý văn là: Loại bỏ thẻ HTML Loại bỏ kí số, kí tự đặc biệt dấu chấm, dấu phẩy … Tách từ loại bỏ từ khơng có nghĩa (stop words) Stop words từ xuất nhiều tất văn thuộc nhiều thể loại khác nhau, không mang ý nghĩa khơng chứa thơng tin đáng kể, khơng góp phần vào trình học hệ thống, tiếng Anh: “a”, “and”, “is” “the”… tiếng Việt: “thì”, “là”, “ở”, “đi”, “theo”… Trong trình phân loại văn bản, xuất stop word khơng hỗ trợ mà làm giảm độ xác q trình phân loại làm tăng thời gian xử lý Do cần phải loại bỏ stop words Để loại bỏ stop words tiếng Anh, ta làm sau: Chuyển văn sang chữ thường tách thành danh sách từ riêng biệt Sử dụng stop words (hổ trợ thư viện Natural Language Toolkit - nltk python) để lọc danh sách từ có ý nghĩa Lưu kết đến tập tin mới, để sử dụng cho bước sau Đối với tiếng Việt: thứ không đơn giản tiếng Anh có thêm từ ghép Có thể tách từ theo nhiều cách khác gây nhập nhằng ngữ nghĩa Thật may mắn ta áp dụng cơng cụ mở “VnTokenizer - Vietnamese word segmentation” tác giả Lê Hồng Phương để đảm nhận việc Sử dụng danh sách stop word tiếng Anh dịch sang tiếng Việt, đồng thời xây dựng thêm từ nguồn internet để xây dựng thành tập stop words cho tiếng Việt 47 Áp dụng thư viện VnTokenizer để ghép tách từ loại bỏ stop words tiếng Việt Sử dụng Bag Of Words để tạo features 3.4 Bag of Words model xây dựng từ vựng thông qua tập văn bản, sau mơ hình hóa văn (vector hóa) cách đếm số lần xuất từ xuất văn Ví dụ, ta có hai câu sau: Câu 1: “The cat sat on the hat” Câu 2: “The dog ate the cat and the hat” Từ hai câu trên, từ vựng là: { the, cat, sat, on, hat, dog, ate, and } Để có bags of words, ta đếm số lần xuất từ câu Trong câu 1, “the” xuất lần, từ “cat”, “sat”, “on”, “hat” đề xuất lần, nên ta có feature vector cho câu là: Câu 1: { 2, 1, 1, 1, 1, 0, 0, } Câu 2: { 3, 1, 0, 0, 1, 1, 1, 1} Áp dụng tương tự cách làm cho tập tiếng Việt 3.5 Vector hóa cho tập liệu xử lý Do liệu lớn điều kiện thiết bị hạn chế, nên ta lấy khoảng vài nghìn dòng quan sát để thực nghiệm Ta loại bỏ bớt phản hồi có số “3.0” để phân biệt rõ ràng phản hồi tích cực (positive – lớn sao) tiêu cực (negative – bé sao) Ở đây, ta đánh giá phản hồi tích cực có điểm đánh giá lớn “4.0” Tiếp theo, ta phân chia tập liệu train test theo tỉ lệ 80/20 Hàm “CountVectorizer” thư viện scikit-learn (sklearn) python 48 dùng để phát sinh Vector Bag Of Words Cuối cùng, ta sử dụng hàm “fit_transform” (kết trả từ CountVectorizer) để chuyển đổi thành ma trận “term-document” làm input cho hàm phân lớp Lưu ý, áp dụng cho tiếng Anh tiếng Việt qua xử lý Tuy nhiên tính chất luận văn thạc sĩ nên ta ưu tiên tập trung xử lý chi tiết cho phần tiếng Việt 3.6 Áp dụng hàm phân lớp Ta sử dụng tập hàm phân lớp khác (trong máy học có giám sát Supervised Learning) để chọn mơ hình cho kết xác cao như: KNN, Decision Tree, Naive Bayes, SVM Hình 3.3: Biểu đồ thống kê phần trăm tích cực phản hồi khách hàng theo hàm phân lớp khác – Amazon (tiếng Anh) Biểu đồ kết mơ hình thực nghiệm Amazon: K-Nearest Neighbors (K-NN) accuracy: 80.03 % Linear Support Vector Classification (Linear SVM) accuracy: 83.26 % RBF SVM (Radial Basis Function kernel SVM) accuracy: 82.82 % Decision Trees (DTs) accuracy: 82.88 % 49 Naive Bayes (Gaussian Naive Bayes - GaussianNB) accuracy: 78.72 % Hình 3.4: Biểu đồ thống kê phần trăm tích cực phản hồi khách hàng theo hàm phân lớp khác – Lazada (tiếng Việt) Biểu đồ kết mơ hình thực nghiệm Lazada: K-Nearest Neighbors (K-NN) accuracy: 81.49 % Linear Support Vector Classification (Linear SVM) accuracy: 85.34 % RBF SVM (Radial Basis Function kernel SVM) accuracy: 81.97 % Decision Trees (DTs) accuracy: 84.86 % Naive Bayes (Gaussian Naive Bayes - GaussianNB) accuracy: 54.81 % Kết thúc q trình huấn luyện đánh giá, ta thấy hàm phân lớp Linear SVN cho kết cao xử lý tiếng Anh lẫn tiếng Việt, nên nhận định phù hợp cho tốn 50 Precision Recall F1-score (độ xác) (độ phủ) (độ F) False (tiêu cực) 0.80 0.01 0.03 True (tích cực) 0.83 1.00 0.91 avg / total 0.83 0.83 0.76 (trung bình/ tổng văn bản) Bảng 3.1: Bảng đánh giá chi tiết Linear SVM - Amazon Precision Recall F1-score (độ xác) (độ phủ) (độ F) False (tiêu cực) 0.72 0.24 0.36 True (tích cực) 0.85 0.98 0.91 avg / total 0.83 0.84 0.81 (trung bình/ tổng văn bản) Bảng 3.2: Bảng đánh giá chi tiết Linear SVM – Lazada Trong đó: Precision (độ xác): lấy Recall (độ phủ): lấy F1-Score (độ F): tính dựa vào Precision Recall 51 3.7 Các bước xử lý hệ thống Khai thác tính (Feature Extraction): Sau có tập liệu tiến hành số bước lựa chọn thuộc tính đầu vào cho tốn phân lớp Sẽ bao gồm số bước sau: Tách từ (Words segmentation): bước quan trọng bậc xử lý ngôn ngữ tự nhiên Nhất Tiếng Việt, khơng đơn giản tiếng anh có thêm từ ghép Có thể tách từ theo nhiều cách khác gây sựu nhập nhằng mặt ngữ nghĩa Đây tốn khó Tuy nhiên, hệ thống sử dụng công cụ VnTokenizer [14] Loại bỏ Stopwords (trích chọn đặc trưng): bước loại bỏ từ khơng có ý nghĩa việc phân loại hệ thống Trong Tiếng Anh danh sách stopwords hổ trợ sẵn thư viện Python Đối với Tiếng Việt cần định nghĩa danh sách stopwords phù hợp với lĩnh vực thương mại điện tử Xây dựng từ điển từ: chuyển từ văn có thành dạng biểu diễn số Xây dựng từ điển sau thay từ thứ tự xuất từ điển Khởi tạo Vector thuộc tính với Bag of Word: khởi tạo vector thuộc tính cho file tập liệu, dựa số lần xuất từ Mỗi vector có độ dài số từ từ điển Phân lớp văn bản: Sau có vector thuộc tính sử dụng phương pháp Bag of Word tiến hành phân loại văn Chia tập liệu thành hai phần, 80% liệu sử dụng cho việc training, 20% liệu cho testing Sử dụng số thuật toán phân lớp hổ trợ Python để training testing 3.8 Kết luận chương Chương khảo sát cài đặt mô hình áp dụng cho tốn phân tích phản hồi khách hàng website thương mại Amazon Lazada: 52 Mơ hình sử dụng Bag Of Words để tạo Features vector Mơ hình sử dụng ma trận Term-document làm input cho hàm phân lớp Mô hình sử dụng nhiều thuật giải phân lớp khác máy học có giám sát để đưa mơ hình hiệu 53 KẾT LUẬN VÀ KHUYẾN NGHỊ Kết luận văn Đã xây dựng hệ thống thu thập, tổng hợp phân loại ý kiến, phản hồi từ người dùng (khách hàng) Có ý nghĩa phục vụ việc tổng hợp, xem xét, đánh giá, phân tích kinh doanh sản phẩm website thương mại điện tử Hiểu Máy học (Machine learning) nói chung xử lý ngơn ngữ tự nhiên nói riêng Nắm bắt quy trình khai phá liệu, khơng giúp ích cho báo cáo tốt nghiệp Thạc sĩ mà hành trang tuyệt vời cho đường hướng đến Khoa học liệu (Data science) em Hạn chế Đối với phần xử lý văn cho tiếng Việt (trên tập liệu website Lazada.vn), sử dụng Vector Bags Of Word nên độ xác chưa cao Do từ vựng sau thực nghiệm chứa nhiều từ xuất nhiều khơng có nghĩa, khơng giúp ích cho q trình phân tích, đánh giá, làm giảm độ xác, tốc độ xử lý Giao diện hệ thống chưa đầy đủ, số yếu tố đầu vào thủ cơng Hướng phát triển Dữ liệu nên giữ lại biểu tượng cảm xúc hay từ viết tắt phổ biến Thay đổi cập nhật số lượng từ vựng Bag Of Words cho đầy đủ phù hợp lĩnh vực thương mại Nên cần cải tiến thêm độ xác Vector Bags Of Word, cách áp dụng giải thuật tf-idf (Term frequency – Inverse document frequency) để loại bỏ từ xuất nhiều khơng có nghĩa, khơng giúp ích cho q trình phân tích, đánh giá Xây dựng website hồn thiện xử dụng thực tế 54 DANH MỤC TÀI LIỆU THAM KHẢO [1] Nguyễn Việt Cường, Biểu diễn văn bản, Luận án tốt nghiệp, Đại học Công nghệ, ĐHQG Hà Nội, 2006 [2] C J van RIJSBERGEN B.Sc., Ph.D., M.B.C.S., “INFORMATION RETRIEVAL”, 1979 [3] Salton, G., Fox, E.A., Wu H., “Extended Boolean Information Retrieval”, Communications of the ACM, 26(11), pp 1022-1036, 1983 [4] Cambridge University Press, “6 Scoring, term weighting and the vector space model”, 2009 [5] Gerard Salton, J Allan, C Buckley, “Approaches to Passage Retrieval in Full Text Information Systems”, pp 49-58, 1993 [6] Le-Hong, P., T M H Nguyen, A Roussanaly, and T V Ho, “A hybrid approach to word segmentation of Vietnamese texts”, Proceedings of the 2nd International Conference on Language and Automata Theory and Applications, Tarragona, Spain, Springer, LNCS 5196, pp 240 249, 2008 [7] Henrik Bulskov Styltsvig, “Ontology-based Information Retrieval”, A dissertation Presented to the Faculties of Roskilde University in Partial Fulfillment of the Requirement for the Degree of Doctor of Philosophy, 2006 [8] Fabrizio Sebastiani, “Machine Learning in Automated Text Categorization”, ACM Computing Surveys, Vol 34 (No 1), pp 01- 47, 2002 [9] Jason D M Rennie, “Improving multi-class text classification with naive bayes”, Master's thesis, Massachusetts Institute of Technology, 2001 55 [10] L.Breiman,J.Friedman,R.Olshen, and C.Stone, “Classication and regression trees”, Wadsworth,Belmont,1984 [11] L Kozma, k Nearest Neighbours Algorithm Helsinki University of Technology, Available: http://www.lkozma.net/knn2.pdf, 2008 [12] Andrew Ng, “CS229 Lecture notes”, Part V, 2016 [13] Mohammed.Andul.Wajeed, T.Adilakshmi, “Text classification using machine learning”, JATIT, Journal of Theoretical and Applied Information Technology, 2009 [14] Lê Hồng Phương, http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer, truy cập ngày 05/11/2017 [15] Richert - Coelho, “Building Machine Learning Systems with Python”, 2013 [16] Nikhil Ketkar, “Deep Learning with Python”, A Hands-on Introduction - 1E, 2017 [17] John Hunter, Darren Dale, Eric Firing, Michael Droettboom, “Matplotlib”, Release 2.0.2, 2017 [18] Oreilly, “Python.for.Unix.and.Linux.System.Administration.Sep”, 2008 [19] Lê Văn Duyệt, https://github.com/stopwords/vietnamese-stopwords, truy cập ngày 05/11/2017 [20] Harrison, https://pythonprogramming.net/machine-learning-tutorial-python- introduction, truy cập ngày 05/11/2017 [21] NLTK Project, http://www.nltk.org, truy cập ngày 05/11/2017 ... CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - LÊ VĂN TRUNG HỆ THỐNG PHÂN TÍCH THƠNG TIN PHẢN HỒI VỀ SẢN PHẨM CỦA KHÁCH HÀNG TRÊN WEBSITE THƯƠNG MẠI Chuyên ngành: Hệ thống thông tin Mã số:... cảnh hẹp luận văn, tốn Phân Tích Phản Hồi Về Sản Phẩm Của Khách Hàng Trên Website Thương Mại (Amazon Lazada) xem tốn phân lớp Cơng việc phân tích văn tự động phân loại văn theo hướng tích cực hay... văn Và lý do, mục đích để tơi chọn đề tài Hệ Thống Phân Tích Thông Tin Phản Hồi Về Sản Phẩm Của Khách Hàng Trên Website Thương Mại làm đề tài luận văn thạc sĩ 3 Chương - TỔNG QUAN Chương tập