Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 93 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
93
Dung lượng
4,1 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã ngành: 84.8.02.01 Đề tài: PHÂN LỚP Ý KIẾN KHÁCH HÀNG VÀ ỨNG DỤNG TRONG HỆ TƢ VẤN BÁN HÀNG TRỰC TUYẾN HỌC VIÊN THỰC HIỆN: TẠ VĂN KHOA HƢỚNG DẪN KHOA HỌC: PGS TS ĐOÀN VĂN BAN HÀ NỘI, 2022 LỜI CẢM ƠN Lời cảm ơn trân trọng đầu tiên, muốn dành tới thầy, cô giáo Trƣờng Đại học Mở Hà Nội thầy, cô giáo Viện Hàn lâm Khoa học Công nghệ Việt Nam tận tình giảng dạy truyền đạt kiến thức suốt khóa học cao học vừa qua Đặc biệt tơi xin bày tỏ lịng biết ơn chân thành sâu sắc tới thầy PGS.TS Đồn Văn Ban, tận tình dìu dắt hƣớng dẫn tơi suốt q trình làm luận văn, bảo định hƣớng thầy giúp tự tin nghiên cứu vấn đề giải tốn cách khoa học Tơi xin chân thành cảm ơn thầy, cô giáo viên Công nghệ Thông Tin trƣờng Trƣờng Đại học Mở Hà Nội tạo điều kiện thuận lợi cho tơi q trình học tập, nghiên cứu Cuối cùng, xin cảm ơn tập thể lớp Cơng nghệ thơng tin khóa 18, bạn cổ vũ, khích lệ chia sẻ kinh nghiệm thân giúp luận văn tơi ngày hồn thiện Mặc dù cố gắng nhiều nhƣng chắn q trình học tập nhƣ luận văn khơng khỏi thiếu sót Tơi mong nhận đƣợc thơng cảm bảo tận tình thầy cô bạn Tôi xin chân thành cảm ơn! Hà Nội, ngày 21 tháng 04 năm 2021 Tạ Văn Khoa i LỜI CAM ĐOAN Tên là: Tạ Văn Khoa Sinh ngày: 11/01/1988 Là học viên lớp cao học : 18M-CT52 Trƣờng Đại học Mở Hà Nội Nơi công tác: Trƣờng Cao đẳng Cơ Khí Nơng Nghiệp – Vĩnh Phúc Tôi xin cam đoạn : Tôi xin cam đoan “Phân lớp ý kiến khách hàng ứng dụng hệ tƣ vấn bán hàng trực tuyến” công trình nghiên cứu khoa học tơi dƣới hƣớng dẫn khoa học trực tiếp PGS.TS Đoàn Văn Ban Các nội dung nghiên cứu, kết nghiên cứu đƣợc trình bày luận văn hồn tồn trung thực, khơng vi phạm điều luật sở hữu trí tuệ pháp luật Việt Nam Mọi tham khảo dùng khóa luận đƣợc trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian, địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm Hà Nội , ngày 21 tháng 04 năm 2021 Học viên thực Tạ Văn Khoa ii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC BẢNG vii DANH MỤC HÌNH viii MỞ ĐẦU 1 Tính cấp thiết đề tài Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu Cấu trúc luận văn CHƢƠNG 1: PHÂN LỚP DỮ LIỆU 1 Giới thiệu phân lớp liệu 1.2 Quy trình phân lớp liệu 1.3 Các vấn đề liên quan đến phân lớp liệu CHƢƠNG 2: MỘT SỐ KỸ THUẬT TRONG PHÂN LOẠI VĂN BẢN 16 2.1 Xử lý văn tiếng Việt 16 2.1.1 So sánh tiếng Anh tiếng Việt 16 2.1.2 Một số phƣơng pháp tách từ 17 2.2 Biểu diễn văn 26 2.2.1 Mô hình boolean 26 2.2.2 Mơ hình khơng gian vector 27 2.2.3 Mô hình logic 32 2.2.4 Mơ hình phân tích cú pháp 33 2.2.5 Mơ hình tần suất 34 2.2.6 Các mơ hình biểu diễn văn khác 36 2.3 Độ tƣơng đồng 37 2.3.1 Khái niệm 38 2.3.2 Độ tƣơng đồng văn Tiếng Việt 38 2.3.3 Độ tƣơng đồng văn dựa tập từ chung 39 iii 2.3.4 Độ tƣơng đồng văn dựa vector biểu diễn 40 2.3.5 Tính độ tƣơng đồng cho toàn văn 41 2.4 Các phƣơng pháp phân loại văn 42 2.4.1 Phƣơng pháp Naïve Bayes (NB) 42 2.4.2 Phƣơng pháp K-Nearest Neighbor (K - NN) 43 2.4.3 Phƣơng pháp Linear Least Square Fit (LLSF) 45 2.4.4 Phƣơng pháp Support Vector Machine (SVM) 46 2.4.5 Phƣơng pháp Centroid- based vector 53 2.4.6 Đánh giá nhận xét 53 2.5 Kết luận chƣơng 54 CHƢƠNG 3: PHÂN LỚP Ý KIẾN ĐÁNH GIÁ CỦA KHÁCH HÀNG TRÊN HỆ THỐNG BÁN HÀNG TRỰC TUYẾN 56 3.1 Website bán hàng trực tuyến 56 3.2 Xây dựng mơ hình ứng dụng khai phá ý kiến phản hồi khách hàng website dựa SVM để hỗ trợ bán hàng trực tuyến 62 3.2.1 Phát biểu toán 62 3.2.2 Mơ hình ứng dụng khai phá ý kiến phản hồi khách hàng website dựa SVM 62 3.3 Yêu cầu phần cứng phần mềm 65 3.3.1 Cấu hình máy thực nghiệm 65 3.3.2 Công cụ phần mềm sử dụng 65 3.4 Một số kết đánh giá 66 3.4.1 Kết thử nghiệm 66 3.4.2 Huấn luyện phân lớp liệu 77 3.4.3 Đánh giá kết 79 3.5 Kết luận chƣơng 79 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 80 TÀI LIỆU THAM KHẢO 81 iv DANH MỤC CÁC KÝ TỰ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt SVM Support Vector Machine Máy vector hỗ trợ Zalo OA Zalo Official Account Tài khoản Zalo STT thức TP Số lƣợng dự đốn True Positive xác TN Số lƣợng dự đốn True Negative xác cách gián tiếp FP Số lƣợng dự đoán False Positive sai lệch FN Số lƣợng dự đoán False Negative sai lệch cách gián tiếp TBL Transformation-based Learning Phƣơng pháp học dựa cải biến 10 WFST IGATEC TFxIDF Weighted- Finite State Chuyển đổi trạng thái Transducer trọng số hữu hạn Internet and Genetics Phƣơng pháp tách từ Algorithm based Text dựa thống kê từ Categorization for Documents Internet giải thuật di in Vietnamese truyền Term Frequency times Inverse Phƣơng pháp tần suất từ Document Frequency khóa kết hợp phƣơng pháp nghịch đảo tần số văn v 11 NB Phƣơng pháp tiếp cận Naïve Bayes xác suất thống kê 12 K – NN K-Nearest Neighbor Thuật toán K láng giềng gần 13 LLSF Linear Least Square Fit Thuật toán tuyến tính bình phƣơng nhỏ 14 NNet Neural Network Mạng Neural 15 CRF Conditional Random Field Thuật toán xác suất có điều kiện vi DANH MỤC BẢNG Bảng 2.1 So sánh đặc điểm Tiếng Việt Tiếng Anh 15 Bảng 2.2 Tách chuỗi từ “Tôi công dân nƣớc Việt Nam” 17 Bảng 2.3 Biểu diễn văn mơ hình Logic 31 Bảng 3.1 Kết huấn luyện kiểm thử 76 vii DANH MỤC HÌNH Trang Hình 1.1 Mơ hình mơ tả toán phân lớp liệu Hình 1.2 Quá trình phân lớp liệu - (a) Bƣớc xây dựng mơ hình phân lớp Hình 1.3 Quá trình phân lớp liệu - (b1) Ƣớc lƣợng độ xác mơ hình Hình 1.4 Quá trình phân lớp liệu - (b2) Phân lớp liệu Hình 1.5 Các số đánh giá mơ hình phân lớp 13 Hình 2.1 Sơ đồ bƣớc sử lý WFST 20 Hình 2.2 Giải thuật di truyền IGATEC 21 Hình 2.3 Mơ hình thuật toán K-NN 42 Hình 2.4 Các điểm đƣợc khoanh tròn vector hỗ trợ 45 Hình 2.5 Tập liệu đƣợc phân chia tuyến tính 47 Hình 2.6 Tập liệu phân chia tuyến tính nhƣng có nhiễu 48 Hình 2.7 Tập liệu khơng phân chia tuyến tính 49 Hình 3.1 Giao diện trang chủ 54 Hình 3.2 Giao diện trang sản phẩm 55 Hình 3.3 Giao diện trang đăng ký bảo dƣỡng 55 Hình 3.4 Giao diện trang tin tức – tƣ vấn 56 Hình 3.5 Giao diện trang liên hệ 56 Hình 3.6 Nút đánh giá 57 Hình 3.7 Form điền thơng tin ý kiến 57 Hình 3.8 Thống kê báo cáo ý kiến khách 58 Hình 3.9 xem ý kiến khách hàng 58 viii Hình 3.10 Các bƣớc trình phân lớp văn 59 Hình 3.11 Giao diện phần mềm Weka 63 Hình 3.12 Chuyển đổi liệu sang arff 67 Hình 3.13 Vector hóa liệu 68 Hình 3.14 Giao diện huấn luyện 75 Hình 3.15 Kết huấn luyện 75 ix chợ xe to vợ kêu mệt khó xoay xở đường phố hẹp chợ” “VinFast Fadil Tiêu Chuẩn hẳn dịng xe phân khúc” “Nội thất xe tồn hàng ghế ngồi hàng khách lái xe bọc da tổng hợp thích” “Vinfast Fadil trang bị an toàn tốt phân khúc xe cỡ nhỏ hạng A phân khúc 500tr trở xuống khơng có xe trang bị nhiều tính an tồn thơng minh Vinfast Fadil” “Minh thấy tính an tồn xe chuyên gia xe đánh giá đáng giá với số tiền bỏ ra” “Vinfast Fadil trang bị công nghệ tiên tiến đại như: Màn hình giải trí 7inch kết nối thuận tiện với Apple Carplay hay Androind Auto,vô lăng chỉnh điện, ghế lái chỉnh hướng, hệ thống âm loa bao quanh nội thất xe, điều hòa tự động, công nghệ đại tốt” “Vinfast Fadil tiêu chuẩn gọn nhẹ di chuyển tuyệt vời” “Tôi chưa thấy mẫu xe nhìn qua tơi thấy thick tốt dịng xe mẫu bền bỉ đặcbiệt nội thất đẹp” Ví dụ đoạn text tiêu cực (tieucuc): “Xe khơng có hình khơng ưng rồi” “Xe lên gương tay có đơn giản q khơng vậy” “Sản xuất Việt Nam mà giá cao Morning nhập ko đến Morning 2021 chắn đẹp vinfat” “Sao khơng có số sàn , sedan nhỉ? Để cho khách có nhiều lựa chọn!” “Xe nội thất nhỏ không đủ để đi” “Giá không vừa với túi tiền người dân, thiết kế xe nhỏ” 68 “Con xe ko thích hợp neo núi, nhiều địa hình nhấp nhơ khó để lên giốc cao” “Nếu mà để trừ điểm fadil em xin phép trừ điểm nội thất so với morning thơi nội thất morning đẹp hơn” “Xe xấu giá bán lại cao” “Thương hiệu vinfast ngày đưa mức giá hợp lý cho người Việt” “Vinfast giảm thêm tốc độ chút tuyệt vời hơn” “Những ông đăng ký mua từ trước nhận xe tồn bị vợ chê khơng tốt” “Cùng phân khúc hãng khác nhập same same giá với sản xuất nước đắt muốn ủng hộ khó” “Ghế khơng bẻ sau” “Thiết kế xấu không đẹp với thời đặc biệt giá đắt đỏ” “Xe gầm thấp không phù hơp để đường ghồ ghề” Chuyển đổi liệu sang định dạng arff Sử dụng chức TextDirectoryLoader menu Simple CLI công cụ weka 3.9.5 với cú pháp: java weka.core.converters.TextDirectoryLoader -dir "D:\data" > "C:\ datavn.arff" 69 Hình 3.12 Chuyển đổi liệu sang arff Sau chuyển ta đƣợc liệu có định dạng nhƣ sau: @relation D data @attribute text string @attribute @@class@@ {tichcuc,tieucuc} Mỗi ghi bao gồm thuộc tính văn phân lớp văn (tieucuc, tichcuc) SVM thuật tốn phân lớp liệu vector, thao tác vector hóa liệu thu đƣợc chức filter => String To Word Vector menu Explore 70 Hình 3.13 vector hóa liệu Khi apply liệu ta thu đƣợc liệu đƣợc vector hóa, tệp liệu lúc có cấu trúc nhƣ sau: Phần thuộc tính attribute: @relation 'D data-weka.filters.AllFilter-weka.filters.AllFilterweka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prune-rate-1.0N0-stemmerweka.core.stemmers.NullStemmer-stopwordshandlerweka.core.stopwords.Null-M1tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"' @attribute @@class@@ {tichcuc,tieucuc} @attribute numeric @attribute 140km/h numeric 71 @attribute 500tr numeric @attribute numeric @attribute 7inch numeric @attribute A numeric @attribute Androind numeric @attribute Apple numeric @attribute Auto numeric @attribute Cam numeric @attribute Carplay numeric @attribute Chau numeric @attribute Chot numeric @attribute Chuan numeric @attribute Dich numeric @attribute Dong numeric @attribute Fadil numeric @attribute GPS numeric @attribute Gia numeric @attribute He numeric @attribute MInh numeric @attribute Man numeric @attribute Minh numeric @attribute Nam numeric @attribute Ngoai numeric @attribute Noi numeric 72 @attribute Than numeric @attribute Tieu numeric @attribute Tinh numeric @attribute Toi numeric @attribute Viet numeric @attribute VinFast numeric @attribute Vinfast numeric @attribute Wow numeric @attribute Xe numeric @attribute am numeric @attribute an numeric @attribute bac numeric @attribute ban numeric @attribute banh numeric @attribute bao numeric @attribute bap numeric @attribute be numeric @attribute ben numeric @attribute bi numeric @attribute biet numeric @attribute bo numeric @attribute boc numeric @attribute ca numeric @attribute cac numeric 73 @attribute cach numeric @attribute cai numeric @attribute cam numeric @attribute camry numeric @attribute chac numeric @attribute chau numeric @attribute chay numeric @attribute chi numeric @attribute chiec numeric @attribute chin numeric @attribute chinh numeric @attribute cho numeric @attribute choi numeric @attribute chon numeric @attribute chong numeric @attribute chu numeric @attribute chua numeric @attribute chuan numeric @attribute chung numeric @attribute chuyen numeric @attribute co numeric @attribute coc numeric @attribute numeric @attribute cong numeric 74 @attribute cua numeric @attribute cuc numeric @attribute cung numeric @attribute cuop numeric @attribute da numeric @attribute dac numeric @attribute dai numeric @attribute dam numeric @attribute dan numeric @attribute dang numeric @attribute danh numeric @attribute dao numeric @attribute dap numeric @attribute dau numeric @attribute day numeric @attribute de numeric @attribute den numeric @attribute dep numeric @attribute deu numeric @attribute di numeric @attribute dien numeric @attribute dieu numeric @attribute dinh numeric @attribute numeric 75 Phần Vector hóa đoạn text theo n chiều (n số attribute): @data {0 tichcuc 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 1,10 1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,18 1,19 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30 1,31 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,46 1,47 1,48 1,49 1,50 1,51 1,52 1,53 1,54 1,55 1,56 1,57 1,58 1,59 1,60 1,61 1,62 1,63 1,64 1,65 1,66 1,67 1,68 1,69 1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78 1,79 1,80 1,81 1,82 1,83 1,84 1,85 1,86 1,87 1,88 1,89 1,90 1,91 1,92 1,93 1,94 1,95 1,96 1,97 1,98 1,99 1,100 1,101 1,102 1,103 1,104 1,105 1,106 1,107 1,108 1,109 1,110 1,111 1,112 1,113 1,114 1,115 1,116 1,117 1,118 1,119 1,120 1,121 1,122 1,123 1,124 1,125 1,126 1,127 1,128 1,129 1,130 1,131 1,132 1,133 1,134 1,135 1,136 1,137 1,138 1,139 1,140 1,141 1,142 1,143 1,144 1,145 1,146 1,147 1,148 1,149 1,150 1,151 1,152 1,153 1,154 1,155 1,156 1,157 1,158 1,159 1,160 1,161 1,162 1,163 1,164 1,165 1,166 1,167 1,168 1,169 1,170 1,171 1,172 1,173 1,174 1,175 1,176 1,177 1,178 1,179 1,180 1,181 1,182 1,183 1,184 1,185 1,186 1,187 1,188 1,189 1,190 1,191 1,192 1,193 1,194 1,195 1,196 1,197 1,198 1,199 1,200 1,201 1,202 1,203 1,204 1,205 1,206 1,207 1,208 1,209 1,210 1,211 1,212 1,213 1,214 1,215 1,216 1,217 1,218 1,219 1,220 1,221 1,222 1,223 1,224 1,225 1,226 1,227 1,228 1,229 1,230 1,231 1,232 1,233 1,234 1,235 1,236 1,237 1,238 1,239 1,240 1,241 1,242 1,243 1,244 1,245 1,246 1,247 1,248 1,249 1,250 1,251 1,252 1,253 1,254 1,255 1,256 1,257 1,258 1,259 1,260 1,261 1,262 1,263 1,264 1,265 1,266 1,267 1,268 1,269 1,270 1,271 1,272 1,273 1,274 1} {0 tieucuc,19 1,24 1,31 1,33 1,35 1,39 1,43 1,45 1,46 1,49 1,50 1,55 1,62 1,64 1,71 1,73 1,75 1,77 1,79 1,80 1,83 1,84 1,90 1,91 1,92 1,94 1,98 1,101 1,102 1,103 1,104 1,106 1,108 1,110 1,116 1,122 1,123 1,126 1,127 1,131 1,135 1,136 1,138 1,140 1,141 1,144 1,145 1,149 1,152 1,159 1,161 1,163 1,164 1,167 1,168 1,172 1,178 1,180 1,183 1,185 1,186 1,187 1,190 1,191 1,196 1,200 1,202 1,205 1,209 1,210 1,211 1,212 1,218 1,221 1,223 1,224 1,227 1,228 1,233 1,239 1,242 1,248 1,249 1,251 1,254 1,255 1,256 1,259 1,260 1,261 1,263 1,264 1,268 1,275 1,276 1,277 76 1,278 1,279 1,280 1,281 1,282 1,283 1,284 1,285 1,286 1,287 1,288 1,289 1,290 1,291 1,292 1,293 1,294 1,295 1,296 1,297 1,298 1,299 1,300 1,301 1,302 1,303 1,304 1,305 1,306 1,307 1,308 1,309 1,310 1,311 1,312 1,313 1,314 1,315 1,316 1,317 1,318 1,319 1,320 1,321 1,322 1,323 1,324 1,325 1,326 1,327 1,328 1,329 1,330 1,331 1,332 1,333 1,334 1,335 1,336 1,337 1,338 1} 3.4.2 Huấn luyện phân lớp liệu Để đảm bảo số lƣợng tệp huấn luyện thử nghiệm, thử nghiệm này, thu thập tập đánh giá quan điểm khách hàng sản phẩm VinFast Fadil tiêu chuẩn Tập liệu đánh giá đƣợc lƣu file txt đƣợc phân loại thành điểm tích cực (tichcuc) quan điểm tiêu cực (tieucuc) Các file liệu đƣợc nạp Weka sử dụng công cụ TextDirectoryLoader chuyển đổi tất file text thƣ mục tichcuc tieucuc thành file arff với hai class tƣơng ứng tích cực (tichcuc) tiêu cực (tieucuc) Đồng thời cơng cụ StringToWordVector mơ hình hóa văn thành vector từ, trọng số số TF*IDF từ Tiếp theo tiến hành tách tệp thu đƣợc thành hai phần Training Test công cụ RemovePercentage Tỷ lệ hai phần đƣợc thay đổi theo lần huấn luyện Tệp có 339 thuộc tính sau tách từ loại bỏ stopword Mỗi quan điểm khách hàng đƣợc biểu diễn dƣới dạng vector nhiều chiều tƣơng ứng với 339 thuộc tính từ Sử dụng tính SMO Weka để phân lớp liệu khách hàng 77 Hình 3.14 Giao diện huấn luyện Trong trình huấn luyện lƣu ý thơng số số lần kiểm tra chéo Folds, thông số nên đặt 10 Hình 3.15 Kết huấn luyện Sau training, chọn chức Supplied test set để thực testing liệu Dữ liệu testing phận tách từ tệp liệu gốc theo tỷ lệ khác Việc phân loại phản hồi khách hàng đƣợc đánh giá theo nhiều tiêu chí nhƣ độ nhạy (recall), độ xác (precision), độ xác phân loại chung tức phần trăm phản hồi đƣợc phân loại khơng phụ thuộc vào phản hồi tích cực hay tiêu cực Tiến hành chạy thử nghiệm với kích thƣớc tập huấn luyện tập kiểm tra 78 khác nhau: Bảng 3.1 kết huấn luyện kiểm thử Tập huấn Tỷ lệ ý kiến luyện Tích cực/ tiêu (training) cực Lần 100% Lần Lần Lƣợt tập luyện Tập kiểm Tỷ lệ phân Tỷ lệ phân Kết thử (test) loại loại sai tệp test 313/419 0% 72,4% 27.5% - 80% 250/335 20% 57,09% 40,9% Tích cực 50% 158/209 50% 98.3% 0.7% Tích cực 3.4.3 Đánh giá kết Kết bƣớc đầu cho thấy, tiến hành thay đổi kích thƣớc tệp huấn luyện tệp kiểm thử thu đƣợc kết tƣơng đối xác lên đến 98% với trƣờng hợp tệp huấn luyện/ kiểm thử tỷ lệ 50/50 Trƣờng hợp tệp huấn luyện/ kiểm thử tỷ lệ 80/20 độ xác 57% Đối chiếu với tỷ lệ ý kiến Tích cực/ tiêu cực ta thấy độ xác đƣợc đảm bảo tỷ lệ lớp liệu xấp xỉ 50/50 Điều cho thấy thuật toán SVM phân lớp liệu cho kết khác xác lên đến 98% tệp huấn luyện đảm bảo tỷ lệ phân lớp 3.5 Kết luận chƣơng Chƣơng III trình bày mơ hình khai phá ý kiến khách hàng dựa thuật toán SVM Đồng thời thu thập tệp liệu ý kiến phản hồi mẫu sử dụng phần mềm Weka xử lý tệp liệu, tiến hành huấn luyện kiểm thử Từ kết trình thử nghiệm cho đánh giá độ xác thuật toán SVM phân lớp liệu quan điểm khách hàng Trong chƣơng này, luận văn viết chƣơng trình thu thập liệu phản hồi từ website tinhte.vn http://vinfastvinhphuc.net/ sản phẩm VinFast Fadil tiêu chuẩn, sau tiến hành chuẩn hóa liệu, loại bỏ tiền tố hậu tố, tách từ tiến hành thử nghiệm, thay đổi thông số trình huấn luyện kiểm tra 79 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Luận văn nghiên cứu tổng quan học máy sâu nghiên cứu thuật toán học máy SVM – phƣơng pháp học máy có giám sát đƣợc sử dụng phổ biến Trên sở đó, luận văn triển khai xây dựng mơ hình ứng dụng SVM việc giải toán phân lớp ý kiến khách hàng ứng dụng hệ tƣ vấn bán hàng trực tuyến Cụ thể, luận văn đạt đƣợc kết sau: - Trình bày phƣơng pháp học máy toán phân lớp ý kiến khách hàng ứng dụng hệ tƣ vấn bán hàng trực tuyến lĩnh vực công nghệ thơng tin - Giới thiệu thuật tốn học máy SVM, dạng SVM ứng dụng SVM phân loại văn - Từ nghiên cứu xây dựng mơ hình phân loại ý kiến phản hồi, sử dụng công cụ Weka đánh giá sản phẩm website bán hàng dựa ý kiến ngƣời dùng internet bao gồm việc xây dựng mơ hình, thử nghiệm mơ hình, kết nhận xét kết Các kết nghiên cứu sử dụng làm sở cho việc xây dựng hệ thống phân loại ý kiến khách hàng website Hạn chế Trong phạm vi đề tài xây dựng mô hình kiểm nghiệm thử thuật tốn SVM phân lớp quan điểm ngƣời dùng, chƣa sâu vào nghiên cứu module thu thập liệu xử lý liệu ngơn ngữ Hƣớng phát triển Nghiên cứu hồn thiện hệ thống với module thu thập liệu module xử lý liệu ngơn ngữ kết hợp với thuật tốn SVM phân tích phân lớp ý kiến khách hàng ứng dụng hệ tƣ vấn bán hàng trực tuyến 80 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Thị Thoa, Phân lớp quan điểm khách hàng ứng dụng, Luận văn Thạc Sỹ, Đại Học Công Nghệ Thông Tin & Truyền Thông, ĐH Thái Nguyên, 2016 [2] Trần Cao Đệ, Phạm Nguyên Khan, Phân loại văn với máy học vector hỗ trợ định, Tạp chí Khoa học, ĐH Cần Thơ, 2012 [3] Trần Ngọc Phúc, Phân loại nội dung tài liệu web, Luận văn Thạc Sỹ, ĐH Đồng Nai, 2012 Tài liệu tiếng Anh [4] Bishop, Christopher M, Pattern Recognition and Machine Learning, Springer, 2006 [5] Charu C Aggarwal, Data Classification Algorithms and Applications, ISBN 9780367659141Published September 30, 2020 [6] C Masriso A.T Figueiredo, On Semi-Supervised Classification NIPS:721-728, 2005 [7] Jessica M Rudd, MPH, Gstat, Application of Support Vector Machine Modeling and Graph Theory Metrics for Disease Classification, Model Assisted Statistics and Applications, 2018 [8] Kamran Kowsari, Kiana Jafari Meimandi, Mojtaba Heidarysafa, Sanjana Mendu, Laura Barnes, Donald Brown, Text Classification Algorithms: A Survey, Information 2019, https://doi.org/10.3390/info10040150 [9] M Craven, S Slattery, Relational learning with statistical predicate invention: Better models for hypertext, Machine Learning, 43(1-2):97-119, 2001 [10] Olivier Chapelle Bernhard, Alexander Zien, Semi-Supervised Learning, Massachusetts Institute of Technology, 2006 [11] Xiaoguang, brian d Davison, Web Page Classification: Features and 81 Algorithms, ACM Computing Surveys, Vol 41, No 2, Article 12, 2009 [12] Xiaojin Zhu, Semi-Supervised Learning with Graphs PhD thesis, Carnegie Mellon University, CMU-LTI-05-192, May 2005 [13] Xiaojin Zhu, Semi-Supervised Learning Literature Survey Computer Sciences TR 1530, University of Wisconsin – Madison, February 22, 2006 [14] Weka, https://www.techspot.com/downloads/7362-weka.html 82 ... khách hàng ứng dụng hệ tƣ vấn bán hàng trực tuyến Đối tƣợng phạm vi nghiên cứu + Đối tƣợng: ý kiến khách hàng ứng dụng hệ tƣ vấn bán hàng trực tuyến + Phạm vi: Hệ thống xử lý văn đƣợc ứng dụng. .. 3: PHÂN LỚP Ý KIẾN ĐÁNH GIÁ CỦA KHÁCH HÀNG TRÊN HỆ THỐNG BÁN HÀNG TRỰC TUYẾN 56 3.1 Website bán hàng trực tuyến 56 3.2 Xây dựng mơ hình ứng dụng khai phá ý kiến phản hồi khách hàng. .. thuộc lớp Có nhiều tốn phân lớp liệu, nhƣ phân lớp nhị phân, phân lớp đa lớp, phân lớp đa trị, … [5] Phân lớp nhị phân trình tiến hành việc phân lớp liệu vào hai lớp khác dựa vào việc liệu có hay