Phân loại bình luận của khách hàng trên mạng xã hội dựa trên kỹ thuật máy học

i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐÀM PHƯƠNG TÙNG PHÂN LOẠI BÌNH LUẬN CỦA KHÁCH HÀNG TRÊN MẠNG XÃ HỘI DỰA TRÊN KỸ THUẬT MÁY HỌC LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN 2020 ii LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm cá nhân hướng dẫn khoa học TS Nguyễn Văn Tảo Trong toàn nội dung luận văn, nội dung trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu khác Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Thái Nguyên, tháng năm 2020 Tác giả Đàm Phương Tùng iii LỜI CẢM ƠN Học viên xin bày tỏ lời cảm ơn chân thành tới tập thể thầy cô giáo Viện công nghệ thông tin, thầy cô giáo Trường Đại học Công nghệ thông tin truyền thông - Đại học Thái Nguyên mang lại cho học viên kiến thức vô q giá bổ ích suốt q trình học tập chương trình cao học trường Đặc biệt học viên xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo TS.NGUYỄN VĂN TẢO định hướng khoa học đưa góp ý, gợi ý, chỉnh sửa quý báu, quan tâm, tạo điều kiện thuận lợi q trình nghiên cứu hồn thành luận văn Cuối cùng, học viên xin chân thành cảm ơn bạn bè đồng nghiệp, gia đình người thân quan tâm, giúp đỡ chia sẻ với học viên suốt trình học tập Do thời gian kiến thức có hạn nên luận văn khơng tránh khỏi thiếu sót định Học viên mong nhận góp ý quý báu thầy cô bạn Thái Nguyên, tháng năm 2020 Tác giả Đàm Phương Tùng iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC HÌNH ẢNH vi LỜI MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TỐN PHÂN LOẠI BÌNH LUẬN KHÁCH HÀNG 1.1 Tổng quan khai phá liệu 1.1.1 Những khái niệm khai phá liệu 1.1.2 Quy trình khai phá liệu 1.1.3 Các kỹ thuật tác vụ khai phá liệu 1.1.4 Kiến trúc hệ thống khai phá liệu 11 1.1.5 So sánh khai phá liệu với máy học 12 1.2 Ứng dụng khai phá liệu phân loại bình luận khách hàng 13 1.2.1 Phương pháp phân lớp văn 13 1.2.2 Phương pháp tách từ tiếng Việt 16 1.2.3 Phân loại bình luận khách hàng 20 CHƯƠNG 2: CÁC BƯỚC KHẢO SÁT VÀ PHÂN LOẠI BÌNH LUẬN CỦA 22 2.1 Tìm hiểu chung thương hiệu sản phẩm 22 2.2 Mục đích việc lấy bình luận khách hàng 23 2.3 Thu thập bình luận khách hàng Internet 25 2.4 Mơ hình tổng thể tốn phân loại bình luận khách hàng 29 CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH THỰC NGHIỆM 32 3.1 Đề xuất giải pháp 32 3.1.1 Yêu cầu toán 33 3.1.2 Tổng quan liệu: 35 3.2 Xây dựng mơ hình 35 3.2.1 Thu thập liệu 36 v 3.2.2 Tiền xử lý liệu 38 3.2.3 Trích xuất vector 41 3.2.4 Huấn luyện liệu 42 3.3 Kết thử nghiệm 49 3.3.1 Đánh giá dựa độ xác 49 3.3.2 Triển khai dự án website thực tiễn 49 KẾT LUẬN 52 DANH MỤC TÀI LIỆU THAM KHẢO 53 vi DANH MỤC HÌNH ẢNH Hình 1.1 Q trình trích xuất thơng tin có giá trị Hình 1.2 Những lĩnh vực liên quan tới khai phá liệu Hình 1.3 Các bước trình KDD .6 Hình 1.5 Mơ thuật tốn phân cụm K-means Hình 1.5 Minh họa thuật toán KNN 15 Hình 1.6 Tồn cảnh hệ thống IGATEC 19 Hình 2.1 Mẫu Pop-up nhúng vào Website .27 Hình 2.2 Ứng dụng chat box tích hợp Website 28 Hình 2.3 Hệ thống Google Analytics 29 Hình 2.4 Mơ hình Crawler đơn giản 30 Hình 3.1 Bộ liệu câu bình luận tiếng Việt .35 Hình 3.2 Mơ hình học máy kết hợp Tfidf SVM 36 Hình 3.3 Cấu trúc HTML website .37 Hình 3.4 Thu thập liệu Website từ thẻ HTML 37 Hình 3.5 Gán nhãn cho bình luận tập huấn luyện .39 Hình 3.6 Thực tách từ cụm từ liệu dựa vào từ điển 41 Hình 3.7 Khoảng cách hai lề hai lớp liệu 41 Hình 3.8 Giao diện chi tiết sản phẩm Lazada .50 Hình 3.9 Giao diện chức phần mềm đánh giá sản phẩm 50 Hình 3.10 Dữ liệu bình luận tích cực thu thập file data.csv 51 LỜI MỞ ĐẦU Trong thời buổi kinh tế thị trường ngày hôm nay, doanh nghiệp muốn tồn phát triển cần phải khai thác thu thập bình luận phản hồi người dùng sản phẩm hay dịch vụ từ đưa định hướng điều chỉnh hoạt động sản xuất kinh doanh phù hợp Cùng với đời internet, xuất phát triển không ngừng lĩnh vực thương mại điện tử khiến cho việc xúc tiến hoạt động kinh doanh, buôn bán, quảng bá sản phẩm, dịch vụ diễn khắp kênh thông tin xã hội đặc biệt mạng internet Điều vơ hình dung tạo nên cầu nối người dùng nhà cung cấp, từ cầu nối người dùng đưa bình luận họ sản phẩm hay dịch vụ mà nhà cung cấp mang lại Như biết ngày thông tin đưa lên trang mạng xã hội dạng posts nhiều người dùng để lại các nhận xét posts dạng comments, ta nhận thấy kho thơng tin khổng lồ mà từ khai phá trích rút tất comments người dùng, sau phân tích phân loại liệu ấy, thu kết khảo sát cần thiết phục vụ cho hoạt động sản xuất kinh doanh Việc phân loại bình luận khách hàng nhiều lĩnh vực, giúp doanh nghiệp có cách quản lý tốt hơn, đưa sáng kiến giúp doanh nghiệp phát triển CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TỐN PHÂN LOẠI BÌNH LUẬN KHÁCH HÀNG 1.1 Tổng quan khai phá liệu KPDL thuật ngữ xuất đầu kỷ 21, hệ bùng nổ Internet đạt tới đỉnh điểm Theo công bố Intel vào tháng năm 2013, 11 giây trôi qua lại có thêm Petabybe liệu, tương đương với video chất lượng HD dài 13 năm KPDL ứng dụng rộng rãi nhiều lĩnh vực có nhiều cơng cụ thương mại phi thương mại triển khai nhiệm vụ KPDL - Phân tích liệu hỗ trợ định (data analysis & decision support) - Điều trị y học (medical treatment): Hiện nay, ứng dụng công nghệ lưu trữ lớn, khai phá liệu lĩnh vực y tế để chẩn đốn, phịng ngừa điều trị bệnh nhằm can thiệp nâng cao sức khỏe người hướng nghiên cứu có nhu cầu thực tiễn, quan tâm tích cực cộng đồng nhà nghiên cứu Một số ứng dụng cụ thể KPDL y học: + Dự đoán khả nhiễm bệnh + Dự đoán mức độ nghiêm trọng virus thể người - Text mining & Web mining: KPDL văn KPDL Web ứng dụng quan trọng Các tốn KPDL văn bao gồm: + Tìm kiếm văn + Phân lớp văn + Tóm tắt văn + Phân cụm văn + Phân cụm từ mục + Đánh mục từ tiềm + Dẫn đường văn Đối với toán KPDL Web bao gồm: + Thu thập xử lý liệu Web + Phân lớp nhóm Website có độ uy tín truy cập - Tin sinh học (bio-informatics): KPDL sinh học phần quan trọng lĩnh vực Tin-Sinh học (Bioinformatics) Một số ứng dụng KPDL sinh học: + Lập mục, tìm kiếm tương tự, bất thường CSDL Gen + Xây dựng mơ hình khai phá mạng di truyền cấu trúc Gen, protein + Xây dựng cơng cụ trực quan phân tích liệu di truyền - Tài thị trường chứng khốn (finance & stock market): Dữ liệu tài ngân hàng ngành tài nói chung thường đáng tin cậy có chất lượng cao, tạo điều kiện cho khai phá liệu Dưới số ứng dụng điển hình khai phá liệu tài chính: - Dự đốn khả vay tốn khách hàng, phân tích sách tín dụng khách hàng + Phân tích hành vi khách hàng (vay, gửi tiền) + Phân loại phân nhóm khách hàng mục tiêu cho tiếp thị tài + Phát hoạt động rửa tiền tội phạm tài - Bảo hiểm (insurance) - Nhận dạng (pattern recognition) Trong chương này, luận văn giới thiệu tổng quan khai phá liệu bao gồm định nghĩa, số nghiên cứu, kỹ thuật khai phá xử lý liệu Tiếp theo tổng quan kỹ thuật khai phá văn bản, ứng dụng tốn phân tích bình luận khách hàng 1.1.1 Những khái niệm khai phá liệu Ngày nay, liệu người tạo ngày nhiều số lượng, tăng nhanh khối lượng, phát triển mạnh quy mô khiến việc phân loại, lựa chọn, khai thác sử dụng gặp khó khăn định Khái niệm khai phá liệu đời hỗ trợ công việc Đến nay, có nhiều định nghĩa khai phá liệu nhìn chung định nghĩa hướng tới nhận định Theo Tom Mitchell [3]: “KPDL việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tương lai.” Với cách tiếp cận ứng dụng hơn, Fayyad [4] phát biểu: “KPDL, thường xem việc khám phá tri thức sở liệu, q trình trích xuất thơng tin ẩn, trước chưa biết có khả hữu ích, dạng qui luật, ràng buộc, qui tắc sở liệu.” Tóm lại, KPDL trình học tri thức từ liệu thu thập [5,6,7] Khái niệm khai phá liệu (Data Mining) hay khám phá tri thức (Knowledge Discovery) có nhiều cách diễn đạt khác chất q trình tự động trích xuất thơng tin có giá trị (Thơng tin dự đoán - Predictive Information) ẩn chứa khối lượng liệu khổng lồ thực tế Thuật ngữ Data Mining ám việc tìm kiếm tập nhỏ có giá trị từ số lượng lớn liệu thơ Hình 1.1 Q trình trích xuất thơng tin có giá trị Khai phá liệu lĩnh vực liên ngành, nơi hội tụ nhiều học thuyết cơng nghệ Hình 1.2 Những lĩnh vực liên quan tới khai phá liệu 40 từ (khác nhau) văn đặc trưng (feature) tần số xuất văn giá trị đặc trưng tương ứng Q trình trích đặc trưng bao gồm tách từ (word segmentation) đếm số lần xuất từ văn Như thế, văn biểu diễn dạng véc-tơ tần số Bước huấn luyện mô hình học tự động từ bảng liệu Các mơ hình máy học thường sử dụng giải thuật k-NN (Fix & Hodges, 1952), naive Bayes (Good, 1965), định (Quinlan, 1993), (Breiman et al., 1984), máy học véc-tơ hỗ trợ (Vapnik, 1995), giải thuật tập hợp mô hình bao gồm Boosting (Freund & Schapire, 1995), (Breiman, 1998) rừng ngẫu nhiên (Breiman, 2001) Các nghiên cứu máy học trước (Phạm et al., 2006), (Phạm et al., 2008), (Đỗ, 2012), (Đỗ & Phạm, 2013) đề xuất giải thuật máy học dựa tập hợp mơ hình, máy học véc-tơ hỗ trợ, naive Bayes, cho phép phân lớp hiệu tập liệu có số chiều lớn biểu diễn văn mô hình túi từ [8] Phương pháp túi từ cịn có tên gọi khác Bag of Words (BOW) thuật tốn hỗ trợ xử lý ngơn ngữ tự nhiên mục đích BoW phân loại text hay văn Ý tưởng BoW phân tích phân nhóm dựa theo "Bag of Words"(corpus) Với test data mới, tiến hành tìm số lần từ test data xuất "bag" Tuy nhiên BoW tồn khuyết điểm, nên TF-IDF phương pháp khắc phục Có thể ứng dụng BoW + TF-IDF vào việc tìm kiếm, phân loại tài liệu, lọc mail spam xác định ý định người dùng 41 Hình 3.6 Thực tách từ cụm từ liệu dựa vào từ điển 3.2.3 Trích xuất vector Sau thực tách từ thông qua từ điển thực vector hóa câu bình luận có liệu qua xử lý TF-IDF(term frequency – inverse document frequency): - TF-IDF phương thức thống kê để xác định độ quan trọng từ văn tệp có nhiều văn khác Trong đề tài TF-IDF sử dụng để chuyển văn (bình luận sản phẩm ) từ dạng text sang dạng không gian vector - TF(Term Frequency): tần suất xuất từ văn Cơng thức tính TF: 42 𝑡𝑓(𝑡) = 𝑓(𝑡,𝑑) 𝑇 Trong đó: 𝑡 từ có đoạn văn 𝑓(𝑡,𝑑) số lần xuất từ t văn 𝑇 số từ có văn - IDF (Inverse Document Frequency): Là độ quan trọng từ văn Độ quan trọng tính qua công thức: 𝑖𝑑𝑓(𝑡) = log 𝑁 |𝑡 ∈ 𝐷: 𝑡 ∈ 𝑑| Trong : 𝑁 số đoạn văn |𝑡 ∈ 𝐷: 𝑡 ∈ 𝑑| số văn chưa từ t - TF- IDF tính bởi: 𝑡𝑓𝑖𝑑𝑓(𝑡) = 𝑡𝑓(𝑡) × 𝑖𝑑𝑓(𝑡) Để sử dụng TF-IDF đề tài sử dụng TfidfVectorizer thư viện scikitlearn, sau thực word2vec thông qua TF-IDF vector thực transform để chuẩn hóa liệu 3.2.4 Huấn luyện liệu Như biết, có nhiều thuật toán để phân loại logistic regression, softmax, naive bayes, random forest, SVM Nhưng nhận thấy toán này, số lượng chiều vector sau trích xuất Tfidf lớn (trong code 100000) mà có class mà thơi Trong trường hợp SVM phân loại hiệu hẳn thuật toán khác Việc huấn luyện liệu cách tối ưu tham số phù hợp để đạt kết cao Việc tối ưu tham số Tfidf SVM quan trọng, tham số không phù hợp với liệu cho kết thấp ngược lại Tất nhiên tốn thời gian nhiều với liệu lớn mơ hình huấn luyện phức tạp, thời gian huấn luyện lâu gần khơng thể với tham số thơi xử lý nhiều 43 Khi liệu vector hóa chuẩn hóa để thực q trình phân loại văn bình luận có sắc thái gán nhãn, sử dụng model SVM (Support Vector Machine) Dữ liệu đưa vào huấn luyện với SVM, để có mơ hình dự đốn tốt với parameter đưa vào phần huấn luyện thuật tốn có sử dụng GridSearchCV thư viện Scikit-learn để thực thử tham số thực lựa chọn mơ hình cho kết phân loại tốt 3.2.5 Thuật toán SVM trình huấn luyện liệu 3.2.5.1 Bài tốn đối ngẫu phương pháp nhân tử Lagrange Bài toán đối ngẫu: (w, b)= argmin ||w||22 w, b, ξ 1- yn (wT xn + b) ≤0 , ∀n =1,2,…,N thỏa mãn: (3.1.1) - ξn ≤0, ∀n =1,2,…,N Lagrangian cho toán (3.1.1) là: T £(w, b, λ )= ‖w‖22 + ∑N n=1 λn (1 - yn ( w xn + b )) với (3.1.2) λ = [λ1 ,λ2 , , λ𝑁 ]𝑇 ≥ ∀𝑛 = 1,2, , 𝑁 Hàm số đối ngẫu toán (3 11) là: g(λ)= £(w, b, λ) w, b với 𝜆 ≥ Việc tìm giá trị nhỏ hàm theo 𝒘 𝑏 đựợc thực cách giải hệ phương trình đạo hàm 𝐿(𝒘, 𝑏, 𝝀) theo w b 0: N ∇ w £(w, b, λ) = w - ∑N n=1 λn yn xn = 0⇒ 𝐰 = ∑n=1 λn yn xn (3.1.3) ∇ w £(w, b, λ)= ∑N n=1 λn yn = (3.1.4) Thay (3.1.3) (3.1.4) vào (3.1.2) ta thu g(λ): N N T g(λ)= ∑N n=1 λn - ∑n=1 ∑m=1 λn λm yn ym xn λn Bằng cách ký hiệu ma trận: 𝑽 = y1 x1 , y2 x2 , , yn xn vector 𝟏 = [1,1, ,1]𝑇 , viết lại 𝑔(𝝀) dạng: (3.1.5) 44 g(λ) = λ𝑇 𝑽𝑇 𝑽λ + 𝟏𝑇 λ (3.1.6) Từ đó, kết hợp hàm đối ngẫu Lagrange điều kiện ràng buộc λ, thu toán đối ngẫu Lagrange tốn (3.1.1) có dạng: λ = argmax g(λ) λ thỏa mãn: λ≥0 ∑N n=1 λ n y n =0 (3.1.7) Ràng buộc thứ hai lấy từ (3.1.4) Đây tốn lồi ta tìm giá trị lớn hàm mục tiêu concave polyhedron3 Hơn nữa, tốn quadratic programming giải thư viện CVXOPT Trong tốn đối ngẫu này, số lượng tham số phải tìm N, chiều λ, số điểm liệu Trong đó, với tốn gốc (3.1.1), số tham số phải tìm d + 1, tổng số chiều w b, tức số chiều điểm liệu cộng với Trong nhiều trường hợp, số điểm liệu có tập huấn luyện lớn số chiều liệu nhiều Nếu giải trực tiếp công cụ giải quadratic programming, tốn đối ngẫu cịn phức tạp (tốn thời gian hơn) so với tồn gốc Tuy nhiên, điều hấp dẫn tốn đối ngẫu đến từ cấu trúc đặc biệt hệ điều kiện KKT Ngoài ra, dạng đặc biệt toán đối ngẫu giúp nhà khoa học phát triển thêm dạng tổng SVM, khiến hoạt động với trường hợp liệu hai lớp không linear separable 3.2.5.2 Tiêu chuẩn ràng buộc Slater Cần chứng minh toán tối ưu (3.1.1) thoả mãn điều kiện Slater Điều kiện Slater nói rằng, tồn w, b thoả mãn: - 𝑦𝑛 (wT xn + b) < 0, ∀n = 1, 2, , N strong duality thoả mãn Việc kiểm tra khơng q phức tạp Vì biết ln ln có siêu phẳng phân chia hai lớp hai lớp linearly separable, tức tốn có nghiệm, nên feasible set tốn tối ưu (3.1.1) phải khác rỗng Tức luôn tồn cặp (𝐰0 , 𝑏0 ) cho: - 𝑦𝑛 (𝐰0𝑇 xn + 𝑏0 ) ≤ 0, ∀n = 1, 2, , N (3.2.1) ⇔ - yn (2wT0 xn + 2b0 ) ≤ 0, ∀n = 1, 2, , N Vậy cần chọn w1 = 2w0 b1 = 2b0 , có: - yn (wT1 xn + b1 ) ≤ -1 < 0, ∀n = 1, 2, , N Từ suy điều kiện Slater thoả mãn 3.2.5.3 Điều kiện tối ưu KKT (Karush-Kuhn-Tucker) (3.2.2) 45 Đây toán lồi strong duality thoả mãn, nghiệm toán thoả mãn hệ điều kiện KKT sau với biến số w, b λ - yn (wT xn + b) ≤ 0, ∀n = 1, 2, , N (3.3.1) λ n ≥ 0, ∀n = 1, 2, , N (3.3.2) λ n (1 -yn (wT xn + b)) = 0, ∀n = 1, 2, , N (3.3.3) w = ∑N n=1 λn yn xn (3.3.4) ∑N n=1 λn yn =0 (3.3.5) Trong điều kiện trên, điều kiện (3.3.3) thú vị Từ suy ngay, với n bất kỳ, λn = 1-yn (wT xn +b) = Trường hợp thứ hai wT xn + b =yn , với ý y2n = 1, ∀n 3.2.5.4 Soft-Margin SVM - Bài toán đối ngẫu: (w, b, ξ)= argmin ||w||22 + C ∑N n=1 ξn w, b, ξ 1- ξn - yn (wT xn + b) ≤0 , ∀n =1,2,…,N thỏa mãn: (3.4.1) - ξn ≤0, ∀n =1,2,…,N Lagrangian cho toán (3.4.1) là: N T £(w, b, ξ, λ, µ)= ‖w‖22 + C ∑N n=1 ξn + ∑n=1 λn (1 - ξn - yn( w xn + b ))2 ∑N n=1 μn ξn (3.4.2) với λ = [λ1 ,λ2 , , λN ]𝑇 ≥ µ =[µ1 ,µ2 , , µN ]𝑇 ≥ Hàm số đối ngẫu toán (3.4.1) là: g(λ, µ)= £(w, b, ξ, λ, µ) w, b, ξ Với cặp (λ, µ), quan tâm tới (w, b, ξ) thoả mãn điều kiện đạo hàm Lagrangian 0: ∇ w £= ⇔ w = ∑N n=1 λn yn xn (3.4.3) ∇b £= ⇔ ∑N n=1 λn yn =0 (3.4.4) ∇λn £= ⇔ λn = C- μn (3.4.5) 46 Từ (3.4.5) thấy quan tâm tới cặp (λ, µ) cho λn = C - µn Từ suy ≤ λn , µ𝑛 ≤ C, n = 1,2, , N Thay biểu thức vào biểu thức Lagrangian (3.4.2), kết thu hàm mục tiêu toán đối ngẫu N N T g(λ, µ)= ∑N n=1 λn - ∑n=1 ∑m=1 λn λm yn ym xn λn (3.4.6) Chú ý hàm khơng phụ thuộc vào µ cần lưu ý ràng buộc (3.4.5), ràng buộc điều kiện không âm λ viết gọn lại thành ≤ λn ≤ C, ta giảm biến µ Lúc này, tốn đối ngẫu trở thành: λ = argmax g(λ) λ ∑N n=1 λ n y n =0 thỏa mãn: ≤ 𝜆 𝑛 ≤ 𝐶, ∀𝑛 = 1,2, , 𝑁 (3.4.7) (3.4.8) Bài toán gần giống với toán đối ngẫu hard-margin SVM, khác có thêm ràng buộc λn bị chặn C Khi C lớn, coi hai tốn Ràng buộc (3.4.8) gọi box constraint khơng gian điểm λ thoả mãn ràng buộc giống hình hộp chữ nhật khơng gian nhiều chiều Bài tốn hồn tồn giải cơng cụ giải QP thơng thường, ví dụ CVXOPT thực hard-margin SVM Sau tìm λ tốn đối ngẫu, phải quay lại tìm nghiệm (w,b,ξ) tốn gốc Trước hết, cần xem xét hệ điều kiện KKT tính chất nghiệm - Tiêu chuẩn ràng buộc Slater Trong toán, với n = 1,2, , N (w, b), ln ln tìm giá trị số dương ξn, n = 1,2, , N đủ độ lớn thỏa mãn điều kiện yn (w𝑇 x𝑛 + b)+ ξn > 1, ∀n = 1,2, , N tốn thoả mãn tiêu chuẩn Slater - Điều kiện tối ưu KKT (Karush-Kuhn-Tucker) Hệ điều kiện KKT toán soft-margin SVM là, với n = 1,2, , N: - ξn - yn (wT xn + b) ≤ (3.4.9) -ξn ≤ (3.4.10) λn ≥0 (3.4.11) 47 µn≥0 λn (1- ξn - yn (wT xn +b)) ≤0 µ n ξn = (3.4.12) (3.4.13) (3.4.14) w = ∑N n=1 λn yn xn (3.4.3) ∑N n=1 λn yn =0 (3.4.4) λn =C-µn (3.4.5) Từ (3.4.5) suy có 𝑛 ứng với λn > đóng góp vào nghiệm 𝐰 tốn Tập hợp S = {n : λn > 0} gọi support set, {xn , n ∈ S} gọi tập điểm support vectors Khi λ n > 0, (3.4.13) rằng: yn ( wT xn + b) = – ξn (3.4.15) Nếu có thêm điều kiện < λn < C, (3.8) nói µn = C - λn > 0, kết hợp với (3.4.14), thu ξ n = Tiếp tục kết hợp với (3.15), suy yn (wT xn +b) = Nói cách khác: (wT xn +b) = yn , ∀𝑛 ∶ < 𝜆𝑛 < 𝐶 (3.4.16) Khi < λn < C, điểm xn nằm xác margin Giá trị b tính theo công thức (numerical stable solution): b= NM ∑m∈M (ym - wT xm ) (3.4.17) với M = {m : < λm < C} NM số phần tử S Nghiệm toán soft-margin SVM cho (3.4.5) (3.4.17) Nghiệm của toán soft-margin SVM: w = ∑m∈S λm ym xm (3.4.18) b= NM ∑n∈M (yn - wT xn ) = NM ∑n∈M (yn - ∑m∈S λm ym wT xm ) (3.4.19) Cũng từ (3.4.15) (3.4.13) suy yn (wT xn +b) ≤ với điểm tương ứng với λn = C Tức điểm nằm hai đường margin Như vậy, dựa giá trị λn dự đốn vị trí tương đối xn so với hai đường margin 48 Mục đích cuối xác định nhãn cho điểm tính cụ thể w b Vì vậy, cần quan tâm tới cách xác định giá trị biểu thức sau với x bất kỳ: wT xn + b = ∑m∈S λm ym xTm x + NM ∑n∈M (yn - ∑m∈S λm ym xTm x ) (3.4.20) Trong cách tính này, biết cách tính tích vơ hướng xTm x xTm xn , xác định phân lớp 3.2.5.5 Bài tốn tối ưu khơng ràng buộc cho soft-margin SVM Bài tốn tối ưu khơng ràng buộc tương đương: Điều kiện ràng buộc thứ : - ξn - yn (wT xn + b) ≤ ⇔ ξn ≥ - yn (wT xn + b) (3.4.21) Kết hợp với điều kiện ξn ≥ có toán ràng buộc tương đương toán (3.4.1) sau: N (w, b, ξ)= argmin ||w||22 + C ∑ ξn w, b, ξ n=1 thỏa mãn: ξn ≥ max (0,1 - yn (wT xn + b)), ∀n = 1, 2, , N (3.4.22) Tiếp theo, để đưa tốn (3.4.22) dạng khơng ràng buộc, cần phải chứng minh nhận xét sau phương pháp phản chứng Nếu (w, b, ξ) nghiệm tốn tối ưu (3.4.22), tức hàm mục tiêu đạt giá trị nhỏ nhất, thì: ξn = max (0,1 - yn (wT xn + b)), ∀n = 1, 2, , N (3.4.23) Thật vậy, giả sử ngược lại, tồn n cho: ξn > max (0,1 - yn (wT xn + b)), chọn ξ'n = max (0,1 - yn (wT xn + b)), thu giá trị thấp hàm mục tiêu đạt giá trị nhỏ Điều mâu thuẫn nhận xét (3.4.23) xác Khi đó, cách thay tồn giá trị ξn (3.4.23) vào hàm mục tiêu, thu toán tối ưu: (w, b, ξ)= argmin ||w||22 + C ∑N n=1 ξn w, b, ξ thỏa mãn: ξn = max (0,1 - yn (wT xn + b)), ∀n = 1, 2, , N (3.4.24) 49 Thấy biến số ξ khơng cịn quan trọng tốn nữa,có thể lược bỏ buộc mà không làm thay đổi nghiệm toán Bài toán (3.4.24) tương đương với: T (w, b)= argmin { ||w||22 +C ∑N n=1 max (0,1 - yn (w xn + b)) ≅ 𝐽(w, b)} (3.4.25) w, b Đây tốn tối ưu khơng ràng buộc với hàm mát J(w, b) Bài toán giải phương pháp Gradient descent Hình 3.7 Khoảng cách hai lề lớp liệu 3.3 Kết thử nghiệm 3.3.1 Đánh giá dựa độ xác Sau q trình chia liệu thành fold sử dụng f1_score để đánh giá mơ hình nhận thấy mơ hình đạt 90,008% f1_score tập liệu test Đây kết ổn 3.3.2 Triển khai dự án website thực tiễn Truy cập vào Website thương mại điện tử Lazada, vào mục sản phẩm xem chi tiết sản phẩm 50 Hình 3.8 Giao diện chi tiết sản phẩm Lazada Sau vào phần chi tiết sản phẩm, lựa chọn đường dẫn sản phầm chép đường dẫn vào phần mềm đánh giá Hình 3.9 Giao diện chức phần mềm đánh giá sản phẩm Phần đường dẫn chép nhập vào input Enter Lazada product url, sau nhập xong phần mềm lựa chọn tới phần bình luận crawler tất bình luận đó, sau mã hóa bình luận để phân tích dựa thuật tốn SVM Để thực 51 đưa kết phần mềm chọn vào ANALYZE Kết phần mềm hiển thị Recommend Ví dụ sản phẩm dung dịch làm hệ thống nhiên liệu động xe máy Trusted Cleaning Power có giá 48.000 VNĐ phần mềm đưa đánh giá “Good! You can boy it!” Nhận thấy khuyến nghị mua hàng phần mềm xác dựa bình luận mà khách hàng đánh giá trang Để phần mềm đạt độ xác cao thu thập liệu huấn luyện liệu với số lượng lớn Đối với phần mềm, liệu thu thập đưa vào file csv để tiện lợi cho q trình phân tích Hình 3.10 Dữ liệu bình luận tích cực thu thập file data.csv 52 KẾT LUẬN Tên đề tài: “Phân loại bình luận khách hàng mạng xã hội dựa kỹ thuật máy học” Với xu phát triển mạnh mẽ trí tuệ nhân tạo kỹ thuật học máy bối cảnh phát triển hội nhập quốc tế cách mạng công nghiệp 4.0 mà có nhiều tổ chức cơng ty, nhà nghiên cứu xây dựng chiến lược phát triển nhằm đưa AI kỹ thuật học máy trở thành công nghệ đột phá năm tới Đứng trước xu với gia tăng cách nhanh chóng hệ thống thương mại điện tử với muôn vàn mặt hàng bày bán mang lại thuận tiện lẫn khó khăn khách hàng mà đề tài “Phân loại bình luận khách hàng mạng xã hội dựa kỹ thuật máy học” lựa chọn để giải vấn đề Luận văn gồm chương Chương 1, luận văn trình bày khái quát định nghĩa khai phá liệu, xử lý liệu thô số định nghĩa học máy nhằm mang lại tàng để dễ dàng tiếp cận kỹ thuật trình bày chương luận văn Chương 2, luận văn trình bày khái quát phương pháp thu thập bình luận khách hàng từ phương pháp khảo sát túy đến phương pháp thu thập bình luận qua mạng Internet với ý kiến thương hiệu sản phẩm Qua thấy ý nghĩa mục đích quan trọng việc thu thập bình luận khách hàng có ảnh hưởng vơ lớn tới việc kinh doanh sản phẩm tổ chức, doanh nghiệp Chương luận văn chương quan trọng đưa bước xây dựng hệ thống đánh giá sản phẩm qua bình luận với bốn bước cốt lõi là: Thu thập liệu, tiền xử lý liệu, trích xuất vector huấn luyện liệu Đối với bước trích xuất vector luận văn trình bày chi tiết phương pháp TF-IDF để xác định độ quan trọng từ văn tệp có nhiều văn khác Đối với bước gán nhãn huấn luyện liệu, luận văn trình bày thuật tốn học máy SVM thuật toán phân lớp có độ xác tốt học máy Qua ba chương, luận văn xây dựng hệ thống đánh giá sản phẩm tảng Web ứng dụng rộng rãi 53 việc mua sản phẩm qua mạng Tuy rằng, hệ thống có nhiều hạn chế thiếu xót chưa đánh giá với số website thương mại điện tử khác, giao diện tính cịn đơn giản, chưa có chế độ bảo mật cho người dùng quan trọng độ xác dựa thuật tốn học máy cịn chưa đủ độ tin cậy dẫn đến có khả đưa đánh giá sai lệch sản phẩm Trong thời gian tới, hệ thống hoàn tồn phát triển cách mạnh mẽ như: Phát triển tảng App mobile, thay sử dụng phương pháp học máy thay kỹ thuật học sâu có độ xác cao hơn, tích hợp nhiều thuật tốn tiền xử lý, thu thập nhiều liệu hơn, giao diện thân thiện với người sử dụng…Trong tương lai, luận văn trình bày ln mong muốn mang tới hệ thống kết nối người mua hàng với tổ chức doanh nghiệp để kinh tế phát triển cách mạnh mẽ tương lai khơng xa Trong cơng trình luận văn, tiến hành công tác nghiên cứu phương pháp nhằm cải thiện độ xác cho tốn phân lớp liệu, cụ thể cải thiện độ xác cho tốn phân loại bình luận khách hàng mua hàng mạng xã hội lazada Bài toán xác định tốn có độ phức tạp tảng nhiều nghiên cứu thực tế Phương pháp giải luận văn tập trung vào việc tăng cường chất lượng nhằm nhận diện nhiều xác ý định nằm ẩn bình luận khách hàng Từ đánh giá chất lượng sản phẩm Dựa vào nghiên cứu phương pháp suy luận mơ hình, việc sử dụng mơ hình phân lớp quen thuộc Support Vecter Machine với miền sữ liệu phong phú Lazada, luận văn đưa mơ hình giải cho tốn đề Quá trình thực nghiệm đạt kết khả quan, cho thấy tính đắn việc lựa chọn kết hợp phương pháp, hứa hẹn nhiều tiềm phát triển hoàn thiện DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt 54 [1] Nguyễn Đức Cường, Tổng quan khai phá liệu, Kỷ yếu Hội nghị Khoa học & Công nghệ lần thứ 9, ĐH Bách Khoa Tp HCM [2] Phạm Nguyên Khang, Trần Nguyễn Minh Thư, Phạm Thế Phi, Đỗ Thanh Nghị, Sự ảnh hưởng phương pháp tách từ toán phân lớp văn Tiếng Việt, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR’9)”; Cần Thơ, ngày 4-5/8/2016 Tiếng Anh [3] T Mitchell, Machine Learning and Data Mining, Communications of the ACM, Vol 42 (1999), No 11, pp 30 36 [4] U M Fayyad, G Piatetsky-Shapiro, P Smyth and R Uthurusamy: Advances in Knowledge Discovery and Data Mining, AAAI Press, Menlo Park, CA, (1996) [5] J Han and M Kamber: Data Mining: Concepts and Techniques, Morgan Kaufmann, San Francisco, CA, (2000) [6] D Hand, H Mannila and P Smyth: Principles of Data Mining, The MIT Press, London, England, (2001) [7] M Kantardzic: Data Mining: Concepts, Models, Method, and Algorithms, John Wiley & Sons, New York, NY, (2003) [8] Le An Ha, 2003 A method for word segmentation Vietnamese Proceddings of Corpus Linguistics 2003, Lancaster, UK ... techniques) Phân loại bình luận khách hàng giúp cho doanh nghiệp hiểu bình luận khách hàng loại sản phẩm cách tự động hóa hiệu Phân loại bình luận khách hàng chia làm hai loại : + Dựa vào phương... với bình luận xấu Ở đây, để máy tính hiểu bình luận tốt bình luận xấu cần phải xử lý dựa kỹ thuật nêu chương số phương pháp học máy giới thiệu chương sau Trong luận văn này, để phân loại bình luận. .. siêu thị Giải thuật học kỹ thuật phát triển dựa đặc tính liệu đặc thù dạng nhị phân thưa [8] 1.2 Ứng dụng khai phá liệu phân loại bình luận khách hàng 1.2.1 Phương pháp phân lớp văn Phân lớp văn

Định dạng
Số trang	60
Dung lượng	2,89 MB