Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 60 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
60
Dung lượng
2,99 MB
Nội dung
i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG lu ĐÀM PHƯƠNG TÙNG an n va p ie gh tn to w PHÂN LOẠI BÌNH LUẬN CỦA KHÁCH HÀNG d oa nl TRÊN MẠNG XÃ HỘI DỰA TRÊN KỸ THUẬT MÁY HỌC nf va an lu z at nh oi lm ul z LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH m co l gm @ an Lu THÁI NGUYÊN 2020 n va ac th si ii LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm cá nhân hướng dẫn khoa học TS Nguyễn Văn Tảo Trong toàn nội dung luận văn, nội dung trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu khác Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tôi xin chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lu an lời cam đoan n va Thái Nguyên, tháng năm 2020 p ie gh tn to Tác giả d oa nl w Đàm Phương Tùng nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si iii LỜI CẢM ƠN Học viên xin bày tỏ lời cảm ơn chân thành tới tập thể thầy cô giáo Viện công nghệ thông tin, thầy cô giáo Trường Đại học Công nghệ thông tin truyền thông - Đại học Thái Nguyên mang lại cho học viên kiến thức vô quý giá bổ ích suốt q trình học tập chương trình cao học trường Đặc biệt học viên xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo TS.NGUYỄN VĂN TẢO định hướng khoa học đưa góp ý, gợi ý, chỉnh sửa quý báu, quan tâm, tạo điều kiện thuận lợi trình nghiên cứu hoàn thành luận văn Cuối cùng, học viên xin chân thành cảm ơn bạn bè đồng nghiệp, gia lu đình người thân quan tâm, giúp đỡ chia sẻ với học viên suốt an n va trình học tập tn to Do thời gian kiến thức có hạn nên luận văn khơng tránh khỏi gh thiếu sót định Học viên mong nhận góp ý quý báu thầy p ie cô bạn Thái Nguyên, tháng năm 2020 w d oa nl Tác giả nf va an lu z at nh oi lm ul Đàm Phương Tùng z m co l gm @ an Lu n va ac th si iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC HÌNH ẢNH vi LỜI MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN PHÂN LOẠI BÌNH LUẬN KHÁCH HÀNG 1.1 Tổng quan khai phá liệu lu an 1.1.1 Những khái niệm khai phá liệu n va 1.1.2 Quy trình khai phá liệu 1.1.4 Kiến trúc hệ thống khai phá liệu 11 gh tn to 1.1.3 Các kỹ thuật tác vụ khai phá liệu ie 1.1.5 So sánh khai phá liệu với máy học 12 p 1.2 Ứng dụng khai phá liệu phân loại bình luận khách hàng 13 nl w 1.2.1 Phương pháp phân lớp văn 13 d oa 1.2.2 Phương pháp tách từ tiếng Việt 16 an lu 1.2.3 Phân loại bình luận khách hàng 20 nf va CHƯƠNG 2: CÁC BƯỚC KHẢO SÁT VÀ PHÂN LOẠI BÌNH LUẬN CỦA 22 2.1 Tìm hiểu chung thương hiệu sản phẩm 22 lm ul 2.2 Mục đích việc lấy bình luận khách hàng 23 z at nh oi 2.3 Thu thập bình luận khách hàng Internet 25 2.4 Mơ hình tổng thể tốn phân loại bình luận khách hàng 29 CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH THỰC NGHIỆM 32 z gm @ 3.1 Đề xuất giải pháp 32 3.1.1 Yêu cầu toán 33 l co 3.1.2 Tổng quan liệu: 35 m 3.2 Xây dựng mơ hình 35 an Lu 3.2.1 Thu thập liệu 36 n va ac th si v 3.2.2 Tiền xử lý liệu 38 3.2.3 Trích xuất vector 41 3.2.4 Huấn luyện liệu 42 3.3 Kết thử nghiệm 49 3.3.1 Đánh giá dựa độ xác 49 3.3.2 Triển khai dự án website thực tiễn 49 KẾT LUẬN 52 DANH MỤC TÀI LIỆU THAM KHẢO 53 lu an n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si vi DANH MỤC HÌNH ẢNH Hình 1.1 Q trình trích xuất thơng tin có giá trị Hình 1.2 Những lĩnh vực liên quan tới khai phá liệu Hình 1.3 Các bước trình KDD .6 Hình 1.5 Mơ thuật tốn phân cụm K-means Hình 1.5 Minh họa thuật toán KNN 15 Hình 1.6 Tồn cảnh hệ thống IGATEC 19 Hình 2.1 Mẫu Pop-up nhúng vào Website .27 Hình 2.2 Ứng dụng chat box tích hợp Website 28 lu an Hình 2.3 Hệ thống Google Analytics 29 n va Hình 2.4 Mơ hình Crawler đơn giản 30 Hình 3.2 Mơ hình học máy kết hợp Tfidf SVM 36 gh tn to Hình 3.1 Bộ liệu câu bình luận tiếng Việt .35 p ie Hình 3.3 Cấu trúc HTML website .37 Hình 3.4 Thu thập liệu Website từ thẻ HTML 37 nl w Hình 3.5 Gán nhãn cho bình luận tập huấn luyện .39 d oa Hình 3.6 Thực tách từ cụm từ liệu dựa vào từ điển 41 41 an lu Hình 3.7 Khoảng cách hai lề hai lớp liệu nf va Hình 3.8 Giao diện chi tiết sản phẩm Lazada .50 Hình 3.9 Giao diện chức phần mềm đánh giá sản phẩm 50 lm ul Hình 3.10 Dữ liệu bình luận tích cực thu thập file data.csv 51 z at nh oi z m co l gm @ an Lu n va ac th si LỜI MỞ ĐẦU Trong thời buổi kinh tế thị trường ngày hôm nay, doanh nghiệp muốn tồn phát triển cần phải khai thác thu thập bình luận phản hồi người dùng sản phẩm hay dịch vụ từ đưa định hướng điều chỉnh hoạt động sản xuất kinh doanh phù hợp Cùng với đời internet, xuất phát triển không ngừng lĩnh vực thương mại điện tử khiến cho việc xúc tiến hoạt động kinh doanh, buôn bán, quảng bá sản phẩm, dịch vụ diễn khắp kênh thông tin xã hội đặc biệt mạng internet Điều vơ hình dung tạo nên cầu nối người dùng nhà lu cung cấp, từ cầu nối người dùng đưa bình luận họ sản an phẩm hay dịch vụ mà nhà cung cấp mang lại va n Như biết ngày thông tin đưa lên trang mạng gh tn to xã hội dạng posts nhiều người dùng để lại các nhận xét ie posts dạng comments, ta nhận thấy kho thông tin khổng p lồ mà từ khai phá trích rút tất comments người nl w dùng, sau phân tích phân loại liệu ấy, thu kết d oa khảo sát cần thiết phục vụ cho hoạt động sản xuất kinh doanh Việc phân loại bình an lu luận khách hàng nhiều lĩnh vực, giúp doanh nghiệp có cách quản lý tốt hơn, đưa sáng kiến giúp doanh nghiệp phát triển nf va z at nh oi lm ul z m co l gm @ an Lu n va ac th si CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TỐN PHÂN LOẠI BÌNH LUẬN KHÁCH HÀNG 1.1 Tổng quan khai phá liệu KPDL thuật ngữ xuất đầu kỷ 21, hệ bùng nổ Internet đạt tới đỉnh điểm Theo công bố Intel vào tháng năm 2013, 11 giây trơi qua lại có thêm Petabybe liệu, tương đương với video chất lượng HD dài 13 năm KPDL ứng dụng rộng rãi nhiều lĩnh vực lu có nhiều cơng cụ thương mại phi thương mại triển khai nhiệm vụ an - Phân tích liệu hỗ trợ định (data analysis & decision support) n va KPDL to gh tn - Điều trị y học (medical treatment): Hiện nay, ứng dụng công nghệ lưu trữ ie lớn, khai phá liệu lĩnh vực y tế để chẩn đốn, phịng ngừa điều trị bệnh p nhằm can thiệp nâng cao sức khỏe người hướng nghiên cứu có nhu cầu thực nl w tiễn, quan tâm tích cực cộng đồng nhà nghiên cứu Một số ứng dụng cụ d oa thể KPDL y học: an lu + Dự đoán khả nhiễm bệnh nf va + Dự đoán mức độ nghiêm trọng virus thể người - Text mining & Web mining: KPDL văn KPDL Web lm ul ứng dụng quan trọng Các toán KPDL văn bao gồm: + Phân lớp văn + Tóm tắt văn z at nh oi + Tìm kiếm văn an Lu Đối với toán KPDL Web bao gồm: m + Dẫn đường văn co l gm + Đánh mục từ tiềm @ + Phân cụm từ mục z + Phân cụm văn n va ac th si + Thu thập xử lý liệu Web + Phân lớp nhóm Website có độ uy tín truy cập - Tin sinh học (bio-informatics): KPDL sinh học phần quan trọng lĩnh vực Tin-Sinh học (Bioinformatics) Một số ứng dụng KPDL sinh học: + Lập mục, tìm kiếm tương tự, bất thường CSDL Gen + Xây dựng mơ hình khai phá mạng di truyền cấu trúc Gen, protein + Xây dựng công cụ trực quan phân tích liệu di truyền - Tài thị trường chứng khoán (finance & stock market): Dữ liệu tài lu ngân hàng ngành tài nói chung thường đáng tin cậy có an n va chất lượng cao, tạo điều kiện cho khai phá liệu Dưới số ứng dụng điển - Dự đoán khả vay tốn khách hàng, phân tích sách gh tn to hình khai phá liệu tài chính: p ie tín dụng khách hàng + Phân tích hành vi khách hàng (vay, gửi tiền) nl w + Phân loại phân nhóm khách hàng mục tiêu cho tiếp thị tài d oa + Phát hoạt động rửa tiền tội phạm tài an lu - Bảo hiểm (insurance) nf va - Nhận dạng (pattern recognition) Trong chương này, luận văn giới thiệu tổng quan khai phá liệu bao lm ul gồm định nghĩa, số nghiên cứu, kỹ thuật khai phá xử lý liệu z at nh oi Tiếp theo tổng quan kỹ thuật khai phá văn bản, ứng dụng tốn phân tích bình luận khách hàng 1.1.1 Những khái niệm khai phá liệu z gm @ Ngày nay, liệu người tạo ngày nhiều số lượng, tăng nhanh khối lượng, phát triển mạnh quy mô khiến việc phân loại, lựa chọn, khai l m trợ công việc co thác sử dụng gặp khó khăn định Khái niệm khai phá liệu đời hỗ an Lu n va ac th si Đến nay, có nhiều định nghĩa khai phá liệu nhìn chung định nghĩa hướng tới nhận định Theo Tom Mitchell [3]: “KPDL việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tương lai.” Với cách tiếp cận ứng dụng hơn, Fayyad [4] phát biểu: “KPDL, thường xem việc khám phá tri thức sở liệu, q trình trích xuất thơng tin ẩn, trước chưa biết có khả hữu ích, dạng qui luật, ràng buộc, qui tắc sở liệu.” Tóm lại, KPDL trình học tri thức từ liệu thu thập [5,6,7] Khái niệm khai phá liệu (Data Mining) hay khám phá tri thức lu (Knowledge Discovery) có nhiều cách diễn đạt khác chất an n va q trình tự động trích xuất thơng tin có giá trị (Thơng tin dự đốn - Predictive Mining ám việc tìm kiếm tập nhỏ có giá trị từ số lượng lớn gh tn to Information) ẩn chứa khối lượng liệu khổng lồ thực tế Thuật ngữ Data p ie liệu thô d oa nl w nf va an lu Hình 1.1 Q trình trích xuất thơng tin có giá trị z at nh oi thuyết công nghệ lm ul Khai phá liệu lĩnh vực liên ngành, nơi hội tụ nhiều học z m co l gm @ an Lu Hình 1.2 Những lĩnh vực liên quan tới khai phá liệu n va ac th si 40 từ (khác nhau) văn đặc trưng (feature) tần số xuất văn giá trị đặc trưng tương ứng Q trình trích đặc trưng bao gồm tách từ (word segmentation) đếm số lần xuất từ văn Như thế, văn biểu diễn dạng véc-tơ tần số Bước huấn luyện mơ hình học tự động từ bảng liệu Các mơ hình máy học thường sử dụng giải thuật k-NN (Fix & Hodges, 1952), naive Bayes (Good, 1965), định (Quinlan, 1993), (Breiman et al., 1984), máy học véc-tơ hỗ trợ (Vapnik, 1995), giải thuật tập hợp mơ hình bao gồm Boosting (Freund & Schapire, 1995), (Breiman, 1998) rừng ngẫu nhiên (Breiman, 2001) Các nghiên cứu máy học lu trước (Phạm et al., 2006), (Phạm et al., 2008), (Đỗ, 2012), (Đỗ & Phạm, an n va 2013) đề xuất giải thuật máy học dựa tập hợp mơ hình, máy học véc-tơ hỗ diễn văn mơ hình túi từ [8] ie gh tn to trợ, naive Bayes, cho phép phân lớp hiệu tập liệu có số chiều lớn biểu Phương pháp túi từ cịn có tên gọi khác Bag of Words (BOW) thuật p toán hỗ trợ xử lý ngơn ngữ tự nhiên mục đích BoW phân loại text hay văn nl w Ý tưởng BoW phân tích phân nhóm dựa theo "Bag of Words"(corpus) d oa Với test data mới, tiến hành tìm số lần từ test data xuất "bag" an lu Tuy nhiên BoW tồn khuyết điểm, nên TF-IDF phương pháp khắc phục Có nf va thể ứng dụng BoW + TF-IDF vào việc tìm kiếm, phân loại tài liệu, lọc mail spam xác định ý định người dùng z at nh oi lm ul z m co l gm @ an Lu n va ac th si 41 lu an n va p ie gh tn to oa nl w d Hình 3.6 Thực tách từ cụm từ liệu dựa vào từ điển lu an 3.2.3 Trích xuất vector nf va Sau thực tách từ thông qua từ điển thực vector hóa câu bình frequency): z at nh oi lm ul luận có liệu qua xử lý TF-IDF(term frequency – inverse document - TF-IDF phương thức thống kê để xác định độ quan trọng từ văn tệp có nhiều văn khác Trong đề tài TF-IDF z sử dụng để chuyển văn (bình luận sản phẩm ) từ dạng text sang dạng gm @ không gian vector m co thức tính TF: l - TF(Term Frequency): tần suất xuất từ văn Công an Lu n va ac th si 42 𝑡𝑓(𝑡) = 𝑓(𝑡,𝑑) 𝑇 Trong đó: 𝑡 từ có đoạn văn 𝑓(𝑡,𝑑) số lần xuất từ t văn 𝑇 số từ có văn - IDF (Inverse Document Frequency): Là độ quan trọng từ văn Độ quan trọng tính qua cơng thức: 𝑖𝑑𝑓(𝑡) = log 𝑁 |𝑡 ∈ 𝐷: 𝑡 ∈ 𝑑| lu Trong : 𝑁 số đoạn văn an va |𝑡 ∈ 𝐷: 𝑡 ∈ 𝑑| số văn chưa từ t n - TF- IDF tính bởi: to ie gh tn 𝑡𝑓𝑖𝑑𝑓(𝑡) = 𝑡𝑓(𝑡) × 𝑖𝑑𝑓(𝑡) Để sử dụng TF-IDF đề tài sử dụng TfidfVectorizer thư viện scikit- p learn, sau thực word2vec thông qua TF-IDF vector thực nl w transform để chuẩn hóa liệu d oa 3.2.4 Huấn luyện liệu an lu Như biết, có nhiều thuật tốn để phân loại logistic regression, soft- nf va max, naive bayes, random forest, SVM Nhưng nhận thấy toán này, số lượng chiều vector sau trích xuất Tfidf lớn (trong code lm ul 100000) mà có class mà thơi Trong trường hợp SVM phân z at nh oi loại hiệu hẳn thuật toán khác Việc huấn luyện liệu cách tối ưu tham số phù hợp để đạt kết cao Việc tối ưu tham số Tfidf SVM quan trọng, tham số z gm @ không phù hợp với liệu cho kết thấp ngược lại Tất nhiên tốn thời gian nhiều với liệu lớn mơ hình huấn luyện phức l m thơi xử lý nhiều co tạp, thời gian huấn luyện lâu gần khơng thể với tham số an Lu n va ac th si 43 Khi liệu vector hóa chuẩn hóa để thực trình phân loại văn bình luận có sắc thái gán nhãn, sử dụng model SVM (Support Vector Machine) Dữ liệu đưa vào huấn luyện với SVM, để có mơ hình dự đốn tốt với parameter đưa vào phần huấn luyện thuật tốn có sử dụng GridSearchCV thư viện Scikit-learn để thực thử tham số thực lựa chọn mơ hình cho kết phân loại tốt 3.2.5 Thuật toán SVM trình huấn luyện liệu 3.2.5.1 Bài toán đối ngẫu phương pháp nhân tử Lagrange lu an Bài toán đối ngẫu: va (w, b)= argmin ||w||22 n w, b, ξ tn to 1- yn (wT xn + b) ≤0 , ∀n =1,2,…,N thỏa mãn: (3.1.1) Lagrangian cho toán (3.1.1) là: p ie gh - ξn ≤0, ∀n =1,2,…,N oa λ = [λ1 ,λ2 , , λ𝑁 ]𝑇 ≥ ∀𝑛 = 1,2, , 𝑁 d với (3.1.2) nl w T £(w, b, λ )= ‖w‖22 + ∑N n=1 λn (1 - yn ( w xn + b )) an lu Hàm số đối ngẫu toán (3 11) là: nf va g(λ)= £(w, b, λ) w, b lm ul với 𝜆 ≥ Việc tìm giá trị nhỏ hàm theo 𝒘 𝑏 đựợc thực z at nh oi cách giải hệ phương trình đạo hàm 𝐿(𝒘, 𝑏, 𝝀) theo w b 0: N ∇ w £(w, b, λ) = w - ∑N n=1 λn yn xn = 0⇒ 𝐰 = ∑n=1 λn yn xn (3.1.3) ∇ w £(w, b, λ)= ∑N n=1 λn yn = (3.1.4) z gm @ Thay (3.1.3) (3.1.4) vào (3.1.2) ta thu g(λ): N N T g(λ)= ∑N n=1 λn - ∑n=1 ∑m=1 λn λm yn ym xn λn vector 𝟏 = [1,1, ,1]𝑇 , viết lại 𝑔(𝝀) dạng: an Lu 𝑽 = y1 x1 , y2 x2 , , yn xn m co Bằng cách ký hiệu ma trận: (3.1.5) l n va ac th si 44 g(λ) = λ𝑇 𝑽𝑇 𝑽λ + 𝟏𝑇 λ (3.1.6) Từ đó, kết hợp hàm đối ngẫu Lagrange điều kiện ràng buộc λ, thu toán đối ngẫu Lagrange tốn (3.1.1) có dạng: λ = argmax g(λ) λ λ≥0 ∑N n=1 λ n y n =0 thỏa mãn: (3.1.7) lu an n va p ie gh tn to Ràng buộc thứ hai lấy từ (3.1.4) Đây tốn lồi ta tìm giá trị lớn hàm mục tiêu concave polyhedron3 Hơn nữa, tốn quadratic programming giải thư viện CVXOPT Trong tốn đối ngẫu này, số lượng tham số phải tìm N, chiều λ, số điểm liệu Trong đó, với tốn gốc (3.1.1), số tham số phải tìm d + 1, tổng số chiều w b, tức số chiều điểm liệu cộng với Trong nhiều trường hợp, số điểm liệu có tập huấn luyện lớn số chiều liệu nhiều Nếu giải trực tiếp công cụ giải quadratic programming, tốn đối ngẫu cịn phức tạp (tốn thời gian hơn) so với tồn gốc Tuy nhiên, điều hấp dẫn tốn đối ngẫu đến từ cấu trúc đặc biệt hệ điều kiện KKT Ngoài ra, dạng đặc biệt toán đối ngẫu giúp nhà khoa học phát triển thêm dạng tổng SVM, khiến hoạt động với trường hợp liệu hai lớp không linear separable 3.2.5.2 Tiêu chuẩn ràng buộc Slater d oa nl w lu nf va an Cần chứng minh toán tối ưu (3.1.1) thoả mãn điều kiện Slater Điều kiện Slater nói rằng, tồn w, b thoả mãn: z at nh oi lm ul - 𝑦𝑛 (wT xn + b) < 0, ∀n = 1, 2, , N strong duality thoả mãn Việc kiểm tra không phức tạp Vì biết ln ln có siêu phẳng phân chia hai lớp hai lớp linearly separable, tức tốn có nghiệm, nên feasible set toán tối ưu (3.1.1) phải khác rỗng Tức luôn tồn cặp (𝐰0 , 𝑏0 ) cho: - 𝑦𝑛 (𝐰0𝑇 xn + 𝑏0 ) ≤ 0, ∀n = 1, 2, , N (3.2.1) z @ ⇔ - yn (2wT0 xn + 2b0 ) ≤ 0, ∀n = 1, 2, , N Vậy cần chọn w1 = 2w0 b1 = 2b0 , có: l gm (3.2.2) an Lu Từ suy điều kiện Slater thoả mãn 3.2.5.3 Điều kiện tối ưu KKT (Karush-Kuhn-Tucker) m co - yn (wT1 xn + b1 ) ≤ -1 < 0, ∀n = 1, 2, , N n va ac th si 45 Đây toán lồi strong duality thoả mãn, nghiệm toán thoả mãn hệ điều kiện KKT sau với biến số w, b λ - yn (wT xn + b) ≤ 0, ∀n = 1, 2, , N (3.3.1) λ n ≥ 0, ∀n = 1, 2, , N (3.3.2) λ n (1 -yn (wT xn + b)) = 0, ∀n = 1, 2, , N (3.3.3) w = ∑N n=1 λn yn xn (3.3.4) ∑N n=1 λn yn =0 (3.3.5) Trong điều kiện trên, điều kiện (3.3.3) thú vị Từ suy ngay, với n bất kỳ, λn = 1-yn (wT xn +b) = Trường hợp thứ hai wT xn + b =yn , với ý y2n = 1, ∀n lu an 3.2.5.4 Soft-Margin SVM - Bài toán đối ngẫu: va n (w, b, ξ)= argmin ||w||22 + C ∑N n=1 ξn tn to w, b, ξ 1- ξn - yn (wT xn + b) ≤0 , ∀n =1,2,…,N gh thỏa mãn: (3.4.1) p ie - ξn ≤0, ∀n =1,2,…,N Lagrangian cho toán (3.4.1) là: w d (3.4.2) an lu ∑N n=1 μn ξn oa nl N T £(w, b, ξ, λ, µ)= ‖w‖22 + C ∑N n=1 ξn + ∑n=1 λn (1 - ξn - yn( w xn + b ))- λ = [λ1 ,λ2 , , λN ]𝑇 ≥ nf va với µ =[µ1 ,µ2 , , µN ]𝑇 ≥ lm ul Hàm số đối ngẫu toán (3.4.1) là: z at nh oi g(λ, µ)= £(w, b, ξ, λ, µ) w, b, ξ Với cặp (λ, µ), quan tâm tới (w, b, ξ) thoả mãn điều kiện đạo hàm z @ Lagrangian 0: (3.4.4) co (3.4.5) m ∇λn £= ⇔ λn = C- μn l ∇b £= ⇔ ∑N n=1 λn yn =0 (3.4.3) gm ∇ w £= ⇔ w = ∑N n=1 λn yn xn an Lu n va ac th si 46 Từ (3.4.5) thấy quan tâm tới cặp (λ, µ) cho λn = C - µn Từ suy ≤ λn , µ𝑛 ≤ C, n = 1,2, , N Thay biểu thức vào biểu thức Lagrangian (3.4.2), kết thu hàm mục tiêu tốn đối ngẫu N N T g(λ, µ)= ∑N n=1 λn - ∑n=1 ∑m=1 λn λm yn ym xn λn (3.4.6) Chú ý hàm không phụ thuộc vào µ cần lưu ý ràng buộc (3.4.5), ràng buộc điều kiện không âm λ viết gọn lại thành ≤ λn ≤ C, ta giảm biến µ Lúc này, toán đối ngẫu trở thành: λ = argmax g(λ) λ ∑N n=1 λ n y n =0 lu thỏa mãn: an (3.4.7) va ≤ 𝜆 𝑛 ≤ 𝐶, ∀𝑛 = 1,2, , 𝑁 (3.4.8) n Bài toán gần giống với toán đối ngẫu hard-margin SVM, khác gh tn to có thêm ràng buộc λn bị chặn C Khi C lớn, coi hai p ie toán Ràng buộc (3.4.8) cịn gọi box constraint khơng gian điểm nl w λ thoả mãn ràng buộc giống hình hộp chữ nhật khơng gian nhiều d oa chiều Bài tốn hồn tồn giải cơng cụ giải QP thơng thường, an lu ví dụ CVXOPT thực hard-margin SVM Sau tìm nf va λ toán đối ngẫu, phải quay lại tìm nghiệm (w,b,ξ) tốn gốc Trước hết, cần xem xét hệ điều kiện KKT tính chất nghiệm lm ul - Tiêu chuẩn ràng buộc Slater z at nh oi Trong toán, với n = 1,2, , N (w, b), ln ln tìm giá trị số dương ξn, n = 1,2, , N đủ độ lớn thỏa mãn điều kiện z yn (w𝑇 x𝑛 + b)+ ξn > 1, ∀n = 1,2, , N toán thoả mãn tiêu chuẩn Slater @ an Lu λn ≥0 (3.4.10) m -ξn ≤ co l gm - Điều kiện tối ưu KKT (Karush-Kuhn-Tucker) Hệ điều kiện KKT toán soft-margin SVM là, với n = 1,2, , N: - ξn - yn (wT xn + b) ≤ (3.4.9) (3.4.11) n va ac th si 47 µn≥0 (3.4.12) λn (1- ξn - yn (wT xn +b)) ≤0 (3.4.13) µ n ξn = (3.4.14) w = ∑N n=1 λn yn xn (3.4.3) ∑N n=1 λn yn =0 (3.4.4) lu λn =C-µn (3.4.5) Từ (3.4.5) suy có 𝑛 ứng với λn > đóng góp vào nghiệm 𝐰 toán Tập hợp S = {n : λn > 0} gọi support set, {xn , n ∈ S} gọi tập điểm support vectors Khi λ n > 0, (3.4.13) rằng: an n va yn ( wT xn + b) = – ξn (3.4.15) to tn Nếu có thêm điều kiện < λn < C, (3.8) nói µn = C - λn > 0, kết hợp với ie gh (3.4.14), thu ξ n = Tiếp tục kết hợp với (3.15), suy yn (wT xn +b) = Nói p cách khác: w (wT xn +b) = yn , ∀𝑛 ∶ < 𝜆𝑛 < 𝐶 (3.4.16) d oa nl Khi < λn < C, điểm xn nằm xác margin Giá trị b tính theo công thức (numerical stable solution): an lu b= NM ∑m∈M (ym - wT xm ) (3.4.17) nf va với M = {m : < λm < C} NM số phần tử S Nghiệm toán soft-margin SVM cho (3.4.5) (3.4.17) Nghiệm của toán soft-margin SVM: w = ∑m∈S λm ym xm (3.4.18) ∑n∈M (yn - wT xn ) = NM ∑n∈M (yn - ∑m∈S λm ym wT xm ) (3.4.19) z NM z at nh oi lm ul b= gm @ Cũng từ (3.4.15) (3.4.13) suy yn (wT xn +b) ≤ với điểm tương m co l ứng với λn = C Tức điểm nằm hai đường margin Như vậy, dựa giá trị λn dự đốn vị trí tương đối xn so với hai đường margin an Lu n va ac th si 48 Mục đích cuối xác định nhãn cho điểm tính cụ thể w b Vì vậy, cần quan tâm tới cách xác định giá trị biểu thức sau với x bất kỳ: wT xn + b = ∑m∈S λm ym xTm x + NM ∑n∈M (yn - ∑m∈S λm ym xTm x ) (3.4.20) Trong cách tính này, biết cách tính tích vơ hướng xTm x xTm xn , xác định phân lớp 3.2.5.5 Bài toán tối ưu khơng ràng buộc cho soft-margin SVM Bài tốn tối ưu không ràng buộc tương đương: lu Điều kiện ràng buộc thứ : an - ξn - yn (wT xn + b) ≤ ⇔ ξn ≥ - yn (wT xn + b) (3.4.21) va n Kết hợp với điều kiện ξn ≥ có tốn ràng buộc tương đương toán (3.4.1) tn to sau: gh N p ie (w, b, ξ)= argmin ||w||22 + C ∑ ξn w, b, ξ ξn ≥ max (0,1 - yn (wT xn + b)), ∀n = 1, 2, , N (3.4.22) nl w thỏa mãn: n=1 d oa Tiếp theo, để đưa tốn (3.4.22) dạng khơng ràng buộc, cần phải chứng an lu minh nhận xét sau phương pháp phản chứng Nếu (w, b, ξ) nghiệm nf va tốn tối ưu (3.4.22), tức hàm mục tiêu đạt giá trị nhỏ nhất, thì: ξn = max (0,1 - yn (wT xn + b)), ∀n = 1, 2, , N (3.4.23) lm ul Thật vậy, giả sử ngược lại, tồn n cho: z at nh oi ξn > max (0,1 - yn (wT xn + b)), chọn ξ'n = max (0,1 - yn (wT xn + b)), thu giá trị thấp hàm mục tiêu z đạt giá trị nhỏ Điều mâu thuẫn nhận xét (3.4.23) xác @ thu toán tối ưu: co l gm Khi đó, cách thay tồn giá trị ξn (3.4.23) vào hàm mục tiêu, (w, b, ξ)= argmin ||w||22 + C ∑N n=1 ξn an Lu thỏa mãn: (3.4.24) m w, b, ξ ξn = max (0,1 - yn (wT xn + b)), ∀n = 1, 2, , N n va ac th si 49 Thấy biến số ξ khơng cịn quan trọng tốn nữa,có thể lược bỏ buộc mà không làm thay đổi nghiệm toán Bài toán (3.4.24) tương đương với: T (w, b)= argmin { ||w||22 +C ∑N n=1 max (0,1 - yn (w xn + b)) ≅ 𝐽(w, b)} (3.4.25) w, b Đây toán tối ưu không ràng buộc với hàm mát J(w, b) Bài tốn giải phương pháp Gradient descent lu an n va p ie gh tn to Hình 3.7 Khoảng cách hai lề lớp liệu d oa nl w lu nf va an 3.3 Kết thử nghiệm 3.3.1 Đánh giá dựa độ xác lm ul Sau q trình chia liệu thành fold sử dụng f1_score để đánh giá mô ổn z at nh oi hình nhận thấy mơ hình đạt 90,008% f1_score tập liệu test Đây kết 3.3.2 Triển khai dự án website thực tiễn z Truy cập vào Website thương mại điện tử Lazada, vào mục sản phẩm xem m co l gm @ chi tiết sản phẩm an Lu n va ac th si 50 lu an n va to tn Hình 3.8 Giao diện chi tiết sản phẩm Lazada ie gh Sau vào phần chi tiết sản phẩm, lựa chọn đường dẫn sản phầm chép đường p dẫn vào phần mềm đánh giá d oa nl w nf va an lu z at nh oi lm ul z gm @ co l Hình 3.9 Giao diện chức phần mềm đánh giá sản phẩm m Phần đường dẫn chép nhập vào input Enter Lazada product url, sau an Lu nhập xong phần mềm lựa chọn tới phần bình luận crawler tất bình luận đó, sau mã hóa bình luận để phân tích dựa thuật toán SVM Để thực n va ac th si 51 đưa kết phần mềm chọn vào ANALYZE Kết phần mềm hiển thị ô Recommend Ví dụ sản phẩm dung dịch làm hệ thống nhiên liệu động xe máy Trusted Cleaning Power có giá 48.000 VNĐ phần mềm đưa đánh giá “Good! You can boy it!” Nhận thấy khuyến nghị mua hàng phần mềm xác dựa bình luận mà khách hàng đánh giá trang Để phần mềm đạt độ xác cao thu thập liệu huấn luyện liệu với số lượng lớn Đối với phần mềm, liệu thu thập đưa vào file csv để tiện lợi cho trình phân tích lu an n va p ie gh tn to d oa nl w nf va an lu lm ul Hình 3.10 Dữ liệu bình luận tích cực thu thập file data.csv z at nh oi z m co l gm @ an Lu n va ac th si 52 KẾT LUẬN Tên đề tài: “Phân loại bình luận khách hàng mạng xã hội dựa kỹ thuật máy học” Với xu phát triển mạnh mẽ trí tuệ nhân tạo kỹ thuật học máy bối cảnh phát triển hội nhập quốc tế cách mạng công nghiệp 4.0 mà có nhiều tổ chức công ty, nhà nghiên cứu xây dựng chiến lược phát triển nhằm đưa AI kỹ thuật học máy trở thành công nghệ đột phá năm tới Đứng trước xu với gia tăng cách nhanh chóng hệ thống thương mại điện tử với muôn vàn lu mặt hàng bày bán mang lại thuận tiện lẫn khó khăn an n va khách hàng mà đề tài “Phân loại bình luận khách hàng mạng xã hội dựa chương Chương 1, luận văn trình bày khái quát định nghĩa khai phá gh tn to kỹ thuật máy học” lựa chọn để giải vấn đề Luận văn gồm ie liệu, xử lý liệu thô số định nghĩa học máy nhằm mang lại p tàng để dễ dàng tiếp cận kỹ thuật nl w trình bày chương luận văn Chương 2, luận văn trình bày khái d oa quát phương pháp thu thập bình luận khách hàng từ phương pháp khảo an lu sát túy đến phương pháp thu thập bình luận qua mạng Internet với ý nf va kiến thương hiệu sản phẩm Qua thấy ý nghĩa mục đích quan trọng việc thu thập bình luận khách hàng có ảnh hưởng vô lớn tới việc kinh lm ul doanh sản phẩm tổ chức, doanh nghiệp Chương luận văn chương z at nh oi quan trọng đưa bước xây dựng hệ thống đánh giá sản phẩm qua bình luận với bốn bước cốt lõi là: Thu thập liệu, tiền xử lý liệu, trích xuất vector huấn luyện liệu Đối với bước trích xuất vector luận văn trình bày chi z gm @ tiết phương pháp TF-IDF để xác định độ quan trọng từ văn tệp có nhiều văn khác Đối với bước gán nhãn huấn luyện liệu, l co luận văn trình bày thuật toán học máy SVM thuật tốn phân lớp m có độ xác tốt học máy Qua ba chương, luận văn xây dựng an Lu hệ thống đánh giá sản phẩm tảng Web ứng dụng rộng rãi n va ac th si 53 việc mua sản phẩm qua mạng Tuy rằng, hệ thống cịn có nhiều hạn chế thiếu xót chưa đánh giá với số website thương mại điện tử khác, giao diện tính cịn đơn giản, chưa có chế độ bảo mật cho người dùng quan trọng độ xác dựa thuật tốn học máy chưa đủ độ tin cậy dẫn đến có khả đưa đánh giá sai lệch sản phẩm Trong thời gian tới, hệ thống hồn tồn phát triển cách mạnh mẽ như: Phát triển tảng App mobile, thay sử dụng phương pháp học máy thay kỹ thuật học sâu có độ xác cao hơn, tích hợp nhiều thuật toán tiền xử lý, thu thập nhiều liệu hơn, giao diện thân thiện với người sử dụng…Trong tương lai, luận lu văn trình bày ln mong muốn mang tới hệ thống kết nối an n va người mua hàng với tổ chức doanh nghiệp để kinh tế phát triển Trong cơng trình luận văn, tiến hành công tác nghiên cứu phương pháp gh tn to cách mạnh mẽ tương lai không xa p ie nhằm cải thiện độ xác cho tốn phân lớp liệu, cụ thể cải thiện độ xác cho tốn phân loại bình luận khách hàng mua hàng mạng xã hội nl w lazada Bài tốn xác định tốn có độ phức tạp tảng nhiều d oa nghiên cứu thực tế Phương pháp giải luận văn tập trung vào việc tăng an lu cường chất lượng nhằm nhận diện nhiều xác ý định nằm ẩn nf va bình luận khách hàng Từ đánh giá chất lượng sản phẩm Dựa vào nghiên cứu phương pháp suy luận mơ hình, việc sử dụng mơ lm ul hình phân lớp quen thuộc Support Vecter Machine với miền sữ liệu phong phú z at nh oi Lazada, luận văn đưa mơ hình giải cho tốn đề Q trình thực nghiệm đạt kết khả quan, cho thấy tính đắn việc lựa chọn kết hợp phương pháp, hứa hẹn nhiều tiềm phát triển hoàn thiện z co l gm @ m DANH MỤC TÀI LIỆU THAM KHẢO an Lu Tiếng Việt n va ac th si 54 [1] Nguyễn Đức Cường, Tổng quan khai phá liệu, Kỷ yếu Hội nghị Khoa học & Công nghệ lần thứ 9, ĐH Bách Khoa Tp HCM [2] Phạm Nguyên Khang, Trần Nguyễn Minh Thư, Phạm Thế Phi, Đỗ Thanh Nghị, Sự ảnh hưởng phương pháp tách từ toán phân lớp văn Tiếng Việt, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR’9)”; Cần Thơ, ngày 4-5/8/2016 Tiếng Anh [3] T Mitchell, Machine Learning and Data Mining, Communications of the ACM, Vol 42 (1999), No 11, pp 30 36 lu an [4] U M Fayyad, G Piatetsky-Shapiro, P Smyth and R Uthurusamy: Advances in n va Knowledge Discovery and Data Mining, AAAI Press, Menlo Park, CA, (1996) tn to [5] J Han and M Kamber: Data Mining: Concepts and Techniques, Morgan Kaufmann, San Francisco, CA, (2000) gh p ie [6] D Hand, H Mannila and P Smyth: Principles of Data Mining, The MIT Press, London, England, (2001) nl w [7] M Kantardzic: Data Mining: Concepts, Models, Method, and Algorithms, John d oa Wiley & Sons, New York, NY, (2003) an lu [8] Le An Ha, 2003 A method for word segmentation Vietnamese Proceddings of nf va Corpus Linguistics 2003, Lancaster, UK z at nh oi lm ul z m co l gm @ an Lu n va ac th si