Microsoft Word CS20 37 NguyÅn ThË HÙi Báo cáo DaSua05052021 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY[.]
1 of 107 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY (MACHINE LEARNING) ỨNG DỤNG CHO BÀI TOÁN XÁC ĐỊNH CÁC CHỦ ĐỀ QUAN TÂM CỦA KHÁCH HÀNG TRỰC TUYẾN Mã số đề tài: CS20_37 Chủ nhiệm đề tài: ThS Nguyễn Thị Hội Thành viên tham gia: ThS Trần Thị Nhung ThS Nguyễn Thị Đào Hà Nội, 03 - 2021 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng pdf, w of 107 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY (MACHINE LEARNING) ỨNG DỤNG CHO BÀI TOÁN XÁC ĐỊNH CÁC CHỦ ĐỀ QUAN TÂM CỦA KHÁCH HÀNG TRỰC TUYẾN Mã số đề tài: CS20_37 Chủ nhiệm đề tài: ThS Nguyễn Thị Hội Thành viên tham gia: ThS Trần Thị Nhung ThS Nguyễn Thị Đào Xác nhận Trường Đại học Thương mại Chủ nhiệm đề tài Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng pdf, w of 107 MỤC LỤC DANH MỤC TỪ VIẾT TẮT DANH MỤC BẢNG BIỂU DANH MỤC HÌNH VẼ THÔNG TIN KẾT QUẢ NGHIÊN CỨU MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU 1.1 TÍNH CẤP THIẾT CỦA ĐỀ TÀI NGHIÊN CỨU 1.2 TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU 1.2.1 Tình hình nghiên cứu nước 1.2.2 Tính hình nghiên cứu ngồi nước 11 1.3 MỤC TIÊU NGHIÊN CỨU 12 1.4 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 13 1.4.1 Đối tượng nghiên cứu 13 1.4.2 Phạm vi nghiên cứu 13 1.5 PHƯƠNG PHÁP NGHIÊN CỨU 13 1.5.1 Cách tiếp cận 13 1.5.2 Phương pháp nghiên cứu 13 1.6 KẾT CẤU BÁO CÁO NGHIÊN CỨU 14 CHƯƠNG HỌC MÁY VÀ ỨNG DỤNG TRONG BÀI TOÁN KINH TẾ 16 2.1 TỔNG QUAN VỀ HỌC MÁY 16 2.2 QUY TRÌNH PHÂN TÍCH DỮ LIỆU BẰNG HỌC MÁY 17 2.3 MỘT SỐ THUẬT TOÁN HỌC MÁY PHỔ BIẾN 17 2.3.1 Phân loại dựa phương thức học 17 2.3.2 Phân loại dựa tương đồng cách hoạt động 20 2.4 ỨNG DỤNG HỌC MÁY TRONG CÁC BÀI TOÁN KINH TẾ 22 2.4.1 Học máy ứng dụng tài 22 2.4.2 Học máy ứng dụng Marketing 27 2.4.3 Học máy ứng dụng Thương mại điện tử 28 CHƯƠNG BÀI TOÁN PHÂN LOẠI KHÁCH HÀNG THEO CHỦ ĐỀ 31 3.1 VAI TRÒ CỦA PHÂN TÍCH DỮ LIỆU KHÁCH HÀNG 31 3.1.1 Quan hệ khách hàng kinh doanh 31 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng pdf, w of 107 3.1.2 Vai trị tốn phân tích liệu khách hàng 32 3.1.3 Dữ liệu khách hàng 33 3.2 BÀI TOÁN PHÂN LOẠI KHÁCH HÀNG TRỰC TUYẾN THEO CHỦ ĐỀ 34 3.3 CÁC HƯỚNG TIẾP CẬN CỦA BÀI TOÁN 35 3.4 ỨNG DỤNG CỦA BÀI TOÁN 37 3.4.1 Ứng dụng hệ thống khuyến nghị 37 3.4.2 Ứng dụng phân nhóm khách hàng 38 CHƯƠNG 4: THỰC NGHIỆM, ĐÁNH GIÁ VÀ THẢO LUẬN 41 4.1 MỤC ĐÍCH VÀ CHUẨN BỊ CHO THỰC NGHIỆM 41 4.1.1 Mục đích thực nghiệm 41 4.1.2 Các bước chuẩn bị cho thực nghiệm 41 4.2 KỊCH BẢN THỰC NGHIỆM VÀ THAM SỐ ĐẦU RA 48 4.2.1 Kịch thực nghiệm 48 4.2.2 Tham số đầu 49 4.3 KẾT QUẢ THỰC NGHIỆM, ĐÁNH GIÁ VÀ THẢO LUẬN 49 4.5 CÁC HÀM Ý ĐỀ XUẤT ỨNG DỤNG CHO TỔ CHỨC, DOANH NGHIỆP 55 KẾT LUẬN 59 DANH MỤC TÀI LIỆU THAM KHẢO 60 PHỤ LỤC 62 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng pdf, w of 107 DANH MỤC TỪ VIẾT TẮT Từ viết tắt AI Diễn giải Nghĩa tiếng việt Artificial Intelligence Trí tuệ nhân tạo B2C Business to Customer Doanh nghiệp đến khách hàng ML Machine Learning Học máy TMĐT Thương mại điện tử CNTT Công nghệ thông tin CNN Convolutional Neural Network Mạng nơ ron tích chập KNN K - Nearest Neighbors Người láng giềng gần MNB Multinomial Naive Bayes Mơ hình xác suất phân lớp SVM Support Vector Machines Mơ hình khơng gian véc tơ W2Vec Word to Vector Mơ hình véc tơ Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng pdf, w of 107 DANH MỤC BẢNG BIỂU Bảng 4.1: Tóm tắt thơng số liệu thử nghiệm 43 Bảng 4.2: Minh họa liệu thu thập từ thực tế 43 Bảng 4.3: Danh sách thuật toán sử dụng để so sánh 44 Bảng 4.4: Độ xác Accuracy ngữ liệu 20 NewsGroups 50 Bảng 4.5 Độ xác F1- score ngữ liệu 20 NewsGroups 51 Bảng 4.6: Độ xác thuật toán ngữ liệu Tiếng Việt 52 Bảng 4.7: Kết F1- score ngữ liệu Tiếng Việt 53 DANH MỤC HÌNH VẼ Hình 2.1: Quy trình xử lý liệu học máy 17 Hình 2.2: Phân loại thuật toán theo phương pháp học 18 Hình 2.3: Phân loại thuật tốn theo tương đồng hoạt động 20 Hình 3.1: Mơ tốn 35 Hình 3.2: Ứng dụng vào hệ thống khuyến nghị sản phẩm 38 Hình 3.3: Ứng dụng vào hệ thống phân tích liệu khách hàng 40 Hình 4.1: Thu thập từ phần đánh giá sản phẩm trang https://shopee.vn/ sendo.vn 42 Hình 4.2: Thu thập từ đánh giá sản phẩm trang Facebook.com YouTube.com 42 Hình 4.3 : Minh họa thuật tốn CNN (Kim Y , 2014) 45 Hình 4.4 : Minh họa thuật tốn Word2Vec (Kim Y , 2014) 46 Hình 4.5: Thuật tốn NB ngun thủy 47 Hình 4.6 : Mơ thuật tốn SVM ( 47 Hình 4.7: So sánh Accuracy F1- score 20 NewsGroups 52 Hình 4.8: So sánh Accuracy F1- score liệu Tiếng Việt 53 Hình 4.9: Phân nhóm khách hàng dựa học máy 55 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng pdf, w of 107 THÔNG TIN KẾT QUẢ NGHIÊN CỨU Đề tài thực 08 tháng từ tháng 07 năm 2020 đến hết tháng 03 năm 2021, trình thực đề tài, nhóm nghiên cứu thực cơng việc sau: - - - - - - - - Thu thập tài liệu liên quan đến đề tài từ nguồn khác mạng Internet, sách, tạp chí Kỷ yếu Hội thảo Dựa tình hình thực tế phát triển cơng nghệ ứng dụng, nhóm nghiên cứu viết báo cáo kết đề tài với báo có tên: “Discovering interest topics of online customer by machine learning” in Kỷ yếu Hội thảo Khoa học Quốc tế: “Phát triển kinh tế thương mại Việt Nam bối cảnh bảo hộ thương mại”, tháng 08 năm 2020, NXB Hà Nội Dựa tình hình thực tế phát triển cơng nghệ ứng, nhóm nghiên cứu viết báo cáo kết đề tài với báo thứ hai có tên: “So sánh số thuật toán học máy ứng dụng phân tích liệu khách hàng trực tuyến” in Kỷ yếu Hội thảo Khoa học Quốc gia: "Phát triển thương mại điện tử Việt Nam kỷ nguyên số", tháng 11 năm 2020, NXB Thống kê Trong trình nghiên cứu thực đề tài, nhóm nghiên cứu thực thu thập tài liệu liên quan đến học máy từ sách, báo, tạp chí phần mềm, thư viện thuật toán từ mạng Internet, thuật toán phổ biến cho học máy liệu để thực nghiệm Quá trình thực nghiệm để so sánh thuật tốn nhóm thực cài đặt ngôn ngữ lập Python version 3.8 hệ điều hành Windows 10 Môi trường soạn thảo thực thi mã nguồn IDE Python Wing 101 version 7.2.50 Trong q trình thực nhóm có sử dụng số thư viện số mã nguồn hệ thống Python online Đề tài nghiên cứu cài đặt thuật toán phân loại để so sánh bao gồm: CNN, T2V, MNB, NB, SVM, K-NN C4.5 Tiến hành thực nghiệm 02 liệu: Bộ liệu chuẩn 20News group lấy từ hệ thống thư viện miễn phí đại học Stanford liệu thực tế thu thập từ số trang thương mại điện tử phương tiện truyền thông xã hội Việt Nam Kết đề tài nghiên cứu sử dụng làm tài liệu tham khảo cho giảng viên sinh viên trình giảng dạy, học tập học phần “Hệ thống thông tin quản lý”, “Marketing thương mại điện tử” “Khai phá liệu kinh doanh” Ngoài ra, hướng tiếp cận đề tài nhóm nghiên cứu sử dụng định hướng đề tài làm khóa luận Tốt nghiệp số sinh viên chuyên ngành Quản trị HTTT K53S Cuối cùng, kết nghiên cứu trình bày chi tiết cụ thể Báo cáo kết nghiên cứu Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng pdf, w of 107 MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU 1.1 TÍNH CẤP THIẾT CỦA ĐỀ TÀI NGHIÊN CỨU Các phương tiện truyền thông xã hội (social media) xuất vào năm cuối kỷ 20 tạo điều kiện thuận lợi cho hàng triệu người giới kết nối, thiết lập trì mối quan hệ tiếp cận chia sẻ thông tin với Sự ảnh hưởng phương tiện truyền thông xã hội đến mặt đời sống xã hội ngày khẳng định rõ vai trò chúng nhiều lĩnh vực đặc biệt giáo dục, kinh doanh, vấn đề xã hội phát lừa đảo, phát tâm lý tội phạm nghiên cứu Zafarani Reza et al., [24] D M Boyd et al [9] Bên cạnh khách hàng cá nhân, tổ chức, doanh nghiệp, nhà quản lý sử dụng phương tiện truyền thông xã hội kênh truyền thông mới, với nhiều ưu chi phí tiết kiệm, có hiệu lan truyền cao hoạt động sản xuất kinh doanh tổ chức, doanh nghiệp A Abdul-Rahim et al., [1], Amedie Jacob et al., [5], Hsinchun Chen et la., [15] Thêm nữa, với phát triển không ngừng thiết bị di động điện thoại thông minh (smart phones), thiết bị cầm tay thông minh (tablet), máy tính bảng (Ipad), v.v với hạ tầng sở viễn thông lan tỏa rộng khắp, hệ thống mạng Internet cơng cộng phủ sóng miễn phí thành phố lớn giúp cho mạng xã hội ngày phổ biến lan rộng Do đó, cá nhân tổ chức, doanh nghiệp ngày ý nhiều đến ứng dụng mạng xã hội vào hỗ trợ hoạt động kinh doanh, hoạt động giáo dục, biện pháp quản lý điều hành hoạt động tổ chức, doanh nghiệp Một chiến lược kinh doanh dựa quản trị quan hệ khách hàng cần có đối xử khác với khách hàng khác Một doanh nghiệp phải có khả nhận diện nhận khách hàng cá nhân khác phải biết điều khiến khách hàng khác khách hàng Cần có tương tác cá nhân với khách hàng nào, đơi phải thay đổi hành vi để đáp ứng nhu cầu cụ thể khách hàng hay phát nhu cầu, quan trọng phải đem lại lợi nhuận tối đa cho khách hàng doanh nghiệp, việc ứng dụng phân tích liệu (Data Analysis) đóng vai trị quan trọng việc xác định định hướng mục tiêu kinh doanh, khám phá ý nghĩa đằng sau số số liệu liệu khách hàng có đóng góp vào việc định kinh doanh tổ chức, doanh nghiệp [1] [2] Thông tin khách hàng cung cấp cho doanh nghiệp khả phân biệt khách hàng với người khác Thông tin khách hàng tài sản kinh tế, tựa phần thiết bị, nhà máy hay sáng chế, giúp doanh nghiệp cải thiện sản xuất, giảm chi phí bình qn Một cơng ty bắt đầu có quan điểm kinh doanh cụ thể khách hàng, công ty bắt đầu xem khách hàng tài sản cần quản trị chu đáo tài sản khác Ở khía cạnh tài chính, chiến lược kiểu có khuynh hướng tập trung nhiều nguồn lực tổ chức nhằm thỏa mãn nhu cầu Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng pdf, w of 107 khách hàng để đem lại giá trị dài hạn cho doanh nghiệp, giới hạn giảm nguồn lực với khách hàng có giá trị thấp [2] Tạo quản trị quan hệ khách hàng cá nhân thất bại khơng có bốn thành tố bao gồm: Nhận diện khách hàng; Phân biệt khách hàng; Tương tác với khách hàng Đối xử tùy biến Để đạt yếu tố tổ chức kinh doanh, nhà nghiên cứu đưa nhiều phương pháp hướng tiếp cận khác nhau, nhiên năm gần đây, kết hợp học máy phân tích liệu kinh doanh nói chung liệu khách hàng nói riêng sử dụng coi hướng tiếp cận có nhiều kết tốt Đặc biệt bối cảnh cách mạng công nghệ lần thứ lan rộng học máy kết hợp phân tích liệu trực tuyến coi xu hướng ứng dụng công nghệ thông tin vào hoạt động kinh doanh Do đó, pha nhóm nghiên cứu lựa chọn đề tài “Nghiên cứu số thuật toán học máy (machine learning) ứng dụng cho toán xác định chủ đề quan tâm khách hàng trực tuyến” nhằm đưa báo cáo tổng quan học máy thuật toán học máy phổ biến ứng dụng cho toán xác định chủ đề quan tâm sản phẩm dịch vụ khách hàng trực tuyến phương tiện truyền thông xã hội Bên cạnh đó, đề tài tài liệu hỗ trợ trình học tập giảng dạy nội dung hệ thống phân tích liệu khách hàng, khai thác liệu trực tuyến hướng tiếp cận marketing cá nhân hóa khách hàng Kết đề tài nghiên cứu sử dụng làm tài liệu tham khảo cho giảng viên sinh viên trình giảng dạy học tập học phần “Hệ thống thông tin quản lý”, “Marketing thương mại điện tử” “Khai phá liệu kinh doanh” 1.2 TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU 1.2.1 Tình hình nghiên cứu nước Bài tốn phân loại khách hàng đóng vai trị quan trọng hoạt động kinh doanh tổ chức, doanh nghiệp Phân tích liệu khách hàng khơng đơn trình bày số số liệu để quản lý mà đòi hỏi cách tiếp cận sâu sắc việc ghi lại, phân tích trình bày phát theo cách dễ hiểu nhằm hỗ trợ tổ chức, doanh nghiệp hoạt động quản trị chăm sóc khách hàng, hoạt động bán hàng marketing Cùng với phát triển công nghệ thông tin lan tỏa cách mạng công nghệ lần thứ 4, học máy (Machine learning) với thuật toán học máy ngày ứng dụng nhiều toán kinh tế Đặc biệt toán ứng dụng dựa việc khai phá liệu (Data mining) tốn rút trích, khám phá thơng tin có giá trị đưa dự đoán từ liệu có Như tốn ứng dụng phát bất thường (Anomaly detection), phát ngoại lệ, ví dụ phát gian lận thẻ tín dụng; Các toán Phát quy luật (Association rules), ví dụ, siêu thị hay trang thương mại điện tử hay việc phát quy luật khách hàng khách hàng mua hàng A thường mua kèm hàng nào? Các thơng tin hữu ích cho việc tiếp thị sản Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng pdf, w 10 of 107 phẩm hỗ trợ chiến lược quảng bá sản phẩm; Các tốn Gom nhóm hay phân loại (Grouping or Classification), ví dụ, khách hàng phân nhóm theo hành vi thông tin hồ sơ họ, khách hàng thường có thói quen hành vi dựa u thích nhóm vào lớp, … toán dự đoán (Predictions) dựa liệu khách hàng, chẳng hạn dự đoán giá hộ dựa liệu giá hộ mà khách hàng mua quan tâm theo dõi trước Các thuật tốn học máy giới thiệu ứng dụng nhiều toán kinh tế ứng dụng số hoạt động kinh doanh cho tổ chức Nguyễn Anh Duy Nguyễn Phúc Quỳnh Như [8] giới thiệu ứng dụng amazone.com bao gồm: Hệ thống giới thiệu cá nhân (Personalized Recommendation System); dùng máy lọc khách hàng (Comprehensive collaborative Filtering Engine) giới thiệu Các từ khóa Kindle Book (Recommendations from Kindle Highlighting) hay phân loại khách hàng dựa hành vi Click chuột (One-Click Ordering) Hoặc ứng dụng Mơ hình giao hàng dự đốn (Anticipatory Shipping Model) Trong nghiên cứu Phan Thanh Đức tác giả [8] đề cập đến ứng dụng phân tích liệu khách hàng hoạt động quản trị chăm sóc khách hàng ngân hàng thương mại Việt Nam Trong nghiên cứu thấy rõ lợi ích mà phân tích liệu khách hàng trực tuyến (Big Data) tạo cho ngân hàng thương mại Bằng việc thu thập liệu từ nguồn website thương mại điện tử, mạng xã hội zalo, tảng dịch vụ khác để thu thập, phân tích đề xuất hệ thống CRM hỗ trợ hoạt động chăm sóc khách hàng Trong nghiên cứu Huỳnh Quyết Thắng, Đinh Thị Thu Phương [3] đề cập đến hai hướng tiếp cận phân loại viết khách hàng Tiếng Việt, sử dụng phương pháp học không giám sát (Unsupervized learning) kết hợp học có giám sát (Supervised learning) Đây kỹ thuật quan trọng toán phân lớp văn dùng cho Tiếng Việt Phương pháp áp dụng toán dự đoán kết đầu từ liệu đầu vào toán phân cụm (tự gán nhãn cho cụ liệu có cấu trúc tương tự nhau, giảm chiều liệu để hỗ trợ hình thức học khác,…) Bài tốn gán nhãn văn Tiếng Việt Đỗ Trung Thành, Đỗ Phúc [4] trình bày theo mơ hình chủ đề (Topic Model), hướng tiếp cận áp dụng nhiều toán phân cụm, với số lượng chủ đề phương tiện truyền thông xã hội rộng phương pháp thương áp dụng trang tin tức điện tử diễn đàn phân loại viết Nó áp dụng tốn phân loại khách hàng dựa nhóm sản phẩm viết giới thiệu sản phẩm khách hàng Bên cạnh đề xuất mặt phương pháp Đỗ Thanh Nghị [6] đề xuất sử dụng thư viện R để phân tích thực thực nghiệm, chưa 10 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng pdf, w 81 of 107 A rather related application is collaborative filtering Internet bookstores such as Amazon.com or video rental sites such as Netflix.com used this information extensively to entice users to purchase additional goods The problem is quite similar to the one of web page ranking As before, it wants to obtain a sorted list The key difference is that an explicit query is missing and instead it can only use past purchase and viewing decisions of the user to predict future viewing and purchase habits An equally ill-defined problem is that of automatic translation of documents At one extreme, it could aim at fully understanding a text before translating it using a curated set of rules crafted by a computational linguist well versed in the two languages that would like to translate This is a rather arduous task, in particular given that text is not always grammatically correct, nor is the document understanding-part itself a trivial one This machine learning approach proved quite successful Many security applications, such as access control, use face recognition as one of its components That is, given the photo (or video recording) of a person, recognize who this person is In other words, the system needs to classify the faces into one of many categories or decide that it is an unknown face Another application where machine learning helps is the problem of named entity recognition That is, the problem of identifying entities, such as places, titles, names, actions, etc from documents Such steps are crucial in the automatic digestion and understanding of documents Other applications which take advantage of learning are speech recognition, the recognition of handwriting, trackpads of computers, the detection of failure in jet engines, avatar behavior in computer games, direct marketing and floor cleaning robots We conclude this section by discussing the problem of classification, since it will serve as a prototypical problem for a significant part of this paper It occurs frequently in practice: for instance, when performing discovering topic interest of customers, we are interested in a yes/no answer as to whether content contains relevant information or not On social media, such as Facebook, Google+ and Twitter are becoming increasingly important methods of communication and social interaction between people Social media is also a prominent economic domain, with social networks becoming one of the most important advertising platforms (Charles Steinfield, et al., 2017), (Z e a Abbassi, 2015) The huge numbers of people using such services and the enormous volume of data readily available from such networks make them a very compelling research target for social scientists and data-mining experts An important piece of information regarding a consumer for which we are trying to personalize advertising content is their interest areas (Z e a Abbassi, 2015), (Guy Ido, et al., 2013) For example, a person interested in technology is likely to be a better advertising target for a company selling computer gadgets than a person who has no interest in technology Unfortunately, information regarding the interests of a user is not always readily available, so it needs to be inferred from other information regarding the consumer 952 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng 82 of 107 2.2 Data and Algorithms 2.2.1 Data It is useful to characterize learning problems according to the type of data they use This is a great help when encountering new challenges, since quite often problems on similar data types can be solved with very similar techniques Vectors constitute the most basic entity we might encounter in our work For instance, a life insurance company might be interesting in obtaining the vector of variables (blood pressure, heart rate, height, weight, cholesterol level, smoker, gender) to infer the life expectancy of a potential customer Lists: In some cases the vectors we obtain may contain a variable number of features For instance, a physician might not necessarily decide to perform a full battery of diagnostic tests if the patient appears to be healthy Sets may appear in learning problems whenever there is a large number of potential causes of an effect, which are not well determined For instance, it is relatively easy to obtain data concerning the toxicity of mushrooms It would be desirable to use such data to infer the toxicity of a new mushroom given information about its chemical compounds Matrices are a convenient means of representing pairwise relationships For instance, in collaborative filtering applications the rows of the matrix may represent users whereas the columns correspond to products Images could be thought of as two dimensional arrays of numbers, that is, matrices This representation is very crude, though, since they exhibit spatial coherence (lines, shapes) and (natural images exhibit) a multiresolution structure Video adds a temporal dimension to images Again, we could represent them as a three dimensional array Good algorithms, however, take the temporal coherence of the image sequence into account Trees and Graphs are often used to describe relations between collections of objects Strings occur frequently, mainly in the area of bioinformatics and natural language processing Compound structures are the most commonly occurring object That is, in most situations we will have a structured mix of different data types For instance, a webpage might contain images, text, tables, which in turn contain numbers, and lists, all of which might constitute nodes on a graph of webpages linked among each other Good statistical modelling takes such dependencies and structures into account in order to tailor sufficiently flexible models 2.2.2 Algorithms In this section we briefly introduce algorithms that are rated as the most effective in analyzing customer data from text They are also used in the paper to empirically detect interest topics of online customer data in e-commerce businesses - CNN algorithms: A Convolutional Neural Networks (CNN)-based auto-encoder 953 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng 83 of 107 can be divided into two main steps (encoding and decoding) (Kowsari, K et al., 2019) It is one of deep learning algorithms - is a set of machine learning algorithms based on multilayer networks and in supervised approaches Convolutional Neural Networks is extension of traditional multi-layer perceptron, based on ideas: local receive fields, shared weights and spatial / temporal sub-sampling CNN is multi-layer neural networks architecture includes: Convolutional + Non-Linear Layer; Sub-sampling Layer; Convolutional + NonLinear Layer and Fully connected Layers - Multinomial Naive Bayes: In (A.M Kibriya et al., 2004)) presented MultinomialNB implements the Naive Bayes algorithm for multinomially distributed data, and is one of the two classic Naive Bayes variants used in text classification (where the data are typically represent as word vector counts, although TF.IDF vectors are also known to work well in practice) The distribution is parametrized by vectors for each class where is the number of features (in text classification, the size of the vocabulary) and is the probability of feature appearing in a sample belonging to class - Word2Vec: In (T.Mikolovetal et al., 2013) presented "Word to Vector" representation as an improved word embedding architecture Word2Vec is a shallow, twolayer neural networks which is trained to reconstruct linguistic contexts of words It takes as its input a large corpus of words and produces a vector space, typically of several hundred dimensions, with each unique word in the corpus being assigned a corresponding vector in the space Word vectors are positioned in the vector space such that words that share common contexts in the corpus are located in close proximity to one another in the space Word2Vec is a particularly computationally-efficient predictive model for learning word embeddings from raw text It comes in two flavors, the Continuous Bag-of-Words (CBOW) model and the Skip-Gram model - K-NN: The k-NN classifier is based on the assumption that the classification of an instance is most similar to the classification of other instances that are nearby in the vector space (Kowsari, K et al., 2019) KNN algorithm is used to classify by finding the K nearest matches in training data and then using the label of closest matches to predict The main computation is the sorting of training documents in order to find the k - nearest neighbors for the test document Theoretical framework and methods 3.1 Related work In the past, there have been a plenty of methods in discovering or finding customers with common interests Having many studies have been conducted to investigate customers interests in Web documents for providing personalized search services (Qiu and Cho, 2006) using statistical approaches such as PageRank (Page et al., 1999) (Limam et al., 2010) considered customers queries as a context information of customers and analyzed semantic distance between queries by developing query taxonomies to extract user interests from search engine query logs Work done in (Sugiyama et al, 2003; Zhang et al., 2011) for analyzing customers interest in online documents is based on the fact that context information of customers interests appears frequently in online documents, while Term 954 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng 84 of 107 Frequency (TF) is generally used to check customers interests However, on Twitter, some terms are closely related to customers interest but TF has the weakness that it cannot find information if the occurrence of such particular terms are low Data on Twitter and Facebook consists of customers related information Therefore, many studies have proposed approaches for discovering topics from customers personal web pages (Michelson and Macskassy, 2010; Lim and Datta, 2013) This is a challenging task as customers interests might be reflected by multiple variables In topic modeling, one of the earliest work is the probabilistic Latent Semantic Indexing (pLSI) (Hoffman, 1999) In pLSI, a document is modeled as a mixture of topics However, in pLSI, there is no generative process to determine the document-topic distribution This causes problems when probabilities are assigned to documents that are outside the training set In topic modeling, recent work is generally based on the technique known as Latent Dirichlet Allocation (LDA) (Blei et al., 2003) In LDA, pLSI weaknesses are overcome by considering a Bayesian dependency in-between the documents, topics and words (Weng et al., 2010) identified influential customers in Twitter by collecting customer tweets and used LDA to discover the latent topics of customers interest On Twitter two different bag-of-words profiles are compared, observing that the profile built by customer own tweets performs better than the profile built by tweets of his/her follows (Chen et al., 2010) Categorizing of tweets using Wikipedia as a knowledge base is also done (Michelson and Macskassy, 2010) They developed a topic profile on those categories (Ahmed et al., 2011) developed a statistical framework by using a variant of LDA for inferring long and short term interests of customer over a period of time in order to define interests over histories (Ramage et al., 2010) characterized Twitter users and tweets into four dimensions (social, status, style and substance) by using labeled LDA A probabilistic generative model known as Micro-Blog-Latent Dirichlet Allocation (MBLDA) in Map-Reduce framework can extract topics in micro-blogs (Zhang & Sun, 2012) A modified author topic model known as Twitter-user model is proposed to discover user interests (Xu et al., 2011) The model is based on a latent variable for determining if it is related to its author interests Some research is also done on mining topics and customer interests in social networks Feature analysis is carried out on micro-blogs for use customer interest detection (Zhao et al., 2012) Personal information, content inside micro-blog and social relation features are used to investigate user interest A model is developed for user interests with social tagging system (Liu et al.,2012) Similarly User Topic Model (UTM) is proposed for determining user interests on micro-blogs (Li et al., 2014) Other than finding user interests, UTM can also discover re-tweet interests An approach is proposed to discover latent interests on micro-blogs (Liu et al., 2013) For extraction of interest features, LDA method was used and it was assumed that with certain probability, the interest feature can be communicated from follows to followers A methodology is based on social annotations for deducing the topical expertise of popular Twitter users (Batacharya et al., 2014) They transitively infer the interests of those users who follow them Their methods have demonstrated an improvement of results over other techniques such as Labeled LDA 955 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng 85 of 107 Another approach is based on considering topics of interests as a conjunction of several concepts, which correlate to one another temporally (Zarrinkalam et al., 2015) Based on this approach is active topics which are determined Effectiveness of this approach is shown in personalized news recommendation system There is a method proposed to extract customer interests using Facebook.com feature ‘Like’ (Kim et al., 2013) A probabilistic generative model can capture both Twitter user information and network information to extract user interests (Budak et al., 2014) This model considers the interaction among users, their level of activity and propagation of information towards the neighbors Another bi-relational graph model is proposed for finding user interests on Tumblr- micro-blogging site (Xu et al., 2015) The proposed graph model contains two sub-graphs: one sub-graph corresponds to customers and other corresponds to topics The problem of finding customer interests is formulated as a multilabel learning problem The model is validated on data collected from two micro-blogging sites (Twitter and Tumblr) Different from their works, ours is based on the customer history data on social media, such as status on Facebook.com, tweets on Tweetter.com, comments on social networks, etc., thus can identify shared interests and cluster similar paper more accurately This paper approach is object-centric, approach is based on the insightful study and observation on the history’s customer data in social media systems such as portals, social networks, websites, etc In these systems, people use statuses, comments, or short-text data as a descriptive label to annotate the content that they are interested in and to share with other users 3.2 Methodologies In this paper, we approached by supervised learning to discovering topic interest of customers from historical data on social media Supervised learning is the machine learning task of learning a function that maps an input to an output based on example input-output pairs It infers a function from labeled training data consisting of a set of training examples In supervised learning, each example is a pair consisting of an input object (typically a vector) and a desired output value (also called the supervisory signal) A supervised learning algorithm analyzes the training data and produces an inferred function, which can be used for mapping new examples An optimal scenario will allow for the algorithm to correctly determine the class labels for unseen instances This requires the learning algorithm to generalize from the training data to unseen situations in a "reasonable" way In order to solve a given problem of supervised learning, one has to perform the following steps: - Determine the type of training examples Before doing anything else, the user should decide what kind of data is to be used as a training set In the case of handwriting analysis, for example, this might be a single handwritten character, an entire handwritten word, or an entire line of handwriting - Gather a training set The training set needs to be representative of the real-world use of the function Thus, a set of input objects is gathered and corresponding outputs are also gathered, either from human experts or from measurements 956 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng 86 of 107 - Determine the input feature representation of the learned function The accuracy of the learned function depends strongly on how the input object is represented - Determine the structure of the learned function and corresponding learning algorithm - Complete the design Run the learning algorithm on the gathered training set Some supervised learning algorithms require the user to determine certain control parameters These parameters may be adjusted by optimizing performance on a subset (called a validation set) of the training set, or via cross-validation - Evaluate the accuracy of the learned function After parameter adjustment and learning, the performance of the resulting function should be measured on a test set that is separate from the training set Training data already trained The method proposed in this paper is illustrated in Figure 1, consisting of three phases: - Data collection stage: Data collected from social media such as social networks, websites, entertainment portals, e-commerce websites, ect - Processing stage: There are two small steps: training data and learning by supervised learning algorithms - Results saving stage: Save results and compare among four algorithms Social media Data Stoge Topic Interest Fashion Sport Supervised learning algorithms List interest topic of customers on social media Processing Data Collection Ouput data Figure 1: Flow chart of the proposed methodology In this paper, we used four algorithms in machine learning are CNN, MNB, W2V and K-NN which are supervised learning algorithms in employ and they are rated as the latest improved algorithms of machine learning in text-mining Experimental and discussion results The objective of this experiment is to find out the most suitable classified for these datasets The found classify will be used in the next experiments and susgest in real economic problems in the future 4.1 Data samples To experiment these algorithms, the paper collected the data sets of customers on Facebook.com and built a sample test set as follows: The topic data set is identified that was built by listing the topics of 10 domestic websites and foreign websites, after which the paper took out the list of 10 topics appearing the most in 15 newspaper pages to make labels for paper on social media; A set of topic data samples to identify users' topic interest expressed through the paper, this sample set also has 2000 entries (status or comment on social media) 957 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng 87 of 107 Besides, the paper also used two more standard datasets to identify the topics as the 20 Newsgroups dataset and to identify emotions as the SemEval-2017 dataset (M H Nguyen, 2018) The 20 Newsgroups corpus had 20 different topics, defined on the sample text This lexicon is used extensively in common text classification problems The SemEval-2017 dataset, collected from the Twitter social network, has four assigned emoticons and is the new set of emotions on social media Table 1: Parameter summary of sample data sets Data sets Total samples Total sample Total label test Kind of label Languages 20 Newsgroups 20000 2000 20 single English Semeval2017 6750 2000 single English Real of this paper 2000 2000 10 single Vietnamese 4.2 Experimental scenario and output parameters 4.2.1 Experimental scenario The paper carries out empirical scenario based on the labeling For each experiment (corresponding to a set of data sets), the steps are similar to the One-vs-All method (A.M Kibriya, 2004), (Alex Smola and S.V.N Vishwanathan, 2008)) as follows: This experiment is taken with the following scenario for each dataset: For each text in the dataset, remove all stop-words Split the remaining character sequence into 1-gram Transform it into a vector of TF-IDF value Using the k-folds crossed-validation: Split the dataset into ten sets (10-folds) Each time, a set is used for testing (called testing set), and the nine remain sets are used for training (called training set) Train and test with following classifiers1: 5.1 Convolutional Neural Networks (CNN) 5.2 Multinomial Naive Bayes (MNB) 5.3 Word to Vector (W2V) 5.4 K-Nearest Neighbors (KNN or IBk) Note the observed output parameters for each time of running Repeat the steps from to in ten times (10-folds) and take the mean values of each output parameters for all times of running 4.2.2 Output parameters We make use of these parameters based on the fusion matrix as follows: 958 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng 88 of 107 Table 2: The fusion matrix Predicted Actual True positive (TP) False positive (FP) False negative (FN) True negative (TN) The measures , and are used to output parameters of expriments 4.2.3 Results and discussion For experiments, we used WEKA (Hall et al., 2009) WEKA is a popular machine learning tool that offers techniques for tokenization, stop words removal, attribution selection, feature weighting, selection of features in data, regression, classification, clustering and modeling algorithms The results of 20 Newsgroup with Accuracy and F1-score in the Table 3, in which shows that the MNB algorithm reaches the highest accuracy value in 20/20 labels, average results on all labels, MNB for the highest accuracy value, followed by CNN, W2V, and KNN on Accuracy and F1-score Table 3: Results of 20 Newsgroup with Accuracy and F1-score Label Accuracy F1-scores CNN W2V MNB K-NN CNN W2V MNB 73.15 alt.atheism 80.89 77.14 95.45 61.48 84.22 83.03 96.09 67.35 comp.graphics 81.48 67.33 90.00 56.93 82.73 76.60 91.69 72.65 comp.os.ms-windows.misc 81.14 65.91 87.16 58.07 84.15 55.35 87.44 72.62 comp.sys.ibm.pc.hardware 78.62 71.25 87.73 65.45 79.10 79.99 90.16 71.84 comp.sys.mac.hardware 73.52 72.37 90.57 63.07 71.50 80.77 92.20 62.03 comp.windows.x 80.97 73.25 92.73 58.30 81.55 80.65 93.76 72.94 misc.forsale 83.36 76.25 91.14 61.14 83.26 83.12 92.59 71.63 rec.autos 79.28 75.91 93.86 59.66 82.49 78.30 94.78 70.20 rec.motorcycles 84.32 80.42 95.45 62.16 86.26 84.77 96.12 74.78 rec.sport.baseball 82.81 70.57 96.82 63.18 82.76 79.76 97.28 70.14 rec.sport.hockey 87.27 70.84 97.95 66.14 88.68 79.66 98.24 72.56 sci.crypt 84.66 65.11 94.43 61.59 86.38 76.57 95.30 65.59 sci.electronics 78.72 75.91 91.36 57.84 82.82 83.03 92.74 67.31 sci.med 82.27 63.64 93.30 61.82 84.49 75.68 94.34 70.97 959 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng 89 of 107 sci.space 81.93 72.27 95.91 66.48 83.50 80.26 96.46 80.80 soc.religion.christian 85.80 62.00 98.07 72.95 88.18 74.95 98.33 77.73 talk.politics.guns 79.98 71.02 94.43 76.14 83.50 78.88 95.24 75.64 talk.politics.mideast 80.57 69.08 96.82 65.23 81.36 77.85 97.26 68.31 talk.politics.misc 75.64 72.16 87.61 69.66 78.96 80.25 90.12 68.83 talk.religion.misc 79.25 75.10 93.07 70.57 82.91 82.07 94.15 71.35 Average of labels 81.12 71.38 93.19 63.89 82.94 78.58 94.21 73.15 The results of Semeval2017 with Accuracy and F1-score in the Table 4, in which shows that the MNB algorithm reaches the highest accuracy value in 4/4 labels, average results on all labels, MNB for the highest accuracy value, followed by W2V, CNN and KNN on Accuracy and F1-score Table 4: Results of Semeval2017 with Accuracy and F1-score Labels Accuracy F1-score CNN W2V MNB K-NN CNN T2V MNB 67.94 anger 64.04 66.18 78.67 53.47 59.69 69.58 79.71 69.56 fear 59.69 66.36 76.12 56.22 54.05 66.99 77.27 40.70 joy 65.18 72.81 78.47 60.41 55.39 75.74 79.45 68.59 sadness 62.08 65.65 78.67 55.61 61.54 71.56 80.26 61.70 Average of labels 62.75 67.75 77.98 56.43 57.66 70.97 79.17 67.94 The results of Sample Vietnamese with Accuracy and F1-score in the Table 5, in which shows that the MNB algorithm reaches the highest accuracy value in 10/10 labels, average results on all labels, MNB for the highest accuracy value, followed by W2V, CNN and K-NN on Accuracy and F1-score Table 5: Results of Sample Vietnamese with Accuracy and F1-score Labels Accuracy F1-score CNN W2V MNB K-NN CNN T2V MNB K-NN Chính trị 67.14 72.14 77.14 64.29 26.29 71.12 75.08 66.06 Đời sống - Xã hội 68.57 50.00 76.43 64.29 28.90 58.94 68.58 45.84 Giáo dục 68.57 55.48 72.86 46.43 60.63 60.98 69.82 63.37 Khoa học - Công nghệ 59.29 59.29 67.14 36.43 43.71 38.94 54.30 53.14 Kinh doanh 67.14 63.57 75.71 58.57 26.10 54.62 56.29 36.52 Thời 62.14 47.86 62.86 41.43 44.54 47.32 31.57 18.31 Văn hóa - Giải trí 67.86 65.71 76.43 36.43 56.16 61.14 58.12 63.86 Pháp luật 75.71 85.00 85.71 64.29 54.43 79.49 75.86 70.72 Thể thao 85.71 82.75 84.29 36.43 71.66 64.27 69.91 63.86 Sức khỏe 75.71 70.71 85.71 59.29 66.60 66.64 78.41 60.11 Average of labels 69.79 65.25 76.43 50.79 47.90 60.34 63.79 54.18 960 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng 90 of 107 Conclusions and policy implications 5.1 Policy implications Use of Machine Learning is one of those changes that will make people work differently and will make business environments different in future Besides, it is another big difference between Data Science and Business Data Analytics, so the conversation flows nicely from the previous part In this article, text data from social media trends are analyzed for customer in the world Collected text data from social media are modeled with two approaches: use-centric based and object-centric based Text data from social media are used in modeling as textual information can often be noisy and coarse Four algorithms in machine learning are CNN, MNB, W2V and K-NN which are supervised learning algorithms is trained in WEKA to check the effectiveness of our representation Text data are analyzed to find popular customer topics, which are categorized Obtained results indicate that the methodology can be used in the development of information filtering and prediction systems The proposed methodology can also be used to find customer interests and apply in business problems such as page ranking, collaborative filter, automatic translation of documents, security applications, named entity recognition, speech recognition, problems of classify, etc The following steps are all going to be using machine learning in your business: First, understanding what the difference between Artificial Intelligence and Machine Learning Machine Learning is a subset of Artificial Intelligence field, it is a predefined programming model which is trained by a huge number of data to make predictions ML can help you to automate daily human processes and make a decision/judgment Seconds, study your business processes and identify which processes can be ML-enabled Third, data collection and feature extraction for machine learning, this are the keys to machine learning The best practice is storing all data in a database for future better data analysis and management Forth, find the best model, your firm have training data and then run different models and tests to find the best model based on the training data Fifth, verify the accuracy of the model and then finally, measure the ROI, the last and most important step is to measure the ROI of whole Machine Learning implementation Machine learning algorithms were also integrated in data analysis tools such as R which is a programming language developed by Ross Ihaka and Robert Gentleman in 1993 R possesses an extensive catalog of statistical and graphical methods It includes machine learning algorithm, linear regression, time series, statistical inference to name a few; Python which for data analysis and interactive computing and data visualization, Python will inevitably draw comparisons with other open source and commercial programming languages and tools in wide use, such as R, MATLAB, SAS, Stata, and others In recent years, Python’s improved support for libraries (such as pandas and scikitlearn) has made it a popular choice for data analysis tasks Combined with Python’s overall strength for general-purpose software engineering, it is an excellent option as a primary language for building data applications and so on 961 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng 91 of 107 5.2 Conclusion This paper considered the problem of topic interest classify with the distinction of online customers There are three datasets of text label with text content are built and introduced, one in Vietnamese, another in English Based on results of experiment could see that the MNB algorithm in machine learning is the best result with text data in social media The result of paper could be apply to customer data analysis problems, forecasting problems or application in the recommendation system This are problems which is concerned in firms nowaday REFERENCES A.M Kibriya, E Frank, B Pfahringer and G Holmes (2004), Multinomial Naive Bayes for Text Categorization Revisited, in: Proceedings of the 17th Australian Joint Conference on Advances in Artificial Intelligence, AI’04, Springer-Verlag, Berlin, Heidelberg, pp 488-499 Ahmad Abdul-Rahim, et al., (2014), "Determinants of Online Buying Behavior of Social Media Customers in Saudi Arabia: An Exploratory Study," India, 2014 Alex Smola and S.V.N Vishwanathan, (2008), “Introduction to Machine Learning”, Cambridge University Press The Edinburgh Building, Cambridge CB2 2RU, UK Charles Steinfield, et al., (2017), "Online Social Network Sites and the Concept of Social Capital," International Journal of Applied Sociology, vol 7, no 1, pp 13-19, 2017 E Diaz-Aviles et al., (2013), What is Happening Right Now That Interests Me?: Online Topic Discovery and Recommendation in Twitter In ACM CIKM G Salton and M.J McGill, (1986), Introduction to Modern Information Retrieval, McGraw-Hill, Inc., New York, NY, USA, 1986 ISBN 0070544840 Guy Ido, et al., (2013), "Mining Expertise and Interests from Social Media," in Proceedings of the 22Nd International Conference on World Wide Web , WWW '13 ,Rio de Janeiro, Brazil, 2013 H Kautz, B Selman, and M Shah, (1997), Referral Web: combining social networks and collaborative filtering Communications of the ACM, 40(3):63-65, 1997 J Chen, R Nairn, L Nelson, M Bernstein, and E H Chi, (2010), Short and tweet: experiments on recommending content from information streams In ACM SIGCHI, 2010 10 Kleiton M Bishop (2006), Pattern Recognition and Machine Learning, Springer 11 Kowsari, K., Meimandi, K J., Heidarysafa, M., Mendu, S., Barnes, L E & Brown, D E (2019) Text Classification Algorithms: A Survey, ACM Journal 12 L Buitinck, J van Amerongen, E Tan and M de Rijke (2015) Multi-emotion detection in user-generated reviews Proc 37th European Conference on Information Retrieval (ECIR) 2015 13 L Hong, A S Doumith, and B D Davison, (2013), Co-factorization Machines: Modeling User Interests and Predicting Individual Decisions in Twitter In ACM WSDM, 2013 962 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng 92 of 107 14 Lee, D D., and Seung, H S., (2001), Algorithms for nonnegative matrix factorization Advances Neural Information Processing Systems 13:556-562 15 M F Schwartz and D C M Wood, (1993), Discovering shared interests using graph analysis Communications of the ACM, 36(8):78-89, 1993 16 M H Nguyen, (2018), On the Distinction of Subjectivity and Objectivity of Emotions in Texts International Journal of Advanced Computer Science and Applications (IJACSA), 9(9), p.584-589, 2018 17 M Michelson and S A Macskassy, (2010), Discovering customers’ topics of interest on Twitter: a first look In ACM Workshop on Analytics for Noisy Unstructured Text Data, 2010 18 R.G Rossi, R.M Marcacini and S.O Rezende, (2013), Benchmarking Text Collections for Classification and Clustering Tasks, Technical Report, 395, Institute of Mathematics and Computer Sciences - University of Sao Paulo, 2013 19 S M Mohammad and F Bravo-Marquez (2017), Emotion Intensities in Tweets In Proceedings of the sixth joint conference on lexical and computational semantics (*Sem), August 2017, Vancouver, Canada 20 S.M Mohammad and S Kiritchenko, (2015), Using Hashtags to Capture Fine Emotion Categories from Tweets, Computational Intelligence 31(2) (2015), 301-326 21 T Mikolov, I Sutskever, K Chen, G Corrado, and J Dean, (2013), Distributed representations of words and phrases and their compositionality In Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume (NIPS'13), Vol Curran Associates Inc., USA, 3111-3119 22 Mikolov, T.; Chen, K.; Corrado, G.; Dean, J (2013), Efficient estimation of word representations in vector space arXiv 2013, arXiv:1301-3781 23 Tang Jiliang, et al.,(2013) "Mining Social Media with Social Theories: A Survey," SIGKDD Explor Newsl., vol 15, no 2, pp 20-29, 2013 24 Xiang, L.; Yuan, Q.; Zhao, S.; Chen, L.; Zhang, X.; Yang, Q.; and Sun, J (2010), Temporal recommendation on graphs via long- and short-term preference fusion In Proc 16th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2010) 25 Y Kim (2014), Convolutional Neural Networks for Sentence Classification, Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP-2014), Doha, Qatar 2014, pp.1746-1751 26 Z e a Abbassi, (2015), "Optimizing Display Advertising in Online Social Networks," in Proceedings of the 24th International Conference on World Wide Web, WWW '15, Florence, Italy, 2015 27 https://data.world/crowdflower/sentiment-analysis-in-text 963 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng 93 of 107 852 864 879 889 907 935 950 964 PHÁT TRIỂN DOANH NGHIỆP VÙNG BẮC TRUNG BỘ VÀ DUYÊN HẢI MIỀN TRUNG TRONG MỐI TƯƠNG QUAN VỚI CẢ NƯỚC TO DEVELOP ENTERPRISES IN RELATION BETWEEN THE NORTH CENTRAL COAST REGION AND THE WHOLE COUNTRY ThS Trần Đoàn Thanh Thanh TS Lê Nữ Minh Phương Trường Đại học Kinh tế, Đại học Huế CORPORATE GOVERNANCE AND AUDIT QUALITY: THE CASE OF VIETNAM LISTED FIRMS CƠ CHẾ QUẢN TRỊ DOANH NGHIỆP VÀ CHẤT LƯỢNG KIỂM TOÁN: TRƯỜNG HỢP VIỆT NAM PhD Ho Thi Thuy Nga University of Economics, Hue University CÁC RÀO CẢN ẢNH HƯỞNG ĐẾN KẾT QUẢ THỰC HIỆN CÔNG VIỆC CỦA CÁC GIẢNG VIÊN DU HỌC TRỞ VỀ BARRIERS TO JOB PERFORMANCE AMONG VIETNAMESE ACADEMIC RETURNEES TS Hoàng Trọng Hùng Trường Đại học Kinh tế, Đại học Huế THE FACTORS OF CONSUMER INTENSION OF USING MOBILE PAYMENT IN IN VIETNAM CÁC YẾU TỐ VỀ Ý ĐỊNH TIÊU DÙNG TRONG VIỆC SỬ DỤNG THANH TOÁN DI ĐỘNG TẠI VIỆT NAM Ming-Kun Lin Lunghwa University of Science and Technology A STUDY ON VIETNAM AND THE CPTPP: BENEFITS, OPPORTUNITIES, ACHIEVEMENTS AND CHALLENGES NGHIÊN CỨU VỀ VIỆT NAM VÀ CPTPP: LỢI ÍCH, CƠ HỘI, THÀNH TỰU VÀ THÁCH THỨC Te Fu Chen Lunghwa University of Science and Technology THE BALANCE SCORECARD - STRATEGIC MANAGEMENT TO IMPROVE THE COMPETITIVENESS OF CORPORATIONS IN VIET NAM BALANCE SCORECARD - CHIẾN LƯỢC QUẢN LÝ ĐỂ NÂNG CAO NĂNG LỰC CẠNH TRANH CỦA CÁC TỔNG CÔNG TY Ở VIỆT NAM Le Van Hung PhD student, Political Academy DISCOVERING INTEREST TOPIC OF ONLINE CUSTOMER BY MACHINE LEARNING PHÁT HIỆN CHỦ ĐỀ QUAN TÂM CỦA KHÁCH HÀNG TRỰC TUYẾN BẰNG HỌC MÁY Nguyen Thi Hoi, MA Thuongmai University SOME SOLUTIONS TO DEVELOP COASTAL ECONOMIC ZONES IN VIET NAM NOWADAY MỘT SỐ GIẢI PHÁP PHÁT TRIỂN KHU KINH TẾ VEN BIỂN Ở VIỆT NAM HIỆN NAY Ma Duc Han, MA Ph.D student, Political Academy 1070 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng 94 of 107 975 983 998 1013 1032 1043 CULTURAL DIMENSIONS AND CULTURAL DIVERSITY IN INTERNATIONAL PROJECT TEAMS: KEY SUCCESS FACTORS IN THE ERA OF INTEGRATION AND GLOBALISATION CÁC KHÍA CẠNH VĂN HĨA VÀ SỰ ĐA DẠNG VĂN HÓA TRONG CÁC NHÓM DỰ ÁN QUỐC TẾ: CHÌA KHĨA THÀNH CƠNG TRONG KỶ NGUN HỘI NHẬP VÀ TỒN CẦU HĨA Pham Trung Tien, PhD Thuongmai University QUẢN TRỊ QUAN HỆ NHÀ CUNG CẤP CỦA DOANH NGHIỆP KINH DOANH NÔNG SẢN TRÊN ĐỊA BÀN HÀ NỘI - THỰC TRẠNG VÀ GIẢI PHÁP SUPPLIER RELATIONSHIP MANAGEMENT OF AGRICULTURAL ENTERPRISES IN HANOI AREA- CURRENT STATUS AND SOLUTIONS ThS Đoàn Ngọc Ninh Trường Đại học Thương mại DEVELOPMENT BRAND OF LOCAL SPECIALTIES IN EFFORT TO PROTECT DOMESTIC MARKET PHÁT TRIỂN THƯƠNG HIỆU CÁC SẢN PHẨM ĐẶC SẢN ĐỊA PHƯƠNG TRONG NỖ LỰC BẢO VỆ THỊ TRƯỜNG TRONG NƯỚC Assoc Prof Nguyen Quoc Thinh MBA Nguyen Thi Van Quynh Thuongmai University NGHIÊN CỨU CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN QUYẾT ĐỊNH ỨNG DỤNG ERP CỦA CÁC DOANH NGHIỆP NHỎ TẠI VIỆT NAM SỬ DỤNG KHUNG TOE STUDY THE FACTORS AFFECTING ERP APPLICATION DECISION IN VIETNAM’ S SMALL BUSINESS USED THE TOE FRAMEWORK TS, Chử Bá Quyết ThS Hoàng Cao Cường Trường Đại học Thương mại HIỆU ỨNG CỦA ĐẦU TƯ TRỰC TIẾP RA NƯỚC NGOÀI ĐỐI VỚI KINH TẾ CỦA VIỆT NAM THE EFFECTS OF OUTWARD FOREIGN DIRECT INVESTMENT TO VIETNAM'S ECONOMY TS Lê Quang Huy Trường Đại học Tài - Marketing MỘT SỐ TRAO ĐỔI VỀ ỨNG DỤNG BLOCKCHAIN TRONG THỰC HIỆN QUY TẮC XUẤT XỨ CHO HÀNG HÓA VIỆT NAM SOME OPINIONS ABOUT THE BLOCKCHAIN APPLICATION IN THE IMPLEMENTATION OF THE RULES OF ORIGIN FOR VIETNAMESE GOODS ThS Hoàng Hải Hà Trường Đại học Thương mại 1071 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng 95 of 107 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC TẾ INTERNATIONAL CONFERENCE PHÁT TRIỂN KINH TẾ VÀ THƯƠNG MẠI VIỆT NAM TRONG BỐI CẢNH BẢO HỘ THƯƠNG MẠI PROMOTING ECONOMY AND TRADE IN THE CONTEXT OF GLOBAL TRADE PROTECTIONISM Chịu trách nhiệm xuất bản: Phó Tổng Giám đốc phụ trách VŨ VĂN VIỆT Biên tập: PHẠM QUỐC TUẤN Trình bày: DUY NỘI Bìa: PHẠM DUY Sửa in: VIỆT HÀ - VĂN QUÝ Chỉ đạo biên soạn nội dung: TRƯỜNG ĐẠI HỌC THƯƠNG MẠI Ban biên soạn: GS.TS ĐINH VĂN SƠN PGS.TS TRẦN VĂN HÒA, PGS.TS NGUYỄN THỊ BÍCH LOAN, PGS.TS NGUYỄN HỒNG VIỆT, TS TRẦN VIỆT THẢO TS PHẠM XUÂN HÙNG Đối tác liên kết: Trường Đại học Thương mại _ In 100 cuốn, khổ 20,5x29,5 cm, Công ty TNHH Sản xuất thương mại Hưng Hà Địa chỉ: số TT điện tử Sao Mai, Nghĩa Đô, Cầu Giấy, Hà Nội Số xác nhận đăng ký xuất 2823-2020/CXBIPH/01-174/HN Quyết định xuất số: 1253/QĐ-HN ngày 20/7/2020 ISBN: 978-604-55-6873-6 In xong nộp lưu chiểu quý III năm 2020 1072 Chia s tài liu, lun vn, án tt nghip, h tr download tài liu lun Th vin lun vn, án, tiu lun, lun án, báo cáo, ln, tài, án, thc tp, tt nghip, thc s, tin s, cao hc Tài liu Lun Vn - Báo Cáo ni bt, c sc, mang giá tr cao vi y nh dng