Sự mở rộng thị trường mới trong lĩnh vực lắp máy đã tạo nên sự phát triển vượt bậc của Tổng công ty lắp máy Việt Nam (LILAMA), trong đó có sự góp công của các công ty Lắp máy khu vực Miền Bắc. Bài nghiên cứu này khảo sát mối quan hệ giữa VHDN, quản trị chất lượng toàn diện và hiệu quả dự án tại các công ty lắp máy khu vực Miền Bắc nơi mà các dự án về lắp máy được trúng thầu với những hợp đồng có giá trị cao. Dữ liệu thu thập từ 283 lao động tại các công ty lắp máy khu vực Miền Bắc của Lilama được phân tích bằng cách sử dụng mô hình Sem. Kết quả cho thấy VHDN và quản lý chất lượng toàn diện có ảnh hưởng trực tiếp đến hiệu quả dự án, từ đó đề ra những biện pháp về công tác quản trị tạo lợi thế cạnh tranh cho công ty lắp máy khu vực Miền Bắc của Lilama và ứng dụng các doanh nghiệp khác tại Việt Nam.
64 Nguyễn Đ L Bằng cộng Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 16(1), 64-78 Mơ hình khai phá ý kiến phân tích cảm xúc khách hàng trực tuyến ngành thực phẩm A text-based model for opinion mining and sentiment analysis from online customer reviews in food industry Nguyễn Đặng Lập Bằng1, Nguyễn Văn Hồ2, Hồ Trung Thành1* Trường Đại học Kinh tế - Luật, ĐHQG-HCM, Việt Nam Trường Đại học Kinh tế Thành phố Hồ Chí Minh, Việt Nam * Tác giả liên hệ, Email: thanhht@uel.edu.vn THÔNG TIN DOI:10.46223/HCMCOUJS econ.vi.16.1.1388.2021 Ngày nhận: 18/05/2020 Ngày nhận lại: 22/06/2020 Duyệt đăng: 22/06/2020 Từ khóa: học máy, khai phá ý kiến, phân tích cảm xúc, thương mại điện tử, ý kiến khách hàng TÓM TẮT Với phát triển mạnh mẽ công nghệ thông tin Internet, website Thương mại điện tử đời phương tiện hữu ích giúp khách hàng thực mua hàng, đặt thực phẩm trực tuyến chia sẻ trải nghiệm, bình luận đánh giá sau giao dịch Chính để thấu hiểu hành vi khách hàng thơng qua ý kiến tích cực hay tiêu cực sản phẩm dịch vụ trải nghiệm vấn đề quan trọng Giải pháp cho vấn đề này, nghiên cứu đề xuất phương pháp khai thác ý kiến phân tích cảm xúc khách hàng thơng qua việc thu thập tập liệu ý kiến bình luận khách hàng website Foody.vn - trang Thương mại điện tử hàng đầu lĩnh vực dịch vụ đặt hàng trực tuyến Sau đó, tiến hành thực nghiệm phương pháp học máy để khai phá ý kiến từ bình luận dạng văn khách hàng trực quan hóa kết hỗ trợ định Kết thực nghiệm cho thấy độ xác 90% phương pháp đề xuất kết khai thác tập thông tin, tri thức tiềm ẩn có giá trị từ tập ngữ liệu nhằm giúp cửa hàng, nhà quản trị hiểu ưu nhược điểm sản phẩm, dịch vụ để cải thiện chiến lược kinh doanh tốt ABSTRACT Keywords: customer reviews, ecommerce, machine learning, opinion mining, sentiment analysis In the rapid growth of technology and the Internet over recent years, e-commerce websites have been developed as a useful online media channel for users to easily make transactions such as online shopping and ordering food and drinks online, then share experience and feedbacks Therefore, to be able to understand customer behaviors through positive or negative reviews about the products and services is an important desideratum To offer a solution for this problem, the research proposes a method for customers opinion mining and sentiment analysis based on collecting data sets as customer reviews from the website Foody.vn - a top ranking website in the field of online ordering services Machine learning models were conducted and evaluated to choose Nguyễn Đ L Bằng cộng Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 16(1), 64-78 65 the best model and then dashboards were created as visualizing results The experimental results show that 90% accuracy of the proposed method; and valuable information and latent knowledge discovered from the corpus can support businessmen to capture the advantages and disadvantages of products and services and improve business with better strategies Giới thiệu Những năm gần đây, chứng kiến trỗi dậy thị trường giao đồ ăn trực tuyến mà ứng dụng giao đồ ăn ngày hoàn thiện hơn, toán tiện dụng Mặt khác mạng xã hội chuyên nhận xét đồ ăn nhiều người dùng truy cập Foody, Now có nhiều liệu bình luận, đánh giá đồ ăn người tiêu dùng Các thương hiệu đồ uống trà sữa TocoToco, Bobabop người dùng ý Ý kiến khách hàng phản hồi mà khách hàng cảm nhận sau sử dụng dịch vụ, sản phẩm doanh nghiệp (Kumar, Desai, & Majumdar, 2016) Những ý kiến khách hàng tiêu cực tích cực Dựa theo nhận xét tích cực khách hàng, doanh nghiệp biết ưu điểm sản phẩm hay dịch vụ Những ý kiến khách hàng dùng để quảng bá hay truyền thông Bởi doanh nghiệp ln ln cải thiện chất lượng dịch vụ để dẫn đầu Cạnh tranh doanh nghiệp ngày tăng Theo Sharma, Agarwal, Dhir, Sikka (2016), để chinh phục khách hàng khơng thể khơng tìm hiểu nhu cầu họ Một bước để biết khách hàng có phù hợp thu hút khách hàng trải nghiệm sản phẩm Sau đánh giá thỏa mãn khách hàng với sản phẩm hay dịch vụ Tuy nhiên, vấn đề doanh nghiệp biết khách hàng hài lịng khơng hài lòng vấn đề hay thương hiệu người dùng sử dụng nhiều Để giải toán nghiên cứu đề xuất giải pháp khai thác bình luận khách hàng sản phẩm cửa hàng để lại trang web Foody Tuy nhiên liệu mức độ sơ cấp, lượng liệu lớn doanh nghiệp dựa vào liệu thô để định được, họ cần biết tri thức phân tích từ tập liệu Do đó, chúng tơi áp dụng phương pháp học máy để phân loại liệu, xem bình luận tích cực, bình luận tiêu cực dùng phương pháp phân tích dự đốn Cuối cùng, nghiên cứu khai thác cơng cụ để trực quan hóa liệu báo cáo thông minh (dashboards) Kết nghiên cứu giúp cửa hàng, nhà quản lý doanh nghiệp nắm bắt thông tin dễ dàng nhanh chóng, từ việc phát triển kinh doanh cải thiện nâng cao, chẳng hạn việc nâng cao hài lòng khách hàng giữ chân khách hàng tốt Tiếp theo, Mục báo, trình bày sở lý thuyết nghiên cứu liên quan Mơ hình nghiên cứu trình bày chi tiết Mục Mục kết thực nghiệm, đánh giá mơ hình trực quan hóa kết Cuối chúng tơi kết luận đề xuất hướng phát triển Mục Cơ sở lý thuyết nghiên cứu liên quan 2.1 Phân tích cảm xúc tiếp cận theo xử lý ngơn ngữ tự nhiên Các ý kiến, bình luận khách hàng dạng ngôn ngữ tự nhiên viết (Eisenstein, 2019; Popescu & Etzioni, 2007) Trong số nghiên cứu Buche, Chandak, Zadgaonkar (2013), Sun, Luo, Chen (2017), Thanh Phuc (2015) đưa số phương pháp kỹ thuật xử lý ngôn ngữ tự nhiên việc phân tích ý kiến cảm xúc khách hàng thơng qua bình luận trực tuyến Như vậy, việc chuẩn bị tập liệu để phân tích, liệu văn nội dung bình luận khách hàng để lại sau trải nghiêm sản phẩm dịch cửa 66 Nguyễn Đ L Bằng cộng Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 16(1), 64-78 hàng, website, trang mạng xã hội Tiếp theo tiền xử lý, ta tiến hành làm liệu, loại bỏ kí tự đặc biệt, liệu rác, liệu khơng chuẩn hóa, chuẩn hóa liệu ngữ pháp ngữ nghĩa Khảo sát phân tích liệu, xem liệu đầy đủ chưa, phân bổ độ dài nội dung Giai đoạn nghiên cứu phát họa khái quát tính chất, nội dung, số lượng tập liệu thu Lựa chọn yếu tố đầu vào để phân tích, liệu ban đầu có nhiều chiều Lựa chọn chiều thích hợp để phân tích việc quan trọng Các chiều đầu vào xác kết phân tích có độ xác cao Bước cuối đánh giá kết triển khai dự án 2.2 Phân tích cảm xúc tiếp cận theo phương pháp Học máy Phân tích cảm xúc định nghĩa tính tốn nghiên cứu ý kiến, tình cảm cảm xúc thể văn (Liu, 2012) Nói cách khác, khai thác ý kiến phương pháp trích xuất ý kiến người tạo tài liệu cụ thể gần trở thành mối quan tâm nghiên cứu lớn mạng xã hội (Pang & Lee, 2008) Tầm quan trọng ngày tăng phân tích tình cảm tăng dần với phát triển phương tiện truyền thông xã hội đánh giá, thảo luận diễn đàn, mạng xã hội Đặc biệt, thời đại phát triển kỹ thuật số, có khối lượng liệu lớn ghi lại dạng văn để phân tích Học máy ứng dụng Trí tuệ nhân tạo, lĩnh vực giúp hệ thống tự động hiểu liệu từ liệu đào tạo mà khơng cần lập trình cụ thể Học máy tập trung vào vấn đề cung cấp hệ thống tự động hiểu liệu thực phép dự đoán Học máy chia làm phần (Das, Dey, Pal, & Roy, 2015): học có giám sát, học bán giám sát, học không giám sát học củng cố Máy học có giám sát thuật tốn dự đốn liệu đầu dựa vào tập liệu (dữ liệu đầu vào, kết đầu ra) biết từ trước Có hai loại máy học có giám sát phân loại hồi quy Phân loại dự đốn kết phân chia thành nhóm liệu có tính chất, hồi quy cho kết dự đốn số thực cụ thể thay phân nhóm học máy phân loại Máy học khơng giám sát thuật tốn dự đốn liệu đầu dựa vào tập liệu đầu vào, liệu đầu vào không dán nhãn kết đầu Thuật toán dựa vào cấu trúc liệu để thực lưu trữ tính tốn Máy học khơng giám sát bao gồm phân nhóm tích hợp Thuật tốn phân nhóm dựa phân nhóm tồn liệu thành nhóm nhỏ dựa dự liên quan liệu nhóm Thuật tốn tích hợp khai phá số quy luật dựa nhiều liệu cho trước Học bán giám sát thuật toán kết hợp hai thuật tốn có giám sát khơng giám sát Áp dụng với phần tập liệu dán nhãn, phần cịn lại khơng dán nhãn Học củng cố thuật toán giúp hệ thống tự động xác định hành vi để đạt hiệu tối ưu Trong nghiên cứu này, chọn phương pháp học có giám sát để áp dụng cho tốn phân loại cảm xúc khách hàng dựa bình luận 2.3 Thuật toán Hồi quy Logistic Thuật toán Hồi quy Logistic (Hieu, 2018) thuộc học máy có giám sát để phân loại liệu Mơ hình hồi quy Logistic áp dụng cho biến phụ thuộc biến định tính định lượng có hai giá trị (có không) hay nhị phân Điều phù hợp với tốn phân loại bình luận người dùng Đầu tốn xác định bình luận tích cực hay tiêu cực Phương trình tổng quát (hàm Sigmoid) hàm Logistic: Nguyễn Đ L Bằng cộng Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 16(1), 64-78 y f ( s) 1 e s 67 (1) Trong đó, f(s) xác suất xảy giá trị y = y = 0, s phương trình tuyến tính phụ thuộc vào biến đầu vào Phương trình mơ hình đơn biến: s = α0 + α1 x1, phương trình tuyến tính phụ thuộc vào biến x1 Phương trình mơ hình đa biến: s = α0 + α1 x1 + … + αn, phương trình tuyến tính phụ thuộc vào biến x Dạng ma trận α0 = Hình Đồ thị hàm Sigmoid (Hieu, 2018) Đồ thị hàm số thể hiện: s e s f ( s) 0.5 Chia làm hai lớp: y = s < y = s >= Các tính chất hàm Logistic: Miền xác định: Tất số thực; Miền giá trị: (0,1); Hàm liên tục; Hàm tăng miền xác định; Hàm đối xứng qua điểm (0, ½), khơng phải hàm chẵn khơng phải hàm lẻ; Bị giới hạn dưới; Khơng có cực trị địa phương; 68 Nguyễn Đ L Bằng cộng Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 16(1), 64-78 Tiệm cận ngang: y = y = 1; Khơng có tiệm cận đứng; Mượt (smooth) nên có đạo hàm nơi, lợi việc tối ưu hàm Sigmoid Giải thích: Giới hạn lim f ( s) lim s s e s 0 (2) lim f ( s) lim s s e s 1 (3) Hàm mát (Jurafsky & Martin, 2008): hàm mát hàm số xác định chênh lệch đầu y dự đoán so với kết đầu y (y dùng huấn luyện) Việc tối ưu hàm mát cho kết tốn xác (4) Nghiên cứu thực nghiệm 3.1 Mơ hình nghiên cứu tổng quan Trong nghiên cứu này, trước tiên tiến hành thu thập liệu thô từ trang web Foody Sau liệu thơ tiền xử lý lấy mẫu, gán nhãn trước tiến hành học máy Dữ liệu lấy mẫu chia thành ba nhóm: tập liệu huấn luyện (training data), tập liệu xác nhận (validation data) tập liệu kiểm tra (test data) Tập liệu huấn luyện sử dụng để thiết lập mơ hình học máy, liệu xác nhận sử dụng để lặp lại tinh chỉnh mơ hình chọn, chúng tơi dựa kết phân loại xác liệu tập kiểm tra để tìm mơ hình học máy phù hợp Các liệu kiểm tra sử dụng lần bước cuối để báo cáo tỷ lệ lỗi ước tính cho dự đốn tương lai (Shmueli & Koppius, 2011) Hình tổng quan mơ hình nghiên cứu chúng tơi thực Nguyễn Đ L Bằng cộng Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 16(1), 64-78 MƠ HÌNH 69 CƠNG CỤ Truy cập web Thư viện BeautifulSoup Thư viện Selenium Thu thập bình luận người dùng Phân loại theo tỉ lệ Loại bỏ kí tự đặc biệt Các thư viện Python Chuyển thành chữ thường Huấn luyện mơ hình Đánh giá mơ hình Dashboards biểu diễn kết Thuật tốn Học máy, mơ hình - Bag-of-word - TF-IDF - Logistic Regresion - Naive bayes - Decision Tree Python, Google API Tableau Desktop Đề xuất Hình Mơ hình nghiên cứu tổng quan 3.2 Thu thập liệu Các thư viện Beautiful Soup Selenium ngôn ngữ Python dùng để thu thập liệu website Việc thu thập liệu dựa vào cấu trúc Hypertext Markup Language (HTML) 70 Nguyễn Đ L Bằng cộng Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 16(1), 64-78 trang Foody.vn Muốn thu thập liệu thông tin ta tiến hành truy xuất liệu tương ứng với thẻ HTML chứa thơng tin Tập liệu thu thập có 32,000 dịng, gồm thông tin tên cửa hàng, địa chỉ, tên khách hàng bình luận, thời gian bình luận, nội dung bình luận, tỷ lệ đánh giá khách hàng cửa hàng 3.3 Tiền xử lý liệu Dữ liệu thu thập có dạng thơ, chưa qua xử lý nên liệu bị rỗng, liệu sai tả, liệu ngắn, dài chứa biểu tượng icon Điều gây ảnh hưởng đến kết việc phân tích, ta cần làm liệu Xóa icon, kí tự đặc biệt: kí tự đặc biệt không mang ý nghĩa phân loại, mặc khác gây nhiễu q trình phân tích Chuyển tất chữ thường: số, ký tự đặc biệt, ký tự đại diện cho dãy nhị phân nhớ máy tính Chữ in hoa có mã Unicode khác chữ in thường, mặt ngữ nghĩa giống nhiên máy tính khơng thể phân biệt liệu đầu vào, dẫn đến kết dự đốn bị ảnh hưởng Vì việc chuyển toàn chữ chữ thường hợp lý cho hệ thống phân tích dự đốn Chuyển dạng từ rõ nghĩa: việc chuyển dạng từ rõ nghĩa cần thiết cho bước tiền xử lý liệu Các bình luận Foody người dùng bình luận tiếng Việt nên việc viết tắt sai tả Chẳng hạn từ ko ngon (không ngon), vs (với), 15k (15000) … hay liệu khơng đồng bộ, khơng chuẩn hóa Việc ảnh hưởng gây nhiều kết phân tích Trong q trình huấn luyện học máy, liệu đưa vào “khơng ngon”, dự đốn dự liệu đầu ra, cụm từ “ko ngon” không xuất q trình huấn luyện, khó thể nhận diện cảm xúc dự đoán kết Xóa dịng liệu: tập liệu thu có nhiều liệu bị trống, liệu trống khơng có ý nghĩa q trình phân tích, gây tốn nhớ lưu trữ 3.4 Gán nhãn liệu Để thực trình gán nhãn liệu trước đưa vào huấn luyện, nghiên cứu áp dụng phương pháp phân loại cảm xúc theo điểm số đánh giá (Rating) khách hàng (Liu, 2017) để phân chia tập liệu thu thập thành liệu gán nhãn theo quy tắc sau: Rate 5: bình luận đánh giá dán nhãn tích cực (positive) Kết gán nhãn cho thấy, chiếm đa số liệu bình luận tích cực 70% so với tổng bình luận, bình luận tiêu cực chiếm 30% tổng bình luận 3.5 Phương pháp biểu diễn văn Trong học máy, máy tính khơng thể hiểu trực tiếp ngơn ngữ tự nhiên mà hiểu ngôn ngữ chúng biểu diễn dạng khơng gian vector Các chiều thuộc tính đầu vào biểu diễn dạng ma trận vector, có nhiều phương pháp để biểu diễn văn sang dạng ma trận vector chẳng hạn: cách truyền thống mơ hình Bag of N-grams, mơ hình TF-IDF, mơ hình chủ đề hay cách cải tiến mơ hình Word2Vec, GloVe, FastTex (Sarkar, 2019) Trong nghiên cứu này, áp dụng hai phương pháp Bag of N-grams TF-IDF để thử nghiệm mơ hình biểu diễn liệu Phương pháp Bag of word (BoW): mơ hình BoW tập hợp tất từ dạng từ nhất, không chứa cụm từ gồm nhiều từ ghép lại Mơ hình Bag of N-Grams giải vấn đề Bag of N-grams thành lập tập hợp cụm từ gồm n-từ ghép lại với tùy Nguyễn Đ L Bằng cộng Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 16(1), 64-78 71 thuộc vào nhu cầu Ví dụ, xem xét ba bình luận sau “đồ ăn ngon quá”, “phục vụ tệ”, “đồ ăn khơng ngon” Hình Sơ đồ cấu thành n-grams Bình luận 1: có tập từ đồ ăn ăn ngon ngon q Bình luận 2: có tập từ phục vụ vụ q q tệ Bình luận 3: có tập từ đồ ăn ăn không không ngon Các từ trùng lặp lấy từ, sau xếp theo thứ tự bảng chữ cái, ta có ma trận: Hình Ma trận từ theo mơ hình Bag-of-word Phương pháp TF-IDF: mơ hình Bag of word n-grams gặp vài vấn đề tập liệu lớn, từ có tần suất xuất nhiều đa số đoạn văn bản, khơng có ý nghĩa phân loại, ví dụ từ “này”, “đó”, “rất”, “cửa hàng”, … Khi số TF-IDF dùng để tính tốn phát từ có trọng số cao thấp Bước 1: Tính TF theo công thức TF (t , d ) df (d , t ) D (5) 72 Nguyễn Đ L Bằng cộng Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 16(1), 64-78 Bước 2: Tính IDF theo cơng thức (6) Bước 3: Tính TF-IDF theo công thức (7) Ở đây: |D| số lượng văn tập ngữ liệu; df(d,t) số lượng văn mà từ t xuất hiện; tf(t,d) tần suất từ xuất văn Phân bổ liệu theo thuật tốn BoW Hình Phân bổ liệu theo BoW Trước tiên, thuật toán BoW biểu diễn giá trị thuộc tính giá trị Từ không gian nhiều chiều ta chuyển đổi thành không gian chiều giá trị phân bổ dọc theo trục y, giá trị trục x cố định giá trị trục y biến thiên Dữ liệu phân bổ theo đường thẳng Hình khó cho việc phân loại liệu nghiên cứu tiếp tục thực phân bố liệu theo TF-IDF Nguyễn Đ L Bằng cộng Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 16(1), 64-78 73 Phân bổ liệu theo Phương pháp TF-IDF Hình Phân bổ liệu theo TF-IDF Thuật tốn TF-IDF khơng biểu diễn giá trị thuộc tính giá trị mà biểu diễn với giá trị trọng số TF-IDF tính Chính biểu diễn đồ thị giảm từ nhiều chiều sang chiều, giá trị liệu phân bổ phụ thuộc hai chiều, trục x tăng thay đổi kéo theo giá trị trục y thay đổi Do liệu phân bổ rời rạc tách biệt hơn, việc giúp trình phân loại dễ dàng 3.6 Dùng Google API để xác định tọa độ cửa hàng Dùng Google Map API để lấy tọa độ cửa hàng, ứng dụng hiển thị vị trí cửa hàng lên đồ để nhìn thấy tổng quan phân bố liệu vị trí quận phường Đăng ký tài khoản google map API để lấy mã truy cập, mã đại diện cho tài khoản Kết thu tọa độ (kinh độ, vĩ độ) vị trí cửa hàng Hình kết xác định tọa độ cửa hàng Kết áp dụng để hiển thị vị trí cửa hàng đồ, báo cáo để thể phân bổ cửa hàng theo cảm xúc Hình Kết xác định tọa độ hàng 74 Nguyễn Đ L Bằng cộng Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 16(1), 64-78 Kết thực nghiệm 4.1 Đánh giá mơ hình Tập liệu huấn luyện mơ hình học máy, sử dụng thuật tốn gồm: Decision Tree, Nạve Bayes, hồi quy Logistic Với kết đánh giá mơ hình, xác suất dự đoán Bảng 1, nhận xét cụ thể sau: (8) True Positive (TP): tổng số lượng tích cực dự đốn ĐÚNG với số lượng tích cực thực tế; False Positive (FP): tổng số lượng tích cực dự đốn SAI với số lượng tích cực thực tế; True Negative (FN): tổng số lượng tiêu cực dự đoán ĐÚNG với số lượng tiêu cực thực tế; False Negative (FN): tổng số lượng tiêu cực dự đoán SAI với số lượng tiêu cực thực tế Accuracy: độ xác trung bình thuật tốn, tỷ lệ kết dự đoán với liệu thực tế Cây định Hồi quy Logistic dự đoán 90%, nghĩa 100 liệu dự đốn hai mơ hình dự đốn 90 liệu so với kế thực tế Precision: định nghĩa số lượng dự đốn thực xác có liên quan số tất dự đốn dựa lớp tích cực Thuật tốn Cây định có độ xác 90,075 % dự đốn tích cực, có nghĩa 100 liệu tích cực thực tế mơ hình dự đốn 90,075 liệu tích cực Recall: số thể tất trường hợp Positive, trường hợp dự đốn xác Recall Cây định 94.996% nghĩa 100 dự đốn tích cực có khoảng 94.996 dự đốn F_score: có số trường hợp chúng tơi muốn tối ưu hóa cân độ xác thu hồi Điểm F1 giá trị trung bình hài hịa độ xác thu hồi giúp chúng tơi tối ưu hóa phân loại cho độ xác cân hiệu suất thu hồi Thời gian huấn luyện dự đoán lâu thuật toán định (huấn luyện 48.3s dự đoán 328 ms), thời gian dự đoán nhanh hồi quy Logistic, thời gian huấn luyện nhanh Nạve Bayes thuật tốn chạy dựa lý thuyết biến liệu độc lập với Độ xác cao 90% thuật tốn hồi quy Logistic, thấp Naïve Bayes với 78% Như thấy Hồi quy Logistic thuật tốn tốt so với thuật tốn cịn lại xét tổng thể tốc độ thực thi độ xác Bảng Kết đánh giá mơ hình Thuật tốn Decision Tree Nạve Bayes Hồi quy Logistic Precision Positive 90.075 Negative 84.312 Positive 77.125 Negative 98.868 Positive 88.635 Negative 92.587 Recall F_score 94.996 92.471 71.982 77.661 99.911 87.502 20.681 34.207 98.085 93.085 67.392 78.006 Accuracy 89% 78% 90% Thời gian huấn luyện 48.3 s 96.3 ms 1.79 s Thời gian dự đoán 328 ms 24.4 ms 11 ms Nguyễn Đ L Bằng cộng Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 16(1), 64-78 75 4.2 Trực quan hóa kết khai phá ý kiến Sau thực thi mơ hình, nhằm dễ dàng theo dõi định, kết thực nghiệm nghiên cứu tiếp tục trực quan hóa báo cáo thơng minh Hình 7, trình bày kết phân tích trực quan Hình Báo cáo thống kê theo quận Báo cáo thống kê theo quận thể số liệu tổng quan quận tất năm từ 2012 đến Báo cáo bao gồm số lượng cửa hàng quận, tổng bình luận khách hàng quận, tỷ lệ đánh giá trung bình theo tiêu chí (địa điểm, dịch vụ, chất lượng, giá không gian), cuối số đánh giá chung người dùng theo quận Biểu đồ Trung bình đánh giá: thể điểm đánh giá trung bình tất cửa hàng quận Biểu đồ Số lượng cửa hàng: thể tổng số lượng quán cuả quận, hình trịn lớn chứng tỏ số lượng nhiều Biểu đồ Tổng số bình luận: tính tổng lượt bình luận khách hàng quận Biểu đồ Trung bình đánh giá theo tiêu chí: thể điểm đánh giá theo địa điểm, dịch vụ, chất lượng, giá không gian tất cửa hàng quận Phân tích: Nhìn vào biểu đồ Trung bình đánh giá ta dễ dàng nhận thấy tỷ lệ đánh giá quận Biểu đồ Số lượng cửa hàng kết hợp với số liệu đánh giá điểm dịch vụ biểu đồ Trung bình đánh giá theo tiêu chí giúp người quản lý suy luận điểm mạnh yếu vị trí, giá cả, chất lượng dịch vụ, phục vụ không gian quán Như doanh nghiệp xem xét kết nhằm cải thiện dịch vụ để nhằm nâng cao lợi cạnh tranh 76 Nguyễn Đ L Bằng cộng Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 16(1), 64-78 Hình Báo cáo Thống kê theo cửa hàng Báo cáo thống kê theo cửa hàng thể số liệu chi tiết đến quán, báo cáo giúp doanh nghiệp xác định cụ thể quán đối thủ, đánh giá khách hàng quán đó, xác định vị trí qn xung quanh, ngồi báo cáo cịn thể thứ tự cửa hàng yêu thích Biểu đồ Thống kê cửa hàng: thể thông tin quận, phường có qn nào, tên điểm đánh giá Biểu đồ Định vị cửa hàng: biểu diễn vị trí cửa hàng lên đồ, phân loại theo kết tích cực hay tiêu cực Biểu đồ Số người bình luận: tổng số người bình luận phường, xác định phường có bình luận tốt, bình luận xấu Biểu đồ Top cửa hàng nhiều bình luận tốt: hiển thị tên qn có lượt bình luận tốt cao Phân tích: Biểu đồ Top cửa hàng nhận nhiều bình luận tốt thể quận Tân Bình cửa hàng Royaltea, TocoToco, Bobapop, … nhiều khách hàng bình luận tích cực so với cửa hàng khác Kết hợp số liệu biểu đồ Số người bình luận Thống kê cửa hàng doanh nghiệp có góc nhìn tổng quan đánh giá cửa hàng, cụ thể doanh nghiệp biết quận phường có nhiều quán đánh giá cao Ngoài biểu đồ Định vị cửa hàng thể phân bổ đánh giá tiêu cực hay tích cực trực quan hóa đồ, giúp doanh nghiệp dễ dàng xác định khu vực nhiều tích cực tiêu cực Kết luận hướng phát triển Trong nghiên cứu này, hoàn thành giải pháp ứng dụng phân tích ngơn ngữ tự nhiên, cụ thể phân tích cảm xúc khách hàng dựa bình luận đăng tải Nguyễn Đ L Bằng cộng Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 16(1), 64-78 77 trang web Foody.vn Giải pháp thực nhiều thuật toán để so sánh ưu khuyết điểm mơ hình, chọn mơ hình tốt thơng qua độ đo F-Score Đặc biệt tạo báo cáo trực quan phục vụ nhu cầu định doanh nghiệp Giải toán thời kỳ bùng nổ liệu cung cấp thơng tin trải nghiệm khách hàng địa điểm Từ doanh nghiệp lĩnh vực đồ ăn thức uống có chiến lược để phát triển dịch vụ sản phẩm tốt nhằm thu hút giữ chân khách hàng tốt Ngoài nghiên cứu tiền đề cho ứng dụng phân tích liệu, sử dụng giải pháp để tích hợp vào ứng dụng với mục đích khảo sát cảm xúc trải nghiệm khách hàng tất sản phẩm dịch vụ khác Trong nghiên cứu tiếp theo, mở rộng cách cài đặt hệ thống để tự động cập nhật liệu Dữ liệu tự trích xuất liệu từ website loại bỏ liệu trùng lặp trước lưu vào sở liệu Thu thập liệu nhiều từ nhiều nguồn, phát triển nghiên cứu theo hướng phân tích liệu lớn (Bigdata) Ứng dụng triển khai báo cáo phân tích ý kiến người dùng website, đặc biệt thiết bị di động, giúp doanh nghiệp tiện lợi việc xem báo cáo định tốt Tài liệu tham khảo Agarwal, B., & Mittal, N (2016) Machine learning approach for sentiment analysis In Prominent feature extraction for sentiment analysis (pp 21-45) Berlin, Germany: Springer Boiy, E., & Moens, M F (2009) A machine learning approach to sentiment analysis in multilingual Web texts Information Retrieval, 12(5), 526-558 Buche, A., Chandak, D., & Zadgaonkar, A (2013) Opinion mining and analysis: A survey International Journal on Natural Language Computing (IJNLC), 2(3), 39-48 Das, S., Dey, A., Pal, A., & Roy, N (2015) Applications of artificial intelligence in machine learning: Review and prospect International Journal of Computer Applications, 115(9), 31-41 Eisenstein, J (2019) Introduction to natural language processing Cambridge, MA: The MIT Press Gautam, G., & Yadav, D (2014) Sentiment analysis of twitter data using machine learning approaches and semantic analysis In 2014 Seventh international conference on contemporary computing (IC3) (pp 437-442) Noida, India: IEEE Hao, M., Rohrdantz, C., Janetzko, H., Dayal, U., Keim, D A., Haug, L E., & Hsu, M C (2011) Visual sentiment analysis on twitter data streams In 2011 IEEE conference on visual analytics science and technology (VAST) (pp 277-278) Providence, MA: IEEE Hieu, N T (2018) Dạy học hàm số logistic Mĩ [Teaching logistics functions in America] Tạp chí Khoa học, 15(1), 60-67 Hossein, B (2004) The internet encyclopedia Hobiken, NJ: John Wiley & Sons Inc Jurafsky, D., & Martin, J H (2008) Speech and language processing: An introduction to speech recognition, computational linguistics and natural language processing Upper Saddle River, NJ: Prentice Hall Kumar, K S., Desai, J., & Majumdar, J (2016) Opinion mining and sentiment analysis on online customer review In 2016 IEEE International Conference on Computational Intelligence and Computing Research (ICCIC) (pp 1-4) Chennai, India: IEEE 78 Nguyễn Đ L Bằng cộng Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 16(1), 64-78 Liu, B (2012) Sentiment analysis and opinion mining New York, NY: Morgan & Claypool Publishers Liu, B (2017) Many facets of sentiment analysis In A practical guide to sentiment analysis (pp 11-39) Cham, Switzerland: Springer Pang, B., & Lee, L (2008) Opinion mining and sentiment analysis Foundations and trends in information retrieval, 2(1/2), 1-135 Popescu, A M., & Etzioni, O (2007) Extracting product features and opinions from reviews In Natural language processing and text mining (pp 9-28) London, UK: Springer Sarkar, D (2019) Text analytics with Python: A practitioner's guide to natural language processing New York, NY: Apress Sharma, V., Agarwal, A., Dhir, R., & Sikka, G (2016) Sentiments mining and classification of music lyrics using SentiWordNet In 2016 Symposium on Colossal Data Analysis and Networking (CDAN) (pp 1-6) Noida, India: IEEE Shmueli, G., & Koppius, O R (2011) Predictive analytics in information systems research MIS Quarterly, 35(3), 553-572 Srinivasa-Desikan, B (2018) Natural language processing and computational linguistics: A practical guide to text analysis with Python, Gensim, spaCy, and Keras Birmingham, UK: Packt Publishing Ltd Sun, S., Luo, C., & Chen, J (2017) A review of natural language processing techniques for opinion mining systems Information Fusion, 36(2017), 10-25 Thanh, H., & Phuc, D (2015) Analyzing users’ interests with the temporal factor based on topic modeling In Asian conference on intelligent information and database systems (pp 105115) Pa Tong, Thailand: Springer Wu, X., Kumar, V., Quinlan, J R., Ghosh, J., Yang, Q., Motoda, H., Zhou, Z H (2008) Top 10 algorithms in data mining Knowledge and Information Systems, 14(1), 1-37 Ye, Z., Tafti, A P., He, K Y., Wang, K., & He, M M (2016) Sparktext: Biomedical text mining on big data framework PloS One, 11(9), 1-15 ... kết dự đốn số thực cụ thể thay phân nhóm học máy phân loại Máy học không giám sát thuật toán dự đoán liệu đầu dựa vào tập liệu đầu vào, liệu đầu vào không dán nhãn kết đầu Thuật toán dựa vào... Hồi quy Logistic dự đoán 90%, nghĩa 100 liệu dự đốn hai mơ hình dự đoán 90 liệu so với kế thực tế Precision: định nghĩa số lượng dự đốn thực xác có liên quan số tất dự đoán dựa lớp tích cực Thuật... gian huấn luyện dự đoán lâu thuật toán định (huấn luyện 48.3s dự đoán 328 ms), thời gian dự đoán nhanh hồi quy Logistic, thời gian huấn luyện nhanh Nạve Bayes thuật toán chạy dựa lý thuyết biến