THỰC NGHIỆM, ĐÁNH GIÁ VÀ THẢO LUẬN

Một phần của tài liệu (Luận văn Đại học Thương mại) NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY (MACHINE LEARNING) ỨNG DỤNG CHO BÀI TOÁN XÁC ĐỊNH CÁC CHỦ ĐỀ QUAN TÂM CỦA KHÁCH HÀNG TRỰC TUYẾN (Trang 41 - 43)

Chương 4, báo cáo trình bày thực nghiệm trên 02 bộ dữ liệu để so sánh và đánh giá một số thuật toán học máy phổ biến được ứng dụng trong nhiều bài toán hiện nay, để đưa ra lựa chọn phù hợp nhất cho dữ liệu lịch sử của khách hàng thu thập trên một số phương tiện truyền thông xã hội như các website thương mại điện tử, các cổng thanh toán, các nền tảng mạng xã hội như Facebook và YouTube, …

4.1. MỤC ĐÍCH VÀ CHUẨN BỊ CHO THỰC NGHIỆM 4.1.1. Mục đích của thực nghiệm 4.1.1. Mục đích của thực nghiệm

Mục tiêu của đề tài là hệ thống hóa các khái niệm về học máy, các thuật tốn sử dụng trong phân tích dữ liệu dựa trên học máy và các ứng dụng của học máy trong các bài toán kinh tế; dựa trên thực trạng ứng dụng phân tích dữ liệu khách hàng và khách hàng trực tuyến bằng các cơng cụ cơng nghệ mới từ đó trình bày một số thuật tốn học máy phổ biến ứng dụng trong phân tích dữ liệu khách hàng trực tuyến và so sánh mức độ phù hợp của các thuật toán đối dữ liệu lịch sử của khách hàng thu thập được trên các phương tiện truyền thơng xã hội hiện nay.

Vì vậy, mục đích của chương 4 là trình bày một thực nghiệm để so sánh mức độ phù hợp của các thuật toán học máy trong ứng dụng thực tế vào phân tích dữ liệu khách hàng trực tuyến. Từ đó đưa ra các khuyến nghị phù hợp đối với các kiểu dữ liệu khách hàng phù hợp trong ứng dụng phân tích dữ liệu khách hàng trực tuyến cho các tổ chức, doanh nghiệp

4.1.2. Các bước chuẩn bị cho thực nghiệm

Để thực hiện thực nghiệm, nhóm nghiên cứu thực hiện các bước gồm:

Thứ nhất thu thập và tiền xử lý dữ liệu: Đề tài tiến hành thực nghiệm trên hai bộ

dữ liệu:

Bộ dữ liệu thứ nhất là bộ dữ liệu mẫu 20News group bằng Tiếng Anh lấy từ địa chỉ của Đại học Standford (https://library.stanford.edu/science/databases). Đây là bộ dữ liệu mẫu được dùng trong phân tích và đánh giá các thuật tốn học máy rất phổ biến. Thu thập từ các phương tiện truyền thông xã hội với 20 nhãn. Trong đó có 11.293 tài liệu trong tập huấn luyện, có 7.528 trong tập kiểm thử.

Bộ dữ liệu thứ 2 là nhóm nghiên cứu dưới sự trợ giúp của sinh viên chuyên thu thập trực tiếp từ bình luận về các sản phẩm của khách hàng trên một số trang thương mại điện tử như tiki.vn, sendo.vn và shopee.vn cùng một số trang bán hàng trên mạng xã hội Facebook.com. Sau khi tinh chỉnh và lọc các dữ liệu khơng phù hợp, nhóm nghiên cứu thu được một bộ gồm 2000 tài liệu với 20 nhãn để xây dựng bộ dữ liệu thực nghiệm. Các nội dung thu thập trên thực tế của bộ dữ liệu Tiếng Việt gồm các bài viết, các bình luận và các đánh giá, nhận xét của khách hàng trên một số trang thương mại điện tử và cổng thanh tốn minh họa trong Hình 4.1 và Hình 4.2

Hình 4.1: Dữ liệu đánh giá sản phẩm của trang https://shopee.vn/ và sendo.vn

Thứ hai xây dựng bộ mẫu dữ liệu thực nghiệm: Để xây dựng bộ dữ liệu thực nghiệm, nhóm nghiên cứu thực hiện lấy ngẫu nhiên trong 2 bộ dữ liệu, mỗi bộ gồm 1000 tài liệu để chạy thực nghiệm.

Các tài liệu được tính bằng cách tách từ và tính thêm trọng số của các từ xuất hiện trong các tài liệu TF.IDF để phù hợp với đầu vào của một số thuật tốn.

Trong đó, TF là tần suất xuất hiện của từ đó trong tổng số tài liệu, IDF là nghịch đảo của tần số hay là từ quan trọng của tài liệu. Sau khi tiền xử lý, mỗi tài liệu được biểu diễn trong một file csv để thuận tiện cho thực nghiệm và tính tốn.

Thơng số các bộ dữ liệu thực nghiệm được mô tả trong Bảng 4.1

Một phần của tài liệu (Luận văn Đại học Thương mại) NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY (MACHINE LEARNING) ỨNG DỤNG CHO BÀI TOÁN XÁC ĐỊNH CÁC CHỦ ĐỀ QUAN TÂM CỦA KHÁCH HÀNG TRỰC TUYẾN (Trang 41 - 43)