Báo cáo môn học ứng dụng phân tích dữ liệu lớn trong quản lý dự đoán doanh số bán hàng cho hệ thống thương mại điện tử bằng công nghệ máy học

Nếu họ dự đoán được doanh số bán hàng, xu hướng mua hàng trong tương lai thông qua các phương pháp phân tích các dữ ệu li thu thập được từ các giao d ch cị ủa những khách hàng trước, doa

TỔNG QUAN NGHIÊN CỨU

Lý do ch ọn đề tài

Có th nh n th y r ng, xu ể ậ ấ ằ hướng mua s m tr c tuy n và ắ ự ế đã đang bùng n trên ổ phạm vi toàn c u Ch c n ng i m t ch v n hoàn toàn có th mua s m t t c m i th , ầ ỉ ầ ồ ộ ỗ ẫ ể ắ ấ ả ọ ứ từ nh ng món hàng hoá xa x nh t cho ữ ỉ ấ đến nh ng ữ đồ dùng sinh ho t ạ cơ b n nh t trong ả ấ nhà ch v i nh ng cú ch m hay vu t không gi i h n trên máy tính hay ỉ ớ ữ ạ ố ớ ạ điện tho i ạ Điều đặc bi t là có th mua m i hàng hóa t nhi u hãng khác nhau ch trong m t giao ệ ể ọ ừ ề ỉ ộ diện website ho c trên m t ng d ng ặ ộ ứ ụ điện tho i Ti n l i, ti t ki m th i gian và có t t ạ ệ ợ ế ệ ờ ấ cả m i th chính là nh ng ọ ứ ữ ưu điểm c a các trang ủ thương ạ điệ ử m i n t (E-commerce) Với s phát triự ển vượt bậc như vậy, đây cũng là một trong nh ng n n t ng ữ ề ả chứa nhi u data nh t N n tề ấ ề ảng thương mại điệ ửn t thu th p mậ ột lượng lớn data đến từ các hoạt động, giao dịch của người dùng như họ và tên, độ tu i, sổ ố điện tho i, ạ thông tin liên l c, email Toàn bạ ộ thông tin trên đượ được lưu trữ ạc t i kho ch a d ứ ữ liệu của trang thương mại điện t ử đó Đây quả thật được xem là một “kho kim cương”, giúp n m b t kắ ắ ịp xu hướng, s thích cá nhân, s n phở ả ẩm ưa thích khi s quan tâm ự hàng đầu của các doanh nghiệp chính là những khách hàng của họ

Nhìn t ng quan, big data có th t o ra l i th c nh tranh cho doanh nghi p ổ ể ạ ợ ế ạ ệ bằng cách cung c p nh ng phân tích chuyên sâu vấ ữ ề các xu hướng tiêu dùng Tuy nhiên trên th c t nh ng n n t ng E-commerce lự ế ữ ề ả ại chưa tận d ng t t ngu n tài nguyên ụ ố ồ quý giá này, thông thường các n n t ng ch s d ng nh ng d li u này khi g p ph i ề ả ỉ ử ụ ữ ữ ệ ặ ả vấn đề cần giải quyết với khách hàng Họ sử dụng hàng trăm, hàng triệu đô-la để quảng cáo, m ng xã hạ ội và thúc đẩy bán hàng nhưng thiết nghĩ, nếu vi c s d ng ệ ử ụ Machine learning được thực hiện thì rõ ràng trang thương mại điện tử đó sẽ chiếm nhiều lợi thế hơn so với đối th củ ủa mình

Vậy n u các n n t ng E-commerce có th s dế ề ả ể ử ụng được học máy để ự đoán d được doanh số bán hàng thì sẽ thế nào? Nếu họ dự đoán được doanh số bán hàng, xu hướng mua hàng trong tương lai thông qua các phương pháp phân tích các dữ ệu li thu thập được từ các giao d ch cị ủa những khách hàng trước, doanh nghi p hoàn toàn ệ có th ể đưa ra những kế hoạch tạo ra l i th cợ ế ạnh tranh như chính sách bán hàng, tung ra s n ph m mả ẩ ới, các chương trình khuyến mãi t ng thở ừ ời điểm phù h p Không ch ợ ỉ vậy, doanh nghi p có th tệ ể ối ưu được nguồn tài chính, gia tăng tính hiệu quả, năng suất để t o nên nh ng bi n chuy n ạ ữ ế ể ấn tượng trong k nguyên chuyỷ ển đổ ố như hiện i s nay

Chính vì th , nhóm nghiên c u ế ứ đã chọn đề tài “Dự đoán doanh số bán hàng cho h thệ ống thương mại điện t b ng công ngh máy hử ằ ệ ọc” để hiểu mô hình h c máy ọ nào đang được sử dụng bởi các bài nghiên cứu khác để có thể chọn phương pháp tốt nhất cho nghiên c u này Nhóm nghiên c u s so sánh t t cứ ứ ẽ ấ ả độ chính xác và sai s ố của mô hình để có được mô hình tốt nhất, có sai số thấp và độchính xác cao để dự báo doanh số bán hàng Điều này s giúp cho doanh nghi p th c hiẽ ệ ự ện được nh ng ữ quyết định liên quan đến bán hàng chính xác hơn, có thể gi chân khách truy c p ti m ữ ậ ề năng bằng cách cung cấp một loạt các hành động có khả năng khuyến khích họ mua hàng (D.Qu nh, 2022; Thanh, 2019) ỳ

M ục tiêu nghiên cứ u

So sánh 4 phương pháp Random Forest, Gradient Boosting, ARIMA và SARIMA để tìm ra đâu là phương pháp hiệu quả, chính xác nhất giúp Doanh nghiệp dự đoán bán hàng

Giúp các nhà qu n trả ị xác định được hành vi, ý định mua hàng của người tiêu dùng t ừ đó đưa ra những đề xuất thúc đẩy hành vi mua hàng được thực hiện.

Đố i tư ợ ng nghiên c u 2 ứ

Đối tượng nghiên cứu là các thuật toán Random Forest, Gradient Boosting, ARIMA, SARIMA và d li u giao d ch t khách hàng c a Olist ữ ệ ị ừ ủ

Phạm vi d li u nghiên c u: Cữ ệ ứ ửa hàng thương mại điện t Olist t i Brazil ử ạ Thời gian nghiên c u: Tứ ừ 10/8/2022 đến 10/10/2022

Nhóm nghiên c u s d ng n n t ng Google Colab và ngôn ng l p trình ứ ử ụ ề ả ữ ậPython để chạy 4 thuật toán Random Forest, Gradient Boosting, ARIMA và SARIMA C th , nhóm s d ng hai mô hình h i quy Random Forest và Gradient ụ ể ử ụ ồ

Boosting v i mớ ục đích so sánh và ch n ra thu t toán t t nh t ọ ậ ố ấ Đồng th i s d ng hai ờ ử ụ mô hình ARIMA và SARIMA phân tích chu i th i gian nh m dỗ ờ ằ ự đoán doanh thu

Bài nghiên c u cho th y cái nhìn tứ ấ ổng quát hơn về ệ ứ vi c ng d ng nh ng công ụ ữ cụ machine learning, công ngh Big Data vào vi c d báo doanh s bán hàng trên ệ ệ ự ố nền tảng thương mại điệ ử Đồng thời bài nghiên c u này còn tìm ra thu t toán t t n t ứ ậ ố nhất trong 4 thu t toán Random Forest, Gradient Boosting, ARIMA và SARIMAậ Ngoài ra còn kết luận được thuật toán Sarima còn cho thấy các xu hướng mùa vụ trong dữ liệu giúp doanh nghiệp có cái nhìn rộng hơn trong việc dự đoán doanh số, ước lượng được doanh thu, điều này có ý nghĩa lớn trong việc xác lập được KPI qua từng năm Không những thế, dự báo bán hàng còn giúp doanh nghiệp có được cái nhìn tổng quan đố ề ự thay đổi v s i ho c hình thành s n ph m d ch vặ ả ẩ ị ụ trong tương lai để có th cân nhể ắc được chiến lược, ý tưởng mới Và cu i cùng, d bán bán hàng còn ố ự giúp doanh nghi p hoệ ạch định các chiến lược qu ng cáo, xúc ti n tả ế hương mại, tăng khả năng cạnh tranh v i các doanh nghi p cùng ngành mà m ra nhiớ ệ ở ều cơ hội h p tác ợ với các ngành ngh khác ề

Phương pháp nghiên cứ u

Nhóm nghiên c u s d ng n n t ng Google Colab và ngôn ng l p trình ứ ử ụ ề ả ữ ậPython để chạy 4 thuật toán Random Forest, Gradient Boosting, ARIMA và SARIMA C th , nhóm s d ng hai mô hình h i quy Random Forest và Gradient ụ ể ử ụ ồ

Boosting v i mớ ục đích so sánh và ch n ra thu t toán t t nh t ọ ậ ố ấ Đồng th i s d ng hai ờ ử ụ mô hình ARIMA và SARIMA phân tích chu i th i gian nh m dỗ ờ ằ ự đoán doanh thu.

Ý nghĩa thực tiễ n

Bài nghiên c u cho th y cái nhìn tứ ấ ổng quát hơn về ệ ứ vi c ng d ng nh ng công ụ ữ cụ machine learning, công ngh Big Data vào vi c d báo doanh s bán hàng trên ệ ệ ự ố nền tảng thương mại điệ ử Đồng thời bài nghiên c u này còn tìm ra thu t toán t t n t ứ ậ ố nhất trong 4 thu t toán Random Forest, Gradient Boosting, ARIMA và SARIMAậ Ngoài ra còn kết luận được thuật toán Sarima còn cho thấy các xu hướng mùa vụ trong dữ liệu giúp doanh nghiệp có cái nhìn rộng hơn trong việc dự đoán doanh số, ước lượng được doanh thu, điều này có ý nghĩa lớn trong việc xác lập được KPI qua từng năm Không những thế, dự báo bán hàng còn giúp doanh nghiệp có được cái nhìn tổng quan đố ề ự thay đổi v s i ho c hình thành s n ph m d ch vặ ả ẩ ị ụ trong tương lai để có th cân nhể ắc được chiến lược, ý tưởng mới Và cu i cùng, d bán bán hàng còn ố ự giúp doanh nghi p hoệ ạch định các chiến lược qu ng cáo, xúc ti n tả ế hương mại, tăng khả năng cạnh tranh v i các doanh nghi p cùng ngành mà m ra nhiớ ệ ở ều cơ hội h p tác ợ với các ngành ngh khác ề

CƠ SỞ LÝ THUYẾT

Các d li u nghiên c ữ ệ ứu và ý nghĩa

Customer (khách hàng): Trong t p d li u s ệ ữ ệ ẽ có 5 tính năng này sẽ bao gồm lần lượt là “customer_id” (id của người tiêu dùng đã mua hàng), “customer unique_id (id duy nh t cấ ủa khách hàng), “customer_zip_code_prefix (Địa ch zip cỉ ủa người tiêu dùng đã đặt hàng), “customer_city” (thành phố của người tiêu dùng),

“customer_state” (trạng thái của người tiêu dùng)

Geolocation: T p d li u này bao g m vệ ữ ệ ồ ị trí địa lý của khách hàng

Order_item: Trong t p d li u này sệ ữ ệ ẽ có 2 tính năng lần lượt là “order_id” (id duy nh t cấ ủa đơn đặt hàng do khách hàng th c hiự ện), “order_item_id” (id duy nhất được cung cấp cho mỗi mặt hàng được đặt trong đơn hàng”, “product_id” (id duy nhất của sản phẩm được đặt hàng trong đơn hàng).

Order_payments: 4 tính năng lần lượt là “order_id”, “payment_sequential”

(trình t c a các khoự ủ ản thanh toán được th c hiự ện trong trường h p EMI), ợ

“payment_type” (phương thức được sử dụng để thanh toán cho giao dịch mua),

“payment_installments” (Giá tr trả ị góp trong trường hợp mua EMI), “payment- value” (Số ền thanh toán cho các đơn đặ ti t hàng)

Orders review: “review_id” (địa ch cỉ ủa review), “order_id” (địa ch cỉ ủa đơn hàng review), “review_score” ( điểm đánh giá do khách hàng đưa ra cho mỗi đơn đặt hàng trên thang điểm từ 1–5), “review_comment_title” (tiêu đề các bình luận),

“review_comment_message” (xem xét các bình luận được đăng bởi người tiêu dùng cho mỗi đơn đặt hàng), “review_creation_date” (ngày tạo bài review),

“review_answer_timestamp” (xem lại thời gian của câu trả lời review)

Products: “product_id” (Id duy nhất được cung cấp cho mỗi s n ph m có s n ả ẩ ẵ trên trang web), “product_category_name” (tên danh mục sản phẩm),

“product_name_lenght” (độ dài c a chuủ ỗi mà tên được đặt cho các sản phẩm được đặt hàng), “product_description_lenght” (độ dài của mô tả được viết cho mỗi sản phẩm được đặt hàng trên trang web), “product_photos_qty” (Số lượng ảnh của từng sản phẩm đặt hàng có s n trên c ng thông tin mua sẵ ổ ắm), “product_weight_g” (trọng lượng của s n phả ẩm được đặt hàng tính bằng gam), “product_length_cm” (chiều dài của s n phả ẩm được đặt hàng tính bằng cm), “product_height_cm” (chiều cao của sản phẩm đặt hàng tính bằng cm), “product_width_cm” (chiều rộng của sản phẩm đặt hàng tính b ng cm) ằ

Sellers: “seller_id” (Id của người bán bán sản phẩm thông qua cửa hàng trực tuyến), “seller_zip_code_prefix” (địa ch zip cỉ ủa người bán), “seller_city” (thành phố mà người bán đăng ký kinh doanh), “seller_state” (trạng thái của người bán)

Category-name_translation: t p d li u này bao gệ ữ ệ ồm 2 tính năng lần lượt là

“product_category_name” (tên danh mục sản phẩm bằng tiếng Bồ Đào Nha),

“product_category_name_english” (tên danh mục sản phẩm b ng Ti ng Anh) ằ ế Tất c nh ng bi n d li u này ph thuả ữ ế ữ ệ ụ ộc và tác động qua l i nhau, n u các bi n ạ ế ế dữ li u không liên k t và ph i h p v i nhau, khi nghiên c u chung ta d b ng t quãng ệ ế ố ợ ớ ứ ễ ị ắ thông tin, các s liố ệu đưa ra không chính xác Tuy nhiên để ự th c hiện được nghiên cứu t các t p d li u thô này, nhóm s phân tích và ch n l c l i các d li u, g p l i ừ ệ ữ ệ ẽ ọ ọ ạ ữ ệ ộ ạ thành các t p l n khác nhau, áp d ng cho t ng mô hình phân tích phù h p ệ ớ ụ ừ ợ Đố ới v i mô hình hồi quy sử dụng 2 thuật toán là Random Forest và Gradient Boosting, nhóm lo i bạ ỏ tính năng “order_id” và “date” trong tấ ảt c các bi n (date là ế order_purchase_timestamp) được chuẩn hóa về ngày tháng năm Vì theo lý thuyết, biến dùng cho thu t toán Random Forest và Gradient Boosting là t t c các bi n trong ậ ấ ả ế dataset tr bi n order_id và date, b i vì mừ ế ở ỗi đơn hàng là 1 id duy nhất, ch tính cho ỉ local 1 đơn hàng nên ko có sự ảnh hưởng, còn các bi n th i gian, ngày thì ko g n ế ờ ắ được vào Random Forest, Gradient Boosting Đối v i mô hình chuỗi th i gian, sử dụng 2 thuật toán là Arima và Sarima, ớ ờ nhóm ch s d ng t t cỉ ử ụ ấ ả các tính năng “order_id” và “date” tron ấ ảg t t c các biến Đi ngược lại v i mô hình hồi quy, mô hình chuỗi th i gian trong nghiên cứu sẽ m số ớ ờ đế lượng đơn hàng theo thời gian cụ thể, từ đó có thể dự đoán được sức mua của khách hàng vào t ng kho ng th i gian c th , vì v y có th d ừ ả ờ ụ ể ậ ể ự đoán được doanh s bán hàng ố của cửa hàng đó

Key Paper “E-Commerce System for Sale Prediction Using Machine Learning Technique” tạm dịch là “Dự đoán doanh số bán hàng cho hệ thống thương mại điện tử b ng công ngh máy hằ ệ ọc” của tác gi Karandeep Singh, Booma P M và Umapathy ả Eaganathan Đại học Công ngh ệ& Đổi mới Châu Á Thái Bình Dương (APU), Malaysia năm 2020 (Singh, Booma, & Eaganathan, 2020)

Key Paper dự đoán bán hàng trên hệ ống thương mại điệ ử ằ th n t b ng các k ỹ thuật khai thác và phân tích d li u Trong nghiên c u này, tác gi s dữ ệ ứ ả ử ụng phương pháp KDD (Knowledge Discovery in Databases) vì nó h u h t phù h p v i yêu c u ầ ế ợ ớ ầ của d ự án này Phương pháp này đã được sử dụng rộng rãi trong lĩnh vực học máy để nhận d ng m u, thạ ẫ ống kê, cơ sở ữ ệ d li u, trí tu nhân t o và tr c quan hóa k t qu dệ ạ ự ế ả ữ liệu (DBD, 2019)

Tập d li u cho nghiên c u này s là m t t p d li u giao d ch Chúng tôi s ữ ệ ứ ẽ ộ ậ ữ ệ ị ẽ sử dụng các d li u giao dữ ệ ịch trong quá khứ để th c hi n dự ệ ự đoán bán hàng trong tương lai Giao dịch tập dữ liệu sẽ từ một trong những thương mại điện tử có mã nguồn mở và có thể được s d ng mà không có b t k h n ch nào T p d liử ụ ấ ỳ ạ ế ậ ữ ệu đã được lấy từ Kaggle.com, trang này đã liệt kê Tập dữ liệu công khai về thương mại điện t c a Brazil b i Olist Store - ử ủ ở Trang web thương mại điện t Có kho ng 100.000 ử ả dữ li u lệ ịch sử đơn hàng giao dịch được cung c p Hấ ọ cũng đã cung cấp tám tập dữ liệu khác nhau ch a các t p d liứ ậ ữ ệu khác nhau như tập d li u s n ph m, tữ ệ ả ẩ ập dữ ệ li u đơn đặt hàng, tập dữ liệu khách hàng và tập dữ liệu mặt hàng Dưới đây hình 1 cho thấy k t n i gi a t t c các t p d liế ố ữ ấ ả ậ ữ ệu được cung cấp cho trang web thương mại điện tử này

Hình 1: M i liên h gi a các datasets ố ệ ữ

2.3 Các nghiên cứu liên quan đến d ự đoán bán hàng

(Zhao & Wang, 2017) “Dự báo doanh số bán hàng trong thương mại điệ ửn t sử d ng M ng th n kinh chuyụ ạ ầ ển đổi” Nghiên c u s d ng thu t toán chính là thu t ứ ử ụ ậ ậ toán mạng nơ-ron tích chập (CNN) để ự th c hi n dệ ự báo bán hàng trong thương mại điện tử Mục tiêu là xác định xem cách ti p c n này có th t ng trích xu t các tính ế ậ ể ự độ ấ năng hiệu quả và cung cấp dự báo bán hàng dựa trên các tính năng đã trích xuất hay không Tuy nhiên, v i mớ ục đích so sánh, nghiên cứu đã chọn thu t toán ARIMA, ậ DNN, TL và WD để tìm ra kết quả chính xác nhất cho dự đoán bán hàng Kết quả cho nghiên c u này là mô hình ARIMA có giá tr trung bình cao nh t, tuy nhiên, thu t ứ ị ấ ậ toán CNN đã đạt được mục tiêu khi nó có thể tự động trích xuất các tính năng hiệu quả và th c hi n d báo bán hàng b ng cách s dự ệ ự ằ ử ụng các tính năng được trích xuất (Bandara et al., 2019) “Dự báo nhu cầu bán hàng trong thương mại điệ ửn t sử dụng phương pháp mạng th n kinh b nh ng n h n dài hầ ộ ớ ắ ạ ạn” và (Li, Ji, & Liu, 2018)“Dự báo doanh số thương mại điệ ử Trung Quốc: So sánh thực nghiệm của n tARIMA, Mạng nơ ron tự động ph n h i phi tuy n và Mô hình ARIMA-NARNN k t ả ồ ế ế hợp” C 2 nghiên cả ứu đề ử ụu s d ng thu t toán mậ ạng nơ ron nhưng cách tiế- p c n khác ậ nhau Nghiên c u 2018 s d ng Mứ ử ụ ạng nơ-ron t ng h i ph c phi tuy n (NARNN), ự độ ồ ụ ế nghiên c u 2019 s d ng M ng th n kinh tái di n (RNN) và M ng b nh ng n h n ứ ử ụ ạ ầ ễ ạ ộ ớ ắ ạ dài (LSTM) M c tiêu cho c hai bài báo nghiên c u là nh m xây d ng m t khuôn ụ ả ứ ằ ự ộ khổ ti n x lý có h thề ử ệ ống để vượt qua nh ng thách thữ ức trong môi trường thương mại điện tử và cũng đề ra m t khung d ộ ự báo vì khá khó khăn trong việc xác định nhu cầu / mô hình bán hàng chéo s n ph m khác nhau và các mả ẩ ối tương quan có sẵn Hai nghiên cứu này đều s d ng thuử ụ ật toán ARIMA để so sánh K t qu th o lu n cho ế ả ả ậ nghiên cứu năm 2018 đã chỉ ra r ng l i dằ ỗ ự đoán cho NARNN là 0,1016 và ARIMA là 0,1389, điều này cho thấy NARNN có tỷ lệ lỗi thấp hơn so với ARIMA Đối với nghiên cứu vào năm 2019, kết qu ả cũng cho thấy LSTM có giá tr trung bình và trung ị vị thấp hơn so với ARIMA

(Elias & Singh, 2018) “Dự báo v bán hàng Walmart b ng Thu t toán h c ề ằ ậ ọ máy” Nghiên c u này s d ng 3 thu t toán g m Random, Gradient Boosting và ứ ử ụ ậ ồ Extremely Randomized Tree để so sánh và kiểm tra nó b ng cách sử dụằ ng iểm R đ 2 đánh giá MAE Mục tiêu của nghiên cứu này là tìm ra độ chính xác của thuật toán bằng cách s d ng các siêu tham s khác nhau c a mử ụ ố ủ ỗi mô hình để có được sai s ố tuyệt đối trung bình (MAE) và điểm R t 2 ốt nhất Kết quả của nghiên cứu này chỉ ra rằng Random Forest là thu t toán t t nhậ ố ất đã ghi được số ti n t i thiề ố ểu trong đánh giá MAE (1979,4) và điểm R (0,94) cao cho th 2 ấy độ chính xác cao hơn so v i các thuớ ật toán khác

Google Colaboratory (thường gọi tắt là Google Colab) là một sản phẩm của Google Research, m t d ch v ộ ị ụ đám mây miễn phí đối v i nh ng phiên b n tiêu chu n ớ ữ ả ẩ Google Colab cũng được phát triển trên nền tảng Jupiter Notebook nên cách sử dụng c a c hai công c ủ ả ụ đều tương tự nhau Jupiter Notebook cũng là một công c ụ mã ngu n m và mi n phí, tuy nhiên Jupiter cho phép bồ ở ễ ạn đưa cả code Python và các thành phần văn bản ph c tứ ạp như hình ảnh, công th c, video, bi u th c vào trong ứ ể ứ cùng một thư mục giúp cho vi c trình bày tr lên d hi u, giệ ở ễ ể ống như một thư mục trình chiếu nhưng lại có th thể ực hiện chạy code tương tác trên đó

Quay tr l i, mở ạ ục đích của Google Colab đó chính là việc cho h tr ch y code ỗ ợ ạ Python tr c ti p thông qua trình duy t và chúng phù h p v i phân tích d li u, ự ế ệ ợ ớ ữ ệ machine learning và giáo dục Người dùng không c n t i ph n m m mà có th tr c ầ ả ầ ề ể ự tuyến thông qua tài khoản Google, tuy nhiên nó cũng yêu cầu người dùng ph i có tài ả nguyên máy tính để ử ụ s d ng tr c tuy n bao g m CPU, GPUs, TPUs Hi n nay, ự ế ồ ệ Google Colab đang cung cấp rất nhiều cấu hình sử dụng khác nhau và phổ biến nhất thường là GPU: Nvidia K80s, P4s và P100s, trong tương lai sẽ có thêm các s n ph m ả ẩ mới như: Nvidia A100… Tuy nhiên, người sử dụng sẽ không thể lựa chọn được cấu hình cho công vi c cệ ủa mình vì Google Colab “hoàn toàn miễn phí”, cấu hình s thay ẽ đổi theo th i gian và tùy theo công việc Vì hệ th ng tài nguyên c a Google có gi i ờ ố ủ ớ hạn nên m t l n làm viộ ầ ệc tối đa ch có th duy trì trong 12 giỉ ể ờ

Nhìn chung, n n t ng Google Colab phù h p v i nh ng ai m i bề ả ợ ớ ữ ớ ắt đầu bước chân vào thị trường AI – Deep Learning và chưa đủ kinh phí để đầu tư máy móc cho công vi c Gi i pháp s d ng Google Colab s phù h p cho nhệ ả ử ụ ẽ ợ ững ngườ chưa có i nhiều kinh phí để đầu tư hệ thống máy tính khủng, xét về lâu dài thì Google Colab không có nhi u l i th so v i vi c s d ng m t h th ng máy tính chuyên d ng cho ề ợ ế ớ ệ ử ụ ộ ệ ố ụ DeepLearning (FirebirD, 2019)

Random Forest là thu t toán máy h c có giám sát (Supervised Machine ậ ọ Learning) Nó có thể được sử ụ d ng cho c nhi m v phân l p (Classification) và h i ả ệ ụ ớ ồ quy (Regression), k t h p v i tính ch t phi tuy n tính c a nó, làm cho nó có kh ế ợ ớ ấ ế ủ ả năng thích ng cao v i nhi u lo i d li u và tình huứ ớ ề ạ ữ ệ ống Đây được xem là m t thu t toán ộ ậ mang tính chính xác, linh ho t và d s d ng nhạ ễ ử ụ ất nên đượ ử ục s d ng r t ph bi n ấ ổ ế

Các nghiên cứu liên quan đế n d ự đoán bán hàng

(Zhao & Wang, 2017) “Dự báo doanh số bán hàng trong thương mại điệ ửn t sử d ng M ng th n kinh chuyụ ạ ầ ển đổi” Nghiên c u s d ng thu t toán chính là thu t ứ ử ụ ậ ậ toán mạng nơ-ron tích chập (CNN) để ự th c hi n dệ ự báo bán hàng trong thương mại điện tử Mục tiêu là xác định xem cách ti p c n này có th t ng trích xu t các tính ế ậ ể ự độ ấ năng hiệu quả và cung cấp dự báo bán hàng dựa trên các tính năng đã trích xuất hay không Tuy nhiên, v i mớ ục đích so sánh, nghiên cứu đã chọn thu t toán ARIMA, ậ DNN, TL và WD để tìm ra kết quả chính xác nhất cho dự đoán bán hàng Kết quả cho nghiên c u này là mô hình ARIMA có giá tr trung bình cao nh t, tuy nhiên, thu t ứ ị ấ ậ toán CNN đã đạt được mục tiêu khi nó có thể tự động trích xuất các tính năng hiệu quả và th c hi n d báo bán hàng b ng cách s dự ệ ự ằ ử ụng các tính năng được trích xuất (Bandara et al., 2019) “Dự báo nhu cầu bán hàng trong thương mại điệ ửn t sử dụng phương pháp mạng th n kinh b nh ng n h n dài hầ ộ ớ ắ ạ ạn” và (Li, Ji, & Liu, 2018)“Dự báo doanh số thương mại điệ ử Trung Quốc: So sánh thực nghiệm của n tARIMA, Mạng nơ ron tự động ph n h i phi tuy n và Mô hình ARIMA-NARNN k t ả ồ ế ế hợp” C 2 nghiên cả ứu đề ử ụu s d ng thu t toán mậ ạng nơ ron nhưng cách tiế- p c n khác ậ nhau Nghiên c u 2018 s d ng Mứ ử ụ ạng nơ-ron t ng h i ph c phi tuy n (NARNN), ự độ ồ ụ ế nghiên c u 2019 s d ng M ng th n kinh tái di n (RNN) và M ng b nh ng n h n ứ ử ụ ạ ầ ễ ạ ộ ớ ắ ạ dài (LSTM) M c tiêu cho c hai bài báo nghiên c u là nh m xây d ng m t khuôn ụ ả ứ ằ ự ộ khổ ti n x lý có h thề ử ệ ống để vượt qua nh ng thách thữ ức trong môi trường thương mại điện tử và cũng đề ra m t khung d ộ ự báo vì khá khó khăn trong việc xác định nhu cầu / mô hình bán hàng chéo s n ph m khác nhau và các mả ẩ ối tương quan có sẵn Hai nghiên cứu này đều s d ng thuử ụ ật toán ARIMA để so sánh K t qu th o lu n cho ế ả ả ậ nghiên cứu năm 2018 đã chỉ ra r ng l i dằ ỗ ự đoán cho NARNN là 0,1016 và ARIMA là 0,1389, điều này cho thấy NARNN có tỷ lệ lỗi thấp hơn so với ARIMA Đối với nghiên cứu vào năm 2019, kết qu ả cũng cho thấy LSTM có giá tr trung bình và trung ị vị thấp hơn so với ARIMA

(Elias & Singh, 2018) “Dự báo v bán hàng Walmart b ng Thu t toán h c ề ằ ậ ọ máy” Nghiên c u này s d ng 3 thu t toán g m Random, Gradient Boosting và ứ ử ụ ậ ồExtremely Randomized Tree để so sánh và kiểm tra nó b ng cách sử dụằ ng iểm R đ 2 đánh giá MAE Mục tiêu của nghiên cứu này là tìm ra độ chính xác của thuật toán bằng cách s d ng các siêu tham s khác nhau c a mử ụ ố ủ ỗi mô hình để có được sai s ố tuyệt đối trung bình (MAE) và điểm R t 2 ốt nhất Kết quả của nghiên cứu này chỉ ra rằng Random Forest là thu t toán t t nhậ ố ất đã ghi được số ti n t i thiề ố ểu trong đánh giá MAE (1979,4) và điểm R (0,94) cao cho th 2 ấy độ chính xác cao hơn so v i các thuớ ật toán khác.

Google Colab

Google Colaboratory (thường gọi tắt là Google Colab) là một sản phẩm của Google Research, m t d ch v ộ ị ụ đám mây miễn phí đối v i nh ng phiên b n tiêu chu n ớ ữ ả ẩ Google Colab cũng được phát triển trên nền tảng Jupiter Notebook nên cách sử dụng c a c hai công c ủ ả ụ đều tương tự nhau Jupiter Notebook cũng là một công c ụ mã ngu n m và mi n phí, tuy nhiên Jupiter cho phép bồ ở ễ ạn đưa cả code Python và các thành phần văn bản ph c tứ ạp như hình ảnh, công th c, video, bi u th c vào trong ứ ể ứ

Các thu t toán 9 ậ

Quay tr l i, mở ạ ục đích của Google Colab đó chính là việc cho h tr ch y code ỗ ợ ạ Python tr c ti p thông qua trình duy t và chúng phù h p v i phân tích d li u, ự ế ệ ợ ớ ữ ệ machine learning và giáo dục Người dùng không c n t i ph n m m mà có th tr c ầ ả ầ ề ể ự tuyến thông qua tài khoản Google, tuy nhiên nó cũng yêu cầu người dùng ph i có tài ả nguyên máy tính để ử ụ s d ng tr c tuy n bao g m CPU, GPUs, TPUs Hi n nay, ự ế ồ ệ Google Colab đang cung cấp rất nhiều cấu hình sử dụng khác nhau và phổ biến nhất thường là GPU: Nvidia K80s, P4s và P100s, trong tương lai sẽ có thêm các s n ph m ả ẩ mới như: Nvidia A100… Tuy nhiên, người sử dụng sẽ không thể lựa chọn được cấu hình cho công vi c cệ ủa mình vì Google Colab “hoàn toàn miễn phí”, cấu hình s thay ẽ đổi theo th i gian và tùy theo công việc Vì hệ th ng tài nguyên c a Google có gi i ờ ố ủ ớ hạn nên m t l n làm viộ ầ ệc tối đa ch có th duy trì trong 12 giỉ ể ờ

Nhìn chung, n n t ng Google Colab phù h p v i nh ng ai m i bề ả ợ ớ ữ ớ ắt đầu bước chân vào thị trường AI – Deep Learning và chưa đủ kinh phí để đầu tư máy móc cho công vi c Gi i pháp s d ng Google Colab s phù h p cho nhệ ả ử ụ ẽ ợ ững ngườ chưa có i nhiều kinh phí để đầu tư hệ thống máy tính khủng, xét về lâu dài thì Google Colab không có nhi u l i th so v i vi c s d ng m t h th ng máy tính chuyên d ng cho ề ợ ế ớ ệ ử ụ ộ ệ ố ụ DeepLearning (FirebirD, 2019)

Random Forest là thu t toán máy h c có giám sát (Supervised Machine ậ ọ Learning) Nó có thể được sử ụ d ng cho c nhi m v phân l p (Classification) và h i ả ệ ụ ớ ồ quy (Regression), k t h p v i tính ch t phi tuy n tính c a nó, làm cho nó có kh ế ợ ớ ấ ế ủ ả năng thích ng cao v i nhi u lo i d li u và tình huứ ớ ề ạ ữ ệ ống Đây được xem là m t thu t toán ộ ậ mang tính chính xác, linh ho t và d s d ng nhạ ễ ử ụ ất nên đượ ử ục s d ng r t ph bi n ấ ổ ế

Nó được gọi là “rừng” vì nó mọc lên một rừng cây quyết định Dữ liệu từ các cây này sau đó được h p nh t vợ ấ ới nhau để đảm bảo các d ự đoán chính xác nhất Trong khi m t mình cây quyộ ết định ch ỉ đưa ra một kết quả và phạm vi nhóm h p, rẹ ừng đảm bảo k t quế ả chính xác hơn với s ố lượng nhóm và quyết định lớn hơn Nó có thêm lợi ích là thêm tính ng u nhiên vào mô hình bẫ ằng cách tìm ra tính năng tốt nh t trong s ấ ố một t p h p con ng u nhiên cậ ợ ẫ ủa các tính năng Random forest có nhiều ứng dụng, cụ thể như công cụ đề xu t, phân lo i hình nh và l a chấ ạ ả ự ọn tính năng Nó có thể được sử dụng để phân lo i, d ạ ự đoán các bệnh và xác định hoạt động gian l n Nó n m ậ ằ ở cơ sở c a thu t toán Boruta, chủ ậ ọn các tính năng quan trọng trong t p d li u Nhìn chung, ậ ữ ệ những l i ích này t o ra mợ ạ ột mô hình có tính đa dạng rộng mà nhi u nhà khoa h c d ề ọ ữ liệu ưa thích

Về ưu điểm, Random Forest được coi là một phương pháp chính xác và mạnh mẽ vì s cây quyố ết định tham gia vào quá trình này Khi Forest có nhiều cây hơn, chúng ta có thể tránh được vấn đề overfitting với tập dữ liệu Thuật toán có thể được sử dụng trong c hai vả ấn đề phân lo i và h i quy ạ ồ Random Forest cũng có thể ử x lý các giá tr còn thi u ị ế Có hai cách để ử x lý các giá tr này: s d ng các giá tr trung ị ử ụ ị bình để thay thế các biến liên tục và tính toán mức trung bình gần kề của các giá trị bị thi u Có th nhế ể ận đượ ầc t m quan tr ng cọ ủa tính năng tương đối, giúp ch n các ọ tính năng đóng góp nhiều nhất cho trình phân lo i ạ

Về nhược điểm, Random Forest ch m t o d ậ ạ ự đoán bởi vì nó có nhi u cây quy t ề ế định B t c ấ ứ khi nào nó đưa ra dự đoán, tất cả các cây trong r ng phừ ải đưa ra dự đoán cho cùng một đầu vào cho trước và sau đó thực hi n b phiệ ỏ ếu trên đó Toàn b quá ộ trình này t n th i gian Mô hình khó hiố ờ ểu hơn so với cây quyết định, nơi có thể ễ d dàng đưa ra quyết định bằng cách đi theo đường dẫn trong cây (Tibco, 2021)

Gradient Boosting là một k thu t h c máy ph bi n rỹ ậ ọ ổ ế ộng rãi được các nhà khoa h c d li u s dọ ữ ệ ử ụng để ạ t o ra các mô hình dự đoán vì độ chính xác và tốc độ của nó và được sử d ng trong m t s tác v ụ ộ ố ụ như tác vụ h i quy và phân l p Gradient ồ ớ Boosting có thể được áp d ng cho nhi u chụ ề ức năng liên quan đến r i ro và c i thi n ủ ả ệ độ chính xác dự đoán của mô hình Thêm vào đó còn giúp giải quyết các vấn đề đa cộng tuy n khác nhau khi có mế ối tương quan cao giữa các bi n d báo (Team, 2020) ế ự

Nguồn: Data Science Team Gradient boosting phụ thu c r t nhi u vào vi c d ộ ấ ề ệ ự đoán rằng mô hình ti p theo ế sẽ gi m các l i d ả ỗ ự đoán khi kế ợp vt h ới các mô hình trước đó Cụ ể ẽ th s thi t l p k t ế ậ ế quả mục tiêu cho mô hình s p tắ ới để giảm thi u sai sót Gradient boosting ể đưa ra một mô hình d ự đoán dưới dạng một tập hợp các mô hình d ự đoán yếu Decision Trees là bộ học y u, thu t toán k t quế ậ ế ả được g i là Gradient-ọ boosted Trees, nó thường ho t ạ động tốt hơn thuật toán Random Forests Mô hình Gradient-boosted Trees được xây dựng theo m t cách vô cùng khôn khéo và hi u qu theo tộ ệ ả ừng giai đoạn như trong các phương pháp Boosting khác, nhưng nó tổng quát hóa các phương pháp khác bằng cách cho phép tối ưu hóa một hàm loss function (hàm m t mát) có tính kh vi tùy ý ấ ả ("Gradient boosting," 2022)

Về ưu điểm, Gradient Boosting thường cung cấp các dự đoán rất chính xác không có sai sót Nó r t linh ho t - có th h tr và tấ ạ ể ỗ ợ ối ưu hóa trên các chức năng mất mát khác nhau và cung c p m t s tùy chấ ộ ố ọn điều ch nh siêu thông sỉ ố, điều này làm cho các chức năng trở nên phù h p và linh hoợ ạt hơn Bên cạnh đó, Gradient Boosting không c n x lý ầ ử trước d li u - ữ ệ nó thường hoạt động t t v i các giá tr phân lo i và ố ớ ị ạ các giá tr sị ố Hơn thế nữa, nó có th x lý d li u b thi u - không b t bu c ph i nh p ể ử ữ ệ ị ế ắ ộ ả ậ (Kurama, 2019)

Về nhược điểm, Gradient Boosting yêu cầu điều ch nh th n tr ng các siêu ỉ ậ ọ thông s khác nhau ("Bagging và Boosting trong cây quyố ết định," 2019) Gradient Boosting luôn ti p tế ục được c i thiả ện để gi m thi u t t c các lả ể ấ ả ỗi, điều này có th nh n ể ấ mạnh quá m c các ngo i l và gây ra tình tr ng trang bứ ạ ệ ạ ị quá t i Mô hình này tính ả toán quá tốn kém vì thường yêu c u nhiầ ều cây (> 1000), điều này có th làm c n ki t ể ạ ệ thời gian và b nhộ ớ Thêm vào đó, tính linh ho t cao dạ ẫn đến nhi u tham sề ố tương tác và ảnh hưởng nhiều đến hành vi của phương pháp (số ầ ặp, độ sâu của cây, các l n l tham s ố chính quy…) Điều này đòi hỏi một lưới tìm ki m d li u l n trong quá trình ế ữ ệ ớ điều ch nh Cu i cùng, b n ch t c a mô hình này ít di n giỉ ố ả ấ ủ ễ ải hơn, mặc dù điều này có thể d dàng gi i quy t b ng nhi u công c khác nhau (Kurama, 2019) ễ ả ế ằ ề ụ

Nguồn: Khoa học dữ liệu

Mô hình ARIMA được viết tắt bởi cụm từ Autoregressive Integrated Moving Average Mô hình này d a trên gi thuy t chu i dự ả ế ỗ ừng và phương sai sai số không đổi Đầu vào của mô hình này là sử dụng dữ liệu trong quá khứ để dự báo chuỗi dữ liệu trong tương lai Hầu hết các chuỗi thời gian sẽ có xu hướng tăng hoặc giảm theo thời gian, do đó yếu tố chuỗi dừng thường không đạt được Trong trường hợp chuỗi không d ng thì ta s c n biừ ẽ ầ ến đổi sang chu i d ng bỗ ừ ằng sai phân Khi đó tham số đặc trưng của mô hình sẽ có thêm thành phần bậc của sai phân d và mô hình được đặc tả bởi 3 tham số ARIMA (p, d, q)

Mô hình này bi u diể ễn phương trình hồi quy tuyến tính đa biến (Multiple linear regression) c a các biủ ến đầu vào (hay bi n ph thu c trong th ng kê) g m 2 quá trình ế ụ ộ ố ồ chính là t h i quy (Auto regression) - thành ph n t h i quy bao g m t p hự ồ ầ ự ồ ồ ậ ợp các độ trễ c a bi n hi n tủ ế ệ ại và trung bình trượt (Moving average) - quá trình dịch chuy n ể hoặc thay đổi giá trị trung bình của chuỗi theo thời gian Theo trường phái machine learning thì cần quan tâm đến làm sao để ự l a ch n m t mô hình có sai s d báo là ọ ộ ố ự nhỏ nh t (Khanh, 2019) ấ

Mô hình SARIMA được viết tắt bởi cụm từ Seasonal Autoregressive Integrated Moving Average Về b n chả ất, đây là mô hình ARIMA cũng sử ụ d ng các giá tr trong quá kh ị ứ nhưng được điều chỉnh một cách đặc biệt để áp d ng cho nh ng ụ ữ chuỗi th i gian mang b t k y u t th i v nào ARIMA chính là mô hình h i quy ờ ấ ỳ ế ố ờ ụ ồ tuyến tính nhưng mối quan hệ tuyến tính thường không giải thích tốt chuỗi trong trường h p chuỗi xuất hiện yếu tố th i vụ Tuy nhiên, SARIMA mang lại tính th i ợ ờ ờ vụ như một tham s , nên nó mố ạnh hơn đáng kể so v i ARIMA trong vi c d báo các ớ ệ ự không gian d li u ph c t p có ch a các chu k Chính vì v y, b ng cách tìm ra chu ữ ệ ứ ạ ứ ỳ ậ ằ kỳ c a quy lu t mùa v và lo i b nó kh i chu i ta s d dàng h i quy mô hình theo ủ ậ ụ ạ ỏ ỏ ỗ ẽ ễ ồ phương pháp ARIMA Ưu điểm và nhược điểm của mô mình ARIMA và SARIMA theo quan điểm của (Bajaj, 2022)

Về ưu điểm, mô hình ARIMA và SARIMA tương đối m m d o và có th miêu ề ẻ ể tả m t phộ ạm vi rộng đặc điểm c a chu i thủ ỗ ời gian thường g p trong th c t Mô hình ặ ự ế chỉ yêu c u d liầ ữ ệu trước của m t chu i thộ ỗ ời gian để t ng quát hóa d báo và mô hình ổ ự này hoạt động t t i v i các d báo ng n h n Các th t c hình th c kiố đố ớ ự ắ ạ ủ ụ ứ ểm định mô hình tương đối đơn giản và d ti p c n Ngoài ra, các d báo và kho ng d báo có th ễ ế ậ ự ả ự ể thực hi n tr c ti p tệ ự ế ừ mô hình đã lựa ch n Hai mô hình này có ít siêu tham s nên ọ ố tệp c u hình s d b o trì nấ ẽ ễ ả ếu mô hình đi vào sản xuất Đây là mô hình chuỗi thời gian không cố định

Về nhược điểm, ARIMA và SARIMA c n ph i có sầ ả ố lượng d liữ ệu ban đầu đủ ớ l n Những bước ngoặt khó đoán định Có một chút chủ quan liên quan đến việc xác định (p, d, q) thứ tự của mô hình Xây dựng mô hình ARIMA và SARIMA phù hợp thường mất nhiều thời gian và chi phí, hiệu suất kém hơn đối với các dự báo dài hạn và ít có th giể ải thích hơn làm trơn theo cấp s nhân ố Độ ph c t p th i gian theo c p s nhân: Khi giá tr cứ ạ ờ ấ ố ị ủa p và q tăng thì có nhi u ề hệ s bố ằng nhau hơn để phù hợp do đó làm tăng độ ph c t p th i gian n u p và q cao ứ ạ ờ ế Điều này làm cho cả hai thuật toán này khó được đưa vào sản xuất và khi n các Nhà ế khoa h c d li u ph i xem xét các thuọ ữ ệ ả ật toán khác và nó cũng phụ thuộc vào độ phức tạp của tập d li u ữ ệ

CÁC PHƯƠNG PHÁP NGHIÊN CỨ U

KẾT QUẢ NGHIÊN CỨU

Tiêu đề	Ứng dụng phân tích dữ liệu lớn trong quản lý dự đoán doanh số bán hàng cho hệ thống thương mại điện tử bằng công nghệ máy học
Tác giả	Tạ Nguyễn Tường Khanh, Nguyễn Phạm Khánh Linh, Trần Văn Thìn, Nguyễn Kim Ngân, Phan Thị Phương Thảo, Phạm Anh Thư, Trương Thị Thu Huệ, Bùi Thị Mỹ Lan, Nguyễn Minh Thảo, Nguyễn Thị Quỳnh Như
Người hướng dẫn	TS. Trần Thị Phi Phụng
Trường học	Trường Đại học Tôn Đức Thắng
Chuyên ngành	Quản trị Kinh doanh
Thể loại	Báo cáo môn học
Năm xuất bản	2022
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	39
Dung lượng	5,4 MB