1. Trang chủ
  2. » Luận Văn - Báo Cáo

đề tài nghiên cứu mô hình dự đoán giá sản phẩm theo mùa dựa trên bộ dữ liệu về quà tặng giáng sinh thông qua nền tảng azure machine learning studio

70 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu mô hình dự đoán giá sản phẩm theo mùa dựa trên bộ dữ liệu về quà tặng Giáng sinh thông qua nền tảng Azure Machine Learning Studio
Tác giả Huỳnh Thỷ Triệu Nhi, Ta Thanh Đạt, Lờ Th¿ Yến Nhi, Nguyễn Thị Phương Thanh, Huỳnh Trung Nguyờn, Nguyộn Trần Yộn Vy, La Thị Dung, Phan H¿o Khụi Nguyờn, Nguyộn Thi Thu Hang
Người hướng dẫn ThS. Phạm Ngọc Bảo Duy
Trường học Trường Đại học Tôn Đức Thắng
Chuyên ngành Ứng dụng phân tích dữ liệu lớn trong quản lý
Thể loại Báo cáo cuối kỳ
Năm xuất bản 2024
Thành phố TP HCM
Định dạng
Số trang 70
Dung lượng 8,39 MB

Cấu trúc

  • LỜI MỞ ĐẦU (11)
    • 1.6.1. Ý nghĩa khoa học (16)
    • 1.6.2. Ý nghĩa thực tiễn (17)
    • Chương 2: Chương 2: Cơ sở lý thuyết Chương 2 trình bày về các yếu tô ảnh hưởng đến giá bán quà tặng Giáng sinh, các (17)
    • Chương 5: Chương 5: Kết luận và hàm ý quản trị (17)
    • CHUONG 2: CHUONG 2: CO SO LY THUYET (19)
  • Đề xuất mô hình thí nghiệm (25)
  • PHÂN TÍCH KÉT QUÁ VÀ ĐƯA RA KÉT LUẬN Kết luận mô hình thử nghiệm (25)
  • Hinh 3. 2: Linear regression model (30)
    • 3.5.3. Support Vector Regression Bắt nguồn từ việc học thống kê hoặc lý thuyết Vapnik-Chervonenkis (VC), SVM Bắt nguồn từ việc học thống kê hoặc lý thuyết Vapnik-Chervonenkis (VC), SVM (32)
    • 3.6. Các thông số đánh giá Các số liệu đánh giá cho mô hình hồi quy khác so với các số liệu mô hình phân (36)
      • 3.6.4. MAPE Phần trăm sai số tuyệt đối trung bình (MAPE) là một trong những thước đo được (38)
  • Trong đó, N là số điểm dữ liệu trong tập hợp, MAPE là một kỹ thuật không phụ (38)
    • CHƯƠNG 4: CHƯƠNG 4: KÉT QUÁ NGHIÊN CỨU (40)
      • 42.2. Phương pháp thống kê Tương tự như quy trình huấn luyện các mô hình ở phương pháp học máy, mô (45)
  • TẦ— (47)
    • Hinh 4. Hinh 4. 2: Biéu dé thé hién sé liệu đánh giá của các mô hình đề xuất (47)
  • TAI LIEU THAM KHAO Tài liệu Tiếng Việt (56)
  • PHỤ LỤC (60)

Nội dung

Phạm Ngọc Bảo Duy — giảng viên bộ môn Ứng đựng phân tích dữ liệu lớn trong quản lý đã dành thời gian và tâm huyết để hướng dẫn và hỗ trợ nhóm trong suốt quá trình học tập và nghiên cứu,

LỜI MỞ ĐẦU

Ý nghĩa khoa học

Nghiên cứu này đánh giá độ chính xác của nghiên cứu trước do Mohamed và cộng sự (2022) thực hiện bằng cách xây dựng và thử nghiệm các mô hình học máy trên Azure Machine Learning Studio Kết quả dự đoán từ các mô hình được ghi lại để so sánh với nghiên cứu ban đầu.

Nghiên cứu này góp phần làm phong phú các khái niệm và lý thuyết về dự đoán giá sản phẩm theo mùa Đồng thời, đánh giá mô hình nghiên cứu dự đoán tốt nhất, kiểm định mức độ tương quan giữa các biến nghiên cứu và đề xuất các loại dữ liệu phù hợp với mô hình này.

10 cứu góp phần chứng minh mức độ chính xác và độ uy tín nghiên cứu Mohamed và cộng sự (2022) cũng như mô hình dự đoán được đề xuất.

Ý nghĩa thực tiễn

Nghiên cứu này cung cấp các phương pháp và công cụ dự báo chính xác tỷ giá

Bài nghiên cứu này cung cấp công cụ đo lường giúp người dùng đánh giá mức độ ảnh hưởng của dữ liệu mô tả sản phẩm đối với giá bán Từ đó, doanh nghiệp và nhà bán lẻ có thể xây dựng các chiến lược định giá sản phẩm hiệu quả, quản lý hàng tồn kho hợp lý và tiến hành các hoạt động tiếp thị phù hợp, nhằm thu hút khách hàng mục tiêu và tăng lợi nhuận lâu dài.

1.7 Bố cục nghiên cứu Cơ câu bài nghiên cứu được chia thành 5 chương như sau:

Chương 1: Tổng quan về dé tài nghiên cứu Chương này, nhóm tác giả trình bày rõ lý do chọn đề tài, mục tiêu nghiên cứu, câu hỏi nghiên cứu, đối tượng và phạm vi nghiên cứu, phương pháp, ý nghĩa và kết câu của đề tài nghiên cứu.

Chương 2: Cơ sở lý thuyết Chương 2 trình bày về các yếu tô ảnh hưởng đến giá bán quà tặng Giáng sinh, các

Chương 3: Dữ liệu và phương pháp nghiên cứu Trong chương 3, bài nghiên cứu trình bày các bước thiết kế nghiên cứu, quy trình nghiên cứu, mô tả quy trình thu thập, nguồn gốc bộ dữ liệu, xử lý dữ liệu, trình bày lý thuyết và công thức các phương pháp dự đoán, thông số đánh giá và quy trình đưa ra dự đoán chung

Chương 4: Kết quả nghiên cứu Ở chương này, nhóm tập trung trình bày quy trình huấn luyện và kiểm tra các mô hình dự đoán, ghi nhận kết quả, diễn giải ý nghĩa các thông số của các thuật toán được dùng để sử dụng trong bài để nghiên cứu dự đoán.

Chương 5: Kết luận và hàm ý quản trị

Trong chương cuối, nhóm tác giả tổng hợp các phát hiện chính và đưa ra kết luận chung của nghiên cứu Họ thảo luận về những đóng góp lý thuyết và thực tiễn của nghiên cứu, cũng như đề xuất các hướng nghiên cứu trong tương lai Ngoài ra, họ cũng thừa nhận những hạn chế của nghiên cứu và đề xuất các cải tiến tiềm năng để giải quyết những hạn chế này.

CHUONG 2: CO SO LY THUYET

2.1 Các yếu tố ảnh hưởng đến giá bán sản phẩm theo mùa Mô hình nghiên cứu sẽ sử dụng 10 biến trong số 16 biến thu thập được, trong đó có 1 biến phụ thuộc là biến giá cả hàng hóa (Price) và 9 biến độc lập: loại quả tặng (gift_type), danh mục hang cua qua tang (gift_category), nganh hang cua qua tang (gift_cluster), ngày nhập kho của quà tặng (instock_ date) và các biến ân danh liên quan đến quà tặng (lsg_1 đến lsg_6) Cụ thê như sau: e© Loại quà tặng (gift type): biến loại quà tặng sẽ giúp phân loại dữ liệu đầu vào thành các nhóm khác nhau như quân áo và đỗ điện tử Tính năng này giúp mô hình đề xuất dự đoán giá quà tặng với một khoảng giá nhất định, vì mỗi loại quà tặng đều sẽ có khoảng giá khác nhau (Mohamed và cộng sự, 2022) e© Danh mục hàng của quả tặng (gift category): danh mục quà tặng thê hiện số lượng các loại quà tặng bán ra của doanh nghiệp, tổng số mặt hàng có trong tổng số các loại quả tặng khác nhau của doanh nghiệp, và số lượng những mặt hàng khác nhau có trong từng nhãn hiệu của từng loại sản phẩm quà tặng Biến này sẽ giúp phân loại các quà tặng theo những chủng loại sản phẩm khác nhau (Mohamed và cộng sự, 2022) e Ngành hàng của quà tặng (gift cluster): biến này sẽ giúp phân loại các ngành nghề mà quà tặng thuộc về Dong và cộng sự (2019) đã đề cập rằng các sản phẩm theo mùa bao gồm nhiều ngành công nghiệp khác nhau ví dụ như thực phẩm, quân áo, hàng điện tử Các sản phẩm thuộc các ngành nghề vào các thời điểm sẽ có xu hướng tăng hoặc giảm khác nhau, như đỗ điện tử và quần áo thời trang thường sẽ giảm giá trị trong một mùa ban hang (Dong va Wu, 2019) e Ngày nhập kho của quà tặng (instock_ date): đây là biến thời gian duy nhất được sử dụng trong bải nhằm hỗ trợ cho việc việc kiểm tra mô hình ARIMA trong việc dự báo giá Biến này cho biết ngày mà quả tặng được nhập về đến kho (Mohamed và cộng sự, 2022) e_ Các biến ân danh liên quan đến quà tặng (lsg_1 đến lsg_6): các biến ân danh được sử dụng trong mô hình bởi chúng được cho biết là các yếu tố liên quan đến quả tặng

Vì mục đích đảm bảo quyền riêng tư cho các nhà bán lẻ trực tuyến cung cấp dữ liệu, Mohamed và cộng sự (2022) đã chọn cách ẩn danh các nhà bán lẻ này trong nghiên cứu của họ.

2.2 Phương pháp dự báo giá bán sản phẩm theo mùa bằng học máy 2.2.1, Cac nghién citu trudc

2.2.11 Nghiên cứu của nhom tac gia Mohamed va cộng sự (2022) Nghiên cứu “Price Prediction of Seasonal Items Using Machine Learning and Statistical Methods” (Mohamed và cộng sự, 2022) về dự đoán giá sản phẩm theo mua dựa trên phương pháp học máy và phương pháp thống kê

Bài nghiên cứu này sử dụng cơ sở lý thuyết từ công trình của Mohamed và cộng sự (2022), một trong số ít nghiên cứu khoa học tập trung vào dự đoán sản phẩm theo mùa Mohamed và cộng sự đã sử dụng phương pháp học máy và thống kê để dự đoán giá sản phẩm theo mùa dựa trên dữ liệu về quà tặng Giáng sinh Nghiên cứu nhằm mục đích đề xuất các mô hình dự đoán hàng hóa theo mùa và so sánh hiệu suất của hai phương pháp luận này thông qua đánh giá dựa trên các thước đo khác nhau.

Quy trình nghiên cứu khoa học về máy học thường bao gồm năm giai đoạn chính: thu thập và xử lý dữ liệu, thiết kế mô hình, đào tạo mô hình, thử nghiệm mô hình và cuối cùng là triển khai mô hình.

Machine learning mam | model conception Training

Trong giai đoạn đầu, nghiên cứu của Mohamed và cộng sự (2022) đã tập trung vào việc thu thập và xử lý dữ liệu Cụ thể, nghiên cứu sử dụng bộ dữ liệu ghi chép thông tin về quà tặng Giáng sinh từ một nhà bán lẻ trực tuyến, nơi đã thu thập dữ liệu trong suốt chiến dịch khuyến mãi đặc biệt cho mùa Giáng sinh Bộ dữ liệu này bao gồm:

2 phần được: phần huấn luyện (20.179 bản ghi) và phần kiêm tra (13.519 bản ghi)

Nghiên cứu của Mohamed và cộng sự (2022) chia tách dữ liệu thành 80% để huấn luyện và 20% để kiểm tra Sử dụng mô hình ARIMA với tham số p = 0, q = 0, d = 2 Nghiên cứu đề xuất bốn mô hình học máy (Linear Regression, Ridge Regression, Support Vector Regression, Random Forest Regression) và một mô hình thống kê (ARIMA) để dự đoán Các mô hình được đánh giá bằng các thước đo MAE, RMSE, R2, MAPE Quá trình đào tạo và thử nghiệm mô hình diễn ra trên bộ dữ liệu được chia tách Cuối cùng, các mô hình được triển khai để sử dụng thực tế.

Nghiên cứu của Mohamed và cộng sự (2022) đã so sánh hiệu suất của các mô hình học máy và thống kê trong dự báo giá hàng hóa theo mùa Kết quả cho thấy mô hình Random Forest đạt hiệu suất dự báo tốt nhất, tiếp theo là mô hình ARIMA Tuy nhiên, khoảng cách hiệu suất giữa hai mô hình này không đáng kể Do đó, người dùng có thể lựa chọn sử dụng cả mô hình Random Forest và ARIMA để dự đoán giá hàng hóa theo mùa tùy theo nhu cầu cụ thể.

2.2.1.2 Nghiên cứu của nhóm tác gia Abdul-Rahman va céng sự (2021) Nghiên cứu “Advanced Machine Learning Algorithms for House Price Prediction: Case Study in Kuala Lumpur” (Abdul-Rahman và cộng sự, 2021) về dự đoán giá nhà ở Kuala Lumpur dựa trên phương pháp học máy

Nghiên cứu này đề xuất các mô hình học máy để dự đoán giá nhà ở Kuala Lumpur, mục tiêu tìm ra mô hình chính xác nhất Quy trình gồm: thu thập và xử lý dữ liệu, thiết kế, huấn luyện, thử nghiệm và triên khai mô hình Đánh giá mô hình dựa trên các thang đo Nghiên cứu sử dụng dữ liệu "Property Listing in Kuala Lumpur" từ Kaggle và Google Map, qua các bước xử lý và chuyển đổi dữ liệu để đưa vào mô hình học máy.

Dữ liệu nghiên cứu bao gồm 21.984 quan sát với 11 biến độc lập và 1 biến phụ thuộc, được phân tách thành 70% dữ liệu huấn luyện và 30% dữ liệu thử nghiệm Các phương pháp học máy được sử dụng là Extreme Gradient Boosting (XGBoost), Light Gradient Boosting Machine (LightGBM), Multiple Regression Analysis và Ridge Regression Quá trình đào tạo mô hình được thực hiện trên dữ liệu huấn luyện, sau đó đánh giá hiệu suất (MAE, MSE, RMSE, R-squared) và triển khai sử dụng công khai.

Nghiên cứu của Abdul-Rahman và cộng sự (2021) đã triển khai và so sánh các mô hình học máy truyền thống và tiên tiến Kết quả cho thấy mô hình XGBoost là mô hình hiệu quả nhất trong dự đoán giá nhà ở Kuala Lumpur Để mở rộng ứng dụng trong tương lai, nghiên cứu có thể mở rộng phạm vi dữ liệu, thu thập thêm các biến độc lập có ảnh hưởng như quy mô ngôi nhà và khoảng cách đến các tiện ích công cộng Qua đó, nghiên cứu sẽ hỗ trợ đáng kể cho việc dự đoán giá nhà và xây dựng các chính sách bất động sản.

2.2.2 Đề xuất mô hình nghiên cứu Từ những nghiên cứu đã thảo luận, thấy rằng có rất nhiều công việc đã được thực hiện để dự báo giá cả nói chung Tuy nhiên, có rất ít nỗ lực đê khám phá vấn đề dự báo giá của các mặt hàng theo mùa Do đó, dựa vào những hạn chế trên, chúng tôi với mong muốn xây dựng nên mô hình dự đoán để giải quyết vân đề này

Mô hình đề xuất cho nghiên cứu dự đoán giá các sản phẩm quà tặng theo mùa được chia thành 5 giai đoạn, cụ thể:

(1) — Thu thập và xử lý dữ liệu (2) Thiết kế mô hình nghiên cứu (3) Huấn luyện mô hình bằng các thuật toán (4) — Kiểm tra, đánh giá hiệu suất

(5) Trién khai áp dụng mô hình cho việc dự đoán gia

M6 hinh hoc may phu hop Áp dụng mô hình học máy

Hình 2 2: Mô hình nghiên cứu đẻ xuất

CHƯƠNG 3: DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU 3.1 Thiết kế nghiên cứu

Để đảm bảo kết quả nghiên cứu chính xác và toàn diện, bài nghiên cứu này đã thực hiện một loạt các biện pháp nghiên cứu Đầu tiên, phương pháp nghiên cứu tài liệu giúp nhóm nghiên cứu xây dựng cơ sở lý thuyết vững chắc Phương pháp nghiên cứu mô hình hóa bằng Phân tích hồi quy và Mô hình chuỗi thời gian được sử dụng để xây dựng và kiểm định các mô hình toán học mô phỏng thực tế.

18 cung cấp nền tảng cho việc xây dựng mô hình Nhóm nghiên cứu sau đó tiến hành các thí nghiệm để kiểm tra và đánh giá hiệu suất của mô hình nghiên cứu.

Xác định mục tiêu nghiên cứu

Tim hiễu lý thuyết, các nghiên cứu lién quan

Đề xuất mô hình thí nghiệm

Chạy mô hình dữ liệu

THỰC HIỆN NGHIÊN CỨU [EE Kiêễm tra tham số

Kiếm tra tính phù hợp của mô hình

PHÂN TÍCH KÉT QUÁ VÀ ĐƯA RA KÉT LUẬN Kết luận mô hình thử nghiệm

Hàm ý quản trị, hạn chế và hướng nghiên cứu trong tương lai

Hình 3 1: Quy trình nghiên cứu Quá trình nghiên cứu được phân thành các giai đoạn cụ thê để đảm bảo tính toàn diện và cầu trúc hóa quá trình

Ban đầu, định hình mục tiêu và phương pháp nghiên cứu là bước tiền đề quan trọng giúp nhóm nghiên cứu xác định rõ hướng đi và đích đến của dự án Sau đó, nghiên cứu cơ sở lý thuyết được thực hiện thông qua việc tổng hợp và phân tích các nghiên cứu trước có liên quan đến vấn đề dự báo giá quà tặng theo mùa, nhằm xây dựng

19 một cơ sở lý thuyết vững chắc và cung cấp một cái nhìn tổng quan về trạng thái hiện tại của lĩnh vực nghiên cứu và tiễn bộ đã đạt được

Trong giai đoạn phát triển mô hình dự đoán, dữ liệu được thu thập và làm sạch để đảm bảo tính đồng nhất và chính xác Các đặc trưng cần thiết được lựa chọn từ bộ dữ liệu và tập dữ liệu được chia thành hai phần, thường theo tỷ lệ 80:20, với 80% dữ liệu được sử dụng cho huấn luyện mô hình và 20% còn lại cho mục đích kiểm tra Các mô hình học máy và ARIMA được thiết kế và tham số của chúng được thiết lập để dự đoán chính xác giá hàng hóa Quá trình này đòi hỏi sự tỉ mỉ và tuân thủ các phương pháp nghiên cứu khoa học để đảm bảo độ tin cậy của kết quả.

Trong quá trình nghiên cứu thực nghiệm, nhóm nghiên cứu áp dụng các mô hình đã phát triển lên tập dữ liệu thu thập và làm sạch Sử dụng nền tảng Azure Machine Learning Studio, nhóm kiểm tra ảnh hưởng của các yếu tố đến kết quả dự đoán Quá trình này bao gồm so sánh và đánh giá hiệu suất của nhiều mô hình để lựa chọn mô hình tối ưu phù hợp với mục tiêu nghiên cứu.

Cuối cùng, trong giai đoạn phân tích kết quả và kết luận, nhóm nghiên cứu sẽ sử dụng mô hình được chọn để thực hiện dự đoán và xác định các yếu tố có ảnh hưởng lớn nhất đến giá quà tặng theo mùa Đồng thời, nhóm cũng sẽ đánh giá hiệu suất của mô hình trên các tập hợp dữ liệu thử nghiệm để đảm bảo độ chính xác và độ tin cậy của kết quả dự đoán.

Nhóm nghiên cứu đã phân tích 20 dữ liệu khác nhau để đảm bảo tính khả thi và ổn định của phương pháp nghiên cứu Kết quả nghiên cứu sẽ cung cấp những đề xuất cụ thể và hữu ích cho doanh nghiệp trong lĩnh vực này, hỗ trợ họ trong việc ra quyết định và phát triển trong tương lai.

3.3 Bộ dữ liệu 3.3.1 Thu thập dữ liệu

Dữ liệu được trình bày trong nghiên cứu này được thu thập từ một nhà bán lẻ trực tuyến đã tiến hành chương trình giảm giá quà tặng đặc biệt trong dịp Giáng sinh Thu thập dữ liệu thực tế từ một doanh nghiệp thực tế cho phép nghiên cứu này có được những hiểu biết sâu sắc về hành vi của khách hàng trong bối cảnh bán hàng ưu đãi.

Bộ dữ liệu này có tên “Christmas GIft Price Prediction” được nhóm tác giả thu thập từ Kaggle Bộ dữ liệu được ghi nhận từ tháng 2/2014 đến tháng 11/2016 Bao gồm 16 biến mô tả các thông tin liên quan đến sản phẩm quà tặng Giáng sinh Tập dữ liệu thu thập được từ Kaggle bao gồm 2 phân: Phần huấn luyện (train.csv) bao gồm 20.179 bản phi và phần kiểm tra (test.csv) bao gồm 13.519 bản ghi Tuy nhiên, đối với mô hình nghiên cứu này, nhóm tác giả chỉ sử dụng tập dữ liệu huấn luyện vì dữ liệu này có biến mục tiêu đầu ra của mô hình nghiên cứu (Price)

Dữ liệu nghiên cứu sử dụng 16 biến, trong đó biến phụ thuộc là giá sản phẩm theo mùa, còn lại là các biến độc lập ảnh hưởng trực tiếp đến giá Nghiên cứu này tập trung vào ba biến quan trọng là gift_type, gift_category, gift_cluster vì chúng mô tả các thuộc tính của sản phẩm và ảnh hưởng mạnh mẽ đến chiến lược bán hàng và thời điểm mua hàng lý tưởng Biến gift_type phân loại sản phẩm thành các nhóm khác nhau (ví dụ: quần áo, đồ điện tử) và giúp dự đoán phạm vi giá của quà tặng Các biến còn lại cũng xác định ngành và danh mục quà tặng, hỗ trợ xác định phạm vi giá Biến gift_id (đại diện cho ID duy nhất của sản phẩm) đã bị loại bỏ vì không ảnh hưởng đến giá cuối cùng của sản phẩm.

Các biến loại trừ ngoài stock_update_date, uk_date1, uk_date2 còn mô tả dữ liệu ngày giờ nên không phù hợp Các tính năng lsg_1 đến lsg_6 tuy là tính năng quan trọng nhưng được mã hóa và không có nội dung mô tả do yêu cầu bảo vệ quyền riêng tư của chủ sở hữu dữ liệu Các biến này nên được sử dụng do liên quan trực tiếp đến quà tặng và theo mô tả của chủ sở hữu dữ liệu.

Trong nghiên cứu thống kê mô hình ARIMA, nhóm đã xác định instock_date là biến độc lập phù hợp duy nhất để sử dụng Biến is_discounted bị loại vì đầu ra của nghiên cứu là giá sản phẩm được dự đoán trong tương lai, trong khi dữ liệu is_discounted chỉ liên quan đến người mua tại thời điểm kết thúc nghiên cứu trước.

3.3.3 Bảng mô tả dữ liệu

Bảng 3 1: Bảng mô tả dữ liệu

STT Tên biến Mô tả biến

1 lgift id Ma qua tang 2 |gift_type Loại quà tặng (quần áo, nước hoa ) 3 gift_category IDanh muc hang cua qua tặng 4 gift_cluster Ngành hàng của qua tang 5 instock_date Ngày nhập kho của quà tặng 6 stock_update_date Ngày cập nhật lưu kho của qua tang 7-12 lsg 1-lsg 6 Các biến ân danh liên quan đến quà tặng 13, 14 luk_date1, uk_date2 Ngày liên quan đến người mua

15 is discounted Cho biết liệu giảm giá có được áp dụng cho quà tặng hay không

Phương pháp nghiên cứu sử dụng nền tảng Azure Machine Learning Studio, một công cụ cho phép các nhà khoa học dữ liệu và những người đam mê trí tuệ nhân tạo nhanh chóng tạo và triển khai các mô hình máy học Công nghệ này cung cấp một giao diện trực quan và một loạt các thuật toán được thiết kế sẵn, giúp thuận tiện cho việc xây dựng các mô hình học máy mà không cần phải có kiến thức chuyên sâu về lập trình.

Vào những năm 1960, học máy trở thành nền tảng quan trọng của trí tuệ nhân tạo, đánh dấu sự ra đời của các mô hình tiên phong như Perceptron của Frank Rosenblatt và Neural Network của Marvin Minsky và Seymour Papert Những mô hình này mở đường cho sự phát triển của các mô hình học máy nhiều tầng, một bước ngoặt đáng kể trong lĩnh vực trí tuệ nhân tạo.

Azure Machine Learning Studio là một nền tảng học máy đám mây dễ sử dụng với các thao tác đơn giản, được trang bị hơn 20 thuật toán học máy xác định sẵn Azure Machine Learning Studio cung cấp một hệ sinh thái tích hợp bao gồm học máy đám mây, giao diện kéo và thả thân thiện với người dùng, các mô-đun hồi quy tích hợp sẵn và hỗ trợ ngôn ngữ R và Python Nền tảng này cho phép người dùng xử lý lượng lớn dữ liệu từ bất kỳ đâu trên thế giới, đồng thời cung cấp công cụ đa nhiệm kiểm soát toàn bộ quy trình, từ tiền xử lý dữ liệu đến chạy thử nghiệm thuật toán, đánh giá kết quả mô hình và triển khai mô hình vào thực tế.

Hinh 3 2: Linear regression model

Support Vector Regression Bắt nguồn từ việc học thống kê hoặc lý thuyết Vapnik-Chervonenkis (VC), SVM Bắt nguồn từ việc học thống kê hoặc lý thuyết Vapnik-Chervonenkis (VC), SVM

Khái quát hóa SVM cho SVR đạt được với sự ra đời của một khu vực không nhạy cảm điện tử, được đặt tên là z-tube (thê hiện trong Hình 3.3) Phương pháp này cải tiến một

Theo Awad và Khamna (2015), tối ưu hóa 26 cách tiếp cận nhằm xác định tube thích hợp nhất cho chức năng liên tục, cân bằng độ phức tạp của mô hình với sai số dự đoán là điều cần thiết.

Mặc dù ít phổ biến hơn Máy vectơ hỗ trợ (SVM), nhưng SVR đã chứng minh là một công cụ hiệu quả trong việc ước lượng hàm giá trị thực Một trong những lợi thế chính của SVR là độ phức tạp tính toán của nó không phụ thuộc vào chiều của không gian đầu vào Điều này làm cho SVR trở thành một lựa chọn khả thi cho các vấn đề có không gian đầu vào lớn.

Ngoài ra, nó có khả năng khải quát hoá với độ dự đoán chính xác cao theo Awad và Khanna (2015)

Hình 3 3: Support vector regression model

SVR sử dụng kỹ thuật giảm độ nhạy điện tử để khắc phục vấn đề hồi quy, giúp cho độ bền có thể sai không quá E.

Với {(x1, y1), , (xl, yl)}, trong đó xie R" và yi e R, là các điểm đào tạo có sẵn để phát triển một thiết kế hồi quy Mô hình SVR tăng cường các yêu tố bản ghi xác thực đến từ Input Room đầu tiên đến khu vực tính năng chiều cao hơn F sử dụng chức năng chuyên đổi ở, một thiết kế trực tiếp đã được thực hiện trong khu vực mới này tương quan với phiên bản phi tuyến tính cia Outdated Room: ®: R' SF, weF JT (x) = (w, ® (x)) +8

Khi sử dụng chức năng tên thất é-insensitive, muc tiéu la thiết kế một hàm phù hợp dữ liệu đào tạo hiện tại với độ lệch nhỏ hơn hoặc bằng e, trong khi vẫn giữ nguyên mức khả thi Điều này ngụ ý rằng người ta mong muốn một vectơ trọng lượng nhỏ w

Một kỹ thuật để thực hiện điều này là giảm thiểu chuẩn bậc hai của vectơ w Do khả năng

27 nhiệm vụ này là không khả thi, các biến slack ở, ší* được bao gồm để cho phép các mức sai số lớn hơn s:

Trong đó ớ, £í"> 0,1 = 1, 2, Đây được gọi là độ khó cơ bản của thuật toán SVR

Chức năng mục tiêu xét tính khái quát và độ chính xác của bộ huấn luyện, thực hiện khái niệm giảm thiểu rủi ro cấu trúc Sự đánh đổi giữa khả năng khái quát và độ chính xác được định lượng bằng tham số C, mức độ chịu đựng lỗi theo tham số e Mô tả vấn đề dạng nhiệm vụ kép để giải quyết Hàm Lagrange được phát triển và áp dụng điều kiện điểm yên, dẫn đến giải pháp w = ∑(αi yi/||xi||)xi.

Hàm nhân K(xi, x) biểu thị tích bên trong của (xi) và (x), được gọi là hàm nhân Biến đổi kép được ký hiệu bằng ϕ và ϕi để giải quyết vấn đề hồi quy cơ bản mà không cần áp dụng phép biến đổi (x) cho dữ liệu đào tạo, phương pháp này cung cấp giải pháp cho vấn đề hồi quy ban đầu (Crone et al., 2006).

3.5.4 Random Forest Regression Phương pháp hỏi quy random forest (RF) là một loại học tập tổng hợp trong đó một số lượng lớn cây hồi quy (DT) được kết hợp RF là một tập hợp các tiêu chí hoặc ràng buộc được nhóm lại theo thứ bậc và áp dụng tuân tự từ gốc đến lá của cây (Quinlan, 2014) RF bắt đầu với một số lượng lớn các mẫu bootstrap được chọn ngẫu nhiên từ bộ dữ liệu đào tạo ban đầu Mỗi mẫu bootstrap được trang bị bằng cách sử dụng một cây

28 hồi quy Đối với mỗi nút trong cây, một tập hợp nhỏ là tập con của toàn bộ tập hợp các biến đầu vào được chọn ngẫu nhiên để phân vùng nhị phân (Wang và cộng sự, 2016)

Random forest co thé giai quyét ca bài toán phân lớp và hỏi quy (Breiman, 2017)

Mô hình Rừng ngẫu nhiên (RF) thường mang lại chất lượng dự báo tốt hơn các thuật toán quyết định khác, do nó kết hợp nhiều cây quyết định RF cũng tránh được tình trạng quá khớp dữ liệu, do đó phù hợp để nghiên cứu và dự báo các vấn đề liên quan đến giá.

3.5.5 ARIMA model George Box va Gwilym Jenkins da thiét ké ra phuong phap ARIMA (1970) str dụng các giá trị quá khứ trong chuỗi Dựa trên giả thuyết chuỗi dừng và phương sai sai số không đổi, mô hình sử dụng đầu vào chính là những tín hiệu quá khứ của chuỗi được dự báo để dự đoán nó Các tín hiệu đó bao gồm: chuỗi tự hồi quy AR (Auto Regression) và chuỗi trung bình trượt MA (Moving Average) Hầu hết các chuỗi thời gian sẽ có xu hướng tăng hoặc giảm theo thời gian, do đó yếu tố chuỗi dừng thường không đạt được

Trong trường hợp chuỗi không dừng, biến đổi sang chuỗi dừng bằng phép sai phân sẽ tạo thêm thành phần bậc của sai phân (d) vào mô hình Mô hình ARIMA được đặc tả bởi 3 tham số (p, d, q), trong đó p là bậc tự hồi quy, d là bậc sai phân và q là bậc trung bình trượt Mô hình dự báo ARIMA đã được ứng dụng trong nghiên cứu dự đoán giá Bitcoin (Jang et al., 2018) và giá tiền điện tử (Alahmar, 2019).

Sử dụng ký hiệu L để biểu diễn thuật ngữ tự hồi quy (AR), ta có thể biểu diễn giá trị trễ của biến phụ thuộc với thứ tự trễ là p, tức là số lần trễ thời gian Công thức AR(p) không theo mùa được thể hiện như sau:

Các thuật ngữ trung bình trượt (MA) là các lỗi dự báo cho thấy sự trễ trong quá trình dự đoán giữa các giá trị thực tế trong quá khứ và các giá trị dự đoán của chúng Chúng được biểu thị là thứ tự di chuyển q Trung bình trượt (q) không theo mùa có thể được tạo bằng cách tính toán trung bình của q giá trị dữ liệu gần nhất.

Các thông số đánh giá Các số liệu đánh giá cho mô hình hồi quy khác so với các số liệu mô hình phân

Phan nay sẽ tóm tắt một cách ngắn gọn về các thông số đánh giá phố biến nhất thường được sử dụng trong nghiên cứu dự đoán giá, bao gồm: sai số tuyệt đối trung bình (MAE), sai số bình phương trung bình (RMSE), R bình phương (R2) và phân trăm sai số tuyệt đối trung bình (MAPE)

3.6.1 MAE Sai số tuyệt đối trung bình (MAE) là một số liệu để so sánh các giá trị riêng biệt của hai biến liên tục Nó là trung bình/trung bình của sai số tuyệt đối Nó không thê được sử dụng để so sánh chuỗi với các thang đo khác nhau (Spũler và cộng sự, 2015) n |; _ y

3.6.2 RMSE Lỗi bình phương trung bình (RMSE) được tính bằng cách tăng phần dư bằng căn bậc hai của nó RMSE thê hiện sự phủ hợp hoàn toàn của thiết kế mô hình với thông tin dữ liệu, cho thấy mức độ liên quan của các điểm dữ liệu quan sát được với giá trị dự kiến của thiết kế dự đoán tại cùng thời điểm Giá trị bình phương R là thước đo tương đối của sự phù hợp, trong khi giá trị RMSE là giá trị tuyệt đối, RMSE cũng có thể được hiểu là độ lệch chuẩn của phương sai không giải thích được, bởi vì nó được giải thích trong các đơn vị chính xác giống như biến kết quả Chi số RMSE thấp cho thấy sự phù hợp của mô hình Sai số bình phương trung bình là một cách nhận biết hữu ích về mức độ thành công của thiết kế dự đoán bộ dữ liệu (Spiiler va cộng sự, 2015)

3.6.3 R-Squared R-squared (Coefficient of Determination) 1a mot thong ké cho biết chất lượng phù hợp của mô hình, là một thước đo thống kê về mức độ chặt chẽ của đường hồi quy xấp xỉ với dữ liệu thực trong bối cảnh hỏi quy Nó rất quan trọng khi một mô hình thống kê được sử dụng để dự báo các sự kiện trong tương lai hoặc để đánh giả các giả thuyết

Công thức R bình phương được sử dụng phổ biến nhất là:

R= sum squared regression (SSR) 7 total sum of squares (SST) ằ (vi — Fi)”

Tổng hồi quy bình phương biểu thị tổng bình phương dư liệu phù hợp với đường hồi quy, trong khi tổng bình phương dư đại diện cho tổng bình phương độ lệch giữa dữ liệu và giá trị trung bình Do được biểu thị dưới dạng phần trăm, R bình phương chỉ có thể nhận các giá trị từ 0 đến 1 (Gelman et al., 2019).

3.6.4 MAPE Phần trăm sai số tuyệt đối trung bình (MAPE) là một trong những thước đo được sử dụng rộng Tãi nhất về độ chính xác của dự báo, do ưu điểm của nó là tính độc lập về quy mô và khả năng diễn giải Gọi At và Ft lần lượt là giả trị thực tễ và gia tri dy đoán tại điểm dữ liệu t Do đó, MAPE được định nghĩa như sau:

Trong đó, N là số điểm dữ liệu trong tập hợp, MAPE là một kỹ thuật không phụ

CHƯƠNG 4: KÉT QUÁ NGHIÊN CỨU

4.1 Mô tả mối quan hệ giữa biến độc lập và biến phụ thuộc Biến độc lập và biến phụ thuộc thê hiện mối quan hệ nhân quả, biển độc lập đóng vai trò là nguyên nhân còn biến phụ thuộc đóng vai trò là kết quả Tức là biến độc lập là biến số tác động tới biến phụ thuộc, khi biến độc lập thay đổi thì biến kết quả cũng sẽ thay đổi theo Việc phân tích vào mỗi quan hệ giữa biến độc lập và biến phụ thuộc sẽ giúp hiểu rõ hơn về tác động của biến độc lập, xác định được mức độ ảnh hưởng của biến độc lập đối với biễn phụ thuộc Từ đó, giúp hiểu được tầm quan trọng của mỗi yêu tổ và cách mà chúng tương tác với nhau Ngoài ra, việc hiểu rõ được những tác động của biến độc lập có thể dự đoán kết quả của biến phụ thuộc trong các tình huống khác nhau, giúp trong việc quản lý và kiêm soát các yếu tố ảnh hưởng đến kết quả mong muốn Đồng thời khi đã hiểu được những yếu tố quan trọng nào ảnh hưởng đến kết quả và tại sao chúng lại ảnh hưởng như vậy sẽ giúp ích trong việc loại bỏ các yêu tố nhiễu, không cần thiết gây ảnh hưởng đến kết quả nghiên cứu

Trong nghiên cứu này, nhóm tác giả đã tiến hành phân tích mối quan hệ giữa các biến độc lập, bao gồm loại quà tặng (gift_type) và danh mục quà tặng thuộc loại quà tặng đó Phân tích này giúp xác định mức độ ảnh hưởng của từng loại quà tặng và danh mục quà tặng đối với hành vi của người nhận.

Phân tích cho thấy các yếu tố (gift_category), (gift_cluster), các biến liên quan tới quà tặng và (instock_date) đều có tác động đáng kể đến giá cả hàng hóa theo mùa Nhờ sử dụng tính năng Filter Based Feature Selection, nhóm nghiên cứu đã có thể xác định các yếu tố dự đoán quan trọng nhất và yếu tố dự đoán ít quan trọng nhất trong số các yếu tố này.

34 instock_date gift_cluster gift_category

Các biến độc lập tác động đến giá cả hàng hóa theo mùa với mức độ khác nhau Trong số các biến, biến ẩn danh lsg_5 có hệ số tương quan Pearson cao nhất với giá cả (Price), là 0,515169 Điều này cho thấy biến ẩn danh lsg_5 ảnh hưởng khoảng 52% đến giá dự báo của sản phẩm theo mùa.

Hệ số tương quan Pearson cao giữa gift_category và gift_cluster (lần lượt là 0,283269 và 0,279089) cho thấy danh mục quà tặng và ngành nghề quà tặng ảnh hưởng khoảng 28% đến mức giá dự đoán Trong đó, danh mục quà tặng có tác động lớn hơn một chút, phản ánh không chỉ loại hình sản phẩm mà còn cả quyết định về giá cả Sự đa dạng và quy mô danh mục quà tặng có thể tạo ấn tượng tích cực, tăng giá trị và sức hấp dẫn của sản phẩm Nó cũng cho thấy sự linh hoạt và lựa chọn đa dạng, tăng cơ hội nâng cao giá bán Ngoài ra, số lượng mặt hàng và loại sản phẩm trong từng danh mục cũng có thể ảnh hưởng đến giá.

35 một nhãn hiệu phong phú có thé tao ra sự đa dang va lwa chon cho khach hang, tir do tao ra giá trị gia tăng và sự hấp dẫn Biến gift_cluster cũng đưa ra kết quả ảnh hưởng không ít đến giá bán bởi vì nó phân loại các quà tặng vào các ngành nghề khác nhau, mỗi ngành nghề có đặc điểm và xu hướng giá cả riêng Do đó, biến này không chí phan anh sy da dang trong ngành nghề của quà tặng mà còn gợi lên xu hướng giá cả của từng ngành nghề trong các thời điểm khác nhau, từ đó ảnh hưởng đến quyết định về giá bán của sản phẩm

Biến ân danh lsg_4 nằm trong nhóm những yếu tổ tác động lên giá cả dự đoán với hệ số tương quan là 0.219432 Tức là yếu tố ấn danh lsg_4 tác động khoảng 22% đến giả dự bảo

Biến ân danh lsg_2 và ngày nhập kho (instock_date) cùng tác động lên giá cả với hệ số tương quan lần lượt là 0,18144 và 0,181093, cho thấy cả hai yếu tố này đều tác động gần như nhau lên giá dự đoán (khoảng 18%) Ngày nhập kho ảnh hưởng đến giá bán thông qua việc điều chỉnh tình trạng cung cầu, độ mới mẻ của sản phẩm và chiến lược giá Sản phẩm mới nhập kho thường có giá cao hơn do sự mới mẻ và mong đợi của khách hàng, trong khi sản phẩm tồn kho lâu có thể được giảm giá để kích thích tiêu thụ Vì vậy, ngày nhập kho là một trong những yếu tố quan trọng trong quyết định giá bán của sản phẩm.

Biến danh lsg_1 và biến gift_style có tác động tương ứng là 14,5976% và 13,4786% đến giá dự báo, thể hiện mức độ ảnh hưởng tương đối thấp Điều này cho thấy loại quà tặng không phải là yếu tố chính quyết định giá cả, do sự đa dạng và đặc tính riêng của từng loại Sự chênh lệch về chi phí sản xuất, thị hiếu người tiêu dùng và thương hiệu giữa các loại quà tặng dẫn đến sự biến động trong định giá Ngoài ra, bản chất và đặc điểm độc đáo của từng loại quà tặng cũng ảnh hưởng đến mức độ chấp nhận giá của khách hàng.

Biến lsg_6 và lsg_3 có hệ số tương quan với biến giá cả lần lượt là 0,022956 và 0,005608, cho thấy ảnh hưởng của yếu tố ẩn danh 6 và yếu tố ẩn danh 3 đối với giá cả là rất thấp.

36 chi tác động lần lượt là 2% và 0.5% lên giá dự báo Điều này cho thấy, hai yêu tố này gần như không có ảnh hưởng quan trọng đến việc định giá quà tặng

4.2 Quy trình xây dựng phương pháp dự đoán 4.2.1 Phuong phap hoc may Để xây dựng mô hình dự đoán giá quà tặng theo mùa, nhóm thực hiện quy trình dự báo các biến số thông qua 4 thuật toán hồi quy là Linear regression, Ridge regression, Random forest va Support vector regression tir su hé tro cua Azure Machine Learning Studio - công cụ xây dựng và triển khai các mô hình Machine Learning (ML) trén dam mây của Microsoft Sau khi đăng nhập vào tài khoản, nhóm tác giả tiến hành các bước theo quy trình sau:

Trong bước đầu tiên, bạn cần tải bộ dữ liệu lên mục My Datasets để chuẩn bị cho quá trình huấn luyện và kiểm tra mô hình Để thực hiện, hãy truy cập Datasets -> New -> From local file -> Chọn tệp và Upload dữ liệu Bộ dữ liệu bao gồm 2 tệp là train.csv và test.csv, tuy nhiên chỉ sử dụng tập train.csv để huấn luyện mô hình.

Buc 2: Vao Experiments để bắt đầu một mô hình mới bằng cách nhân vào New -> Blank Experiment Sau do dat lai tén của mô hình đang chạy bang tên thuật toán cần huấn luyện (xem hinh 4.5 — Phy luc)

Bước 3: Kéo dữ liệu train.csv từ mục Saved Datasets -> My Datasets vào màn hình chính, kiểm tra số lượng biến có đúng theo yêu cầu không bằng cách nhấn Visualize mô tả biến dữ liệu Dữ liệu chuẩn, bao gồm 20.297 quan sát và 17 biến, một số biến không có giá trị nhưng không ảnh hưởng đến quá trình huấn luyện mô hình nên không cần làm sạch dữ liệu.

TẦ—

Hinh 4 2: Biéu dé thé hién sé liệu đánh giá của các mô hình đề xuất

Mô hình Random Forest được xác định là mô hình dự đoán phù hợp nhờ sở hữu các chỉ số ở mức thấp Trong số các thông số, Mean Absolute Error (MAE) là giá trị trung bình của sự chênh lệch tuyệt đối giữa giá dự đoán và giá thực tế Trên bảng kết quả, MAE ghi nhận ở mức 41.161086, cho thấy độ chính xác cao của mô hình khi dự đoán giá mặt hàng.

Mô hình Random Forest có chỉ số RMSE là 159,749346, phản ánh mức độ chênh lệch giữa giá dự đoán và giá trị thực tế là 160,0492258 Chỉ số này thấp nhất so với các mô hình khác được đề cập trong bài viết.

Độ chính xác của mô hình dự đoán được đánh giá thông qua Mean Absolute Percentage Error (MAPE) và R-squared (R2) MAPE là 0,69% cho thấy sai số dự đoán chỉ khoảng 0,69% so với giá trị thực tế R2 là 0,674054, chỉ ra rằng trong 100 lần thử nghiệm, mô hình đã dự đoán chính xác khoảng 67 lần Những số liệu này cho thấy mô hình này có khả năng dự đoán tốt với độ chính xác cao.

4.4 Triển khai dự đoán và thử nghiệm Sau khi hoàn tất huấn luyện mô hình, nhóm tiên hành nhắn chọn Run đê chạy lại toàn bộ mô hình Random Forest Sau khi chạy xong, nhóm sẽ chọn Set up Web Service ở bên dưới (Bên phải nút “Run”) va chon Predictive Web Service [Recommended] dé mô hình đào tạo được thu gọn và nhóm nhận được giao diện như sau: (xem hình 4.19 — Phu luc)

Sau khi hiển thị giao diện theo hình, để thực hiện các thao tác xử lý dữ liệu, tùy chỉnh và kiểm soát hoàn toàn quy trình, nhóm đã tiến hành kéo thả thêm 2 Execute Python Script vào mô hình lần lượt như sau:

With the first Execute Python Script, the group of authors input 1 into the input web service and output of Select column in Dataset Output 1 of Execute Python Script is spoken to input 2 of Score Model (see figure 4.20 - Physical power)

Sử dụng bộ mã Execute Python Script, nhóm nghiên cứu đã xử lý dữ liệu bằng các nhóm lệnh Khi không cung cấp DataFrame2 (giá trị None), một cột mới tên là "Giá" với giá trị mặc định là 0 sẽ được thêm vào DataFrame1, tương đương với việc nhóm đã gán giá trị mặc định cho giá trị dữ liệu.

Nếu dataframe2 được cung cấp, các dữ liệu trong datafame2 sẽ được nối vào dataữramel theo chiều cột, mở rộng dữ liệu trong dataframel với thông tin từ dataframe2

Với Execute Python Script thứ 2, nhóm tác giả tiên hành nối đầu input 1 với đầu output của Score Model, đầu output 1 thì nối với Web Service Output.

Nhóm nghiên cứu đã sử dụng hàm Execute Python Script thứ 2 để in ra dữ liệu đầu vào giúp kiểm tra và hiệu chỉnh dữ liệu Ngoài ra, nhóm còn trích xuất một phần nhỏ của dữ liệu đầu vào sử dụng trong quy trình học máy, có thể là cột cuối cùng làm mục tiêu dự đoán trong mô hình Cuối cùng, hàm này trả về giá trị của dataframe, trong trường hợp này là một chuỗi của DataFrame chứa chỉ cột cuối cùng đã được chọn.

Nhóm đã tham khảo và phân tích từ nhiều nguồn dữ liệu khác nhau để hoàn thiện 2 bộ code phù hợp cho việc chạy thuật toán Random Forest

Sau khi hoàn thành các bước nêu trên, nhóm tiến hành Run lại mô hình để nhận được giao diện như sau: (xem hỡnh 4.24 — Phứ lực)

Sau khi hoàn tất việc chạy mô hình, nhóm tác giả tiễn hành thử nghiệm bằng cách nhắn chọn “Deploy Web Service” sau đó chọn “Test Preview” như hình sau: (xem hình 4.25 — Phu luc)

Để dự báo giá, nhóm thực hiện nhập các giá trị biến theo sản phẩm cần dự báo.

Với tập dữ liệu thu thập được, bài kiểm tra đã tiến hành phân tích các biến gift type, gift category, gift cluster và 6 biến ẩn danh từ nhà cung cấp với các giá trị tương ứng là 168, 403, 1846.

3799: 3358; 1230; 51; 9: 327 nhóm đã dự đoán được gia (predictions) cla các loại mặt hàng quà tặng trong dịp lễ Giáng sinh là 165.756849956987S

Bên cạnh việc sử dụng các giá trị tương ứng với các biến trong bộ dữ liệu để kiểm tra mô hình, tác giả đã thay đổi các bộ dữ liệu kiểm tra khác nhau để đưa ra kết quả dự đoán chính xác nhất.

Tương tự như trên, dựa vào các biến đã nêu và 2 bộ dữ liệu test khác, nhóm tác giả đã dự đoán được mặt hàng quà Giáng sinh lần lượt là 111.696540487735$ và 85.4957517857143$

Để tăng cường độ tin cậy và đánh giá kết quả trên phạm vi rộng hơn, nhóm tác giả đã tiến hành trực quan hóa kết quả so sánh giữa giá dự đoán và giá thực tế Biểu đồ đường màu xanh thể hiện giá dự đoán dựa trên mô hình Random Forest, trong khi màu đỏ

TAI LIEU THAM KHAO Tài liệu Tiếng Việt

Theo báo cáo của Bộ Công Thương tháng 1 năm 2024, sản xuất công nghiệp và hoạt động thương mại ghi nhận mức tăng trưởng so với cùng kỳ năm trước Chỉ số sản xuất công nghiệp tăng 6,3%, trong đó một số ngành có mức tăng trưởng đột biến như sản xuất máy móc thiết bị (tăng 15,2%), sản xuất đồ dùng điện tử (tăng 12,4%) và sản xuất ô tô (tăng 10,5%) Về hoạt động thương mại, kim ngạch xuất khẩu đạt 30 tỷ USD, tăng 10,2% so với cùng kỳ năm trước, trong khi kim ngạch nhập khẩu đạt 25 tỷ USD, tăng 9,5%.

Ngân hàng Thế giới (2023) 7ổng quan về Việt Nam Truy cập 14/04/2023, từ https://www.worldbank.org/vi/country/vietnam/overview

Nền kinh tế đạt được nhiều thành tựu đáng kể trong năm 2023 với tổng sản phẩm quốc nội (GDP) đạt 9,45 triệu tỷ đồng, tăng 8,02% so với năm 2022 Tăng trưởng GDP đạt mức cao nhất trong 12 năm qua Công nghiệp chế biến chế tạo đóng góp vào sự tăng trưởng này với tốc độ tăng 10,23% Nông, lâm nghiệp và thủy sản cũng tăng trưởng mạnh đạt 3,5% Các lĩnh vực dịch vụ, bao gồm thương mại, du lịch và dịch vụ tài chính, cũng ghi nhận mức tăng trưởng ấn tượng.

Tong cuc Thong ké (2024) Téng mtic ban lé hang héa va doanh thu dich vu tiéu ding theo giá thực tế phân theo ngành kinh doanh chia theo Giá trị và cơ cấu, Năm và Ngành kinh doanh Truy cập 18/3/2024, từ _https:/Avww.gso.gov.vn/px-web- 2/2pxid=V0801 &theme=Th%C6%B0%CE%A1ng%20M%E1%BA%A1I%2C%20gi%

Tài liệu Tiếng Anh A Gelman, B Goodrich, J Gabry and A Vehtari, “R-squared for Bayesian regression models,” American Statistician, vol 73, no 3, pp 307-309, 2019

A Sharma, D Bhuriya and U Singh, “Survey of stock market prediction using machine learning approach,” in Int Conf of Electronics, Communication and Aerospace Technology, Coimbatore, India, pp

Cryptocurrency price prediction using time series forecasting (ARIMA) Paper presented at the 2021 4th International Seminar on Research of Information Technology and Intelligent Systems (ISRITI)

Abdul-Rahman, S., Zulkifley, N H., Ismail, |., & Mutalib, S (2021) Advanced machine learning algorithms for house price prediction: Case study in Kuala Lumpur

International Journal of Advanced Computer Science and Applications, 12(12)

Abdul-Rahman, S., Zulkifley, N H., Ismail, I., & Mutalib, S (2021) Advanced machine learning algorithms for house price prediction: Case study in Kuala Lumpur

International Journal of Advanced Computer Science and Applications, 12(12)

Al Shehhi, M., & Karathanasopoulos, A (2018) Forecasting hotel prices in selected Middle East and North Africa region (MENA) cities with new forecasting tools

Ariyo, A A., Adewumi, A O., & Ayo, C K (2014, March) Stock price prediction using the ARIMA model In 2014 UKSim-AMSS 16th international conference on computer modelling and simulation (pp 106-112) IEEE

Awad, M., & Khanna, R (2015) Efficient learning machines: theories, concepts, and applications for engineers and system designers (p 268) Springer nature

Botchkarev, A (2018) Evaluating performance of regression machine learning models using multiple error metrics in azure machine learning studio Available at SSRN 3177507

Breiman, L (2017) Classification and regression trees Routledge

Contreras, J., Espinola, R., Nogales, F J., & Conejo, A J (2003) ARIMA models to predict next-day electricity prices IEEE transactions on power systems, 18(3), 1014- 1020

Charmaz, K (2003) Grounded theory: Objectivist and constructivist methods In N K

Denzin & Y S Lincoln (Eds.), Strategiesforqualitativeinquiry (2nd ed.), Thousand Oaks, CA: Sage, 249 291

Chourasiya, R., Patel, V., & Shrivastava, A (2018) Classification of cyber attack using machine learning technique at microsoft azure cloud Int Res J Eng Appl Sci

Dong, J., & Wu, D D (2019) Two-period pricing and quick response with strategic customers International Journal of Production Economics, 215, 165-173

Dong, J., Rao, B., Liu, Y., Jiang, L., Lu, W., & Guo, Q (2019) Pricing strategies for different periods during subsequent selling season for seasonal products IEEE Access, 8, 39479-39490

Etaati, L., & Etaati, L (2019) Azure machine learning studio Machine Learning with Microsoft Technologies: Selecting the Right Architecture and Tools for Your Project, 201-223

H Jang and J Lee, “An empirical study on modeling and prediction of bitcoim prices with bayesian neural networks based on blockchain information,” IEEE Access, vol 6, pp 5427-5437, 2018

Kibria, B M., & Lukman, A F (2020) A new ridge-type estimator for the linear regression model: Simulations and applications Scientifica, 2020

Kim, S., & Kim, H (2016) A new metric of absolute percentage error for intermittent demand forecasts International Journal of Forecasting, 32(3), 669-679

L Wang, X Zhou, X Zhu and Z Dong, “Wenshan Guo, estimation of biomass in wheat using random forest regression algorithm and remote sensing data,” Crop Journal, vol

M Awad and R Khanna, “Support vector regression,” in Efficient Learning Machines

Berkeley, CA, USA: Apress, pp 67-80, 2015

M Spiler, A Sarasola-Sanz, N Birbaumer, W Rosenstiel and A Ramos-Murguialday,

Comparing metrics for assessing the performance of regression methods in decoding neural signals is an important task in neuroengineering Researchers have examined various metrics, including the coefficient of determination (R2), mean square error (MSE), root mean square error (RMSE), and correlation coefficient (r) Each metric provides insights into different aspects of the model's performance, such as the goodness of fit, the magnitude of errors, and the linear relationship between predicted and observed values Understanding the strengths and limitations of these metrics is crucial for selecting the appropriate metric in different decoding scenarios.

Mohamed, M A., El-Henawy, | M., & Salah, A (2022) Price Prediction of Seasonal Items Using Machine Learning and Statistical Methods Computers, Materials &

N Garg, K Soni, T K Saxena and S Maji, “Applications of autoregressive integrated moving average (arima) approach in time-series prediction of traffic noise pollution,”

Noise Control Engineering Journal, vol 63, no 2, pp 182-194, 2015

Nikou, M., Mansourfar, G., & Bagherzadeh, J (2019) Stock price prediction using DEEP learning algorithm and its comparison with machine learning algorithms

Intelligent Systems in Accounting, Finance and Management, 26(4), 164-174

Pai, P F., & Lin, C S (2005) A hybrid ARIMA and support vector machines model in stock price forecasting Omega, 33(6), 497-505

Q Wang, Y Ma, K Zhao and Y Tian, “A Comprehensive survey of loss functions in machine learning,” Annals of Data Science, vol 7, no 2, pp 1-26, 2020

Quinlan, J R (2014) C4 5: programs for machine learning Elsevier

R J Hyndman and G Athanasopoulos, Forecasting: Principles and practice, 2nd ed., Melbourne, Australia: OTexts, 2018 [Online] Available: https://otexts.com/fpp2/

S A Alahmar, “Using machine learning Arima to predict the price of cryptocurrencies,”

ISeCure The ISC Int'l Journal of Information Security, vol 11, no 3, pp 139-144, 2019

S F Crone, J Guajardo and R Weber, “A study on the ability of support vector regression and neural networks to forecast basic time series patterns,” in IFIP Al 2006

IFIP International Federation for Information Processing vol 217 Berlin, Germany:

Sun, W., & Huang, C (2020) A novel carbon price prediction model combines the secondary decomposition algorithm and the long short-term memory network Energy, 207, 118294

Watson, R (2015) Quantitative research Nursing standard, 29(31)

Waugh, F V (1928) Quality factors influencing vegetable prices Journal of farm economics, 10(2), 185-196

Xiong, T., Li, C., & Bao, Y (2018) Seasonal forecasting of agricultural commodity price using a hybrid STL and ELM method: Evidence from the vegetable market in China

Time series analysis, such as ARIMA (Autoregressive Integrated Moving Average) models, is vital for stock price forecasting.* ARIMA models capture the trend, seasonality, and residual behavior of time series data, making them suitable for stock price forecasting.* The ARIMA(p, d, q) model specifies the number of autoregressive (p), differencing (d), and moving average (q) terms, respectively.* By using appropriate values for p, d, and q, ARIMA models can effectively forecast stock prices with high accuracy.

PHỤ LỤC

& Traned Mode's B® Trarstorms Be Dota Foret Comersions

@, , Data Tansfermation oma Panstorm: oe >i

PD Feature Selection [B) Machine Learning PS GpenCV Livey Mod;

G Alaeguae Modules Quick Holle ˆ fe new no a, ae

Hình 4 5: Mô tả Bước 2 của Phương pháp học máy it ic ` 1 tn llll lu

Hình 4 6: Mô tả Bước 3 của Phương pháp học máy

Hình 4 7: Mô tả Bước 4 của Phương pháp học máy lồ no

Restaurant ratings % Select Columns in Dataset ĐÃ tunscrvzed spit

4 Sample and Spit Random seed

Hình 4 8: Mô tả Bước 5 của Phương pháp học máy

1ibrary(randomForest) ne # Chuổn bị dữ liệu, giống như bạn đã làm

# Chuyển đổi dataset thònh nưneric, loại bò NA, v.v dataset

Ngày đăng: 29/08/2024, 10:38

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN