MÔ TẢ BÀI TOÁN

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng mô hình dự báo chuỗi thời gian bậc cao và thử nghiệm (Trang 42)

5. Kết cấu luận văn

3.1. MÔ TẢ BÀI TOÁN

Trong chương này, tôi sử dụng lý thuyết của chương 2 để giải quyết bài toán dự báo sản lượng tiêu thụ xăng dầu tại Cửa hàng 01– Petrolimex thuộc Công ty xăng dầu Bình Định. Qua đó, chúng ta sẽ lựa chọn mô hình dự báo phù hợp với từng chu kỳ (theo quí hay tháng).

Trong kinh doanh xăng dầu vấn đề quan trọng nhất là làm thế nào để đáp ứng được nhu cầu tiêu thụ của khách hàng. Bên cạnh đó, doanh nghiệp phải giảm được chi phí tồn kho, trong đó vấn đề dự trữ sản lượng bao nhiêu để cung cấp cho khách hàng trong một tháng, một quí, một năm là đủ, không quá dư thừa mà cũng không thiếụ Do đó, bài toán đặt ra là dựa vào dữ liệu thực tế theo thời gian (tháng, quí, năm) của các năm trước đó và áp dụng mô hình chuỗi thời gian như trình bày trong chương 2 để giải quyết. Bài toán này được áp dụng thực tế tại Cửa hàng 01 – Petrolimex thuộc Công ty xăng dầu Bình Định với dữ liệu được thu thập trong thực tế qua các năm nhằm hỗ trợ thêm cho việc lập kế hoạch kinh doanh.

Tập dữ liệu này được thu thập từ những giá trị thực tế trong quá trình kinh doanh với sản lượng bán ra tại Cửa hàng 01 – Petrolimex thuộc Công ty xăng dầu Bình Định từ năm 2018 đến năm 2019, được cung cấp bởi phòng kế toán thống kê Công tỵ Như mô tả trong chương trước để giải quyết được bài toán này, dữ liệu phải được thu thập liên tục trong các năm theo từng tháng. Dữ liệu bao gồm hai phần: (1) thời gian (tháng, quí, năm) và (2) sản lượng bán ra tương ứng (đơn vị tính là lít).

Ưu điểm khi chọn mô hình dự báo theo tiếp cận đại số gia tử bậc cao là có thể nhóm dữ liệu theo thời gian (tháng, quí, năm), tinh chỉnh các tham số của đại số gia tử cho phù hợp theo từng ngữ cảnh để cho kết quả mong muốn.

Bảng 3.1: Sản lượng xăng dầu tiêu thụ theo tháng (từ năm 2018 đến 2019) STT Năm Tháng Sản lượng bán Năm Tháng Sản lượng bán 1 2018 01 680.761 2019 01 736.869 2 02 655.999 02 644.362 3 03 684.228 03 710.859 4 04 666.487 04 702.023 5 05 703.654 05 697.007 6 06 675.894 06 697.120 7 07 704.357 07 719.812 8 08 697.979 08 709.985 9 09 647.129 09 683.733 10 10 664.976 10 693.460 11 11 650.895 11 661.889 12 12 675.282 12 715.524 3.2. LỰA CHỌN NGÔN NGỮ

Các lĩnh vực công nghệ 4.0 như như học máy, trí tuệ nhân tạo và phân tích dự đoán, khoa học dữ liệu đang ngày càng đạt được nhiều tiến bộ hơn mỗi ngày, và trở thành động lực phát triển của nhân loạị Tất cả những công nghệ trên đều được phát triển dựa trên 1 thứ “nguyên liệu” không thể thiếu: Dữ liệụ Dữ liệu có thể lộn xộn, thiếu giá trị, định dạng không nhất quán, không đúng định dạng và đầy rẫy các ngoại lệ vô nghĩa trong thực tế. Để thu thập và “làm sạch” dữ liệu, các data scientist cần phải nắm và hiểu rõ được ít nhất 1 - 2 ngôn ngữ lập trình. Mặc dù có thể có nhiều công cụ hỗ trợ trong công việc này, nhưng Python là được đánh giá là sự lựa chọn hợp lý nhất.

Có thể nói ngôn ngữ Python đang ở đỉnh cao của sự phổ biến. Các nhà phát triển và nhà nghiên cứu đang sử dụng ngôn ngữ này trong rất nhiều nhiệm vụ khác nhaụ Có thể là thiết kế một ứng dụng doanh nghiệp, đào tạo dữ liệu bằng các mô hình ML (học máy), thiết kế phần mềm tiên tiến hoặc chọn lọc và sắp xếp dữ liệụ Hiện tại không có ngôn ngữ nào khác tốt hơn Python.

Python phù hợp với Khoa học dữ liệu vì:

 Mã nguồn mở: Một trong những ưu điểm lớn nhất của Python là nguồn mở. Điều này có nghĩa là bất cứ ai cũng có đóng góp vào các chức năng hiện có của Python. Trên thực tế, các tổ chức sẽ đưa ra một bộ khung và chức năng riêng giúp họ hoàn thành mục tiêu nhanh hơn, đồng thời cũng hỗ trợ các nhà phát triển khác chia sẻ nền tảng. Các nhà khoa học dữ liệu thường cần kết hợp mã thống kê vào cơ sở dữ liệu sản xuất hoặc tích hợp dữ liệu hiện có với các ứng dụng dựa trên web. Ngoài ra, họ cũng cần phải thực hiện các thuật toán hàng ngàỵ Python giúp cho tất cả những tác vụ trên trở nên bớt rắc rối hơi đối với các nhà khoa học dữ liệụ

 Dễ nắm bắt: Một trong những đặc điểm khiến Python trở nên hấp dẫn nữa là dễ học, để làm quen và dễ thực hành. Dù là những người mới bước chân vào lĩnh vực khoa học dữ liệu hay các chuyên gia giỏi, bất kỳ ai cũng có thể học Python và các thư viện mới của nó mà không phải đầu tư quá nhiều thời gian và tài nguyên như đa số các ngôn ngữ lập trình khác. Các chuyên gia bận rộn thường không có nhiều có thời gian để bắt đầu học 1 ngôn ngữ lập trình mới, điều này khiến khả năng dễ học và dễ hiểu của Python càng trở nên có ích. Ngay cả khi được so sánh với các ngôn ngữ khoa học dữ liệu khác như R và MATLAB, Python vẫn được đánh giá là dễ học hơn.

nói đến khả năng mở rộng. Nó nhanh hơn nhiều so với các ngôn ngữ như MATLAB, R và Stata, cho phép các nhà khoa học và nhà nghiên cứu dữ liệu tiếp cận một vấn đề theo nhiều cách, thay vì chỉ bám vào một cách tiếp cận cụ thể. Cho dù có tin hay không, khả năng mở rộng là lý do tại sao Youtube chọn chuyển đổi các quy trình của họ sang ngôn ngữ Python.

 Các thư viện khoa học dữ liệu của Python giúp cho ngôn ngữ này cho nó trở thành một “cú hích” đối với các nhà khoa học dữ liệụ Từ Numpy, Scipy, StatsModels và sci-kit-learn, Python đã, đang và sẽ tiếp tục thêm các thư viện khoa học dữ liệu vào bộ sưu tập của mình. Nhờ đó, trong con mắt của các nhà khoa học dữ liệu, Python một ngôn ngữ lập trình mạnh mẽ, có thể đáp ứng phần lớn nhu cầu của họ và giúp giải quyết những vấn đề dường như không thể giải quyết được trước tiên.

Anaconda là nền tảng mã nguồn mở về Khoa học dữ liệu trên Python thông dụng nhất hiện naỵ Anaconda là cách nhanh nhất và dễ nhất để học Khoa học dữ liệu với Python hoặc R, để đơn giản hóa việc tạo môi trường khi thực hiện các dự án bằng Python.

Jupyter Notebook cung cấp một trình bao lệnh cho tính toán tương tác như một ứng dụng web. Công cụ này có thể được sử dụng với nhiều ngôn ngữ, bao gồm Python, Julia, R, Haskell và Rubỵ Nó thường được sử dụng để làm việc với dữ liệu, mô hình thống kê và học máỵ

Bằng cách thay đổi số khoảng chia và điều chỉnh tham số của đại số gia tử, ta thu được kết quả sau:

3.4. ĐÁNH GIÁ KẾT QUẢ THỬ NGHIỆM

Qua áp dụng cách tính theo các bước tính toán dựa trên đại số gia tử từ Chương 2, bằng cách tương tự ta có thể tính toán dự báo cho các tháng tiếp theo để nhận được các giá trị dự báo cụ thể. Như vậy với sản lượng xăng dầu từ tháng 4/2018 đến 12/2019, trên cơ sở 6 bước theo tiếp cận đại số gia tử, xây dựng được mô hình dự báo cho từng tháng kế tiếp. Chương trình tính toán được viết bằng Python 3.7 trên môi trường của Jupiter Notebook. Kết quả của mô hình dự báo sử dụng đại số gia tử với sự phụ thuộc bậc k khác nhau, k = 1, 2 và 3 được tổng hợp như trong Bảng 3.2. Hơn nữa, bằng việc điều chỉnh các tham số của đại số gia tử và tăng số khoảng chia, kết quả dự báo được cải thiện một cách đáng kể.

Việc đánh giá mô hình dự báo chuỗi thời gian mờ tốt hay không thường được xác định theo nghĩa cực tiểu sai số trung bình bình phương. Công thức RMSE dưới đây là thước đo được sử dụng thường xuyên để kiểm tra sự khác

biệt giữa các giá trị được dự đoán bởi mô hình và các giá trị thực tế.

Ở đây: RMSE (Root Mean Square Error) sai số trung bình bình phương.

là sản lượng xăng dầu thực tế tại thời điểm ị là sản lượng xăng dầu dự báo tại thời điểm ị

Bảng 3.2: Kết quả dự báo dựa trên đại số gia tử

Năm Sản lượng xăng dầu (Lít) Bậc k=1 Bậc k=2 Bậc k=3 Bậc k=3 (điều chỉnh tham số) 01-2018 680761 02-2018 655999 689616.983812 03-2018 684228 689902.289572 678703.687150 04-2018 666487 688392.914731 678703.687150 681287.433259 664264.469111 05-2018 703654 685227.296715 696183.893552 724746.453003 704957.790582 06-2018 675894 672997.886810 696332.281824 678904.604001 675238.355742 07-2018 704357 689616.983812 696332.281824 681287.433259 706356.749042 08-2018 697979 672997.886810 696332.281824 678904.604001 696115.610073 09-2018 647129 672997.886810 666501.819636 678904.604001 645941.900910 10-2018 664976 689902.289572 696183.893552 678904.604001 665265.411438 11-2018 650895 685227.296715 678703.687150 681287.433259 655511.669130 12-2018 675282 689902.289572 678703.687150 676024.563257 675409.312745 01-2019 736869 689616.983812 678703.687150 724746.453003 736083.517367 02-2019 644362 646096.217098 666501.819636 678904.604001 644389.079166 03-2019 710859 689902.289572 696332.281824 678904.604001 714685.029848

Năm Sản lượng xăng dầu (Lít) Bậc k=1 Bậc k=2 Bậc k=3 Bậc k=3 (điều chỉnh tham số) 04-2019 702023 705851.974194 696332.281824 693038.099720 704487.877321 05-2019 697007 672997.886810 682986.580677 678904.604001 695936.574960 06-2019 697120 688392.914731 696332.281824 693038.099720 695749.713939 07-2019 719812 688392.914731 696332.281824 678904.604001 715075.712707 08-2019 709985 705851.974194 666501.819636 693038.099720 705574.403804 09-2019 683733 672997.886810 682986.580677 693038.099720 685749.713939 10-2019 693460 689616.983812 696332.281824 693038.099720 695490.277708 11-2019 661889 688392.914731 696332.281824 678904.604001 664812.618415 12-2019 715524 685227.296715 696183.893552 681287.433259 715061.091227 RMSE 22468.60 22542.80 21813.45 2395.98 Kết luận Chương 3

Trong chương này chúng tôi đã sử dụng mô hình dự báo theo tiếp cận đại số gia tử và thử nghiệm với sự phụ thuộc bậc k =1, 2, 3 để dự báo mức tiệu thụ xăng dầu qua từng tháng. Theo Bảng 3.2 “Kết quả dự báo dựa trên đại số gia tử” đã cho thấy sự phụ thuộc bậc càng cao thì kết quả dự báo cho ra càng chính xác hơn. Ngoài ra, kết quả cũng cho thấy, dự báo bằng phương pháp này thì việc điều chỉnh các tham số của đại số gia tử cũng rất quan trọng. Tóm lại, mô hình dự báo dựa trên đại số gia tử vẫn còn nhiều vấn đề cần nghiên cứu để tăng độ chính xác hơn nữạ

KẾT LUẬN CHUNG

Dự báo là một bài toán khá thú vị, nắm giữ một vai trò đặc biệt quan trọng, và có ảnh hưởng rất lớn đến việc xác lập kế hoạch hành động, bởi công ty nào có nhận định về dự báo đúng thì sẽ lập kế hoạch đúng và phát triển thành công trong tương laị Tuy nhiên để có một dự báo đúng thì đều phải có một cơ sở suy luận chắc chắn dựa trên dữ liệu chính xác trong quá khứ và quan trọng là có phương pháp tiến hành dự báo phù hợp.

Luận văn được trình bày theo hướng ứng dụng của bài toán dự báo nhu cầu tiêu thụ xăng dầu tại Cửa hàng 01 – Petrolimex thuộc Công ty Xăng dầu Bình Định, trong đó, chúng tôi dùng mô hình dự báo theo tiếp cận đại số gia tử viết bằng ngôn ngữ lập trình Python. Một số kết quả đạt được qua việc thực hiện luận văn:

- Tìm hiểu được một số phương pháp dự báo;

- Nghiên cứu, áp dụng đại số gia tử để giải quyết bài toán dự báo;

- Cải tiến phương pháp dự báo của Chen và Chisom bằng cách sử dụng đại số gia tử. Mô hình dự báo dựa trên đại số gia tử là một mô hình mới, hoàn toàn khác biệt, có khả năng dự báo chuỗi thời gian mờ với độ chính xác caọ Sự khác biệt thể hiện ở phương pháp luận khi lần đầu tiên sử dụng phép ngữ nghĩa hóa phi tuyến thay cho phép mờ hóa, nhóm quan hệ ngữ nghĩa thay cho nhóm quan hệ mờ và phép giải nghĩa phi tuyến thay cho phép giải mờ;

- Thử nghiệm, điều chỉnh các tham số của mô hình dự báo dựa trên đại số gia tử, kết quả thu được tốt hơn hẳn so với việc sử dụng các tham số đơn thuần.

Rõ ràng, trong cách tiếp cận này, nếu xác lập được các tham số tối ưu thì độ chính xác kết quả dự báo sẽ tăng đáng kể. Khi đó, phương pháp dự báo

có thể được áp dụng để giúp doanh nghiệp giải quyết được những vấn đề thực tế. Việc tập hợp chuỗi dữ liệu dạng thời gian có tính chu kỳ theo tháng, quý, năm chắc chắn sẽ làm tăng tính chính xác của dự báo, tuy nhiên dự báo chỉ dựa vào yếu tố sản lượng không là chưa đủ mà còn phải kết hợp nhiều yếu tố ảnh hưởng khác như số lượng xe cộ lưu thông, mật độ dân số, ảnh hưởng bởi thiên tai,… Vì vậy, cần phải xem xét phối hợp nhiều phương pháp dự báo hoặc cải tiến phương pháp dự báo theo hướng phụ thuộc đa chiều (dựa trên nhiều yếu tố) để có thể đưa ra những quyết định đúng đắn trong kinh doanh. Đây cũng là hướng phát triển của đề tàị

DANH MỤC TÀI LIỆU THAM KHẢO

[1] Bùi Công Cường, N.D.Phước (2001), Hệ mờ, Mạng Nơron và ứng dụng

– Tuyển tập các bài giảng, NXB Khoa học và Kỹ thuật, Hà Nộị

[2] Đào Hữu Hồ, NguyễnVăn Hữu, Hoàng Hữu Như (2004), Thống Kê Toán

Học, NXB Đại Học Quốc Gia Hà Nội, Hà Nộị

[3] Đào Xuân Kỳ, Lục Trí Tuyên, Phạm Quốc Vương, Thạch Thị Ninh, “Mô hình markov-chuỗi thời gian mờ trong dự báo chứng khoán”, Hội thảo lần thứ 18: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, TP HCM, trang 119–124, 2015.

[4] Lê Xuân Việt, Dương Hoàng Huyên, Lê Xuân Vinh, Lê Thị Thu Vân,

Phương pháp mới dự báo theo chuỗi thời gian mờ dựa trên đại số gia tử.

[5] Lục Trí Tuyên, Nguyễn Văn Hùng, Thạch Thị Ninh, Phạm Quốc Vương, Nguyễn Minh Đức, Đào Xuân Kỳ, “A normal-hiđen markov model model in forecasting stock index, Journal of Computer Science and Cybernetics”, 28(3):206–216, 2012.

[6] Nghiêm Văn Tính, Nguyễn Công Điều, “Dự báo chuỗi thời gian mờ dựa trên nhóm quan hệ mở phụ thuộc thời gian và tối ưu bầy đàn”, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR'9)”, Cần Thơ, ngày 4 – 5/8/2016.

[7] Nguyễn Cát Hồ, Nguyễn Công Điều, Vũ Như Lân, “Ứng dụng đại số gia tử trong dự báo chuỗi thời gian mờ”, Tạp chí Khoa học và Công nghệ, số 54 (2016), trang 161 – 177.

[8] Nguyễn Công Điều (8 – 2008), Một thuật toán mới cho mô hình chuỗi thời

gian mờ heuristic trong dự báo chứng khoán, Báo cáo tại Đại hội Toán

học toàn quốc, Quy Nhơn.

mô hình chuỗi thời gian mờ, Báo cáo khoa học tại Viện Công nghệ thông

tin, Hà Nộị

[10] Nguyễn Công Điều (2010), Sử dụng mô hình chuỗi thời gian mờ bậc cao

trong dự báo, Báo cáo khoa học tại Viện Công nghệ thông tin, Hà Nộị

[11] Nguyễn Công Điều, Trần Thanh Thương (2010), “Cải biên thuật toán bậc cao của Singh và ứng dụng trong dự báo chuỗi thời gian”, Tạp

chí Khoa học và Công nghệ Đại học Thái Nguyên.

[12] Nguyễn Duy Hiếu, Nghiêm Văn Tính, Vũ Như Lân, “Một phương pháp dự báo chuỗi thời gian mờ dựa trên ngữ nghĩa ngôn ngữ”, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX - Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR'9); Cần Thơ, ngày 4 – 5/8/2016.

[13] NguyễnVăn Hữu, Nguyễn Hữu Dư (2003), Phân Tích Thống Kê Và Dự

Báo, NXB Đại Học Quốc Gia Hà Nội, Hà Nộị

[14] Trần Đức Minh, Trần Huy Dương, Vũ Đức Thi (2015), “Một số vấn đề về dự báo chuỗi thời gian”, Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Hà Nội,

ngày 9 – 10/7/2015.

[15] Trần Thanh Thương, Ứng dụng mô hình dự báo chuỗi thời gian mờ,

Luận văn Thạc sĩ, Đại học Thái Nguyên, 2010.

[16] Trần Văn Tâm Em, Nghiên cứu ứng dụng chuỗi thời gian trong việc dự

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng mô hình dự báo chuỗi thời gian bậc cao và thử nghiệm (Trang 42)

Tải bản đầy đủ (PDF)

(62 trang)