1. Trang chủ
  2. » Luận Văn - Báo Cáo

báo cáo đồ án học phần khoa học dữ liệu phân tích và dự báo dữ liệu người dùng đăng ký netflix

50 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Từ việc tìm ra mô hình dự báo, phân loại, nhận dạng, đến việc tạo ra hệ thống thông minh và xây dựng các thuật toán học máy, khoa học dữ liệu đóng vai trò then chốt trong việc phân tích

Trang 1

ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ

BỘ MÔN CÔNG NGHỆ THÔNG TIN

BÁO CÁO ĐỒ ÁN HỌC PHẦN

Đề tài:

GVHD: TS.GVC Nguyễn Quốc Hùng Nhóm Thực hiện: Nhóm 7

Nguyễn Đình Trọng Thiện( Trưởng nhóm) 88232020165

TP Hồ Chí Minh, ngày 05 tháng 08 năm 2023

Trang 2

BẢNG PHÂN CÔNG CÁC THÀNH VIÊN 9

Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 10

1 Khoa học dữ liệu là gì? 10

2 Công dụng của KHDL? 10

2.1 Dự đoán và đưa ra quyết định 10

2.2 Phân tích và hiểu biết dữ liệu 11

2.3 Tối ưu hóa quy trình và hiệu suất 11

2.4 Phát triển sản phẩm và dịch vụ thông minh 11

2.5 Nghiên cứu và phát triển mới 11

2.6 Phân tích xã hội và chính trị 11

3 Quy trình khoa học dữ liệu là gì? 11

4 Một số ứng dụng tiêu biểu của khoa học dữ liệu: 12

5 Lý do chọn đề tài 13

Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 14

1 Các phương pháp sử dụng Excel để khai thác dữ liệu 14

1.1 Phương pháp thống kê mô tả 14

a Thống kê bằng công cụ Descriptive Statistics 14

b Báo cáo tổng hợp nhóm với Subtotal 15

c Hợp nhất dữ liệu với Consolidate 16

d Tổng hợp đa chiều với Pivot Table 18

1.2 Phương pháp phân tích dự báo 19

a Phương pháp Trung bình trượt (Moving Average) 19

b Phương pháp san bằng mũ (Exponential Smoothing) 21

c Phương pháp hồi quy (Regression) 22

1.3 Phương pháp phân tích tối ưu 24

a Các bước lập mô hình 24

b Công cụ SOLVER để giải mô hình kinh tế 24

Trang 3

2 Phần mềm Orange 27

2.1 Tổng quan về orange 27

2.2 Tính năng 28

3 Phương pháp phân lớp dữ liệu trên Orange 32

3.1 Bài toán phân lớp dữ liệu 32

a Định nghĩa 32

b Quy trình phân lớp dữ liệu 32

c Phân loại bài toán phân lớp 32

3.2 Một số phương pháp phân lớp dữ liệu 33

3.3 Các phương pháp đánh giá mô hình phân lớp 35

1.2 Description - Mô tả dữ liệu 38

1.3 Thống kê mô tả dữ liệu 39

Trang 4

DANH MỤC HÌNH ẢNH

Hình 1: Data Science và các lĩnh vực liên quan 10

Hình 2: Hộp thoại Descriptive Statistics 14

Hình 3: Thống kê mô tả số lượng tài khoản thanh toán lần cuối trong tháng 6/2023 của Netflix 15

Hình 4: Kết quả ví dụ thống kê mô tả 15

Hình 13: Hộp thoại Moving Average 20

Hình 14: Kết quả dự báo của phương pháp Moving Average 20

Hình 15: Lệnh Exponential Smoothing 21

Hình 16: Hộp thoại Exponential Smoothing 21

Hình 17: Kết quả dự báo phương pháp Exponential Smoothing 22

Hình 18: Lệnh Regression 23

Hình 19: Hộp thoại Regression 24

Hình 20: Kết quả phương pháp Regression 24

Hình 21: Thiết lập bảng tính cho phương pháp Solver 25

Hình 22: Khai báo các thông số vào hộp thoại Solver 25

Hình 23: Hộp thoại Solver Results 26

Hình 24: Kết quả của phương pháp Solver 26

Hình 25: Phần mềm Orange 27

Hình 26: Tải file dữ liệu lên Orange 28

Hình 27: Chức năng Data Table 29

Hình 28: Chức năng Data Table 29

Hình 29: Xem dữ liệu trên Data Table 29

Hình 30: Chức năng Select Rows 30

Hình 31: Chức năng Select Columns 30

Hình 32: Chức năng Save Data 30

Hình 33: Thư mục lưu trữ 31

Hình 34: Chức năng Data Sampler 31

Trang 5

Hình 35: Quá trình phân lớp dữ liệu 32

Hình 36: Hộp thoại hồi quy Logistic Regression 33

Hình 37: Đồ họa phương pháp hồi quy Logistic 33

Hình 45: Giao diện nạp dữ liệu vào phần mềm Orange 37

Hình 46: Dữ liệu Netflix Data 38

Hình 47: Thống kê tỷ lệ các gói Netflix khách hàng sử dụng 39

Hình 48: Tỷ lệ đăng ký dịch vụ Netflix tại các quốc gia 40

Hình 49: Tỷ lệ sử dụng thiết bị của người dùng Netflix 41

Hình 50: Tỷ lệ độ tuổi đăng ký Netflix 41

Hình 51: Tỷ lệ giới tính đăng ký Netflix 42

Hình 52: Lấy mẫu từ dữ liệu gốc 43

Hình 53: Mẫu dữ liệu huấn luyện xem trên Data Table 43

Hình 54: Mô hình đánh giá các phương pháp dự báo 44

Hình 55: Bảng kết quả từ Test and Score 44

Hình 56: Kết quả ma trận nhầm lẫn của phương pháp Tree 45

Hình 57: Kết quả ma trận nhầm lẫn của phương pháp hồi quy Logistic 45

Hình 58: Kết quả ma trận nhầm lẫn của phương pháp SVM 46

Hình 59: ROC 46

Hình 60: Mô hình dự báo 100 mẫu dữ liệu 47

Hình 61: Kết quả dự báo của 100 mẫu dữ liệu 48

Trang 6

DANH MỤC BẢNG BIỂU

Bảng 1: Các loại biến 38

Bảng 2: Bảng thống kê về gói Netflix khách hàng sử dụng 39

Bảng 3: Thống kê về số lượng người mua Netflix của các quốc gia 39

Bảng 4: Thống kê các thiết bị sử dụng dịch vụ Netflix 40

Bảng 5: Bảng tần số & tần suất các thế hệ sử dụng Netflix 41

Bảng 6: Bảng thống kê về tỷ lệ giới tính đăng ký Netflix 42

Trang 8

LỜI MỞ ĐẦU

Lời đầu tiên cho nhóm em xin được gửi lời cảm ơn đến trường UEH Đại học Kinh tế Hồ Chí Minh đã đưa môn học Khoa học dữ liệu này vào giáo trình giảng dạy, và đặc biệt chúng em cũng cảm ơn đến thầy Nguyễn Quốc Hùng đã tận tình hướng dẫn và truyền đạt cho lớp về những kiến thức cơ sở dữ liệu khoa học rất bổ ích Nhờ có những kiến thức này chúng em có được góc nhìn và thấy được sự lợi ích của khoa học đối với đời sống con người, đặc biệt đối với một thời đại ngày càng tiên tiến và công nghệ hóa Từ việc tìm ra mô hình dự báo, phân loại, nhận dạng, đến việc tạo ra hệ thống thông minh và xây dựng các thuật toán học máy, khoa học dữ liệu đóng vai trò then chốt trong việc phân tích và sử dụng thông tin để tạo ra giá trị thực tế Việc ứng dụng các kỹ thuật và công nghệ mới, khoa học dữ liệu có thể đem lại những giải pháp đột phá trong các lĩnh vực như y tế, tài chính, marketing và nhiều lĩnh vực khác trong xã hội

Trong đồ án này, nhóm chúng em sẽ giới thiệu lý thuyết tổng quan về cơ sở khoa học dữ liệu và lý do chọn đề tài làm đồ án kết thúc môn học Nhóm sẽ vận dụng các kỹ thuật và công cụ trong khoa học dữ liệu để phân tích về đề tài Và cuối cùng chúng ta sẽ thấy được bức tranh tổng quan từ các phương pháp thống kê, tối ưu để đánh giá kết quả và đưa ra các phương hướng phát triển trong tương lai

Trang 9

BẢNG PHÂN CÔNG CÁC THÀNH VIÊN

TT Họ và tên Công việc phụ trách hoàn Mức độ thành

+ Một số ứng dụng tiêu biểu của KHDL

- Chương 4: Đánh giá mô hình và đưa ra kết luận

Trang 10

Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1 Khoa học dữ liệu là gì?

- Khoa học dữ liệu (hay còn được gọi là Data Science) là một lĩnh vực nghiên cứu và ứng dụng các phương pháp, công cụ và kỹ thuật để hiểu và phân tích dữ liệu Mục tiêu chính của khoa học dữ liệu là trích xuất kiến thức, thông tin hữu ích và đưa ra dự đoán từ các tập dữ liệu lớn và phức tạp

- Khoa học dữ liệu kết hợp các phương pháp từ nhiều lĩnh vực như thống kê, toán học, máy học, khai phá dữ liệu và lập trình để xử lý, phân tích và hiển thị thông tin từ dữ liệu Quá trình này bao gồm thu thập dữ liệu, tiền xử lý (cleaning), biểu diễn, rút trích đặc trưng, xây dựng mô hình dự đoán và phân tích kết quả để đưa ra những quyết định hỗ trợ và giải quyết các vấn đề phức tạp

- Khoa học dữ liệu (Data science) gồm ba phần chính: tạo và quản trị dữ liệu, phân tích dữ liệu, và áp dụng kết quả phân tích thành những hành động có giá trị Việc phân tích và sử dụng dữ liệu dựa vào ba nguồn tri thức: toán học (thống kê toán học - Mathematical Statistics), công nghệ thông tin (máy học - Machine Learning) và tri thức của lĩnh vực ứng dụng cụ thể Tất cả ba phần này đều liên kết chặt chẽ và tương tác với nhau để đạt được sự hiểu biết và giá trị từ dữ liệu Việc thực hiện một quy trình khoa học dữ liệu hiệu quả và đạt được kết quả tốt yêu cầu kiến thức sâu sắc về các phương pháp, công cụ và kỹ thuật trong lĩnh vực này

Hình 1: Data Science và các lĩnh vực liên quan

2 Công dụng của KHDL?

2.1 Dự đoán và đưa ra quyết định

Khoa học dữ liệu giúp xây dựng các mô hình dự đoán để dự đoán các sự kiện và xu hướng trong tương lai Các mô hình này có thể được áp dụng trong kinh doanh, tài chính, y tế và nhiều lĩnh vực khác để đưa ra quyết định thông minh và tối ưu hóa hiệu quả hoạt động

Trang 11

2.2 Phân tích và hiểu biết dữ liệu

Khoa học dữ liệu giúp phân tích và khám phá thông tin tiềm ẩn trong dữ liệu Nó có thể giúp hiểu rõ hơn về mối quan hệ giữa các biến, tìm kiếm những xu hướng ẩn trong dữ liệu

và đưa ra các nhận định, giả định có giá trị 2.3 Tối ưu hóa quy trình và hiệu suất

Khi được áp dụng vào các công nghiệp và tổ chức, khoa học dữ liệu có thể giúp tối ưu hóa các quy trình và hoạt động Việc sử dụng dữ liệu để tối ưu hóa quy trình sản xuất, quản lý lượng tồn kho, tối ưu hóa vận chuyển và lên kế hoạch sản xuất có thể giúp giảm chi phí và tăng hiệu suất

2.4 Phát triển sản phẩm và dịch vụ thông minh

Khoa học dữ liệu là cơ sở cho phát triển các sản phẩm và dịch vụ thông minh Các ứng dụng trí tuệ nhân tạo, học máy và các công nghệ khác dựa trên dữ liệu đã mở ra khả năng tạo ra các sản phẩm và dịch vụ tiên tiến, như chatbot, hệ thống tự động lái xe, hệ thống gợi ý và phân loại nội dung

2.5 Nghiên cứu và phát triển mới

Khoa học dữ liệu có vai trò quan trọng trong việc nghiên cứu và phát triển mới Nó giúp các nhà khoa học và nhà nghiên cứu tìm hiểu về dữ liệu, khám phá kiến thức mới và giúp định hình các lĩnh vực nghiên cứu tiềm năng

2.6 Phân tích xã hội và chính trị

Khoa học dữ liệu có thể được áp dụng để phân tích và hiểu biết về hành vi xã hội và chính trị Nó có thể giúp đánh giá hiệu quả chính sách công, phân tích ý kiến của công chúng, và tìm hiểu xu hướng và tư duy trong cộng đồng

3 Quy trình khoa học dữ liệu là gì?

Quy trình khoa học dữ liệu bao gồm một loạt các bước và giai đoạn để phân tích dữ liệu và đưa ra những hiểu biết hữu ích từ các tập dữ liệu Mặc dù quy trình này có thể có sự biến đổi tùy thuộc vào từng dự án cụ thể, tuy nhiên, có thể tóm tắt quy trình khoa học dữ liệu chung như sau:

- Xác định vấn đề và mục tiêu

Bước đầu tiên trong quy trình khoa học dữ liệu là xác định rõ ràng vấn đề hoặc câu hỏi mà bạn muốn giải quyết và mục tiêu bạn muốn đạt được từ việc phân tích dữ liệu Điều này sẽ giúp định hình phạm vi của dự án và xác định những dữ liệu cần thiết để trả lời các câu hỏi này - Thu thập dữ liệu

Tiếp theo, bạn cần thu thập dữ liệu từ các nguồn khác nhau phù hợp với mục tiêu của bạn Dữ liệu có thể được thu thập từ cơ sở dữ liệu, bộ thu thập dữ liệu trực tuyến, các tập tin lưu trữ, trang web, cảm biến, hoặc bất kỳ nguồn dữ liệu nào liên quan đến vấn đề bạn đang nghiên cứu

- Tiền xử lý dữ liệu

Sau khi thu thập dữ liệu, bước tiếp theo là tiền xử lý dữ liệu Trong giai đoạn này, dữ liệu sẽ được kiểm tra và làm sạch để loại bỏ các giá trị thiếu, nhiễu và dữ liệu không hợp lệ Bạn cần chuẩn hóa dữ liệu và biến đổi nó để sẵn sàng cho phân tích

Trang 12

- Khám phá và phân tích dữ liệu

Sau khi dữ liệu đã được tiền xử lý, bạn có thể bắt đầu khám phá và phân tích dữ liệu Các phương pháp thống kê và khai phá dữ liệu được sử dụng để tìm kiếm các mẫu, xu hướng và thông tin hữu ích từ dữ liệu

- Xây dựng mô hình dự đoán

Trong bước này, bạn sẽ xây dựng các mô hình dự đoán sử dụng các kỹ thuật máy học và học máy Mô hình này có thể được sử dụng để dự đoán các sự kiện trong tương lai hoặc phân loại các dữ liệu mới

- Đánh giá và tinh chỉnh mô hình

Mô hình dự đoán cần được đánh giá và tinh chỉnh để đảm bảo hiệu suất tốt và đáng tin cậy Bạn có thể sử dụng các phương pháp đánh giá mô hình như cross-validation để kiểm tra độ chính xác của mô hình trên dữ liệu thử nghiệm

- Trình bày kết quả

Cuối cùng, bạn sẽ trình bày kết quả của quá trình khoa học dữ liệu một cách rõ ràng và dễ hiểu Báo cáo, biểu đồ, biểu đồ và tóm tắt được sử dụng để hiển thị các kết quả và giải thích ý nghĩa của chúng

- Ứng dụng kết quả

Kết quả của quá trình khoa học dữ liệu có thể được áp dụng vào các lĩnh vực khác nhau, từ đưa ra quyết định trong kinh doanh, tối ưu hóa quy trình sản xuất, cải thiện hiệu suất, phát triển sản phẩm thông minh, đưa ra chính sách công, và nhiều ứng dụng khác

4 Một số ứng dụng tiêu biểu của khoa học dữ liệu:

- Amazon và Netflix: Cả Amazon và Netflix sử dụng khoa học dữ liệu để tạo ra gợi ý sản phẩm và nội dung cá nhân hóa dựa trên hành vi mua sắm và xem phim của khách hàng Điều này giúp cải thiện trải nghiệm người dùng và tăng doanh số bán hàng

- Uber và Grab: Các dịch vụ gọi xe như Uber và Grab sử dụng khoa học dữ liệu để dự đoán và tối ưu hóa thời gian đợi, tuyến đường và giá cước dựa trên thông tin giao thông thời gian thực và mô hình học máy

- Google Maps: Google Maps sử dụng khoa học dữ liệu và học máy để cung cấp thông tin lưu lượng giao thông thời gian thực, đề xuất tuyến đường tối ưu và dự báo thời gian đến đích

- Spotify: Spotify sử dụng khoa học dữ liệu để tạo ra danh sách phát và gợi ý âm nhạc cá nhân dựa trên sở thích âm nhạc và lịch sử nghe nhạc của người dùng

- IBM Watson: IBM Watson là một hệ thống trí tuệ nhân tạo dựa trên khoa học dữ liệu Nó được sử dụng trong nhiều lĩnh vực, bao gồm y tế (phân tích hình ảnh y khoa,

- chẩn đoán bệnh), quản lý tri thức doanh nghiệp, dịch vụ khách hàng và nhiều ứng dụng khác

- Facebook: Facebook sử dụng khoa học dữ liệu để phân tích hành vi người dùng, gợi ý bạn bè, hiển thị nội dung và quảng cáo cá nhân hóa, và phát hiện hoạt động giả mạo và spam

Trang 13

5 Lý do chọn đề tài

Với sự phát triển không ngừng của thương mại điện tử và sự tối ưu của nền tảng công nghệ cho phép khả năng truy cập trực tuyến của Netflix trở nên thuận tiện và độc đáo trong nhiều năm qua, không có nhiều công ty truyền thông cung cấp như vậy, điều này làm cho nền tảng này trở nên hấp dẫn Việc thu thập và nắm bắt dữ liệu của người dùng giúp nhà quản lý hiểu rõ hơn về nhu cầu thị hiếu và sở thích của họ Bằng cách thu thập và phân tích dữ liệu từ các thông tin người đăng ký trên hệ thống, loại hình đăng ký, nơi đăng ký, chúng ta có thể tạo ra những báo cáo dự đoán và phân tích về xu hướng của người dùng cho việc đăng ký gói Netflix Vì vậy nhóm quyết định chọn đề tài “Phân tích và dự báo dữ liệu người dùng đăng ký Netflix” để chúng ta sẽ có bức tranh và nhìn thấy được thị hiếu của khách hàng về kênh Netflix trong tương lai là như thế nào Nhờ đó nhà quản lý có thể chuẩn bị trước cho mình các chiến lược và sự đầu tư để phát triển lĩnh vực này

Trang 14

Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG

1 Các phương pháp sử dụng Excel để khai thác dữ liệu 1.1 Phương pháp thống kê mô tả

a Thống kê bằng công cụ Descriptive Statistics

- Thống kê mô tả (Descriptive Statistics) là một phương pháp trong thống kê dùng để mô tả và tổng hợp các dữ liệu quan sát được Thống kê mô tả cho phép bạn biết được giá trị trung bình, phương sai, độ lệch chuẩn, phân vị, min, max và các đặc tính khác của dữ liệu Những thông tin này giúp bạn có cái nhìn tổng quan về dữ liệu, giúp bạn hiểu rõ hơn về sự phân bố và tính chất của dữ liệu

- Cách thực hiện:

 Bước 1: Chuẩn bị bảng số liệu cần thống kê

 Bước 2: Chọn lệnh Data -> Data Analysis -> Descriptive Statistics, sau đó hộp thoại

Descriptive Statistics xuất hiện

Hình 2: Hộp thoại Descriptive Statistics

 Bước 3: Khai báo các thông số Input và Output Options, trong đó:

 Input Range: Vùng đưa dữ liệu cần thống kê vào  Output Range: Vùng dữ liệu kết quả sau khi thống kê  Summary statistics: Thông số thống kê tổng hợp

 Confidence Level for Mean: Độ tin cậy của giá trị trung bình

Trang 15

Ví dụ minh họa:

Hình 3: Thống kê mô tả số lượng tài khoản thanh toán lần cuối trong tháng 6/2023 của Netflix

Hình 4: Kết quả ví dụ thống kê mô tả

b Báo cáo tổng hợp nhóm với Subtotal

- Chức năng: Cho phép người dùng nhóm dữ liệu theo một trường (hoặc nhiều trường) và tính toán các tổng hợp cho mỗi nhóm Tính năng này cho phép người dùng thực hiện phân tích dữ liệu dễ dàng và nhanh chóng, cung cấp cái nhìn tổng quan về phân phối của các giá trị trong dữ liệu

Trang 16

- Cách thực hiện:

 Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm  Bước 2: Chọn toàn bộ cơ sở dữ liệu

 Bước 3: Chọn Data ->Outline -> Subtotal, sau đó hộp thoại Subtotal xuất hiện

 Bước 4: Chọn các thông số, trong đó:

 At each change in: chọn cột gom nhóm

 Use function: chọn hàm thống kê dùng để tổng hợp dữ liệu (sum, count, )  Add subtotal to: chọn cột thống kê giá trị

 Replace current subtotals: chọn để thay thế kết quả thống kê trước đó  Summary below data: chọn để kết quả tổng hợp dưới mỗi nhóm

Ví dụ minh họa:

Hình 5: Hộp thoại Subtotal

Hình 6: Kết quả ví dụ

c Hợp nhất dữ liệu với Consolidate

- Chức năng: cho phép tổng hợp nhiều dữ liệu từ các bảng khác nhau thành 1 bảng duy nhất, giúp người dùng có một cái nhìn toàn diện hơn

- Consolidate có thể hợp nhất dữ liệu theo 2 hình thức:

Trang 17

 Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc

 Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về cấu trúc - Cách thực hiện:

 Bước 1: Chọn vùng chứa kết quả dữ liệu được hợp nhất

 Bước 2: Chọn Data -> Data Tools -> Consolidate, hộp thoại Consolidate xuất hiện

Ví dụ minh họa:

Hình 7: Hộp thoại Consolidate

Hình 8: Thống kê mô tả

Hình 9: Kết quả ví dụ

Trang 18

Trong đó:

 Function : chọn hàm tổng hợp

 Reference : để tham chiếu lần lượt các bảng dữ liệu nguồn

 All references: chứa tất cả các vùng dữ liệu nguồn cần thiết cho việc hợp nhất  Top row: chọn nếu muốn dùng tên cột của vùng nguồn

 Left column: chọn nếu muốn dùng các giá trị của cột đầu tiên của vùng nguồn

d Tổng hợp đa chiều với Pivot Table

- Chức năng: tổng hợp và phân tích dữ liệu với nhiều góc độ và nhiều cấp khác nhau - Cách thực hiện:

 Bước 1: Chọn vào ô bất kỳ trên cơ sở dữ liệu

 Bước 2: Chọn lệnh Insert -> PivotTable, hộp thoại Create PivotTable xuất hiện

Ví dụ minh họa:

Hình 10: Thống kê bằng Pivot Table

Trang 19

Hình 11: Kết quả ví dụ

1.2 Phương pháp phân tích dự báo

a Phương pháp Trung bình trượt (Moving Average)

- Khái niệm: Phương pháp Moving Average (trung bình động) là một trong những phương pháp đơn giản và phổ biến nhất trong việc dự báo và phân tích chuỗi dữ liệu thời gian Phương pháp này sử dụng trung bình cộng của các giá trị quan sát trong một khoảng thời gian cố định để dự báo giá trị tiếp theo

- Các bước thực hiện trên Excel:

 Bước 1: Chuẩn bị bảng Data cần dự báo

 Bước 2: Chọn lệnh Data → Data Analysis → Moving Average, xuất hiện hộp thoại

Moving Average

Hình 12: Lệnh Moving Average

Trang 20

 Bước 3: Khai báo các thông số Input và Output Options, trong đó:

 Input Range : tham chiếu đến vùng dữ liệu thực tế

 Labels in First Row: Khai báo hàng đầu tiên của input range có chứa tiêu đề cột hay không

 Interval: số lượng các kỳ trước đó muốn tính (w)

 Output Range: tham chiếu đến vùng xuất kết quả Những ô không đủ số lượng các giá trị trước đó để tính toán sẽ nhận giá trị #N/A

 Chart Output: tùy chọn dùng tạo biểu đồ nhúng cùng với vùng xuất kết quả  Standard Errors: tùy chọn dòng tạo thêm 1 cột chứa các sai số chuẩn

Hình 13: Hộp thoại Moving Average

Hình 14: Kết quả dự báo của phương pháp Moving Average

Trang 21

b Phương pháp san bằng mũ (Exponential Smoothing)

- Cách thực hiện trên Excel:

 Bước 1: Chuẩn bị bảng số liệu cần dự báo

 Bước 2: Chọn lệnh Data → Data Analysis → Exponential Smoothing, xuất hiện hộp

thoại Exponential Smoothing

Hình 15: Lệnh Exponential Smoothing

 Bước 3: Khai báo các thông số Input và Output Options, trong đó:

 Input Range : tham chiếu đến vùng dữ liệu thực tế

 Damping factor: giá trị dùng làm hệ số san bằng Đó là giá trị điều chỉnh sự bất ổn của dữ liệu, giá trị mặc định là Damping factor (1-a)

 Labels: tùy chọn cho biết hàng/cột đầu tiên của input range có chứa tiêu đề hay không

Hình 16: Hộp thoại Exponential Smoothing

Trang 22

Hình 17: Kết quả dự báo phương pháp Exponential Smoothing

c Phương pháp hồi quy (Regression)

- Khái niệm: Phương pháp hồi quy là một phương pháp được sử dụng để phân tích mối quan hệ giữa một biến phụ thuộc và một hay nhiều biến độc lập

- Cách thực hiện trên Excel:

 Cách thực hiện bằng đồ thị:

Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo

Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉ chứa

biến độc lập X

Bước 3: Vẽ đồ thị dạng Scatter

Bước 4: Click chuột phải vào data series, chọn Add Trendlin

Bước 5: Tuỳ chọn hiển thị trong Trendline Options:

 Linear: dạng đường thẳng  Display Equation on chart

 Display R-squared value on chart

 Cách thực hiện bằng công cụ Regression:

Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo

Bước 2: Chọn lệnh Data→ Data Analysis → Regression, xuất hiện hộp thoại

Regression

Trang 23

Hình 18: Lệnh Regression

Bước 3: Khai báo các thông số Input và Output Options

 Input Y Range: Vùng địa chỉ chứa biến phụ thuộc Y

 Input X Range: Vùng địa chỉ chứa các biến độc lập X (Có thể chọn nhiều biến X trong trường hợp hồi quy đa biến)

 Labels: Tích vào mục này để khẳng định ô (các ô) đầu tiên không chứa dữ liệu hồi quy

 Constant is Zero: Tích vào mục này để khẳng định hệ số tự do của hàm hồi quy tuyến tính a = 0

 Confidentce Level: Độ tin cậy của hồi quy (mặc định là 95%) bằng 1-α, với α là mức ý nghĩa hay xác suất mắc sai lầm loại một, bác bỏ H0 trong khi H0 đúng

 Output Range: Vùng hoặc ô phía trên bên trái của vùng chứa kết quả  New Worksheet Ply: In kết quả ra một sheet khác

 New Workbook: In kết quả ra một file Excel mới  Residuals: Sai số do ngẫu nhiên

 Standardardlized Residuals: Chuẩn hóa sai số  Residuals Plots: Đồ thị sai số

 Line Fit Plots: Đồ thị hàm hồi quy tuyến tính

 Normal Probability Plots: Đồ thị xác suất phân phối chuẩn

Trang 24

Hình 19: Hộp thoại Regression

Hình 20: Kết quả phương pháp Regression

1.3 Phương pháp phân tích tối ưu a Các bước lập mô hình

- Bước 1: Xác định biến quyết định

- Bước 2: Xác định hàm mục tiêu

- Bước 3: Xác định hệ ràng buộc

b Công cụ SOLVER để giải mô hình kinh tế

- Bước 1: Thiết lập bảng tính

Trang 25

Hình 21: Thiết lập bảng tính cho phương pháp Solver

Giả sử : Công ty Netflix đang có giới hạn về Chi phí bản quyền, Chi phí ưu đãi và Số lượng quà tặng dành cho người dùng đăng ký Netflifx, nhà đầu tư đang cần tính toán để đạt tối ưu hóa lợi nhuận khi sử dụng hết các nguồn tài nguyên này thì sẽ có bao nhiêu người đăng ký Netflix ở mỗi gói

- Bước 2: Chọn lệnh Data → Analysis → Solver, khai báo các tham số của bài toán:

 Set Objective: Nhập ô chứa hàm mục tiêu, trong trường hợp này là $E$5  Chọn Max vì bài toán này là tối đa hóa lợi nhuận

 By Changing Variable Cells: Nhập ô chứa các biến quyết định, trong trường hợp này là $C$4 :$D$4

 Đưa các ràng buộc vào Subject to the Contraints bằng cách nhấn nút Add

Hình 22: Khai báo các thông số vào hộp thoại Solver

Ngày đăng: 22/07/2024, 17:29

TỪ KHÓA LIÊN QUAN

w