Từ việc tìm ra mô hình dự báo, phân loại, nhận dạng, đến việc tạo ra hệ thống thông minh và xây dựng các thuật toán học máy, khoa học dữ liệu đóng vai trò then chốt trong việc phân tích
Trang 1ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ
BỘ MÔN CÔNG NGHỆ THÔNG TIN
BÁO CÁO ĐỒ ÁN HỌC PHẦN
Đề tài:
GVHD: TS.GVC Nguyễn Quốc Hùng Nhóm Thực hiện: Nhóm 7
Nguyễn Đình Trọng Thiện( Trưởng nhóm) 88232020165
TP Hồ Chí Minh, ngày 05 tháng 08 năm 2023
Trang 2BẢNG PHÂN CÔNG CÁC THÀNH VIÊN 9
Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 10
1 Khoa học dữ liệu là gì? 10
2 Công dụng của KHDL? 10
2.1 Dự đoán và đưa ra quyết định 10
2.2 Phân tích và hiểu biết dữ liệu 11
2.3 Tối ưu hóa quy trình và hiệu suất 11
2.4 Phát triển sản phẩm và dịch vụ thông minh 11
2.5 Nghiên cứu và phát triển mới 11
2.6 Phân tích xã hội và chính trị 11
3 Quy trình khoa học dữ liệu là gì? 11
4 Một số ứng dụng tiêu biểu của khoa học dữ liệu: 12
5 Lý do chọn đề tài 13
Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 14
1 Các phương pháp sử dụng Excel để khai thác dữ liệu 14
1.1 Phương pháp thống kê mô tả 14
a Thống kê bằng công cụ Descriptive Statistics 14
b Báo cáo tổng hợp nhóm với Subtotal 15
c Hợp nhất dữ liệu với Consolidate 16
d Tổng hợp đa chiều với Pivot Table 18
1.2 Phương pháp phân tích dự báo 19
a Phương pháp Trung bình trượt (Moving Average) 19
b Phương pháp san bằng mũ (Exponential Smoothing) 21
c Phương pháp hồi quy (Regression) 22
1.3 Phương pháp phân tích tối ưu 24
a Các bước lập mô hình 24
b Công cụ SOLVER để giải mô hình kinh tế 24
Trang 32 Phần mềm Orange 27
2.1 Tổng quan về orange 27
2.2 Tính năng 28
3 Phương pháp phân lớp dữ liệu trên Orange 32
3.1 Bài toán phân lớp dữ liệu 32
a Định nghĩa 32
b Quy trình phân lớp dữ liệu 32
c Phân loại bài toán phân lớp 32
3.2 Một số phương pháp phân lớp dữ liệu 33
3.3 Các phương pháp đánh giá mô hình phân lớp 35
1.2 Description - Mô tả dữ liệu 38
1.3 Thống kê mô tả dữ liệu 39
Trang 4DANH MỤC HÌNH ẢNH
Hình 1: Data Science và các lĩnh vực liên quan 10
Hình 2: Hộp thoại Descriptive Statistics 14
Hình 3: Thống kê mô tả số lượng tài khoản thanh toán lần cuối trong tháng 6/2023 của Netflix 15
Hình 4: Kết quả ví dụ thống kê mô tả 15
Hình 13: Hộp thoại Moving Average 20
Hình 14: Kết quả dự báo của phương pháp Moving Average 20
Hình 15: Lệnh Exponential Smoothing 21
Hình 16: Hộp thoại Exponential Smoothing 21
Hình 17: Kết quả dự báo phương pháp Exponential Smoothing 22
Hình 18: Lệnh Regression 23
Hình 19: Hộp thoại Regression 24
Hình 20: Kết quả phương pháp Regression 24
Hình 21: Thiết lập bảng tính cho phương pháp Solver 25
Hình 22: Khai báo các thông số vào hộp thoại Solver 25
Hình 23: Hộp thoại Solver Results 26
Hình 24: Kết quả của phương pháp Solver 26
Hình 25: Phần mềm Orange 27
Hình 26: Tải file dữ liệu lên Orange 28
Hình 27: Chức năng Data Table 29
Hình 28: Chức năng Data Table 29
Hình 29: Xem dữ liệu trên Data Table 29
Hình 30: Chức năng Select Rows 30
Hình 31: Chức năng Select Columns 30
Hình 32: Chức năng Save Data 30
Hình 33: Thư mục lưu trữ 31
Hình 34: Chức năng Data Sampler 31
Trang 5Hình 35: Quá trình phân lớp dữ liệu 32
Hình 36: Hộp thoại hồi quy Logistic Regression 33
Hình 37: Đồ họa phương pháp hồi quy Logistic 33
Hình 45: Giao diện nạp dữ liệu vào phần mềm Orange 37
Hình 46: Dữ liệu Netflix Data 38
Hình 47: Thống kê tỷ lệ các gói Netflix khách hàng sử dụng 39
Hình 48: Tỷ lệ đăng ký dịch vụ Netflix tại các quốc gia 40
Hình 49: Tỷ lệ sử dụng thiết bị của người dùng Netflix 41
Hình 50: Tỷ lệ độ tuổi đăng ký Netflix 41
Hình 51: Tỷ lệ giới tính đăng ký Netflix 42
Hình 52: Lấy mẫu từ dữ liệu gốc 43
Hình 53: Mẫu dữ liệu huấn luyện xem trên Data Table 43
Hình 54: Mô hình đánh giá các phương pháp dự báo 44
Hình 55: Bảng kết quả từ Test and Score 44
Hình 56: Kết quả ma trận nhầm lẫn của phương pháp Tree 45
Hình 57: Kết quả ma trận nhầm lẫn của phương pháp hồi quy Logistic 45
Hình 58: Kết quả ma trận nhầm lẫn của phương pháp SVM 46
Hình 59: ROC 46
Hình 60: Mô hình dự báo 100 mẫu dữ liệu 47
Hình 61: Kết quả dự báo của 100 mẫu dữ liệu 48
Trang 6DANH MỤC BẢNG BIỂU
Bảng 1: Các loại biến 38
Bảng 2: Bảng thống kê về gói Netflix khách hàng sử dụng 39
Bảng 3: Thống kê về số lượng người mua Netflix của các quốc gia 39
Bảng 4: Thống kê các thiết bị sử dụng dịch vụ Netflix 40
Bảng 5: Bảng tần số & tần suất các thế hệ sử dụng Netflix 41
Bảng 6: Bảng thống kê về tỷ lệ giới tính đăng ký Netflix 42
Trang 8
LỜI MỞ ĐẦU
Lời đầu tiên cho nhóm em xin được gửi lời cảm ơn đến trường UEH Đại học Kinh tế Hồ Chí Minh đã đưa môn học Khoa học dữ liệu này vào giáo trình giảng dạy, và đặc biệt chúng em cũng cảm ơn đến thầy Nguyễn Quốc Hùng đã tận tình hướng dẫn và truyền đạt cho lớp về những kiến thức cơ sở dữ liệu khoa học rất bổ ích Nhờ có những kiến thức này chúng em có được góc nhìn và thấy được sự lợi ích của khoa học đối với đời sống con người, đặc biệt đối với một thời đại ngày càng tiên tiến và công nghệ hóa Từ việc tìm ra mô hình dự báo, phân loại, nhận dạng, đến việc tạo ra hệ thống thông minh và xây dựng các thuật toán học máy, khoa học dữ liệu đóng vai trò then chốt trong việc phân tích và sử dụng thông tin để tạo ra giá trị thực tế Việc ứng dụng các kỹ thuật và công nghệ mới, khoa học dữ liệu có thể đem lại những giải pháp đột phá trong các lĩnh vực như y tế, tài chính, marketing và nhiều lĩnh vực khác trong xã hội
Trong đồ án này, nhóm chúng em sẽ giới thiệu lý thuyết tổng quan về cơ sở khoa học dữ liệu và lý do chọn đề tài làm đồ án kết thúc môn học Nhóm sẽ vận dụng các kỹ thuật và công cụ trong khoa học dữ liệu để phân tích về đề tài Và cuối cùng chúng ta sẽ thấy được bức tranh tổng quan từ các phương pháp thống kê, tối ưu để đánh giá kết quả và đưa ra các phương hướng phát triển trong tương lai
Trang 9BẢNG PHÂN CÔNG CÁC THÀNH VIÊN
TT Họ và tên Công việc phụ trách hoàn Mức độ thành
+ Một số ứng dụng tiêu biểu của KHDL
- Chương 4: Đánh giá mô hình và đưa ra kết luận
Trang 10Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1 Khoa học dữ liệu là gì?
- Khoa học dữ liệu (hay còn được gọi là Data Science) là một lĩnh vực nghiên cứu và ứng dụng các phương pháp, công cụ và kỹ thuật để hiểu và phân tích dữ liệu Mục tiêu chính của khoa học dữ liệu là trích xuất kiến thức, thông tin hữu ích và đưa ra dự đoán từ các tập dữ liệu lớn và phức tạp
- Khoa học dữ liệu kết hợp các phương pháp từ nhiều lĩnh vực như thống kê, toán học, máy học, khai phá dữ liệu và lập trình để xử lý, phân tích và hiển thị thông tin từ dữ liệu Quá trình này bao gồm thu thập dữ liệu, tiền xử lý (cleaning), biểu diễn, rút trích đặc trưng, xây dựng mô hình dự đoán và phân tích kết quả để đưa ra những quyết định hỗ trợ và giải quyết các vấn đề phức tạp
- Khoa học dữ liệu (Data science) gồm ba phần chính: tạo và quản trị dữ liệu, phân tích dữ liệu, và áp dụng kết quả phân tích thành những hành động có giá trị Việc phân tích và sử dụng dữ liệu dựa vào ba nguồn tri thức: toán học (thống kê toán học - Mathematical Statistics), công nghệ thông tin (máy học - Machine Learning) và tri thức của lĩnh vực ứng dụng cụ thể Tất cả ba phần này đều liên kết chặt chẽ và tương tác với nhau để đạt được sự hiểu biết và giá trị từ dữ liệu Việc thực hiện một quy trình khoa học dữ liệu hiệu quả và đạt được kết quả tốt yêu cầu kiến thức sâu sắc về các phương pháp, công cụ và kỹ thuật trong lĩnh vực này
Hình 1: Data Science và các lĩnh vực liên quan
2 Công dụng của KHDL?
2.1 Dự đoán và đưa ra quyết định
Khoa học dữ liệu giúp xây dựng các mô hình dự đoán để dự đoán các sự kiện và xu hướng trong tương lai Các mô hình này có thể được áp dụng trong kinh doanh, tài chính, y tế và nhiều lĩnh vực khác để đưa ra quyết định thông minh và tối ưu hóa hiệu quả hoạt động
Trang 112.2 Phân tích và hiểu biết dữ liệu
Khoa học dữ liệu giúp phân tích và khám phá thông tin tiềm ẩn trong dữ liệu Nó có thể giúp hiểu rõ hơn về mối quan hệ giữa các biến, tìm kiếm những xu hướng ẩn trong dữ liệu
và đưa ra các nhận định, giả định có giá trị 2.3 Tối ưu hóa quy trình và hiệu suất
Khi được áp dụng vào các công nghiệp và tổ chức, khoa học dữ liệu có thể giúp tối ưu hóa các quy trình và hoạt động Việc sử dụng dữ liệu để tối ưu hóa quy trình sản xuất, quản lý lượng tồn kho, tối ưu hóa vận chuyển và lên kế hoạch sản xuất có thể giúp giảm chi phí và tăng hiệu suất
2.4 Phát triển sản phẩm và dịch vụ thông minh
Khoa học dữ liệu là cơ sở cho phát triển các sản phẩm và dịch vụ thông minh Các ứng dụng trí tuệ nhân tạo, học máy và các công nghệ khác dựa trên dữ liệu đã mở ra khả năng tạo ra các sản phẩm và dịch vụ tiên tiến, như chatbot, hệ thống tự động lái xe, hệ thống gợi ý và phân loại nội dung
2.5 Nghiên cứu và phát triển mới
Khoa học dữ liệu có vai trò quan trọng trong việc nghiên cứu và phát triển mới Nó giúp các nhà khoa học và nhà nghiên cứu tìm hiểu về dữ liệu, khám phá kiến thức mới và giúp định hình các lĩnh vực nghiên cứu tiềm năng
2.6 Phân tích xã hội và chính trị
Khoa học dữ liệu có thể được áp dụng để phân tích và hiểu biết về hành vi xã hội và chính trị Nó có thể giúp đánh giá hiệu quả chính sách công, phân tích ý kiến của công chúng, và tìm hiểu xu hướng và tư duy trong cộng đồng
3 Quy trình khoa học dữ liệu là gì?
Quy trình khoa học dữ liệu bao gồm một loạt các bước và giai đoạn để phân tích dữ liệu và đưa ra những hiểu biết hữu ích từ các tập dữ liệu Mặc dù quy trình này có thể có sự biến đổi tùy thuộc vào từng dự án cụ thể, tuy nhiên, có thể tóm tắt quy trình khoa học dữ liệu chung như sau:
- Xác định vấn đề và mục tiêu
Bước đầu tiên trong quy trình khoa học dữ liệu là xác định rõ ràng vấn đề hoặc câu hỏi mà bạn muốn giải quyết và mục tiêu bạn muốn đạt được từ việc phân tích dữ liệu Điều này sẽ giúp định hình phạm vi của dự án và xác định những dữ liệu cần thiết để trả lời các câu hỏi này - Thu thập dữ liệu
Tiếp theo, bạn cần thu thập dữ liệu từ các nguồn khác nhau phù hợp với mục tiêu của bạn Dữ liệu có thể được thu thập từ cơ sở dữ liệu, bộ thu thập dữ liệu trực tuyến, các tập tin lưu trữ, trang web, cảm biến, hoặc bất kỳ nguồn dữ liệu nào liên quan đến vấn đề bạn đang nghiên cứu
- Tiền xử lý dữ liệu
Sau khi thu thập dữ liệu, bước tiếp theo là tiền xử lý dữ liệu Trong giai đoạn này, dữ liệu sẽ được kiểm tra và làm sạch để loại bỏ các giá trị thiếu, nhiễu và dữ liệu không hợp lệ Bạn cần chuẩn hóa dữ liệu và biến đổi nó để sẵn sàng cho phân tích
Trang 12- Khám phá và phân tích dữ liệu
Sau khi dữ liệu đã được tiền xử lý, bạn có thể bắt đầu khám phá và phân tích dữ liệu Các phương pháp thống kê và khai phá dữ liệu được sử dụng để tìm kiếm các mẫu, xu hướng và thông tin hữu ích từ dữ liệu
- Xây dựng mô hình dự đoán
Trong bước này, bạn sẽ xây dựng các mô hình dự đoán sử dụng các kỹ thuật máy học và học máy Mô hình này có thể được sử dụng để dự đoán các sự kiện trong tương lai hoặc phân loại các dữ liệu mới
- Đánh giá và tinh chỉnh mô hình
Mô hình dự đoán cần được đánh giá và tinh chỉnh để đảm bảo hiệu suất tốt và đáng tin cậy Bạn có thể sử dụng các phương pháp đánh giá mô hình như cross-validation để kiểm tra độ chính xác của mô hình trên dữ liệu thử nghiệm
- Trình bày kết quả
Cuối cùng, bạn sẽ trình bày kết quả của quá trình khoa học dữ liệu một cách rõ ràng và dễ hiểu Báo cáo, biểu đồ, biểu đồ và tóm tắt được sử dụng để hiển thị các kết quả và giải thích ý nghĩa của chúng
- Ứng dụng kết quả
Kết quả của quá trình khoa học dữ liệu có thể được áp dụng vào các lĩnh vực khác nhau, từ đưa ra quyết định trong kinh doanh, tối ưu hóa quy trình sản xuất, cải thiện hiệu suất, phát triển sản phẩm thông minh, đưa ra chính sách công, và nhiều ứng dụng khác
4 Một số ứng dụng tiêu biểu của khoa học dữ liệu:
- Amazon và Netflix: Cả Amazon và Netflix sử dụng khoa học dữ liệu để tạo ra gợi ý sản phẩm và nội dung cá nhân hóa dựa trên hành vi mua sắm và xem phim của khách hàng Điều này giúp cải thiện trải nghiệm người dùng và tăng doanh số bán hàng
- Uber và Grab: Các dịch vụ gọi xe như Uber và Grab sử dụng khoa học dữ liệu để dự đoán và tối ưu hóa thời gian đợi, tuyến đường và giá cước dựa trên thông tin giao thông thời gian thực và mô hình học máy
- Google Maps: Google Maps sử dụng khoa học dữ liệu và học máy để cung cấp thông tin lưu lượng giao thông thời gian thực, đề xuất tuyến đường tối ưu và dự báo thời gian đến đích
- Spotify: Spotify sử dụng khoa học dữ liệu để tạo ra danh sách phát và gợi ý âm nhạc cá nhân dựa trên sở thích âm nhạc và lịch sử nghe nhạc của người dùng
- IBM Watson: IBM Watson là một hệ thống trí tuệ nhân tạo dựa trên khoa học dữ liệu Nó được sử dụng trong nhiều lĩnh vực, bao gồm y tế (phân tích hình ảnh y khoa,
- chẩn đoán bệnh), quản lý tri thức doanh nghiệp, dịch vụ khách hàng và nhiều ứng dụng khác
- Facebook: Facebook sử dụng khoa học dữ liệu để phân tích hành vi người dùng, gợi ý bạn bè, hiển thị nội dung và quảng cáo cá nhân hóa, và phát hiện hoạt động giả mạo và spam
Trang 135 Lý do chọn đề tài
Với sự phát triển không ngừng của thương mại điện tử và sự tối ưu của nền tảng công nghệ cho phép khả năng truy cập trực tuyến của Netflix trở nên thuận tiện và độc đáo trong nhiều năm qua, không có nhiều công ty truyền thông cung cấp như vậy, điều này làm cho nền tảng này trở nên hấp dẫn Việc thu thập và nắm bắt dữ liệu của người dùng giúp nhà quản lý hiểu rõ hơn về nhu cầu thị hiếu và sở thích của họ Bằng cách thu thập và phân tích dữ liệu từ các thông tin người đăng ký trên hệ thống, loại hình đăng ký, nơi đăng ký, chúng ta có thể tạo ra những báo cáo dự đoán và phân tích về xu hướng của người dùng cho việc đăng ký gói Netflix Vì vậy nhóm quyết định chọn đề tài “Phân tích và dự báo dữ liệu người dùng đăng ký Netflix” để chúng ta sẽ có bức tranh và nhìn thấy được thị hiếu của khách hàng về kênh Netflix trong tương lai là như thế nào Nhờ đó nhà quản lý có thể chuẩn bị trước cho mình các chiến lược và sự đầu tư để phát triển lĩnh vực này
Trang 14Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG
1 Các phương pháp sử dụng Excel để khai thác dữ liệu 1.1 Phương pháp thống kê mô tả
a Thống kê bằng công cụ Descriptive Statistics
- Thống kê mô tả (Descriptive Statistics) là một phương pháp trong thống kê dùng để mô tả và tổng hợp các dữ liệu quan sát được Thống kê mô tả cho phép bạn biết được giá trị trung bình, phương sai, độ lệch chuẩn, phân vị, min, max và các đặc tính khác của dữ liệu Những thông tin này giúp bạn có cái nhìn tổng quan về dữ liệu, giúp bạn hiểu rõ hơn về sự phân bố và tính chất của dữ liệu
- Cách thực hiện:
Bước 1: Chuẩn bị bảng số liệu cần thống kê
Bước 2: Chọn lệnh Data -> Data Analysis -> Descriptive Statistics, sau đó hộp thoại
Descriptive Statistics xuất hiện
Hình 2: Hộp thoại Descriptive Statistics
Bước 3: Khai báo các thông số Input và Output Options, trong đó:
Input Range: Vùng đưa dữ liệu cần thống kê vào Output Range: Vùng dữ liệu kết quả sau khi thống kê Summary statistics: Thông số thống kê tổng hợp
Confidence Level for Mean: Độ tin cậy của giá trị trung bình
Trang 15Ví dụ minh họa:
Hình 3: Thống kê mô tả số lượng tài khoản thanh toán lần cuối trong tháng 6/2023 của Netflix
Hình 4: Kết quả ví dụ thống kê mô tả
b Báo cáo tổng hợp nhóm với Subtotal
- Chức năng: Cho phép người dùng nhóm dữ liệu theo một trường (hoặc nhiều trường) và tính toán các tổng hợp cho mỗi nhóm Tính năng này cho phép người dùng thực hiện phân tích dữ liệu dễ dàng và nhanh chóng, cung cấp cái nhìn tổng quan về phân phối của các giá trị trong dữ liệu
Trang 16- Cách thực hiện:
Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm Bước 2: Chọn toàn bộ cơ sở dữ liệu
Bước 3: Chọn Data ->Outline -> Subtotal, sau đó hộp thoại Subtotal xuất hiện
Bước 4: Chọn các thông số, trong đó:
At each change in: chọn cột gom nhóm
Use function: chọn hàm thống kê dùng để tổng hợp dữ liệu (sum, count, ) Add subtotal to: chọn cột thống kê giá trị
Replace current subtotals: chọn để thay thế kết quả thống kê trước đó Summary below data: chọn để kết quả tổng hợp dưới mỗi nhóm
Ví dụ minh họa:
Hình 5: Hộp thoại Subtotal
Hình 6: Kết quả ví dụ
c Hợp nhất dữ liệu với Consolidate
- Chức năng: cho phép tổng hợp nhiều dữ liệu từ các bảng khác nhau thành 1 bảng duy nhất, giúp người dùng có một cái nhìn toàn diện hơn
- Consolidate có thể hợp nhất dữ liệu theo 2 hình thức:
Trang 17 Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc
Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về cấu trúc - Cách thực hiện:
Bước 1: Chọn vùng chứa kết quả dữ liệu được hợp nhất
Bước 2: Chọn Data -> Data Tools -> Consolidate, hộp thoại Consolidate xuất hiện
Ví dụ minh họa:
Hình 7: Hộp thoại Consolidate
Hình 8: Thống kê mô tả
Hình 9: Kết quả ví dụ
Trang 18Trong đó:
Function : chọn hàm tổng hợp
Reference : để tham chiếu lần lượt các bảng dữ liệu nguồn
All references: chứa tất cả các vùng dữ liệu nguồn cần thiết cho việc hợp nhất Top row: chọn nếu muốn dùng tên cột của vùng nguồn
Left column: chọn nếu muốn dùng các giá trị của cột đầu tiên của vùng nguồn
d Tổng hợp đa chiều với Pivot Table
- Chức năng: tổng hợp và phân tích dữ liệu với nhiều góc độ và nhiều cấp khác nhau - Cách thực hiện:
Bước 1: Chọn vào ô bất kỳ trên cơ sở dữ liệu
Bước 2: Chọn lệnh Insert -> PivotTable, hộp thoại Create PivotTable xuất hiện
Ví dụ minh họa:
Hình 10: Thống kê bằng Pivot Table
Trang 19Hình 11: Kết quả ví dụ
1.2 Phương pháp phân tích dự báo
a Phương pháp Trung bình trượt (Moving Average)
- Khái niệm: Phương pháp Moving Average (trung bình động) là một trong những phương pháp đơn giản và phổ biến nhất trong việc dự báo và phân tích chuỗi dữ liệu thời gian Phương pháp này sử dụng trung bình cộng của các giá trị quan sát trong một khoảng thời gian cố định để dự báo giá trị tiếp theo
- Các bước thực hiện trên Excel:
Bước 1: Chuẩn bị bảng Data cần dự báo
Bước 2: Chọn lệnh Data → Data Analysis → Moving Average, xuất hiện hộp thoại
Moving Average
Hình 12: Lệnh Moving Average
Trang 20 Bước 3: Khai báo các thông số Input và Output Options, trong đó:
Input Range : tham chiếu đến vùng dữ liệu thực tế
Labels in First Row: Khai báo hàng đầu tiên của input range có chứa tiêu đề cột hay không
Interval: số lượng các kỳ trước đó muốn tính (w)
Output Range: tham chiếu đến vùng xuất kết quả Những ô không đủ số lượng các giá trị trước đó để tính toán sẽ nhận giá trị #N/A
Chart Output: tùy chọn dùng tạo biểu đồ nhúng cùng với vùng xuất kết quả Standard Errors: tùy chọn dòng tạo thêm 1 cột chứa các sai số chuẩn
Hình 13: Hộp thoại Moving Average
Hình 14: Kết quả dự báo của phương pháp Moving Average
Trang 21b Phương pháp san bằng mũ (Exponential Smoothing)
- Cách thực hiện trên Excel:
Bước 1: Chuẩn bị bảng số liệu cần dự báo
Bước 2: Chọn lệnh Data → Data Analysis → Exponential Smoothing, xuất hiện hộp
thoại Exponential Smoothing
Hình 15: Lệnh Exponential Smoothing
Bước 3: Khai báo các thông số Input và Output Options, trong đó:
Input Range : tham chiếu đến vùng dữ liệu thực tế
Damping factor: giá trị dùng làm hệ số san bằng Đó là giá trị điều chỉnh sự bất ổn của dữ liệu, giá trị mặc định là Damping factor (1-a)
Labels: tùy chọn cho biết hàng/cột đầu tiên của input range có chứa tiêu đề hay không
Hình 16: Hộp thoại Exponential Smoothing
Trang 22Hình 17: Kết quả dự báo phương pháp Exponential Smoothing
c Phương pháp hồi quy (Regression)
- Khái niệm: Phương pháp hồi quy là một phương pháp được sử dụng để phân tích mối quan hệ giữa một biến phụ thuộc và một hay nhiều biến độc lập
- Cách thực hiện trên Excel:
Cách thực hiện bằng đồ thị:
Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo
Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉ chứa
biến độc lập X
Bước 3: Vẽ đồ thị dạng Scatter
Bước 4: Click chuột phải vào data series, chọn Add Trendlin
Bước 5: Tuỳ chọn hiển thị trong Trendline Options:
Linear: dạng đường thẳng Display Equation on chart
Display R-squared value on chart
Cách thực hiện bằng công cụ Regression:
Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo
Bước 2: Chọn lệnh Data→ Data Analysis → Regression, xuất hiện hộp thoại
Regression
Trang 23Hình 18: Lệnh Regression
Bước 3: Khai báo các thông số Input và Output Options
Input Y Range: Vùng địa chỉ chứa biến phụ thuộc Y
Input X Range: Vùng địa chỉ chứa các biến độc lập X (Có thể chọn nhiều biến X trong trường hợp hồi quy đa biến)
Labels: Tích vào mục này để khẳng định ô (các ô) đầu tiên không chứa dữ liệu hồi quy
Constant is Zero: Tích vào mục này để khẳng định hệ số tự do của hàm hồi quy tuyến tính a = 0
Confidentce Level: Độ tin cậy của hồi quy (mặc định là 95%) bằng 1-α, với α là mức ý nghĩa hay xác suất mắc sai lầm loại một, bác bỏ H0 trong khi H0 đúng
Output Range: Vùng hoặc ô phía trên bên trái của vùng chứa kết quả New Worksheet Ply: In kết quả ra một sheet khác
New Workbook: In kết quả ra một file Excel mới Residuals: Sai số do ngẫu nhiên
Standardardlized Residuals: Chuẩn hóa sai số Residuals Plots: Đồ thị sai số
Line Fit Plots: Đồ thị hàm hồi quy tuyến tính
Normal Probability Plots: Đồ thị xác suất phân phối chuẩn
Trang 24Hình 19: Hộp thoại Regression
Hình 20: Kết quả phương pháp Regression
1.3 Phương pháp phân tích tối ưu a Các bước lập mô hình
- Bước 1: Xác định biến quyết định
- Bước 2: Xác định hàm mục tiêu
- Bước 3: Xác định hệ ràng buộc
b Công cụ SOLVER để giải mô hình kinh tế
- Bước 1: Thiết lập bảng tính
Trang 25Hình 21: Thiết lập bảng tính cho phương pháp Solver
Giả sử : Công ty Netflix đang có giới hạn về Chi phí bản quyền, Chi phí ưu đãi và Số lượng quà tặng dành cho người dùng đăng ký Netflifx, nhà đầu tư đang cần tính toán để đạt tối ưu hóa lợi nhuận khi sử dụng hết các nguồn tài nguyên này thì sẽ có bao nhiêu người đăng ký Netflix ở mỗi gói
- Bước 2: Chọn lệnh Data → Analysis → Solver, khai báo các tham số của bài toán:
Set Objective: Nhập ô chứa hàm mục tiêu, trong trường hợp này là $E$5 Chọn Max vì bài toán này là tối đa hóa lợi nhuận
By Changing Variable Cells: Nhập ô chứa các biến quyết định, trong trường hợp này là $C$4 :$D$4
Đưa các ràng buộc vào Subject to the Contraints bằng cách nhấn nút Add
Hình 22: Khai báo các thông số vào hộp thoại Solver