báo cáo đồ án học phần khoa học dữ liệu phân tích và dự báo dữ liệu người dùng đăng ký netflix

Từ việc tìm ra mô hình dự báo, phân loại, nhận dạng, đến việc tạo ra hệ thống thông minh và xây dựng các thuật toán học máy, khoa học dữ liệu đóng vai trò then chốt trong việc phân tích

GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI

Khoa học dữ liệu là gì?

- Khoa học dữ liệu (hay còn được gọi là Data Science) là một lĩnh vực nghiên cứu và ứng dụng các phương pháp, công cụ và kỹ thuật để hiểu và phân tích dữ liệu Mục tiêu chính của khoa học dữ liệu là trích xuất kiến thức, thông tin hữu ích và đưa ra dự đoán từ các tập dữ liệu lớn và phức tạp

- Khoa học dữ liệu kết hợp các phương pháp từ nhiều lĩnh vực như thống kê, toán học, máy học, khai phá dữ liệu và lập trình để xử lý, phân tích và hiển thị thông tin từ dữ liệu Quá trình này bao gồm thu thập dữ liệu, tiền xử lý (cleaning), biểu diễn, rút trích đặc trưng, xây dựng mô hình dự đoán và phân tích kết quả để đưa ra những quyết định hỗ trợ và giải quyết các vấn đề phức tạp

- Khoa học dữ liệu (Data science) gồm ba phần chính: tạo và quản trị dữ liệu, phân tích dữ liệu, và áp dụng kết quả phân tích thành những hành động có giá trị Việc phân tích và sử dụng dữ liệu dựa vào ba nguồn tri thức: toán học (thống kê toán học - Mathematical Statistics), công nghệ thông tin (máy học - Machine Learning) và tri thức của lĩnh vực ứng dụngcụthể.Tất cả ba phần này đều liên kết chặt chẽ và tương tác với nhau để đạt được sự hiểu biết và giá trị từ dữ liệu Việc thực hiện một quy trình khoa học dữ liệu hiệu quả và đạt được kết quả tốt yêu cầu kiến thức sâu sắc về các phương pháp, công cụ và kỹ thuật trong lĩnh vực này

Hình 1: Data Science và các lĩnh vực liên quan

Công dụng của KHDL ?

2.1.Dựđoán và đưa ra quyết định

Khoa học dữ liệu giúp xây dựng các mô hình dự đoán để dự đoán các sự kiện và xu hướng trong tương lai Các mô hình này có thể được áp dụng trong kinh doanh, tài chính, y tế và nhiều lĩnh vực khác để đưa ra quyết định thông minh và tối ưu hóa hiệu quả hoạt động

2.2 Phân tích và hiểu biết dữ liệu

Khoa học dữ liệu giúp phân tích và khám phá thông tin tiềm ẩn trong dữ liệu Nó có thể giúp hiểu rõ hơn về mối quan hệ giữa các biến, tìm kiếm những xu hướng ẩn trong dữ liệu và đưa ra các nhận định, giảđịnh có giá trị

2.3.Tối ưu hóa quy trình và hiệu suất

Khi được áp dụng vào các công nghiệp và tổ chức, khoa học dữ liệu có thể giúp tối ưu hóa các quy trình và hoạt động Việc sử dụng dữ liệu để tối ưu hóa quy trình sản xuất, quản lý lượng tồn kho, tối ưu hóa vận chuyển và lên kế hoạch sản xuất có thể giúp giảm chi phí và tăng hiệu suất

2.4.Phát triển sản phẩm và dịch vụ thông minh

Khoa học dữ liệu là cơ sở cho phát triển các sản phẩm và dịch vụ thông minh Các ứng dụng trí tuệ nhân tạo, học máy và các công nghệ khác dựa trên dữ liệu đã mở ra khả năng tạo ra các sản phẩm và dịch vụ tiên tiến, như chatbot, hệ thống tự động lái xe, hệ thống gợi ý và phân loại nội dung

2.5.Nghiên cứu và phát triển mới

Khoa học dữ liệu có vai trò quan trọng trong việc nghiên cứu và phát triển mới Nó giúp các nhà khoa học và nhà nghiên cứu tìm hiểu về dữ liệu, khám phá kiến thức mới và giúp định hình các lĩnh vực nghiên cứu tiềm năng

2.6.Phân tích xã hội và chính trị

Khoa học dữ liệu có thể được áp dụng để phân tích và hiểu biết về hành vi xã hội và chính trị Nó có thể giúp đánh giá hiệu quả chính sách công, phân tích ý kiến của công chúng, và tìm hiểu xu hướng và tư duy trong cộng đồng.

Quy trình khoa học dữ liệu là gì?

Quy trình khoa học dữ liệu bao gồm một loạt các bước và giai đoạn để phân tích dữ liệu và đưa ra những hiểu biết hữu ích từ các tập dữ liệu Mặc dù quy trình này có thể có sự biến đổi tùy thuộc vào từng dự án cụ thể, tuy nhiên, có thể tóm tắt quy trình khoa học dữ liệu chung như sau:

- Xác định vấn đề và mục tiêu

Bước đầu tiên trong quy trình khoa học dữ liệu là xác định rõ ràng vấn đề hoặc câu hỏi mà bạn muốn giải quyết và mục tiêu bạn muốn đạt được từ việc phân tích dữ liệu Điều này sẽ giúp định hình phạm vi của dự án và xác định những dữ liệu cần thiết để trả lời các câu hỏi này

Tiếp theo, bạn cần thu thập dữ liệu từ các nguồn khác nhau phù hợp với mục tiêu của bạn

Dữ liệu có thể được thu thập từ cơ sở dữ liệu, bộ thu thập dữ liệu trực tuyến, các tập tin lưu trữ, trang web, cảm biến, hoặc bất kỳ nguồn dữ liệu nào liên quan đến vấn đề bạn đang nghiên cứu

- Tiền xử lý dữ liệu

Sau khi thu thập dữ liệu, bước tiếp theo là tiền xử lý dữ liệu Trong giai đoạn này, dữ liệu sẽ được kiểm tra và làm sạch để loại bỏ các giá trị thiếu, nhiễu và dữ liệu không hợp lệ Bạn cần chuẩn hóa dữ liệu và biến đổi nó để sẵn sàng cho phân tích

- Khám phá và phân tích dữ liệu

Sau khi dữ liệu đã được tiền xử lý, bạn có thể bắt đầu khám phá và phân tích dữ liệu Các phương pháp thống kê và khai phá dữ liệu được sử dụng để tìm kiếm các mẫu, xu hướng và thông tin hữu ích từ dữ liệu

- Xây dựng mô hình dựđoán

Trong bước này, bạn sẽ xây dựng các mô hình dự đoán sử dụng các kỹ thuật máy học và học máy Mô hình này có thể được sử dụng để dự đoán các sự kiện trong tương lai hoặc phân loại các dữ liệu mới

- Đánh giá và tinh chỉnh mô hình

Mô hình dựđoán cần được đánh giá và tinh chỉnh đểđảm bảo hiệu suất tốt và đáng tin cậy Bạn có thể sử dụng các phương pháp đánh giá mô hình như cross-validation để kiểm tra độ chính xác của mô hình trên dữ liệu thử nghiệm

Cuối cùng, bạn sẽ trình bày kết quả của quá trình khoa học dữ liệu một cách rõ ràng và dễ hiểu Báo cáo, biểu đồ, biểu đồ và tóm tắt được sử dụng để hiển thị các kết quả và giải thích ý nghĩa của chúng

Kết quả của quá trình khoa học dữ liệu có thể được áp dụng vào các lĩnh vực khác nhau, từ đưa ra quyết định trong kinh doanh, tối ưu hóa quy trình sản xuất, cải thiện hiệu suất, phát triển sản phẩm thông minh, đưa ra chính sách công, và nhiều ứng dụng khác

Một số ứng dụng tiêu biểu của khoa học dữ liệu

- Amazon và Netflix: Cả Amazon và Netflix sử dụng khoa học dữ liệu để tạo ra gợi ý sản phẩm và nội dung cá nhân hóa dựa trên hành vi mua sắm và xem phim của khách hàng Điều này giúp cải thiện trải nghiệm người dùng và tăng doanh số bán hàng.

- Uber và Grab: Các dịch vụ gọi xe như Uber và Grab sử dụng khoa học dữ liệu để dự đoán và tối ưu hóa thời gian đợi, tuyến đường và giá cước dựa trên thông tin giao thông thời gian thực và mô hình học máy.

- Google Maps: Google Maps sử dụng khoa học dữ liệu và học máy để cung cấp thông tin lưu lượng giao thông thời gian thực, đề xuất tuyến đường tối ưu và dự báo thời gian đến đích

- Spotify: Spotify sử dụng khoa học dữ liệu để tạo ra danh sách phát và gợi ý âm nhạc cá nhân dựa trên sở thích âm nhạc và lịch sử nghe nhạc của người dùng

- IBM Watson: IBM Watson là một hệ thống trí tuệ nhân tạo dựa trên khoa học dữ liệu Nó được sử dụng trong nhiều lĩnh vực, bao gồm y tế (phân tích hình ảnh y khoa,

- chẩn đoán bệnh), quản lý tri thức doanh nghiệp, dịch vụ khách hàng và nhiều ứng dụng khác

- Facebook: Facebook sử dụng khoa học dữ liệu để phân tích hành vi người dùng, gợi ý bạn bè, hiển thị nội dung và quảng cáo cá nhân hóa, và phát hiện hoạt động giả mạo và spam.

Lý do chọn đề tài

Với sự phát triển không ngừng của thương mại điện tử và sự tối ưu của nền tảng công nghệ cho phép khả năng truy cập trực tuyến của Netflix trở nên thuận tiện và độc đáo trong nhiều năm qua, không có nhiều công ty truyền thông cung cấp như vậy, điều này làm cho nền tảng này trở nên hấp dẫn Việc thu thập và nắm bắt dữ liệu của người dùng giúp nhà quản lý hiểu rõ hơn về nhu cầu thị hiếu và sở thích của họ Bằng cách thu thập và phân tích dữ liệu từ các thông tin người đăng ký trên hệ thống, loại hình đăng ký, nơi đăng ký, chúng ta có thể tạo ra những báo cáo dự đoán và phân tích về xu hướng của người dùng cho việc đăng ký gói Netflix Vì vậy nhóm quyết định chọn đề tài “Phân tích và dự báo dữ liệu người dùng đăng ký Netflix” để chúng ta sẽ có bức tranh và nhìn thấy được thị hiếu của khách hàng về kênh Netflix trong tương lai là như thế nào Nhờ đó nhà quản lý có thể chuẩn bị trước cho mình các chiến lược và sự đầu tư để phát triển lĩnh vực này.

TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG

Các phương pháp sử dụng Excel để khai thác dữ liệu

1.1 Phương pháp thống kê mô tả a Thống kê bằng công cụ Descriptive Statistics

- Thống kê mô tả (Descriptive Statistics) là một phương pháp trong thống kê dùng để mô tả và tổng hợp các dữ liệu quan sát được Thống kê mô tả cho phép bạn biết được giá trị trung bình, phương sai, độ lệch chuẩn, phân vị, min, max và các đặc tính khác của dữ liệu Những thông tin này giúp bạn có cái nhìn tổng quan về dữ liệu, giúp bạn hiểu rõ hơn về sự phân bố và tính chất của dữ liệu

 Bước 1: Chuẩn bị bảng số liệu cần thống kê

 Bước 2: Chọn lệnh Data -> Data Analysis -> Descriptive Statistics, sau đó hộp thoại

Hình 2: Hộp thoại Descriptive Statistics

 Bước 3: Khai báo các thông số Input và Output Options, trong đó:

 Input Range: Vùng đưa dữ liệu cần thống kê vào

 Output Range: Vùng dữ liệu kết quả sau khi thống kê

 Summary statistics: Thông số thống kê tổng hợp

 Confidence Level for Mean: Độ tin cậy của giá trị trung bình

Hình 3: Thống kê mô tả số lượng tài khoản thanh toán lần cuối trong tháng 6/2023 của Netflix

Hình 4: Kết quả ví dụ thống kê mô tả b Báo cáo tổng hợp nhóm với Subtotal

- Chức năng: Cho phép người dùng nhóm dữ liệu theo một trường (hoặc nhiều trường) và tính toán các tổng hợp cho mỗi nhóm Tính năng này cho phép người dùng thực hiện phân tích dữ liệu dễ dàng và nhanh chóng, cung cấp cái nhìn tổng quan về phân phối của các giá trị trong dữ liệu

 Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm

 Bước 2: Chọn toàn bộ cơ sở dữ liệu

 Bước 3:Chọn Data ->Outline -> Subtotal, sau đó hộp thoại Subtotal xuất hiện

 Bước 4: Chọn các thông số, trong đó:

 At each change in: chọn cột gom nhóm

 Use function: chọn hàm thống kê dùng để tổng hợp dữ liệu (sum, count, )

 Add subtotal to: chọn cột thống kê giá trị

 Replace current subtotals: chọn để thay thế kết quả thống kê trước đó

 Summary below data: chọn để kết quả tổng hợp dưới mỗi nhóm

Hình 6: Kết quả ví dụ c Hợp nhất dữ liệu với Consolidate

- Chức năng: cho phép tổng hợp nhiều dữ liệu từ các bảng khác nhau thành 1 bảng duy nhất, giúp người dùng có một cái nhìn toàn diện hơn

- Consolidate có thể hợp nhất dữ liệu theo 2 hình thức:

 Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc

 Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về cấu trúc.

 Bước 1:Chọn vùng chứa kết quả dữ liệu được hợp nhất

 Bước 2: Chọn Data -> Data Tools -> Consolidate, hộp thoại Consolidate xuất hiện

Hình 8: Thống kê mô tả

Hình 9: Kết quả ví dụ

 Function : chọn hàm tổng hợp

 Reference : để tham chiếu lần lượt các bảng dữ liệu nguồn

 All references: chứa tất cả các vùng dữ liệu nguồn cần thiết cho việc hợp nhất.

 Top row: chọn nếu muốn dùng tên cột của vùng nguồn

 Left column: chọn nếu muốn dùng các giá trị của cột đầu tiên của vùng nguồn d Tổng hợp đa chiều với Pivot Table

- Chức năng: tổng hợp và phân tích dữ liệu với nhiều góc độ và nhiều cấp khác nhau

 Bước 1: Chọn vào ô bất kỳ trên cơ sở dữ liệu

 Bước 2: Chọn lệnh Insert -> PivotTable, hộp thoại Create PivotTable xuất hiện

Hình 10: Thống kê bằng Pivot Table

Hình 11: Kết quả ví dụ

1.2 Phương pháp phân tích dự báo a Phương pháp Trung bình trượt (Moving Average)

- Khái niệm: Phương pháp Moving Average (trung bình động) là một trong những phương pháp đơn giản và phổ biến nhất trong việc dự báo và phân tích chuỗi dữ liệu thời gian Phương pháp này sử dụng trung bình cộng của các giá trị quan sát trong một khoảng thời gian cố định để dự báo giá trị tiếp theo

- Các bước thực hiện trên Excel:

 Bước 1: Chuẩn bị bảng Data cần dự báo

 Bước 2: Chọn lệnh Data → Data Analysis → Moving Average, xuất hiện hộp thoại Moving Average

 Input Range : tham chiếu đến vùng dữ liệu thực tế

 Labels in First Row: Khai báo hàng đầu tiên của input range có chứa tiêu đề cột hay không

 Interval: số lượng các kỳ trước đó muốn tính (w)

 Output Range: tham chiếu đến vùng xuất kết quả Những ô không đủ số lượng các giá trị trước đó để tính toán sẽ nhận giá trị #N/A

 Chart Output: tùy chọn dùng tạo biểu đồ nhúng cùng với vùng xuất kết quả

 Standard Errors: tùy chọn dòng tạo thêm 1 cột chứa các sai số chuẩn.

Hình 13: Hộp thoại Moving Average

Hình 14: Kết quả dự báo của phương pháp Moving Average b Phương pháp san bằng mũ (Exponential Smoothing)

- Cách thực hiện trên Excel:

 Bước 1: Chuẩn bị bảng số liệu cần dự báo

 Bước 2: Chọn lệnh Data → Data Analysis → Exponential Smoothing, xuất hiện hộp thoại Exponential Smoothing

 Input Range : tham chiếu đến vùng dữ liệu thực tế

 Damping factor: giá trị dùng làm hệ số san bằng Đó là giá trị điều chỉnh sự bất ổn của dữ liệu, giá trị mặc định là Damping factor (1-a)

 Labels: tùy chọn cho biết hàng/cột đầu tiên của input range có chứa tiêu đề hay không

Hình 16: Hộp thoại Exponential Smoothing

Hình 17: Kết quả dự báo phương pháp Exponential Smoothing c Phương pháp hồi quy (Regression)

- Khái niệm: Phương pháp hồi quy là một phương pháp được sử dụng để phân tích mối quan hệ giữa một biến phụ thuộc và một hay nhiều biến độc lập.

- Cách thực hiện trên Excel:

 Cách thực hiện bằng đồ thị :

 Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo

 Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉ chứa biến độc lập X

 Bước 3:Vẽ đồ thị dạng Scatter

 Bước 4: Click chuột phải vào data series, chọn Add Trendlin

 Bước 5: Tuỳ chọn hiển thị trong Trendline Options:

 Display R-squared value on chart

 Cách thực hiện bằng công cụ Regression:

 Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo

 Bước 2: Chọn lệnh Data→ Data Analysis → Regression, xuất hiện hộp thoại Regression

 Bước 3: Khai báo các thông số Input và Output Options

 Input Y Range: Vùng địa chỉ chứa biến phụ thuộc Y

 Input X Range: Vùng địa chỉ chứa các biến độc lập X (Có thể chọn nhiều biến

X trong trường hợp hồi quy đa biến)

 Labels: Tích vào mục này để khẳng định ô (các ô) đầu tiên không chứa dữ liệu hồi quy

 Constant is Zero: Tích vào mục này để khẳng định hệ số tự do của hàm hồi quy tuyến tính a = 0

 Confidentce Level: Độ tin cậy của hồi quy (mặc định là 95%) bằng 1-α, với α là mức ý nghĩa hay xác suất mắc sai lầm loại một, bác bỏ H0 trong khi H0 đúng

 Output Range: Vùng hoặc ô phía trên bên trái của vùng chứa kết quả

 New Worksheet Ply: In kết quả ra một sheet khác

 New Workbook: In kết quả ra một file Excel mới

 Residuals: Sai số do ngẫu nhiên

 Standardardlized Residuals: Chuẩn hóa sai số

 Residuals Plots: Đồ thị sai số

 Line Fit Plots: Đồ thị hàm hồi quy tuyến tính

 Normal Probability Plots: Đồ thị xác suất phân phối chuẩn

Hình 20: Kết quả phương pháp Regression

1.3 Phương pháp phân tích tối ưu a Các bước lập mô hình

- Bước 1: Xác định biến quyết định

- Bước 2: Xác định hàm mục tiêu

- Bước 3: Xác định hệ ràng buộc b Công cụ SOLVER để giải mô hình kinh tế

- Bước 1: Thiết lập bảng tính

Hình 21: Thiết lập bảng tính cho phương pháp Solver

Giả sử : Công ty Netflix đang có giới hạn về Chi phí bản quyền, Chi phí ưu đãi và Số lượng quà tặng dành cho người dùng đăng ký Netflifx, nhà đầu tư đang cần tính toán để đạt tối ưu hóa lợi nhuận khi sử dụng hết các nguồn tài nguyên này thì sẽ có bao nhiêu người đăng ký Netflix ở mỗi gói

- Bước 2: Chọn lệnh Data → Analysis → Solver, khai báo các tham số của bài toán:

 Set Objective: Nhập ô chứa hàm mục tiêu, trong trường hợp này là $E$5

 Chọn Max vì bài toán này là tối đa hóa lợi nhuận

 By Changing Variable Cells: Nhập ô chứa các biến quyết định, trong trường hợp này là $C$4 :$D$4

 Đưa các ràng buộc vào Subject to the Contraints bằng cách nhấn nút Add

Hình 22: Khai báo các thông số vào hộp thoại Solver

- Bước 3: Nhấn nút Solve để giải mô hình, khai báo các lựa chọn trong hộp thoại Solver

 Keep Solver Solution: Giữ kết quả và in ra bảng tính

 Restore Original Values: Huỷ kết quả vừa tìm được và trả các biến về tình trạng ban đầu.

 Save Scenario: Lưu kết quả vừa tìm được thành một tình huống để có thể xem lại sau này

 Có thể xuất hiện thêm các dạng báo cáo trong kết quả: Answer, Sensitivity và Limits

Hình 23: Hộp thoại Solver Results

- Bước 4: Nhấn nút OK để xem kết quả

Hình 24: Kết quả của phương pháp Solver

Phần mềm Orange

- Orange là một phần mềm mã nguồn mở và môi trường tính toán đồ họa được sử dụng rộng rãi trong lĩnh vực khai phá dữ liệu (data mining) và học máy (machine learning) Được phát triển bởi trường Đại học Kỹ thuật Slovenia, Orange cung cấp một giao diện trực quan và dễ sử dụng cho người dùng để thực hiện các tác vụ phân tích dữ liệu phức tạp mà không cần phải viết mã lệnh

- Với Orange, bạn có thể nhập dữ liệu từ nhiều nguồn khác nhau như bảng tính, cơ sở dữ liệu, tệp CSV và thậm chí kết nối trực tiếp với cơ sở dữ liệu Bạn có thể thực hiện các bước tiền xử lý dữ liệu như chọn lọc, chuẩn hóa và xử lý dữ liệu thiếu một cách dễ dàng

- Dưới đây là một số điểm nổi bật về Orange trong khai phá dữ liệu:

 Giao diện trực quan: Orange được thiết kế với mục tiêu đơn giản hóa quá trình khai phá dữ liệu Giao diện trực quan và dễ sử dụng giúp người dùng thao tác dữ liệu, xây dựng mô hình và thực hiện các tác vụ phân tích một cách dễ dàng và nhanh chóng

 Xử lý dữ liệu: Orange hỗ trợ nhiều định dạng dữ liệu như bảng dữ liệu, văn bản, hình ảnh và biểu đồ Người dùng có thể nhập dữ liệu từ các nguồn khác nhau và tiến hành tiền xử lý dữ liệu như lọc, sắp xếp, chọn lọc, chuyển đổi và ghép nối dữ liệu

 Học máy: Orange cung cấp một loạt các thuật toán học máy phổ biến cho học giám sát, học không giám sát và học tăng cường Người dùng có thể xây dựng và đánh giá các mô hình học máy để dự đoán và phân loại dữ liệu

 Thống kê và trực quan hóa: Orange cung cấp nhiều công cụ trực quan hóa để hiển thị dữ liệu dưới dạng biểu đồ, đồ thị và biểu đồ trực quan khác Nó cũng hỗ trợ các công cụ thống kê cơ bản để phân tích dữ liệu

 Khám phá tri thức: Orange cung cấp các công cụ để khám phá tri thức từ dữ liệu, bao gồm quy luật liên kết dữ liệu, phân tích chuỗi và phân tích văn bản

 Mở rộng và tùy chỉnh: Như là một phần mềm mã nguồn mở, người dùng có thể mở rộng chức năng của Orange bằng cách viết các add-on và tích hợp các thư viện khác vào hệ thống.

- Có thể nói, Orange là một công cụ mạnh mẽ cho các nhà nghiên cứu, chuyên gia phân tích dữ liệu và những ai quan tâm đến khai phá dữ liệu và học máy mà không cần có kiến thức sâu về lập trình

- Orange là một phần mềm mã nguồn mở, mang đến cho người dùng khả năng khám phá và tận dụng dữ liệu một cách trực quan và dễ dàng Với giao diện người dùng đồ họa thân thiện, nó cho phép người dùng thực hiện các tác vụ như tiền xử lý dữ liệu, trích xuất đặc trưng, mô hình hóa và đánh giá dữ liệu một cách hiệu quả

- Một số tính năng cơ bản thường được sử dụng trên Orange:

 Nạp dữ liệu: Lưu trữ trên máy tính

Hình 26: Tải file dữ liệu lên Orange

 Xem thông tin dữ liệu: Click chuột phải và Chọn chức năng Data Table:

Hình 27: Chức năng Data Table Hình 28: Chức năng Data Table

Hình 29: Xem dữ liệu trên Data Table

 Lựa chọn dữ liệu theo điều kiện:

 Chọn chức năng Select Rows

Hình 30: Chức năng Select Rows

 Chọn chức năng Select columns

Hình 31: Chức năng Select Columns

 Lưu dữ liệu đã chọn: Chọn chức năng Save Data

Hình 32: Chức năng Save Data

Hình 33: Thư mục lưu trữ

Hình 34: Chức năng Data Sampler

Phương pháp phân lớp dữ liệu trên Orange

3.1 Bài toán phân lớp dữ liệu a Định nghĩa

Là một loại bài toán trong machine learning và trí tuệ nhân tạo, trong đó mục tiêu là dự đoán lớp hoặc nhãn của một mẫu dữ liệu mới dựa trên việc học từ dữ liệu huấn luyện có nhãn (dữ liệu đã được gán nhãn với các lớp tương ứng) b Quy trình phân lớp dữ liệu

Hình 35: Quá trình phân lớp dữ liệu

- Bước 1: Xây dựng mô hình phân lớp

- Bước 2.1: Đánh giá mô hình

- Bước 2.2: Phân lớp dữ liệu mới c Phân loại bài toán phân lớp

Phân loại bài toán phân lớp dựa vào hai yếu tố chính:

- Số lượng lớp đầu ra (output classes):

 Phân loại nhị phân (Binary Classification): Khi chỉ có hai lớp đầu ra, thường là

 Phân loại đa lớp (Multiclass Classification): Khi có hơn hai lớp đầu ra, các lớp này không tương quan với nhau.

- Loại dữ liệu đầu vào (input data type):

 Phân loại dữ liệu có cấu trúc (Structured Data Classification): Dữ liệu được biểu diễn dưới dạng bảng, có các cột và hàng, thường là dữ liệu dạng số

 Phân loại dữ liệu không có cấu trúc (Unstructured Data Classification): Dữ liệu không có cấu trúc rõ ràng, thường là các đối tượng như văn bản, hình ảnh, âm thanh, video, v.v, …

3.2 Một số phương pháp phân lớp dữ liệu

- Hồi quy logistic (Logistic Regression)

Hình 36: Hộp thoại hồi quy Logistic Regression

Hình 37: Đồ họa phương pháp hồi quy Logistic

- Cây quyết định (Decision Tree)

Hình 38: Hộp thoại Tree Hình 39: Cây quyết định

- Tiện ích SVM (Support Vector Machine)

Hình 40: Hộp thoại SVM Hình 41: Biểu đồ SVM (Support Vector Machine)

3.3 Các phương pháp đánh giá mô hình phân lớp a Ma trận nhầm lẫn (Confusion Matrix)

Hình 42: Ma trận nhầm lẫn b Accuracy (tính chính xác):

→ 𝑎𝑐𝑐 = 𝑇𝑃+𝑇𝑁 Τ𝑛 => 𝐸𝑟𝑟𝑜𝑟 𝑟𝑎𝑡𝑒 = 1 - 𝑎𝑐𝑐 là độ lỗi của mô hình c ROC và AUC

- AUC (Area Under the Curve):

ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ

Phân tích dữ liệu

1.1 Tiền xử lý dữ liệu

- Bộ dữ liệu đúng chuẩn, không có dữ liệu bị thiếu nên nhóm có thể bỏ qua bước tiền xử lý dữ liệu

- Nạp dữ liệu vào phần mềm Orange bằng công cụ File Chọn Subscription Type là biến phụ thuộc (target)

Hình 45: Giao diện nạp dữ liệu vào phần mềm Orange

Bộ dữ liệu Netflix Data có 12 thuộc tính; 2500 bản ghi và không có giá trị bị thiếu.

- Để xem được dữ liệu từ bộ Netflix Data chưa qua tiền xử lý, ta kéo thả chuột từ File -> Data Table Nháy đúp chuột vào Data Table để quan sát được dữ liệu bên trong

Hình 46: Dữ liệu Netflix Data

1.2.Description - Mô tả dữ liệu

Netflix Data là dữ liệu thương mại điện tử, dữ liệu này thống kê về giới tính, gói dịch vụ, ngày đăng kí, thiết bị sử dụng, quốc tịch và các yếu tố khác

Biến độc lập Ý nghĩa ( Định dạng )

User ID cardinal Numbers( Numeric)

Subscription Type Gói dịch vụ( Categorical): Basic: 10$, Premium 15$,

Monthly Revenue Doanh thu hàng tháng( Numeric)( 10$, 12$, 15$ )

Join Date Ngày tham gia( text )

Last Payment Date Ngày thanh toán cuối cùng( Categorical)

Plan Duration Thời gian thực hiện kế hoạch( Categorical)

1.3 Thống kê mô tả dữ liệu

Dữ liệu được khảo sát trên 2500 User

- Kết quả khảo sát về các gói dịch vụ

Bảng 2: Bảng thống kê về gói Netflix khách hàng sử dụng

Gói dịch vụ Tần số Tần suất

Hình 47: Thống kê tỷ lệ các gói Netflix khách hàng sử dụng

 Nhận xét: Theo thống kê số lượng người dùng gói Basic vượt hơn hẳn lượng người dùng Standard và Premium >10% Số lượng người dùng trải nghiệm còn khá nhiều, lượng người đăng ký gói Premium với ưu điểm “chất lượng 4k” thấp hơn người dùng gói Standard 2% => Số lượng khách hàng xem bằng màn hình ( tivi, màn chiếu, …) sẽ < số lượng khách hàng xem bằng điện thoại

- Kết quả khảo sát: một số quốc gia trên thế giới đăng kí gói dịch vụ

Bảng 3: Thống kê về số lượng người mua Netflix của các quốc gia

Quốc gia Số người đăng kí Tần suất

Hình 48: Tỷ lệ đăng ký dịch vụ Netflix tại các quốc gia

 Nhận xét: Tỷ lệ đăng ký dịch vụ Netflix bằng nhau tại các quốc gia: Australia, Germany, France, Brazil, Mexico, United Kingdom, Italy và bằng 7%, Canada là 13% và United States cùng Spain là 18%

- Kết quả khảo sát: các thiết bị sử dụng dịch vụ Netflix

Bảng 4: Thống kê các thiết bị sử dụng dịch vụ Netflix

Thiết bị Số lượng người dùng thiết bị Tần suất

Hình 49: Tỷ lệ sử dụng thiết bị của người dùng Netflix

 Nhận xét: Tỷ lệ sử dụng các thiết bị của người dùng Netflix là tương đồng nhau

- Kết quả khảo sát về các thế hệ sử dụng Netflix

Bảng 5: Bảng tần số & tần suất các thế hệ sử dụng Netflix

Thế hệ Tần số Tần suất

Hình 50: Tỷ lệ độ tuổi đăng ký Netflix

 Nhận xét: Tỷ lệ đăng ký Netflix của Gen X là 30%, Gen Y là 66%, Gen Z là 4%

- Kết quả khảo sát về tỷ lệ giới tính đăng ký Netflix:

Bảng 6: Bảng thống kê về tỷ lệ giới tính đăng ký Netflix

Giới tính Số người đăng kí Tỷ lệ

Hình 51: Tỷ lệ giới tính đăng ký Netflix

 Nhận xét: Tỷ lệ đăng ký Netflix ở nam giới là 49,72%, nữ giới là 50,28%

Phân lớp dữ liệu

- Bước 1:Xây dựng mô hình

 Tiền xử lý dữ liệu: Bộ dữ liệu mẫu có đã đạt chuẩn nên không cần tiền xử lý dữ liệu

 Lấy tập dữ liệu huấn luyện (Training):

 Từ file Netflix Data đã được xử lý, ta kéo chọn Data Sampler

 Nháy đúp chuột vào biểu tượng Data Sampler tại Fixed proportion of data kéo chọn lấy 70% dữ liệu từ Netflix Data.xlxs , tiếp theo chọn Sample Data

Hình 52: Lấy mẫu từ dữ liệu gốc

 Tiếp theo chọn Data Table để xem dữ liệu mới được lấy

Hình 53: Mẫu dữ liệu huấn luyện xem trên Data Table

Tập dữ liệu huấn luyện có 1750 dữ liệu, 9 biến và không có dữ liệu bị lỗi

- Bước 2: Sử dụng mô hình

 Sử dụng Test and Score để so sánh, đánh giá các phương pháp phân lớp, dự báo dữ liệu: Tree, SVM, Logistic Regression Mục đích là để lựa chọn phương pháp tốt nhất và phương pháp dự báo chính xác nhất

Hình 54: Mô hình đánh giá các phương pháp dự báo

Hình 55: Bảng kết quả từ Test and Score

 Từ kết quả ta thấy:

AUC của các phương pháp:

➢ Suy ra: Tree > SVM = Logistic Regression

Hình 56: Kết quả ma trận nhầm lẫn của phương pháp Tree

Hình 57: Kết quả ma trận nhầm lẫn của phương pháp hồi quy Logistic

Hình 58: Kết quả ma trận nhầm lẫn của phương pháp SVM

 Nhận xét :Tại Confusion Matrix, chỉ số cần quan tâm là sai lầm loại 1 và sai lầm loại 2

Mô hình tốt nhất và chính xác nhất khi có sai lầm loại 1 và sai lầm loại 2 là thấp nhất Nhìn vào kết quả trên ta nhận thấy rằng phương pháp Tree là phương pháp phù hợp nhất (phần trăm sai lầm loại 1 là 16,1% và phần trăm sai lầm loại 2 là 20,6%).

 Nhận xét: Một mô hình hiệu quả khi có FPR thấp và TPR cao, hay đường cong ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mô hình càng hiệu quả Nên khi nhìn hình, ta thấy được mô hình Tree có đường cong ROC tiệm cận với điểm (0;1) nhất nên mô hình này là hiệu quả

- Phương pháp Tree là phương pháp tốt nhất

- Phương pháp này có AUC (Area Under The Curve) hay diện tích nằm dưới đường cong ROC là lớn nhất, tức có mô hình tốt nhất;

- Phương pháp này có CA (Accuracy) hay tính chính xác cao nhất;

- Phương pháp này có sai lầm loại 2 nhỏ nhất;

- Phương pháp này có hiệu quả cao nhất do đường cong ROC tiệm cận với điểm (0;1)

2.2 Dự báo 100 mẫu bất kì

- Sau khi sử dụng các phương pháp đánh giá mô hình phân lớp, ta sẽ chọn phương pháp Tree để dự báo 100 mẫu

- Sử dụng tập dữ liệu NetflixUserbase đã xử lý( đã xóa dữ liệu cột Subscription Type ) , ta kéo chọn Data Sampler lấy 100 mẫu dự báo

Hình 60: Mô hình dự báo 100 mẫu dữ liệu

Hình 61: Kết quả dự báo của 100 mẫu dữ liệu

ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH

Ưu điểm

- Bộ dữ liệu đúng chuẩn, không có dữ liệu bị thiếu nên nhóm có thể bỏ qua bước tiền xử lý dữ liệu

- Dựa vào kết quả dự báo trên doanh nghiệp có thể cái tiến quy trình giao hàng của mình để cải thiện thời gian giao hàng, việc thực hiện giao hàng đúng hạn và đáp ứng nhu cầu của khách hàng sẽ giúp tạo ra một hình ảnh tích cực cho doanh nghiệp Điều này có thể tạo ra lợi thế cạnh tranh và thu hút được nhiều khách hàng mới

Nhược điểm

Phươngpháp mà nhóm đã chọn DecisionTree(Cây quyết định) là phương pháp phù hợp nhất đối với hệ thống hiện tại, tuy nhiên sẽ khó đánh giá xu hướng lựa chọn gói dịch vụ qua sự thay đổi của thời gian và dự báo xu hướng tương lai gặp nhiều khó khăn

Kết luận

- Bằng các ứng dụng và các phương pháp phân tích dự báo đã học trên cơ sở KHDL, nhóm đã đạt được mục tiêu là tạo một mô hình dự báo khả năng đăng ký các gói dịch vụ Netflix của Khách hàng tại một số quốc gia với 100 mẫu bất kỳ

- Kèm theo đó Nhà quản lý có thể thấy được sự chênh lệch giữa các tỷ lệ từ người dùng đăng ký và đi tìm mấu chốt

- Ví dụ: Lứa tuổi Gen Z lại đăng ký gói Netflix ít hơn những người ở độ tuổi Gen Y Có phải chăng điều gì đó chưa làm cho các gói dịch vụ này hấp dẫn những bạn trẻ ngày nay.

Hướng phát triển

- Bộ dữ liệu Netflix này có thể được sử dụng để đưa ra các dự đoán và phân tích về doanh thu hàng tháng của từng thị trường( quốc gia), lứatuổi, giới tính sử dụng dịch vụ và các yếu tố khác

- Với các thông tin này, các nhà quản lý và các chuyên gia có thể đưa ra các quyết định và cải thiện về nội dụng( nội dung độc quyền, đa dạng hóa nội dung bằng việc mua bản quyền) âm thanh, hình ảnh để phù hợp với lứa tuổi, giới tính, tăng cường dịch vụ chăm sóc khách hàng, quản lý sản phẩm, chiến dịch marketing sản phẩm đến đúng khách hàng mục tiêu và đưa ra các chiến lược nâng cao chất lượng dịch vụ, cải thiện trải nghiệm của khách hàng hoặc giảm giá hợp lý để thu hút khách hàng

- Tùy chỉnh gói dịch vụ: Netflix có thể cung cấp các tùy chọn tùy chỉnh gói dịch vụ để cho phép khách hàng chọn các tính năng và nội dung mà họ quan tâm và trả tiền theo yêu cầu của mình

Tiêu đề	Phân tích và dự báo dữ liệu người dùng đăng ký netflix
Tác giả	Nguyễn Đình Trọng Thiện, Nguyễn Khắc Tính, Trần Minh Tiến
Người hướng dẫn	TS.GVC Nguyễn Quốc Hùng
Trường học	ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH
Chuyên ngành	Khoa học Dữ liệu
Thể loại	Báo cáo đồ án học phần
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	50
Dung lượng	2,78 MB