Hiện nay việc livestream đang trở nên phổ biến và mở rộng trên khắp thế giới. Và công việc này cũng đem lại được nguồn thu nhập to lớn. Vì đó nhiều người mong muốn thực hiện việc livestream để có thể kiếm được nguồn thu nhập ổn định. Tuy nhiên để có thể kiếm tiền từ việc livestream thì kênh livestream cần phải được nhiều lượt đăng ký và yêu thích. Để giải quyết vấn đề đó nhóm em đã quyết định nghiên cứu các top streamer trên nền tảng twitch để có thể tìm được các yếu tố có thể ảnh hưởng đến số lượt đăng ký của kênh.
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO CUỐI KỲ Nhập mơn lập trình Python cho phân tích Ho Chi Minh City, 15/6/2022 MỤC LỤC Chương Tóm Tắt - Hiện việc livestream trở nên phổ biến mở rộng khắp giới Và công việc đem lại nguồn thu nhập to lớn Vì nhiều người mong muốn thực việc livestream để kiếm nguồn thu nhập ổn định Tuy nhiên để kiếm tiền từ việc livestream kênh livestream cần phải nhiều lượt đăng ký u thích Để giải vấn đề nhóm em định nghiên cứu top streamer tảng twitch để tìm yếu tố ảnh hưởng đến số lượt đăng ký kênh - Các phương pháp mà nhóm sử dụng trình nghiên cứu : Thu thập xử lý số liệu, điều tra chọn mẫu, nghiên cứu mối liên hệ biến dự đoán - Kết q trình nghiên cứu nhóm: cịn có nhiều yếu tố khác ảnh hưởng đến số lượng đăng ký mà nhóm chưa tìm thấy Chương Giới thiệu - Nhóm có câu hỏi nghiên cứu chính: + Dựa vào tổng thời gian xem(view gained), dự đốn kênh có nhiều thời gian xem kênh có nhiều lượt đăng kí hay không Câu hỏi cho biết liệu yếu tố thời gian xem có ảnh hưởng đến số lượng đăng ký hay khơng Nếu có ta dựa vào yếu tố để dự đoán số lượt đăng ký kênh Điều giúp cho kênh có số lượt đăng ký thấp tập trung vào yếu tố để cải thiện số lượt đăng ký kênh + Partnered, Mature so với Stream time, dự đoán đâu yếu tố định kênh có nhiều quan tâm.Câu hỏi cho biết đâu yếu tố ảnh hưởng đến số lượt đăng ký Các yếu tố điều yếu tố mà thực dễ dàng so với yếu tố khác để tăng số lượt đăng ký Điều giúp cho nhiều kênh áp dụng thêm yếu tố để tăng số lượt đăng ký kênh - Input toán tập liệu gồm 1000 streamer tảng twitch năm Chúng em sử dụng thuật toán Linear regression để dự đoán số lượt đăng ký kênh Trong biến kết Followers(số lượt đăng ký kênh) Watch time(Minutes), Stream time(Minutes), Peak Viewers, Average viewers, Followers gained , Views gained, Partnered, Mature, Language biến dự đoán Chương Dữ liệu (Data) - - + + + - - Nguồn liệu lấy từ trang cá nhân streamer twitch tổng hợp lại Dữ liệu Creative Machine Learning, Data Science AaYush Mish thu thập làm gồm 11 cột thuộc tính với giá trị đầy đủ không lỗi source Dataset tập liệu 1000 streamer stream twitch năm.Dữ liệu bao gồm thông tin khác số lượng người xem, số lượng người xem hoạt động, số người theo dõi đạt nhiều cột liên quan đến người phát trực tiếp cụ thể Nó có 11 cột khác với tất thông tin cần thiết Các trường hợp xảy ra: Số liệu cập nhập bị trễ so với thực tế Tài khoản bị khố chủ tài khoản khố kênh Bị sai sót trình thu thập liệu, sai range,thiếu biến, Nhóm em in dịng đầu liệu để thấy rõ thuộc tính số số liệu liệu Tiếp nhóm em có in kiểu liệu để hình dung rõ hiểu liệu Chương Trực quan hóa liệu - Ở câu hỏi Dựa vào tổng thời gian xem(view gained), dự đốn kênh có nhiều thời gian xem kênh có nhiều lượt đăng kí hay khơng Nhóm em vẽ biểu đồ Biểu đồ giúp chúng em thấy rõ tỉ lệ thời gian xem (view gained) với số lượt đăng ký ( Followers) Từ quan sát biểu đồ đó, đưa số suy luận View gained với Followers - Ở câu hỏi : Partnered, Mature so với Stream time, dự đoán đâu yếu tố định kênh có nhiều quan tâm - Biểu đồ kết hợp yếu tố Mature, Partnered Stream time để thấy ảnh hưởng chúng với Followers Từ quan sát biểu đồ bên trái, ta thấy yếu tố Partnered = false, Streams time kênh thưa thớt Followers,yếu tố Mature dường không ảnh hưởng đến Followers Qua biểu đồ bên phải với kênh có Partnered = true, Streamers trở nên phổ biến rộng rãi kênh có followers cao đa số không cần đến yếu tố Mature = true Stream times biểu đồ không ảnh hưởng lớn đến Followers Như việc kênh trở nên yêu thích quan tâm đăng kí người xem, yếu tố partnered điều kiện cần thiết, yếu tố Mature Stream time khơng có ảnh hưởng lớn Chương Mơ hình hóa liệu (data modeling) - Nhóm em sử dụng thuật tốn Linear Regression hay cịn gọi Hồi quy tuyến tính phương pháp dự đốn kết dựa giá trị đầu vào mối quan hệ đầu vào đầu trước + Input toán vector X=[x1,x2,x3,…,xn] thể thuộc tính biến dự đốn dạng số thực output y^=f(X)≈y, với y số lượt Followers kênh f(X) tính cơng thức sau: + Loss Function (Hàm mát) Linear Regression + Để tìm nghiệm cho tốn Linear Regression, giải phương trình đạo hàm hàm loss Đạo hàm theo w hàm loss có dạng: + Nghiệm tối ưu cho tốn có dạng sau: - Kiểm định giả thuyết: + �0 : Trung bình mẫu trung bình quần thể khơng khác (no effect) Giả thuyết đặt trước ta lựa chọn mẫu tính giá trị thống kê + �0 ∶ � = � + �� : Trung bình mẫu trung bình quần thể khác Đây giả thuyết hai phía - (two-sided) �� ∶ � ≠ � + � trung bình quần thể + � trung bình mẫu + Ta đặt giả thuyết phía (one-sided) - Mức ý nghĩa alpha: + Mức ý nghĩa alpha, (�), tiêu chí mà sử dụng để định có nên giữ lại hay loại bỏ giả thuyết đặt + Thông thường � chọn 0.05 + Khi ta chọn �, khác biệt thống kê mẫu tham số quần thể nhỏ �, bác bỏ giả thuyết �0 kết luận khác biệt có lẽ khơng phải tình cờ + Khi ta bác bỏ giả thuyết �0 , ta sai (bác bỏ �0 đúng) Lỗi gọi lỗi loại + Mức độ alpha, (�), đại diện cho tỷ lệ lỗi loại mà sẵn sàng chấp nhận trước tiến hành phân tích thống kê - Phân tích thống kê: + Khi ta làm suy luận thống kê, ta muốn biết tượng mà ta quan sát mẫu có đại diện cho tượng thực tế quần thể hay không + Ta lập giả thuyết vơ hiệu �0 khơng có khác biệt + Ta chọn mức ý nghĩa � làm tiêu chuẩn để chấp nhận hay bác bỏ giả thuyết + Tính giá trị p (p-value) + Nếu � < �, ta bác bỏ giả thuyết �0 kết luận khác biệt nhiều khả khơng phải tình cờ + Khi bác bỏ �0 ta có khả mắc sai lầm, sai lầm loại + Nếu � > �, ta không bác bỏ �0 kết luận khác biệt nhiều khả tình cờ liệu quan sát khơng đủ để chứng tỏ có khác biệt - Z – test cho giá trị trung bình: + Giả sử liệu �1 , �2 , ⋯ , �� ∼ �(�, �2 ), � chưa biết, � biết + Null hypothesis: �0 ∶ � = �0 , với �0 cho trước + Alternative hypothesis: + Two-sided: �� ∶ � ≠ �0 + Right-sided: �� ∶ � > �0 + Left-sided: �� ∶ � < �0 + Test statistic: � = � − �0 �/√ � + p-value + Two-sided: � = � (� > |�||�0 ) + Right-sided: � = � (� > �|�0 ) + Left-sided: � = � (� < �|�0 ) Chương Thực nghiệm, kết quả, thảo luận (experiments, results, and discussions) - Mơ hình hồi quy dựa vào Wactch times để dự đoán lượng Followers: Watch time(Minutess):biến độc lập w: hệ số biến độc lập b: giá trị lệch Followers = w.Watchtime + b 10 - Nhóm em sử dụng thuật toán Linear Regression để dự đoán kết từ Watch time (minutes) để dự đoán Followers Biểu đồ thể kết thuật toán Quan sát từ biểu đồ ta thấy từ triệu Followers 200 triệu phút watch time điểm tập trung từ triệu Followers trở lên 200 triệu phút Watch time trở lên điểm phân tán, khơng tập trung - Để xác định rõ điều nhóm em thực dự đoán Followers từ Watch time khoảng [100000000,170000000] Kết dự đoán followers tỉ lệ thuận với watchtimes 11 - Khi Watch time khoảng [200000000,300000000] Mô hình cho ta kết dự đốn followers vs watchtime tỉ lệ thuận giá trị followers có chênh lệch lớn mơ hình cho ta kết dự đốn mang tính gần đúng, chưa thể áp dụng mơ hình hồi quy đơn biến để kết luận - Mơ hình hồi quy dựa vào nhiều biến để dự đoán số lượng Followers + Các biến dự đoán sử dụng: Watch time(Minutes),Stream time(minutes) ,Peak viewers,Average viewers ,Followers gained,Views gained + Sau xây dựng thuật tốn có số Accuracy sau: Accuracy of training data: 53.69612929734367 Accuracy of testing data: 53.29426334264469 Và số Error: Mean Absolute Error: 123148.59557367934 Mean Squared Error: 47428017336.7476 Root Mean Squared Error: 217779.74501029152 - Biểu đồ thể Followers thực tế Followers dự đoán + 12 - Quan sát từ biểu đồ thấy từ khoảng triệu Followers trở lại kết dự đoán tương đồng từ triệu trở kết dự đốn chênh lệch với Followers thực tế - Từ đó, thấy cịn có yếu tố khác ảnh hưởng đến Followers mà chưa tìm thấy 13 Chương Kết Luận - - Sử dụng ngôn ngữ python thư viện cần thiết để trực quan hoá liệu, hàm tính tốn, phân tích, trực quan biểu đồ Áp dụng kiến thức môn học lớp: áp dụng kiểm định P-VALUES Áp dụng hồi quy tuyến tính, xây dựng mơ hình dự đốn CHANNEL có nhiều lượt đăng kí Sau q trình nghiên cứu nhóm em thấy có mốt số yếu tố có ảnh hưởng đến Followers(Số lượt đăng ký) , ta dựa vào yếu tố để gia tăng Followers Tuy nhiên để dự đốn Followers xác cịn cần yếu tố khác để gia tăng khả dự đốn xác Nếu có nhiều thời gian hơn, nhóm chúng em tìm kiếm thêm yếu tố ảnh hưởng đến Follwers áp dụng thêm mơ hình hồi quy Logictisc để có nhiều dự đốn thực tế xác 14 Chương Tham Khảo - Tài liệu tham khảo môn học nhập mơn lập trình python phân tích thầy Qch Đình Hồng - Hồi qui tuyến tính wikipedia, web : https://aicurious.io/posts/linearregression - Các hàm trực quan liệu vẽ biểu đồ: tham khảo từ youtube.com - Hồi quy đa biến : https://www.kaggle.com/code/jagannathpal/twitchstreamer-analysis-eda-prediction - Tiếp cận liệu: kaggle.com, twitch.com 15 ... Partnered, Mature, Language biến dự đoán Chương Dữ liệu (Data) - - + + + - - Nguồn liệu lấy từ trang cá nhân streamer twitch tổng hợp lại Dữ liệu Creative Machine Learning, Data Science AaYush... thập làm gồm 11 cột thuộc tính với giá trị đầy đủ không lỗi source Dataset tập liệu 1000 streamer stream twitch năm .Dữ liệu bao gồm thông tin khác số lượng người xem, số lượng người xem hoạt động,... nhóm em định nghiên cứu top streamer tảng twitch để tìm yếu tố ảnh hưởng đến số lượt đăng ký kênh - Các phương pháp mà nhóm sử dụng q trình nghiên cứu : Thu thập xử lý số liệu, điều tra chọn mẫu,