Orange có thế được sử dụng để phân tích đữ liệu từ nhiều nguồn khác nhau, bao gồm dữ liệu lịch sử nghe nhạc, dữ liệu nhân khâu học, vả đữ liệu hành vi trực tuyến, giúp nhà nghiên cứu tập
Trang 1DE TAI: DUNG ORANGE DE PHAN TICH XEM NGUOI DUNG SE THIEN
VE GOI DANG KY SPOTIFY NAO? GOI PREMIUM (PAID SUBSCRIPTION) HAY GOI FREE (AD-SUPPORTED)?
1 Giới thiệu: Mấy cái hình mục 1 với 2 cho vao slide hét nha
1.1 Lý đo chọn đề tài: Tìm hiệu vé Spotify
Spotifể là một công ty phát trực tuyến âm nhạc hàng đầu thế giới với hơn 400 triệu người dùng hoạt động hàng tháng Có rất nhiều đữ liệu có sẵn về người dùng của Spotifể, bao gồm dữ liệu về thói quen nghe nhạc, nhân khâu học, vả hành vi trực tuyến Việc hiểu rõ khả năng người dùng thiên về gói Premium hay gói Free có sẵn có thê giúp Spotify cải thiện chiến lược marketing và sản phâm của mình
Nghiên cứu nảy có thể giúp Spotify hiểu rõ hơn về số lượng người dùng chỉ trả để đăng ký gói Premium hoặc những người dùng vẫn ưu tiên gói Free có sẵn của mình
Từ đó, Spotify có thể nắm bắt thị trường tạo ra các thông điệp marketing phù hợp dé thu hút và giữ chân nhiều người dùng hơn Khi số lượng người dùng sẵn sảng chỉ trả cho gói Premium quá ít so với sử dụng gòi Free một cách miễn phí thì công ty nên xem xét, đưa ra các giải pháp cải tiến đối với ứng dụng, nhằm nâng cao trải nghiệm người dùng hay sẵn sảng đưa ra các gói Premium miễn phí trong khoảng thời gian nhất định cho khách hàng trãi nghiệm, giúp người đùng nhận ra chỉ tiền cho một gói Premium là xứng đáng
Đề tải này cũng là một đề tài phù hợp đề sử dụng phần mém Orange Orange 1a mét công cụ khai phá dữ liệu mạnh mẽ và linh hoạt Orange có thế được sử dụng để phân tích đữ liệu từ nhiều nguồn khác nhau, bao gồm dữ liệu lịch sử nghe nhạc, dữ liệu nhân khâu học, vả đữ liệu hành vi trực tuyến, giúp nhà nghiên cứu tập trung vào việc phân tích và giải thích kết quả để đưa ra kết luận mang tính chính xác nhất
Dựa trên các lý do trên, đề tài "Dùng Orange đề phân tích xem người dùng sẽ thiên về go1 dang ky Spotify nao? Goi Premium (paid subscription) hay g6i Free (ad-
Trang 2supported)?" là một để tải nghiên cứu có giá trị Đề tài này có thể giúp Spotify cải thiện chiến lược marketing và sản phẩm của mình, từ đó tăng doanh thu và lợi nhuận 1.2 Mục tiêu nghiên cứu
- Xác định tý lệ người dùng sẵn sảng chí trả cho gói Premium
- Từ đó đưa ra các phương án phù hợp cho sự phát triển của ứng dụng trong tương lai Kết quả nghiên cứu của đề tải này có thê có giá trị thực tiên đôi với Spotify, giúp công
ty cải thiện chiên lược marketing và sản phâm của mình
1.3 Phương pháp thực hiện
Tiến hành tìm kiếm, đọc và phân tích tai liệu, tổng hợp vả hệ thông hóa các thông tin
để có được góc nhìn toàn diện về đề tài nghiên cứu Dựa trên cơ sở lý luận thu thập được ta dùng lập luận, suy luận đề hình thành giả thuyết khoa học hoặc dự đoán về những thuộc tính của đối tượng nghiên cứu Cuối cùng xác định được phạm vi nghiên cứu rõ ràng và phủ hợp với mục tiêu và đôi tượng đã đê ra
Thông qua các thuật toán trong KPDL, đồng thời, sử dụng phần mềm Orange - một công cụ nghiên cứu và thực hành KPDL phổ biến hiện nay đề phân tích đữ liệu và làm
Trang 3Kết quả nghiên cứu của đề tài này có thê được sử dụng đề phát triển các kỹ thuật khai phá dữ liệu và phân tích dữ liệu lớn mới Ví dụ, các nhà nghiên cứu có thé str dung cac
kỹ thuật này để phân tích đữ liệu của các công ty phát trực tuyến âm nhạc khác hoặc các công ty trong các lĩnh vực khác
Đóng góp: Đề tải nảy cũng có đóng góp khoa học, góp phần phát triển các kỹ thuật khai phá dữ liệu và phân tích đữ liệu lớn Việc sử dụng phần mềm Orange để phân tích đữ liệu của người đùng Spotify là một hướng tiếp cận mới và hiệu quả, có thể được áp dụng cho các nghiên cứu tương tự trong tương lai
2 Cơ sở lý thuyết
2.1 Khai phá dữ liệu (Data Mining)
2.1.1 Khái niệm khai phá dữ liệu
Khai phá dữ liệu là quá trình trích xuất thông tin hữu ích từ dữ liệu lớn Thông tin này
có thể được sử dụng để đưa ra quyết định, cải thiện hiệu suất hoặc phát hiện các xu hướng mới
Khai phá đữ liệu sử dụng các kỹ thuật thống kê, học máy vả khai thác dữ liệu dé tìm các mẫu và mối quan hệ trong đữ liệu Các mẫu nảy có thế được sử dụng để đự đoán kết quả, phân nhóm dữ liệu hoặc phân tích xu hướng
Khai phá dữ liệu là một lĩnh vực đang phát triển nhanh chóng Với sự phát triển của công nghệ, dữ liệu ngày cảng trở nên phong phú vả phức tạp hơn Điều nảy đòi hỏi các kỹ thuật khai phá đữ liệu ngảy càng tiên tiến đề có thể khai thác giá trị từ đữ liệu
2.1.2 Một số tính năng chính của khai phá dữ liệu
- M6 ta khai niém (concept description): mé tả, tông hợp và tóm tắt trí thức
- Luat két hop (association rules): là luật biêu diễn tri thứ ở đạng khá đơn giản
Trang 4- Phân lớp và dự doan (classification & prediction): xếp đối tượng vảo một trong
2.1.3 Kỹ thuật khai phá dữ liệu
- Phân lớp: Phân lớp là kỹ thuật phân loại dữ liệu thành các nhóm khác nhau Ví dụ, khai phá đữ liệu có thê được sử dụng dé phân loại khách hàng thành các nhóm dựa trên hành vi mua săm của họ
- Dự đoán: Dự đoán là kỹ thuật dự đoán các giá trị trong tương lai Ví dụ, khai phá dữ liệu có thể được sử dụng dé dự đoán doanh số bán hang trong tương lai hoặc khả năng thanh toán của khách hàng
- Phân cụm: Phân cụm là kỹ thuật phân cụm dữ liệu thành các nhóm có liên quan với nhau Ví dụ, khai phá dữ liệu có thê được sử dụng dé phan cum khach hang dia trén
sở thích của họ
- Mô hình hóa: Mô hình hóa là kỹ thuật tạo ra các mô hình mô tả dữ liệu Mô hình nay
có thê được sử dụng đê hiệu dữ liệu và giải quyết các vân đê khác nhau
Trang 52.1.4 Quy trình khai phá dữ liệu
Quy trình khai phá dữ liệu thông thường gồm 10 bước:
L) Nghiên cứu lĩnh vực: nghiên cứu lĩnh vực cần sử dụng KPDL để xác định được những trí thức ta cần lấy hay bỏ, định hướng tốt ngay từ đầu đề trành việc lãng phí thời gian vào những dư liệu không cần thiết
2) Tạo tập tin dữ liệu đầu vào: tạo tập tin đề lưu trữ các đữ liệu đầu vào để máy tính có
Trang 6về tài nguyên trong quá trình xử ly trí thức Rouph set là lựa chọn thường được sử dụng đề giúp giảm số chiều của tập đữ liệu
5) Chon tac vụ khai thác dữ liệu: phải chọn được tác vụ khai thác dữ liệu sao cho phủ hợp Thông thường có các tác vụ sau:
6) Chọn các thuật giải Khai thác dữ liệu
7) Khai thác dữ liệu tìm kiếm tri thức: đây là bước chính của quá trình Data Mining
giúp ta khai phá và tiến hành tìm kiếm trí thức
8) Đánh giá mẫu tìm được: sau khi tìm kiếm được lượng tri thức nhất định, tiến hành đánh giá xem trị thức nào là cần thiết, sẽ được giữ lại và tri thức nảo là dư thừa, cần được loại bỏ
9) Biều diễn trí thức: biếu diễn tri thức vừa thu thập được đưới dạng ngôn ngữ tự nhiên và hình thức sao cho người dùng có thê hiểu được những tri thức đó
10) Sử dụng các tri thức vừa khám phá
2.1.5 Ứng dụng của khai phá dữ liệu
Trang 7- Phân tích đữ liệu và hỗ trợ ra quyết định
2.2 Phân lớp dữ liệu (Classification)
2.2.1 Khái niệm phân lớp dữ liệu
Phân lớp đữ liệu là một kỹ thuật trong khai phá dữ liệu Bằng cách gắn tên lớp cho một phần tử của tập dữ liệu dựa trên các đặc điểm của lớp Mục đích hướng đến là xây dựng mô hình có thé du đoán được tên lớp của các phần tử mới được đưa vào dựa vào những đặc điểm của nó Đây là một loại thuật toán phô biến và được dùng trong nhiều lĩnh vực, như: phân loại email, phân loại hình ảnh, phân loại văn bản, phân loại khách hang
2.2.2 Kỹ thuật phân lớp dữ liệu
- Xây dụng mô hình: là mô tả một tập những lớp được định nghĩa trước, mỗi bộ hoặc mẫu được gán thuộc về một lớp được định nghĩa trước như là được xác định bởi thuộc tính nhãn lớp, tập hợp của những bộ được sử dụng trong việc sửdụng mô hình được
gọi là tập huấn luyện Mô hình được biếu diễn là những luậtphân lớp, cây quyết định
và những công thức toán học
- Sử dụng mô hỉnh: việc sử dụng mô hình là dé phục vụ cho mục đích phân lớp dữ liệu trong tương lai hoặc phân lớp cho những đối tượng chưa biết đến Trước khi sử dụng
mô hỉnh người ta thường phải đánh giá tính chính xác của mô hình trong đó Phân lớp
là một hình thức học được giám sát, nghĩa là tập dữ liệu đi đôi với nhãn chỉ định lớp
Trang 8quan sát khi đó những dữ liệu mới được phân lớp dựa trên tập huấn luyện Ngược lại
là hình thức học không được giám sát lúc đó nhãn lớp của tập dữ liệu huấn luyện là
không được biết đến
2.3 Một số thuật toán phân lớp dữ liệu
2.3.1 Mô hình cây quyết định (Decision Tree)
Hình 2: Mô hình cây ra quyết định nếu chúng ta đang phân lớp ứng dụng vay ngân
hàng cho khác hàng Cây quyết định là một hệ thống phân cấp có cấu trúc được dùng để phân lớp các đối
tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thê thuộc vào nhiều kiểu
dữ liệu khác như Binary, Nominal, Ordinal, Quantitative và thuộc tính phân lớp phải
có kiêu đữ liệu là Binary hoặc Ordinal
Phân loại cây ra quyết định
Cây quyết định được chia thành ba loại nút như sau:
- Nút quyết định: phô biến nhất, được biêu diễn bởi các hình vuông
- Nút cơ hội: là các vòng tròn với những màu sắc đặc trưng
Trang 9- Nút kết thúc: được biếu diễn bằng hình tam giác
Ưu điểm của cây ra quyết định
- Đơn giản, đễ hiểu: với những nội dung ngắn gọn, xúc tích giúp người đọc đễ hình dung trong quá trình lên kế hoạch Phương pháp nảy cũng không đề cao quy trình chuẩn bị đữ liệu nên người dùng đễ dàng thao tac
- Cây quyết định vẫn hoạt động tốt khi các giả định được đưa ra ban đầu bị vi phạm bởi mô hình thực từ dữ liệu được tạo ra
- Chi phí dùng cây quyết định đề dự đoán các quyết định cụ thể là không quá cao phụ thuộc vảo sự logIstic trong sô điêm dữ liệu được sử dụng đề tạo nên cây
- Có thê xử lý lượng đữ liệu lớn trong thời gian ngắn
2.3.2 Mô hình hồi quy logistic (Logistic Regression)
Hồi quy logistic là một cách thông kê mạnh mẽ để mô
hình hóa một kết
quả nhị thức với một hoặc nhiều biến giải thích Nó
giữa biến phụ
một hoặc nhiêu biên độc lap bang cach ước tính xác suât sử dụng một hàm logistic, là
sự phân bồ tích lũy logistic
Trang 102.3.3 M6 hinh Support Vector Machines
Các điểm quan trọng về mô hình SVM:
- Ranh gidi phan chia (Decision Boundary): Trong mé hinh SVM, ranh giới phân chia được gọi
là siêu mặt phân chia (hyperplane) Đối với bải toán phân loại nhị phân, SVMI cô gắng
tìm một
Trang 11siêu mặt phân chia tạo ra khoảng cách lớn nhất giữa các điểm đữ liệu thuộc hai lớp khác nhau
- Support Vectors: Các điểm đữ liệu gần nhất với siêu mặt phân chia được gọi là
"support
vectors." Cac support vectors quyét dinh hinh dang va vị trí của siêu mặt phân chia
- Ham mat mat (Loss Function): SVM str dung ham mat mat Hinge Loss dé do luong sai số giữa dự đoán và thực tế Mục tiêu là tối thiêu hóa hàm mat mat nay trong qua trình tối ưu hóa
- Kernel Triek; SVMI cho phép sử dụng các hàm nhân (kernel functions) để ánh xạ dữ liệu từ không gian ban đầu sang không gian cao chiều hơn, làm cho việc tìm siêu mặt phan chia trở nên hiệu quả hơn Các kernel phổ biến bao gồm kernel tuyến tính, kernel
đa thức và kernel Radial Basis Function (RBF)
- Các biến thé của SVM: SVM có nhiều biến thể, bao gồm SVM dự đoán đa lớp, SVM hồi quy, và SVM cân bằng Các biến thể này mở rộng sức mạnh của SVM cho
nhiều loại bải toán khác nhau
2.3.4 Mô hình Mạng Nơ ron nhân tạo (Neural Network)
LY
Hinh 5: M6 hinh Neural Network
Trang 12Mạng nơ-ron nhân tạo (Neural Network - NN) là một mô hình tính toán lây cảm hứng
từ cầu trúc của hệ thần kinh của con người Kết hợp với các kĩ thuật học sâu (Deep Learning - DL), NN dang tro thành một công cụ rat manh mé mang lại hiệu quả tốt nhất cho nhiều bài toán khó như phân loại, dự đoán, nhận dạng mẫu và rất nhiều Ứng dụng khác
Một mạng nơ - ron nhân tạo gồm các thành phần cơ bản sau:
Trang 132.4 Một số phương pháp đánh giá mô hình phân lớp
2.4.1 Ma trận nhằm lẫn (Confusion Matrix)
Actual Values Positive (1) Negative (0)
Hinh 6: Ma tran nham lan (Confusion matrix)
Ma trận nhằm lẫn (Confusion matrix) được biếu diễn đưới dạng bảng 2 chiều hiển thị kết quả của một mô hỉnh phân loại Trong đó mỗi hàng đại diện cho các dự đoán của
mô hình và mỗi cột đại điện cho các lớp thực tế Nó cho ta thấy số lượng dự đoán đúng và sai của mô hình cho mỗi lớp Mỗi ô trong ma trận chira số lượng đữ liệu được phân loại chính xác hoặc sa
Ma trận nhằm lẫn bao gồm 4 phần chính: True Positives (TP), True Negatives (TN), False Positives (FP), False Negatives (FN)
Trang 142.4.2 Độ chính xác (Accuracy)
Độ chính xác là một số liệu được sử dụng để đánh giá hiệu suất của một mô hình học máy Độ chính xác được tính bằng cách chia số lượng dự đoán đúng cho tổng số dự đoán
Độ chính xác là một số liệu quan trọng, nhưng nó không phản ánh hiệu suất của mô hình một cách hoản chỉnh, vả có thê bị bảnh hưởng bởi sự mất cân bằng trong số lượng các lớp trong tập dữ liệu Trong trường hợp mất cân băng xảy ra, mô hình có thê đạt độ chính xác bằng cách dự đoán lớp thường xuất hiện nhiều hơn bỏ qua sự quan tâm đên lớp có sự xuât hiện ít hơn
Đê đánh giá hiệu suat của một mô hình một cách toản diện, cân sử dụng nhiêu sô liệu khác nhau, bao gồm độ chính xác, độ nhạy, độ đặc hiệu và hệ s6 ROC
2.4.3 Precision, Recall, F1 — score
Precision, Recall va F1 — score la ba so liệu quan trọng được sử dụng đê đánh giá hiệu suat của một mô hình phân loại Tuy nhiên, cân lưu ý răng ba sô liệu nảy có thê mâu thuần với nhau Ví dụ, nêu một mô hình được thiết kê đề có độ chính xác cao, thì độ nhạy của mô hình có thế thấp
Đê lựa chọn số liệu phù hợp đề đánh giá hiệu suât của một mô hình, cân xem xét mục đích sử dụng của mô hình Nêu một mô hình được sử dụng đề phân loại email spam, thi độ chính xác của mô hình lả rất quan trọng
Precision (độ chính xác) đo lường đo lường khả năng của mô hỉnh trong việc tránh đưa ra dự đoán sai, tức đưa ra số lượng trường hợp chính xác thật sự PrecIsion được tính bằng công thức sau:
PrecIsion = TP /(TP + FP)
Recall (tỉ lệ bắt sóng) đo lường tý lệ các đữ liệu được dự đoán đúng của mô hình trên tổng số dữ liệu đương tính thực tế Recall được tính băng công thức sau:
Trang 15Recall = TP/ (TP + FN)
FL — score 1a mét sé liéu két hop precision va recall va thuong duoc sir dung khi can kết hợp cả hai thuée do thanh mét Fl — score được tính băng công thức sau:
EI — score = 2 * (Preeision * Recall) / (Precision + Recall)
2.4.4 ROC (Receiver Operating Characteristic) va AUC (Area Under the Curve)
ROC va AUC là hai số liệu được sử đụng đề đánh giá hiệu suất của một mô hình phân
loại Đặc biệt là bải toán phân loại nhị phan (binary classification)
Đường cong ROC được xây dựng bằng cách tính toán độ nhạy (sensitivity) và độ đặc hiệu của một mô hình (specifcity) cho các ngưỡng khác nhau đề đo lường khả năng phân biệt của mô hình giữa hai lớp (positive and negative) Ngưỡng cảng thấp, độ nhạy cảng cao và độ đặc hiệu cảng thấp Ngưỡng cảng cao, độ nhạy cảng thấp vả độ đặc hiệu cảng cao
Receiver operating characteristic example
False Positive Rate
Hình 7: Minh họa phương pháp ROC AUC là diện tích nằm dưới đường ROC, nó đo lường mức độ tách biệt giữa hai lớp (positive and negative) bới mô hình phân loại Giá trị của AUC nằm trong khoảng từ 0
đến 1, nếu AUC =I tức mô hình phân loại là hoản hảo còn nếu AUC = 0.5 thì mô hình
Trang 16không có khả năng phân loại hơn so với đự đoán ngẫu nhiên Một AUC cao cho thấy
mô hình có khả năng phân loại dữ liệu tốt, còn ngược lại thì mô hình kém trong việc
2.4.5 Cross — Validation: K-fold va Holdout
Cross — Validation 1a mét ky thuat quan trong ding dé danh gia hiéu suat cau một mô
hình học máy tính Kỹ thuật nảy chia tập dữ liệu thành nhiều tập con và huấn luyện
mô hình trên từng tập con và đánh giá mô hình trên một tập con không sử dụng huấn luyện Giúp tránh tình trạng quá khớp (overfittine), xảy ra khi mô hình học quá chỉ tiết các đặc điểm và không thê tông quát hóa một cách tôi ưu với dữ liệu mới
Trang 17K-fold va holdout la hat phuong phap thuong duoc su dung trong qua trinh cross — validation: K-fold cross — validation là một phương pháp mạnh mẽ hơn và phố biến hơn, dữ liệu trong K-fold cross —- validation được chia thành các phần gọi là fold có kích thước tương tự nhau Trong mỗi lần huấn luyện, một fold được sử dụng làm kiểm tra va k-1 fold còn lai được sử dụng làm tập huấn luyện Sau k lần huấn luyện, kết quả của mỗi lần kiểm tra được kết hợp để tính toán các kích thước đo đánh giá hiệu suất chung của mô hình và đảm bảo mô hình được đánh giá trên toàn bộ tập dữ liệu và giảm sự phụ thuộc vảo việc chia ngâu nhiên đữ liệu
- Holdout là phương phap don gian nhat trong Cross — validation Trong holdout dit liệu được chia thành hai tập: huấn luyện (trainng set) và kiểm tra (test set), một phần
dữ liệu (70-80%) được sử dụng cho tập huấn luyện vả phần còn lại sử dụng cho tập kiểm tra
3 Mô tả bộ dữ liệu
3.1 Bộ dữ liệu huấn luyện
Bộ dữ liệu của 99 người dùng Spotify ding để huấn luyện gồm các biến Age,
Preffered_pod_ format, Preffered_pod_ duration, Pod_variety_ satisfaction
3.2 Bộ dữ liệu dự báo
Sau khi đã có bộ dự liệu huấn luyện của 99 người dùng Spotify, chúng ta sẽ dự báo 44 người dùng Spotify dựa vào bộ huấn luyện đã có săn Dự báo sẽ lựa chọn phương pháp phân lớp dữ liệu đề lựa chọn ra phương pháp thích hợp nhất thông qua cách đánh giá của các mô hình phân lớp
Trang 18RrWiEOlg5IM-HNo
Spotify là nhà cung cấp dịch vụ truyền phát âm thanh và truyền thông của Thụy Điền, được thành lập vào ngày 23 tháng 4 năm 2006 bởi Daniel Ek và Martin Lorentzon Đây là một dịch vụ cung cấp nhạc, podcast và viđeo kỹ thuật số cho phép người dùng truy cập hàng triệu bài hát và các nội đung khác của các nghệ sĩ trên khắp thế giới, với hơn 551 triệu người dùng hoạt động hàng tháng, bao gồm 220 triệu người đăng ký trả
phí, tính đến tháng 6 năm 2023 Spotify co mat & hau hét Chau Au, cing nhu Châu
Phi, Châu Mỹ, Châu Á va Châu Đại Dương, với 184 thị trường Hiện nay, ứng dụng Spotify trên Google Play có số lượt người tải ứng dụng lớn và có gần 28 triệu lượt đánh giá khiến nó trở thành ứng dụng nghe nhạc được yêu thích
s%* Nội dung của bộ dữ liệu
Dữ liệu chứa gần 100 lượt khảo sát về hành vi của người dùng thực về ứng dụng thông qua việc thực hiện một bảng câu hỏi bằng cách sử dụng biểu mẫu Google và thu thập được gần 522 phản hồi Dữ liệu cũng bao gồm các đánh giá do người dùng đưa
ra, do đó có thê phân loại thành đánh giá tích cực hoặc tiêu cực Bộ dữ liệu này có thé được sử dụng đề phân tích đánh giá của người dùng về ứng dụng Spotify, phát hiện ra những xu hướng và mối quan hệ giữa các thuộc tính khác nhau trong bộ dữ liệu, hoặc xây dựng các mô hình đự đoán tâm trạng của người dùng đối với ứng dụng đựa trên nội dung đánh giá Thông qua phân tích các yếu tổ này, chúng ta có thê đưa ra những
dự đoán chính xác hơn về việc người dùng sẽ thiên về gói đăng ký Spotify nảo Điều