Dùng Orange Để Phân Tích Xem Người Dùng Sẽ Thiên Về Gói Đăng Ký Spotify Nào Gói Premium (Paid Subscription) Hay Gói Free (Ad-Supported.pdf

Orange có thế được sử dụng để phân tích đữ liệu từ nhiều nguồn khác nhau, bao gồm dữ liệu lịch sử nghe nhạc, dữ liệu nhân khâu học, vả đữ liệu hành vi trực tuyến, giúp nhà nghiên cứu tập

Trang 1

DE TAI: DUNG ORANGE DE PHAN TICH XEM NGUOI DUNG SE THIEN

VE GOI DANG KY SPOTIFY NAO? GOI PREMIUM (PAID SUBSCRIPTION) HAY GOI FREE (AD-SUPPORTED)?

1 Giới thiệu: Mấy cái hình mục 1 với 2 cho vao slide hét nha

1.1 Lý đo chọn đề tài: Tìm hiệu vé Spotify

Spotifể là một công ty phát trực tuyến âm nhạc hàng đầu thế giới với hơn 400 triệu người dùng hoạt động hàng tháng Có rất nhiều đữ liệu có sẵn về người dùng của Spotifể, bao gồm dữ liệu về thói quen nghe nhạc, nhân khâu học, vả hành vi trực tuyến Việc hiểu rõ khả năng người dùng thiên về gói Premium hay gói Free có sẵn có thê giúp Spotify cải thiện chiến lược marketing và sản phâm của mình

Nghiên cứu nảy có thể giúp Spotify hiểu rõ hơn về số lượng người dùng chỉ trả để đăng ký gói Premium hoặc những người dùng vẫn ưu tiên gói Free có sẵn của mình

Từ đó, Spotify có thể nắm bắt thị trường tạo ra các thông điệp marketing phù hợp dé thu hút và giữ chân nhiều người dùng hơn Khi số lượng người dùng sẵn sảng chỉ trả cho gói Premium quá ít so với sử dụng gòi Free một cách miễn phí thì công ty nên xem xét, đưa ra các giải pháp cải tiến đối với ứng dụng, nhằm nâng cao trải nghiệm người dùng hay sẵn sảng đưa ra các gói Premium miễn phí trong khoảng thời gian nhất định cho khách hàng trãi nghiệm, giúp người đùng nhận ra chỉ tiền cho một gói Premium là xứng đáng

Đề tải này cũng là một đề tài phù hợp đề sử dụng phần mém Orange Orange 1a mét công cụ khai phá dữ liệu mạnh mẽ và linh hoạt Orange có thế được sử dụng để phân tích đữ liệu từ nhiều nguồn khác nhau, bao gồm dữ liệu lịch sử nghe nhạc, dữ liệu nhân khâu học, vả đữ liệu hành vi trực tuyến, giúp nhà nghiên cứu tập trung vào việc phân tích và giải thích kết quả để đưa ra kết luận mang tính chính xác nhất

Dựa trên các lý do trên, đề tài "Dùng Orange đề phân tích xem người dùng sẽ thiên về go1 dang ky Spotify nao? Goi Premium (paid subscription) hay g6i Free (ad-

Trang 2

supported)?" là một để tải nghiên cứu có giá trị Đề tài này có thể giúp Spotify cải thiện chiến lược marketing và sản phẩm của mình, từ đó tăng doanh thu và lợi nhuận 1.2 Mục tiêu nghiên cứu

- Xác định tý lệ người dùng sẵn sảng chí trả cho gói Premium

- Từ đó đưa ra các phương án phù hợp cho sự phát triển của ứng dụng trong tương lai Kết quả nghiên cứu của đề tải này có thê có giá trị thực tiên đôi với Spotify, giúp công

ty cải thiện chiên lược marketing và sản phâm của mình

1.3 Phương pháp thực hiện

Tiến hành tìm kiếm, đọc và phân tích tai liệu, tổng hợp vả hệ thông hóa các thông tin

để có được góc nhìn toàn diện về đề tài nghiên cứu Dựa trên cơ sở lý luận thu thập được ta dùng lập luận, suy luận đề hình thành giả thuyết khoa học hoặc dự đoán về những thuộc tính của đối tượng nghiên cứu Cuối cùng xác định được phạm vi nghiên cứu rõ ràng và phủ hợp với mục tiêu và đôi tượng đã đê ra

Thông qua các thuật toán trong KPDL, đồng thời, sử dụng phần mềm Orange - một công cụ nghiên cứu và thực hành KPDL phổ biến hiện nay đề phân tích đữ liệu và làm

Trang 3

Kết quả nghiên cứu của đề tài này có thê được sử dụng đề phát triển các kỹ thuật khai phá dữ liệu và phân tích dữ liệu lớn mới Ví dụ, các nhà nghiên cứu có thé str dung cac

kỹ thuật này để phân tích đữ liệu của các công ty phát trực tuyến âm nhạc khác hoặc các công ty trong các lĩnh vực khác

Đóng góp: Đề tải nảy cũng có đóng góp khoa học, góp phần phát triển các kỹ thuật khai phá dữ liệu và phân tích đữ liệu lớn Việc sử dụng phần mềm Orange để phân tích đữ liệu của người đùng Spotify là một hướng tiếp cận mới và hiệu quả, có thể được áp dụng cho các nghiên cứu tương tự trong tương lai

2 Cơ sở lý thuyết

2.1 Khai phá dữ liệu (Data Mining)

2.1.1 Khái niệm khai phá dữ liệu

Khai phá dữ liệu là quá trình trích xuất thông tin hữu ích từ dữ liệu lớn Thông tin này

có thể được sử dụng để đưa ra quyết định, cải thiện hiệu suất hoặc phát hiện các xu hướng mới

Khai phá đữ liệu sử dụng các kỹ thuật thống kê, học máy vả khai thác dữ liệu dé tìm các mẫu và mối quan hệ trong đữ liệu Các mẫu nảy có thế được sử dụng để đự đoán kết quả, phân nhóm dữ liệu hoặc phân tích xu hướng

Khai phá dữ liệu là một lĩnh vực đang phát triển nhanh chóng Với sự phát triển của công nghệ, dữ liệu ngày cảng trở nên phong phú vả phức tạp hơn Điều nảy đòi hỏi các kỹ thuật khai phá đữ liệu ngảy càng tiên tiến đề có thể khai thác giá trị từ đữ liệu

2.1.2 Một số tính năng chính của khai phá dữ liệu

- M6 ta khai niém (concept description): mé tả, tông hợp và tóm tắt trí thức

- Luat két hop (association rules): là luật biêu diễn tri thứ ở đạng khá đơn giản

Trang 4

- Phân lớp và dự doan (classification & prediction): xếp đối tượng vảo một trong

2.1.3 Kỹ thuật khai phá dữ liệu

- Phân lớp: Phân lớp là kỹ thuật phân loại dữ liệu thành các nhóm khác nhau Ví dụ, khai phá đữ liệu có thê được sử dụng dé phân loại khách hàng thành các nhóm dựa trên hành vi mua săm của họ

- Dự đoán: Dự đoán là kỹ thuật dự đoán các giá trị trong tương lai Ví dụ, khai phá dữ liệu có thể được sử dụng dé dự đoán doanh số bán hang trong tương lai hoặc khả năng thanh toán của khách hàng

- Phân cụm: Phân cụm là kỹ thuật phân cụm dữ liệu thành các nhóm có liên quan với nhau Ví dụ, khai phá dữ liệu có thê được sử dụng dé phan cum khach hang dia trén

sở thích của họ

- Mô hình hóa: Mô hình hóa là kỹ thuật tạo ra các mô hình mô tả dữ liệu Mô hình nay

có thê được sử dụng đê hiệu dữ liệu và giải quyết các vân đê khác nhau

Trang 5

2.1.4 Quy trình khai phá dữ liệu

Quy trình khai phá dữ liệu thông thường gồm 10 bước:

L) Nghiên cứu lĩnh vực: nghiên cứu lĩnh vực cần sử dụng KPDL để xác định được những trí thức ta cần lấy hay bỏ, định hướng tốt ngay từ đầu đề trành việc lãng phí thời gian vào những dư liệu không cần thiết

2) Tạo tập tin dữ liệu đầu vào: tạo tập tin đề lưu trữ các đữ liệu đầu vào để máy tính có

Trang 6

về tài nguyên trong quá trình xử ly trí thức Rouph set là lựa chọn thường được sử dụng đề giúp giảm số chiều của tập đữ liệu

5) Chon tac vụ khai thác dữ liệu: phải chọn được tác vụ khai thác dữ liệu sao cho phủ hợp Thông thường có các tác vụ sau:

6) Chọn các thuật giải Khai thác dữ liệu

7) Khai thác dữ liệu tìm kiếm tri thức: đây là bước chính của quá trình Data Mining

giúp ta khai phá và tiến hành tìm kiếm trí thức

8) Đánh giá mẫu tìm được: sau khi tìm kiếm được lượng tri thức nhất định, tiến hành đánh giá xem trị thức nào là cần thiết, sẽ được giữ lại và tri thức nảo là dư thừa, cần được loại bỏ

9) Biều diễn trí thức: biếu diễn tri thức vừa thu thập được đưới dạng ngôn ngữ tự nhiên và hình thức sao cho người dùng có thê hiểu được những tri thức đó

10) Sử dụng các tri thức vừa khám phá

2.1.5 Ứng dụng của khai phá dữ liệu

Trang 7

- Phân tích đữ liệu và hỗ trợ ra quyết định

2.2 Phân lớp dữ liệu (Classification)

2.2.1 Khái niệm phân lớp dữ liệu

Phân lớp đữ liệu là một kỹ thuật trong khai phá dữ liệu Bằng cách gắn tên lớp cho một phần tử của tập dữ liệu dựa trên các đặc điểm của lớp Mục đích hướng đến là xây dựng mô hình có thé du đoán được tên lớp của các phần tử mới được đưa vào dựa vào những đặc điểm của nó Đây là một loại thuật toán phô biến và được dùng trong nhiều lĩnh vực, như: phân loại email, phân loại hình ảnh, phân loại văn bản, phân loại khách hang

2.2.2 Kỹ thuật phân lớp dữ liệu

- Xây dụng mô hình: là mô tả một tập những lớp được định nghĩa trước, mỗi bộ hoặc mẫu được gán thuộc về một lớp được định nghĩa trước như là được xác định bởi thuộc tính nhãn lớp, tập hợp của những bộ được sử dụng trong việc sửdụng mô hình được

gọi là tập huấn luyện Mô hình được biếu diễn là những luậtphân lớp, cây quyết định

và những công thức toán học

- Sử dụng mô hỉnh: việc sử dụng mô hình là dé phục vụ cho mục đích phân lớp dữ liệu trong tương lai hoặc phân lớp cho những đối tượng chưa biết đến Trước khi sử dụng

mô hỉnh người ta thường phải đánh giá tính chính xác của mô hình trong đó Phân lớp

là một hình thức học được giám sát, nghĩa là tập dữ liệu đi đôi với nhãn chỉ định lớp

Trang 8

quan sát khi đó những dữ liệu mới được phân lớp dựa trên tập huấn luyện Ngược lại

là hình thức học không được giám sát lúc đó nhãn lớp của tập dữ liệu huấn luyện là

không được biết đến

2.3 Một số thuật toán phân lớp dữ liệu

2.3.1 Mô hình cây quyết định (Decision Tree)

Hình 2: Mô hình cây ra quyết định nếu chúng ta đang phân lớp ứng dụng vay ngân

hàng cho khác hàng Cây quyết định là một hệ thống phân cấp có cấu trúc được dùng để phân lớp các đối

tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thê thuộc vào nhiều kiểu

dữ liệu khác như Binary, Nominal, Ordinal, Quantitative và thuộc tính phân lớp phải

có kiêu đữ liệu là Binary hoặc Ordinal

Phân loại cây ra quyết định

Cây quyết định được chia thành ba loại nút như sau:

- Nút quyết định: phô biến nhất, được biêu diễn bởi các hình vuông

- Nút cơ hội: là các vòng tròn với những màu sắc đặc trưng

Trang 9

- Nút kết thúc: được biếu diễn bằng hình tam giác

Ưu điểm của cây ra quyết định

- Đơn giản, đễ hiểu: với những nội dung ngắn gọn, xúc tích giúp người đọc đễ hình dung trong quá trình lên kế hoạch Phương pháp nảy cũng không đề cao quy trình chuẩn bị đữ liệu nên người dùng đễ dàng thao tac

- Cây quyết định vẫn hoạt động tốt khi các giả định được đưa ra ban đầu bị vi phạm bởi mô hình thực từ dữ liệu được tạo ra

- Chi phí dùng cây quyết định đề dự đoán các quyết định cụ thể là không quá cao phụ thuộc vảo sự logIstic trong sô điêm dữ liệu được sử dụng đề tạo nên cây

- Có thê xử lý lượng đữ liệu lớn trong thời gian ngắn

2.3.2 Mô hình hồi quy logistic (Logistic Regression)

Hồi quy logistic là một cách thông kê mạnh mẽ để mô

hình hóa một kết

quả nhị thức với một hoặc nhiều biến giải thích Nó

giữa biến phụ

một hoặc nhiêu biên độc lap bang cach ước tính xác suât sử dụng một hàm logistic, là

sự phân bồ tích lũy logistic

Trang 10

2.3.3 M6 hinh Support Vector Machines

Các điểm quan trọng về mô hình SVM:

- Ranh gidi phan chia (Decision Boundary): Trong mé hinh SVM, ranh giới phân chia được gọi

là siêu mặt phân chia (hyperplane) Đối với bải toán phân loại nhị phân, SVMI cô gắng

tìm một

Trang 11

siêu mặt phân chia tạo ra khoảng cách lớn nhất giữa các điểm đữ liệu thuộc hai lớp khác nhau

- Support Vectors: Các điểm đữ liệu gần nhất với siêu mặt phân chia được gọi là

"support

vectors." Cac support vectors quyét dinh hinh dang va vị trí của siêu mặt phân chia

- Ham mat mat (Loss Function): SVM str dung ham mat mat Hinge Loss dé do luong sai số giữa dự đoán và thực tế Mục tiêu là tối thiêu hóa hàm mat mat nay trong qua trình tối ưu hóa

- Kernel Triek; SVMI cho phép sử dụng các hàm nhân (kernel functions) để ánh xạ dữ liệu từ không gian ban đầu sang không gian cao chiều hơn, làm cho việc tìm siêu mặt phan chia trở nên hiệu quả hơn Các kernel phổ biến bao gồm kernel tuyến tính, kernel

đa thức và kernel Radial Basis Function (RBF)

- Các biến thé của SVM: SVM có nhiều biến thể, bao gồm SVM dự đoán đa lớp, SVM hồi quy, và SVM cân bằng Các biến thể này mở rộng sức mạnh của SVM cho

nhiều loại bải toán khác nhau

2.3.4 Mô hình Mạng Nơ ron nhân tạo (Neural Network)

LY

Hinh 5: M6 hinh Neural Network

Trang 12

Mạng nơ-ron nhân tạo (Neural Network - NN) là một mô hình tính toán lây cảm hứng

từ cầu trúc của hệ thần kinh của con người Kết hợp với các kĩ thuật học sâu (Deep Learning - DL), NN dang tro thành một công cụ rat manh mé mang lại hiệu quả tốt nhất cho nhiều bài toán khó như phân loại, dự đoán, nhận dạng mẫu và rất nhiều Ứng dụng khác

Một mạng nơ - ron nhân tạo gồm các thành phần cơ bản sau:

Trang 13

2.4 Một số phương pháp đánh giá mô hình phân lớp

2.4.1 Ma trận nhằm lẫn (Confusion Matrix)

Actual Values Positive (1) Negative (0)

Hinh 6: Ma tran nham lan (Confusion matrix)

Ma trận nhằm lẫn (Confusion matrix) được biếu diễn đưới dạng bảng 2 chiều hiển thị kết quả của một mô hỉnh phân loại Trong đó mỗi hàng đại diện cho các dự đoán của

mô hình và mỗi cột đại điện cho các lớp thực tế Nó cho ta thấy số lượng dự đoán đúng và sai của mô hình cho mỗi lớp Mỗi ô trong ma trận chira số lượng đữ liệu được phân loại chính xác hoặc sa

Ma trận nhằm lẫn bao gồm 4 phần chính: True Positives (TP), True Negatives (TN), False Positives (FP), False Negatives (FN)

Trang 14

2.4.2 Độ chính xác (Accuracy)

Độ chính xác là một số liệu được sử dụng để đánh giá hiệu suất của một mô hình học máy Độ chính xác được tính bằng cách chia số lượng dự đoán đúng cho tổng số dự đoán

Độ chính xác là một số liệu quan trọng, nhưng nó không phản ánh hiệu suất của mô hình một cách hoản chỉnh, vả có thê bị bảnh hưởng bởi sự mất cân bằng trong số lượng các lớp trong tập dữ liệu Trong trường hợp mất cân băng xảy ra, mô hình có thê đạt độ chính xác bằng cách dự đoán lớp thường xuất hiện nhiều hơn bỏ qua sự quan tâm đên lớp có sự xuât hiện ít hơn

Đê đánh giá hiệu suat của một mô hình một cách toản diện, cân sử dụng nhiêu sô liệu khác nhau, bao gồm độ chính xác, độ nhạy, độ đặc hiệu và hệ s6 ROC

2.4.3 Precision, Recall, F1 — score

Precision, Recall va F1 — score la ba so liệu quan trọng được sử dụng đê đánh giá hiệu suat của một mô hình phân loại Tuy nhiên, cân lưu ý răng ba sô liệu nảy có thê mâu thuần với nhau Ví dụ, nêu một mô hình được thiết kê đề có độ chính xác cao, thì độ nhạy của mô hình có thế thấp

Đê lựa chọn số liệu phù hợp đề đánh giá hiệu suât của một mô hình, cân xem xét mục đích sử dụng của mô hình Nêu một mô hình được sử dụng đề phân loại email spam, thi độ chính xác của mô hình lả rất quan trọng

Precision (độ chính xác) đo lường đo lường khả năng của mô hỉnh trong việc tránh đưa ra dự đoán sai, tức đưa ra số lượng trường hợp chính xác thật sự PrecIsion được tính bằng công thức sau:

PrecIsion = TP /(TP + FP)

Recall (tỉ lệ bắt sóng) đo lường tý lệ các đữ liệu được dự đoán đúng của mô hình trên tổng số dữ liệu đương tính thực tế Recall được tính băng công thức sau:

Trang 15

Recall = TP/ (TP + FN)

FL — score 1a mét sé liéu két hop precision va recall va thuong duoc sir dung khi can kết hợp cả hai thuée do thanh mét Fl — score được tính băng công thức sau:

EI — score = 2 * (Preeision * Recall) / (Precision + Recall)

2.4.4 ROC (Receiver Operating Characteristic) va AUC (Area Under the Curve)

ROC va AUC là hai số liệu được sử đụng đề đánh giá hiệu suất của một mô hình phân

loại Đặc biệt là bải toán phân loại nhị phan (binary classification)

Đường cong ROC được xây dựng bằng cách tính toán độ nhạy (sensitivity) và độ đặc hiệu của một mô hình (specifcity) cho các ngưỡng khác nhau đề đo lường khả năng phân biệt của mô hình giữa hai lớp (positive and negative) Ngưỡng cảng thấp, độ nhạy cảng cao và độ đặc hiệu cảng thấp Ngưỡng cảng cao, độ nhạy cảng thấp vả độ đặc hiệu cảng cao

Receiver operating characteristic example

False Positive Rate

Hình 7: Minh họa phương pháp ROC AUC là diện tích nằm dưới đường ROC, nó đo lường mức độ tách biệt giữa hai lớp (positive and negative) bới mô hình phân loại Giá trị của AUC nằm trong khoảng từ 0

đến 1, nếu AUC =I tức mô hình phân loại là hoản hảo còn nếu AUC = 0.5 thì mô hình

Trang 16

không có khả năng phân loại hơn so với đự đoán ngẫu nhiên Một AUC cao cho thấy

mô hình có khả năng phân loại dữ liệu tốt, còn ngược lại thì mô hình kém trong việc

2.4.5 Cross — Validation: K-fold va Holdout

Cross — Validation 1a mét ky thuat quan trong ding dé danh gia hiéu suat cau một mô

hình học máy tính Kỹ thuật nảy chia tập dữ liệu thành nhiều tập con và huấn luyện

mô hình trên từng tập con và đánh giá mô hình trên một tập con không sử dụng huấn luyện Giúp tránh tình trạng quá khớp (overfittine), xảy ra khi mô hình học quá chỉ tiết các đặc điểm và không thê tông quát hóa một cách tôi ưu với dữ liệu mới

Trang 17

K-fold va holdout la hat phuong phap thuong duoc su dung trong qua trinh cross — validation: K-fold cross — validation là một phương pháp mạnh mẽ hơn và phố biến hơn, dữ liệu trong K-fold cross —- validation được chia thành các phần gọi là fold có kích thước tương tự nhau Trong mỗi lần huấn luyện, một fold được sử dụng làm kiểm tra va k-1 fold còn lai được sử dụng làm tập huấn luyện Sau k lần huấn luyện, kết quả của mỗi lần kiểm tra được kết hợp để tính toán các kích thước đo đánh giá hiệu suất chung của mô hình và đảm bảo mô hình được đánh giá trên toàn bộ tập dữ liệu và giảm sự phụ thuộc vảo việc chia ngâu nhiên đữ liệu

- Holdout là phương phap don gian nhat trong Cross — validation Trong holdout dit liệu được chia thành hai tập: huấn luyện (trainng set) và kiểm tra (test set), một phần

dữ liệu (70-80%) được sử dụng cho tập huấn luyện vả phần còn lại sử dụng cho tập kiểm tra

3 Mô tả bộ dữ liệu

3.1 Bộ dữ liệu huấn luyện

Bộ dữ liệu của 99 người dùng Spotify ding để huấn luyện gồm các biến Age,

Preffered_pod_ format, Preffered_pod_ duration, Pod_variety_ satisfaction

3.2 Bộ dữ liệu dự báo

Sau khi đã có bộ dự liệu huấn luyện của 99 người dùng Spotify, chúng ta sẽ dự báo 44 người dùng Spotify dựa vào bộ huấn luyện đã có săn Dự báo sẽ lựa chọn phương pháp phân lớp dữ liệu đề lựa chọn ra phương pháp thích hợp nhất thông qua cách đánh giá của các mô hình phân lớp

Trang 18

RrWiEOlg5IM-HNo

Spotify là nhà cung cấp dịch vụ truyền phát âm thanh và truyền thông của Thụy Điền, được thành lập vào ngày 23 tháng 4 năm 2006 bởi Daniel Ek và Martin Lorentzon Đây là một dịch vụ cung cấp nhạc, podcast và viđeo kỹ thuật số cho phép người dùng truy cập hàng triệu bài hát và các nội đung khác của các nghệ sĩ trên khắp thế giới, với hơn 551 triệu người dùng hoạt động hàng tháng, bao gồm 220 triệu người đăng ký trả

phí, tính đến tháng 6 năm 2023 Spotify co mat & hau hét Chau Au, cing nhu Châu

Phi, Châu Mỹ, Châu Á va Châu Đại Dương, với 184 thị trường Hiện nay, ứng dụng Spotify trên Google Play có số lượt người tải ứng dụng lớn và có gần 28 triệu lượt đánh giá khiến nó trở thành ứng dụng nghe nhạc được yêu thích

s%* Nội dung của bộ dữ liệu

Dữ liệu chứa gần 100 lượt khảo sát về hành vi của người dùng thực về ứng dụng thông qua việc thực hiện một bảng câu hỏi bằng cách sử dụng biểu mẫu Google và thu thập được gần 522 phản hồi Dữ liệu cũng bao gồm các đánh giá do người dùng đưa

ra, do đó có thê phân loại thành đánh giá tích cực hoặc tiêu cực Bộ dữ liệu này có thé được sử dụng đề phân tích đánh giá của người dùng về ứng dụng Spotify, phát hiện ra những xu hướng và mối quan hệ giữa các thuộc tính khác nhau trong bộ dữ liệu, hoặc xây dựng các mô hình đự đoán tâm trạng của người dùng đối với ứng dụng đựa trên nội dung đánh giá Thông qua phân tích các yếu tổ này, chúng ta có thê đưa ra những

dự đoán chính xác hơn về việc người dùng sẽ thiên về gói đăng ký Spotify nảo Điều

Tiêu đề	Dùng Orange Để Phân Tích Xem Người Dùng Sẽ Thiên Về Gói Đăng Ký Spotify Nào? Gói Premium (Paid Subscription) Hay Gói Free (Ad-Supported)
Chuyên ngành	Khai phá dữ liệu
Thể loại	Đề tài nghiên cứu

Định dạng
Số trang	36
Dung lượng	6,09 MB