Với mục đích đưa ra cho người sửdụng những gợi ý gần đúng nhất, tiện lợi cho người dùng, qua đó nâng cao chất lượng phục vụ của các website nghe nhạc trực tuyến Đề tài “Nghiên cứu phương
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
HOÀNG ANH MINH
CHUYÊN NGÀNH : HỆ THÓNG THÔNG TIN
Trang 2Luận văn được hoàn thành tại:
HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG
Người hướng dẫn khoa học: TS Nguyễn Duy Phương
Phản biện 1: PGS.TS Phạm Văn Cường
Phản biện 2: PGS.TS Đoàn Văn Ban
Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ tại Học
viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm
Có thê tìm hiêu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MO DAU
Ly do chon dé tai
Trong đời sống hiện nay, nhu cầu giải tri của người Việt Nam ngày càng cao Sự bùng
nổ của Internet kéo theo sự phát triển của các ứng dụng giải trí trực tuyến Chi tính riêng ởViệt Nam, các website với các ứng dụng game, xem phim, nghe nhạc trực tuyến đã xuất hiệnngày càng nhiều trong vài năm trở lại đây Trong quá trình sử dụng các ứng dụng giải trí trựctuyến nghe nhạc, có những lúc người dùng muốn nghe những bản nhạc họ chưa từng đượcnghe bao giờ nhưng lại không biết tìm bản nhạc nào phù hợp Nắm bắt được nhu cầu đó các
website nghe nhac trực tuyến đã đưa ra một công cụ nhằm gợi ý cho người nghe những bản
nhạc mà họ cho là người dùng sẽ thích dựa trên các phương pháp học máy.
Các diễn đàn trao đổi về các phương pháp học máy dé gợi ý ban nhạc được tổ chứchàng năm đề nâng cao chất lượng cho các hệ thống gợi ý Với mục đích đưa ra cho người sửdụng những gợi ý gần đúng nhất, tiện lợi cho người dùng, qua đó nâng cao chất lượng phục
vụ của các website nghe nhạc trực tuyến
Đề tài “Nghiên cứu phương pháp học máy ứng dụng trong xây dựng hệ gợi ý âm nhạc”,
nhằm cung cấp một cái nhìn về các phương pháp học máy gợi ý âm nhạc, phân tích, so sánhcác phương pháp đó và lựa chọn một phương pháp dé xây dựng hệ thống gợi ý cho website
nghe nhạc trực tuyến
Tổng quan về các van đề nghiên cứu
Hiện nay, trên thị trường Việt Nam nói riêng có 2 website phô biến với người dùnginternet là mp3.zing.vn và nhaccuatui.com Hai website này có số lượng người dùng đôngđảo với số lượng đồ sộ các bản nhạc có bản quyền Người sử dụng có thé dé dàng tìm đượcbài hát mình cần tại 2 website này Tuy cả 2 website này đều có ứng dụng gợi ý bản nhạc cho
người dùng nhưng ít user sử dụng tính năng này vì những bản nhạc gợi ý chưa thật sự hợp lý.
Bài toán được đặt ra ở đây sẽ là tai sao các phương pháp được sử dụng tại các website
đó chưa hiệu quả và sử dụng phương pháp nào sẽ đạt được hiệu quả tốt nhất Chúng ra sẽ tìmcách phần nào giải quyết điều đó trong phạm vi luận văn này
Mục đích nghiên cứu
Mục đích chung của đề tài là học viên thực hành nghiên cứu, kết thúc khóa đào tạo sau
đại học, hoàn thành Luận văn Thạc sĩ CNTT
Trang 4Mục đích thực tiễn của đề tài là đưa ra một hệ thống gơi ý phù hợp với nhu cầu của
người dùng nâng cao chất lượng của website nghe nhạc trực tuyến
Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu bao gồm các kỹ thuật, các phương pháp học máy được sử dụng
để gợi ý dữ liệu
Các phương pháp học máy này sẽ được tìm hiểu trong phạm vi đữ liệu là các bản nhạc,
xử lý các bản nhạc.
Phương pháp nghiên cứu
Nghiên cứu lý thuyết, tìm hiểu về các phương pháp học máy, tìm hiểu về các siêu dit
liệu đê xử lý các bản nhạc, các nhu câu của người dùng.
Cấu trúc của luận văn
Nội dung của luận văn được trình bày trong ba phần chính như sau:
1 Phần mở đầu
2 Phần nội dung: bao gồm ba chương
Chương 1: Tổng quan về học máy trong hệ gợi ýChương 2: Phương pháp gợi ý kết hợp giữa lọc cộng tác và lọc nội dungChương 3: Xây dựng hệ thống gợi ý cho website nghe nhạc trực tuyến
3 Phần kết luận
Trang 5có khả năng gây sự chú ý cho khách hang được liệt kê dựa trên các thông tin của sản phẩmđược xem xét Dé có được các danh sách gợi ý dành riêng cho từng cá nhân ta sẽ cần thu thậpcác thông tin của từng người dùng Những thông tin này có thể thu thập được bằng cách yêu
cầu người dùng đánh giá sản phẩm mà họ quan tâm hoặc băng cách giám sát ngầm hành vi
của họ.
1.1.1 Học máy lọc cộng tác
Phương pháp gợi ý phố biến nhất là loc cộng tác Hệ thống này tận dụng lợi thé của sựcông tác ngầm định giữa các người dùng Cách tiếp cận này không đòi hỏi bất kỳ một hiểubiết thực tế cụ thé về các mặt hàng được gợi ý Điểm mạnh rõ ràng của cách tiếp cận này làchúng ra sẽ không cần sử dụng đến dữ liệu phức tạp cũng như duy trì chúng trong hệ thống
Do đó, chúng ta sẽ tiết kiệm được một lượng lớn tài nguyên Tuy nhiên, việc không đưa vào
các dit liệu cụ thé của các nội dung gợi ý sẽ làm giảm tính chính xác của hệ thống Ngoài ra,
sẽ khó cho chúng ta có thể gợi ý các sản pham hay các mặt hàng mới đưa vào hệ thống hoặccác sản phẩm đó chưa người người dùng nao tìm đến Một nhược điểm khác của cách tiếpcận này là khả năng bị “SPAM” (ví dụ như các quảng cáo) đến từ các tài khoản chạy các hệ
thống gửi message tự động Theo bài báo “A Survey of Collaborative Filtering Techniques”,
hệ thong gợi ý dựa trên loc cộng tac có thể chia làm ba nhóm:
Các hệ thống dựa trên bộ nhớ (memory-based systems), các hệ thống dựa trên mô hình
(model-based systems) và các hệ thống kết hợp (hybrid systems — kết hợp các mô hình vớimột cơ sở đữ liệu các thông tin người dùng) Các tác giả cũng thảo luận về những thách thứccủa các hệ thống này, bao gồm, sự thưa thớt đữ liệu, khả năng mở rộng, các từ đồng nghĩa
(các sản phâm khác giống nhau nhưng khác tên) và “Shiling attacks” (các cá nhân tự đánh giá
thứ hạng cao cho sản phẩm của chính họ và đánh giá thứ hạng thấp cho các sản phẩm của các
đối thủ) Cùng với đó, các tác giả cũng thảo luận rất nhiều phương pháp tính khoảng cách để
xác định sự giống nhau giữa các sản phẩm trong phương pháp lọc cộng tác
Trang 61.1.2 Học máy lọc theo nội dung
Có rất nhiều lý do khác nhau dé chúng ta xây dựng một hệ gợi ý Thứ nhất, hệ gợi ýkhuyến khích người dùng hành động như mua một sản phẩm hoặc xem thử một chương trìnhtruyền hình cụ thể Thứ hai, nó có thể giúp người dùng phát hiện ra những sản phẩm mới mànếu không có gợi ý thì họ không thé tìm thấy Một lý do khác là nó sẽ giải quyết bài toán
“Quá tải thông tin” của người dùng Nói cách khác, hệ thống sẽ lọc thông qua một tập dữ liệu
rất lớn thể lựa chọn sản phẩm mà người dùng ưng ý nhất Những việc này thường được gọi
là truy van thông tin và lọc thông tin Tuy nhiên, mục tiêu chính của hệ gợi ý là dé phân loại
các dữ liệu có liên quan hoặc không liên quan đến người dùng Tận dụng các thông tin thuđược từ nội dung của các phần tử dữ liệu để xếp hạng chúng thường được gọi là hệ gợi ý dựa
trên nội dung (content-based recommendation).
Về co ban, phương pháp tiếp cận dựa trên nội dung sử dung các mô tả các sản phẩm
(được thu thập thủ công hoặc được suy dẫn một cách tự động) và dữ liệu của người dùng chứathông tin mức độ quan tâm của người dùng đến các mô tả của phần tử dữ liệu đã nói ở trên
Dữ liệu của người dùng có thể chỉ đơn giản là một bài hát mà họ nghe, hoặc có thể là các sở
thích mô tả của người dùng Phương pháp tiếp cận dựa trên nội dung cố gắng gợi ý các sản
phẩm giống với những sản phẩm trước đây người sử dụng tương ứng tỏ ra quan tâm Đề thực
hiện, chúng ta sẽ so sánh mức độ tương xứng của các thuộc tính mà một người dùng quan tâm
(được lưu trong đữ liệu của họ) và các thuộc tính mô tả của một sản phẩm Mục đích của việc
này là gợi ý một sản phâm mới mà người dùng đó có thể quan tâm Ví dụ các mô tả của mộtsản phẩm âm nhạc có thể bao gồm thể loại, nhịp độ, nốt nhạc, phong cách, âm sac, nhac cu,
.v.v Những thông tin liên quan có thé được thu thập thủ công hoặc tự động bang cách trích
chọn đặc trưng âm thanh của bài nhạc.
1.2 Hệ gợi ý âm nhac.
1.2.1 Các nghiên cứu trước đây.
Một vài phương pháp sử dụng lọc dựa trên nội dung đã được dùng khá thành công.
Trong bài báo “A Music Recommendation System based on Music Data Grouping and User
Interests,” các ban nhac được đưa ra bang cách dùng các thuộc tính nhận thức của ban nhac,bao gồm cao độ, trường độ và độ to của âm thanh Các sở thích của người dùng được đưa vàolich sử truy cập và lưu vào trong hé sơ dữ liệu các nhân của từng người Dựa trên lịch sử truy
cập, người dùng sẽ được phân nhóm dựa trên sở thích của họ trong các không gian đặc trưng
Trang 7(feature space) Ba phương pháp gợi ý được thử nghiệm để tìm ra các người dùng có sở thíchgiống nhau dé gợi ý
Trong bài báo, “A Music Search Engine Built upon Audio-based and Web-based
Similarity Measures,” các tác giả sử dụng đối xứng Kullback-Leibler phân kỳ đề tính toántrên trung bình và ma trận hiệp phương sai dựa trên MFCCs (phương pháp sử dụng bao phổ)cho sự tương quan âm nhạc Tập dữ liệu bao gồm 12 601 bản nhạc Mục tiêu của các tác giả
là tạo ra một công cụ tìm kiếm cho các tập hợp bản nhạc lớn, dé có thể truy vấn đữ liệu thông
qua các ngôn ngữ tự nhiên Công cụ này sử dụng các thẻ trong từng bản nhạc của Last.fm.
Trong bai bao, “Evaluation of Distance Measures between Gaussian Mixture Models
of MFCCs,” các tac giả so sánh các phương pháp, Kullback-Leibler, khoảng cach Earth
Mover (Earth Mover's Distance) va khoảng cách chuẩn hóa Euclide, tat cả đều dựa trên
MECC Việc tính toán dựa vào phân nhóm các thể loại nhạc của trang MIREX năm 2004 với
729 bản nhạc thuộc 6 thê loại Kết quả cho thấy cả ba phương pháp này đều cho kết quả tương
tự nhau.
Trong bài báo, “Song-level Features and Support Vector Machines for Music
Classification,” các tác giả so sánh phương pháp Kullback Leibler phân kỳ và khoảng cách
Mahalanobis dựa trên MFCC Việc tính toán thử nghiệm việc nhận biết các nghệ sỹ và thựchiện một cách tương đối trên tập dữ liệu của 1200 bản nhạc pop được biểu diễn bởi 18 nghệ
sỹ
Trong bai bao, “Lightweight Measures for Timbral Similarity of Musical Audio,” các
tác giả đề xuất phương pháp tinh toán đơn giản dựa trên MFCC phù hợp với các tap dit liệu
lớn Các phương pháp được đưa ra là Kullback Leibler phân kỳ và khoảng cách Mahalanobis.
Các phương pháp được tính toán với các nhóm thé loại nhạc trong ba tập dữ liệu dựa trên kỹ
thuật phân lớp láng giềng gần nhất Ba tập dữ liệu được thử nghiệm gồm có một tập dữ liệuđược phân nhóm thể loại của ISMIR năm 2004, một tập dữ liệu có 3600 bản nhạc, và mộttập dữ liệu khác lớn hơn Các kết quả thu được khẳng định rằng các phương pháp hoạt động
tương tự nhau.
1.2.2 Tập dữ liệu trên Last.fm.
Last.fm là một dịch vụ âm nhạc hỗ trợ người dùng tìm được các bản nhạc mới dựa trên
các ban nhạc mà họ đang nghe Vào ngày 28/4/2014 Last.fm cham dứt việc cung cấp dịch vụ
streaming; tuy nhiên công nghệ gợi ý của trang vẫn có thé được sử dụng dé tích hợp với cácdịch vụ streaming khác Trang web Last.fm chứa đựng một lượng rất lớn các thông tin về các
Trang 8nghệ sỹ, các album, và các bản nhạc Đối với những người dùng đã đăng ký làm thành viên,
Last.fm cung cấp các thông tin về các ban nhạc gần giống với nghệ sỹ và các thẻ đánh dấuđang được chọn Người dùng có thé đọc các thông tin về những nghệ sỹ mà họ yêu thích, xemhoặc nghe các bản nhạc phổ biến nhất của các nghệ sỹ đó, duyệt các album của ho va tìm hiểu
về những nghệ sỹ giống với họ Người dùng cũng có thé tìm hiểu về các sự kiện âm nhạc sắp
tới, nghe các bản nhạc đã phát và xem các video.
Điều khiến Last.fm nỗi trội hơn so với các hệ gợi y âm nhạc khác, đó là sự tham gia
của cộng đồng Phương pháp họ sử dụng là dựa vào cộng tác
1.3 Kết luận chương
Như vậy trong chương 1 chúng ta đã tim hiểu được nội dung về học máy trong hệ gợi
ý, một số phương pháp lọc được áp dụng trong hệ gợi ý; giới thiệu một số nghiên cứu trướcđây về các phương pháp được áp dụng trong hệ gợi ý âm nhạc Ngoài ra chương | cũng giớithiệu một tập dữ liệu khá phổ biến về âm nhạc hiện nay là Last.fm
Trong chương tiếp theo chúng ta sẽ tìm hiểu cụ thé các phương pháp tiếp cận của hệ
gợi y âm nhạc được sử dụng trong luận văn này.
Trang 9CHƯƠNG2 PHƯƠNG PHÁP GỢI Ý KET HỢP GIỮA LOC
CỘNG TÁC VÀ LỌC NỘI DUNG
2.1 Phương pháp luận.
Nếu chỉ sử dụng lọc cộng tác dé goi y 4m nhac sé dan đến một số hạn chế Han chế
lớn nhất là việc, các bản nhạc chỉ được gắn các thẻ đánh dấu khi mà người dùng phát hiện ra
và nghe chúng Nói cách khác, sẽ có rất ít hoặc sẽ không có thẻ mô tả nào cho các bản nhạcmới hoặc các ban nhac mà chưa có người dùng nao biết đến Ngoài ra, người nghe tỏ ra sansàng gan thẻ cho những bài hát họ thích nhất hon là gắn thẻ cho những bài hát ho chỉ hơi thíchhoặc không thích Bởi vậy, sẽ rất khó cho một hệ thống chỉ sử dụng lọc cộng tác để cung cấpnhững gợi ý chính xác khi không có số lượng thẻ đánh dấu đủ lớn cho từng bản nhạc
Hệ gợi ý dựa trên nội dung nếu chỉ dua vào việc tự động trích chọn đặc trưng bản nhạc,
sẽ đòi hỏi thời gian và cần một lượng tài nguyên lớn hơn Nhưng nếu trích chọn thủ công sẽgặp những vấn đề liên quan đến khả năng mở rộng Khi số lượng các bản nhạc nhiều lên và
hệ thống trở nên phổ biến với người dùng, sẽ cần nhiều nguồn lực hơn dé phân tích những
bản nhạc mới.
2.1.1 Các thẻ đánh dấu bản nhạc do người dùng cung cấp
Các thẻ đánh dấu (“Collaborative tags” hay “social tags”) là những từ khóa rút gon mô
ta cho các sản pham, hay các bản nhạc đối với những trang dịch vụ âm nhạc, được cung cấp
bởi cộng đồng mạng Hệ thống được phát triển trong luận văn này sẽ sử dụng các thẻ đánh
dấu âm nhạc từ trang Last.fm, dé gợi ý các ban nhạc dựa trên những thẻ có sẵn từ hệ thống.
2.L2 Trích chọn đặc trưng âm thanh từ các bản nhạc
Các dữ liệu MFCC là các đặc trưng cơ bản được trích chon từ các bản nhạc, được dùng
rộng rãi trong các lĩnh vực nhận dạng giọng nói và phân tích âm nhạc Trong hệ gợi ý của
luận văn này, việc trích chọn dữ liệu MECC được thực hiện bởi phần mềm Sonic Annotator
với phần mở rộng Vamp của trường đại học Queen Mary Sonic Annotator là một chương
trình mã nguồn mở chạy bang dòng lệnh dé trích chọn các đặc trưng âm thanh từ nhiều tệp
âm thanh Đề dễ hình dung quá trình quá trình trích chọn, luận văn này sử dụng ứng dụng mãnguồn ở Sonic Visualiser dé theo dõi và phân tích các nội dung bên trong các tệp âm thanh.Phần mềm này tương thích với Linux, OS/X và Windows, được phát triển tại Trung tâm nhạc
Trang 10kỹ thuật số của Dai hoc Queen Mary, London Các giá tri dé tim sự tương quan giữa các ban
nhac
Đề đưa ra các gợi ý thích hợp dựa trên bản nhạc được người dùng lựa chọn, Hệ gợi ý
cân phải so sánh các sự giông nhau giữa bản nhạc gôc và các bản nhạc trong tập dữ liệu.
2.1.3 Giá trị so sánh tính bởi các thé đánh dấu âm nhac
Luận văn này sử dung API “track.getTopTags” của Last.fm các thẻ đánh dấu tốt nhất
cho bản nhạc cũng như số lượng người dùng sử dụng thẻ đó để đánh dấu
Trong luận văn này, việc tính toán các chỉ số tương quan dựa trên cộng tác giữa haibản nhạc được thực hiện bang cach so sánh top 10 thẻ đánh dấu của mỗi bản nhạc lay từLast.fm và sử dụng khoảng cách Euclide có trọng số (weighted Euclidian distance) dé tinhtoán khoảng cách giữa hai bài hát đối với các thẻ đánh dấu cộng tác Dựa trên kết quả củanhững nghiên cứu trước đây, phương pháp tiếp cận này cho kết quả khá tốt Chúng ta sẽ dungmột trọng số đề tính toán khoảng cách của các thẻ có tổng số lần đánh dấu khác nhau Nói
cách khác, một thẻ được nhiều người dùng sử dụng để đánh dấu sẽ gây ra ảnh hưởng lớn hơn
các thẻ có ít người dùng đánh dấu
Khoảng cách Euclide có trọng số dxy(p,q) là khoảng cách giữa hai bản nhạc x và y
được biểu điễn bởi các véc-tơ (p.q) được tính với công thức như sau
Trong đó rj là tổng số lần thẻ ¡ được đánh dấu, số liệu này được lấy từ Last.fm Tương
tự như vậy, qi là chuan hóa của tông số lần thẻ i được đánh dấu (số đếm thẻ)cho bản nhạc y
p và q chuẩn hóa của các vector tổng số lần đánh dấu liên quan đến cả hai bản nhac, bản nhạcđược truy van và bản nhạc được dùng dé so sánh tương ứng Trong nghiên cứu này mỗi bảnnhạc được thé hiện băng tập mười thẻ đánh dấu đầu tiên được lấy từ Last.fm Mỗi giá trị được
lay trọng số bang cách nhân với tổng số đếm của mười thẻ đánh dấu phô biến nhất trong các
bản nhạc bản nhạc Tập nào có khoảng cách nhỏ nhất sẽ thuộc về bản nhạc giống nhất với
bạn nhạc đang được nghe.
Trang 112.1.4 Giá trị so sánh tính bởi các tín hiệu âm thanh
Trong luận văn này, việc tính toán sự tương quan về âm thanh giữa hai bản nhạc đượcthực hiện bằng cách trích chọn giá trị phương sai và trung bình từ Mel-Frequency Cepstral
Coefficients (MFCC) của từng tệp âm nhac và sử dụng khoảng cách Mahalanobis
(Mahalanobis distance) dé tinh duoc khoảng cach giữa các ban nhạc đối với các thuộc tính
âm thanh Phương pháp này được lựa chọn vi là cách tiếp cận dé hiéu nhất, hơn nữa cũng chokết quả tương đối tốt so với những phương pháp tính toán khác mà chúng ta đã nói ở trên
Khoảng cách Mahalanobis D, y là khoảng cách giữa hai ban nhac x và y thé hiện bởi
các véc-tơ MFCC tương ứng của chúng:
D,y(u,v) = (u — 0)” -3Xˆ(u — 0), (24)
Trong đó > là ma trận hiệp phương sai của các thuộc tinh âm nhạc trên toàn bộ tap dữ
liệu các bản nhạc, cũng có thé coi như là một ma trận đường chéo các phương sai của từng
thuộc tính u và v là các véc-tơ chứa các giá trị trung bình và các giá trị phương sai MFCC
giống nhau giữa hai bản nhạc tương ứng
Trong luận văn này, chúng ta sẽ trích xuất giá trị 20 MFCC đầu tiên bằng Sonic
Annotator Mỗi tệp âm thanh được xử lý từng frame (khung) với kích thước 2048 mẫu (46,4
ms nếu tệp âm thanh được lay mau ở tần số 44,1 kHz) với kích thước bước nhảy 1024 mẫu
Theo cách xử lý này, một tệp âm thanh dài ba phút sẽ có khoảng 7750 frame, và mỗi khung
sẽ được biểu diễn băng 20 MFCC
Các MFCC được tạo ra cho mỗi frame sẽ được kết hợp lại bằng cách tính toán trungbình và phương sai của 20 MFCC đầu tiên tương ứng với chúng Kết quả là, các thuộc tính
âm thanh của mỗi tệp âm thanh sẽ được biểu diễn hởi 40 giá trị: 20 giá trị trung bình và 20
giá trị phương sai của 20 MECC đầu tiên
2.1.5 Kết hợp các thẻ đánh dấu và các đặc trưng âm thanh
Hệ gợi ý kết hợp được đề xuất trong luận văn này sử dụng các so sánh dựa trên các thẻ
đánh dấu âm nhạc và dựa trên kỹ thuật trích chọn đặc trưng tự động Như chúng ta đã minh
họa ở các ví dụ trước, hệ gợi ý sẽ sử dụng các kết quả khoảng cách từ các giá tri tiền xử lý:
khoảng cách Euclide có trọng số dx dựa trên các thẻ âm nhạc từ Last.fm và khoảng cách
Mahalanobis Dx dựa trên dir liệu MFCC được trích chon từ mỗi tệp âm thanh băng SonicAnnotator Trên thực té, khoảng cách các thẻ đánh dấu và khoảng cách MFCC có sự chênh
Trang 12lệch lớn về giá trị, vì vậy các khoảng cach này cân được chuan hóa trước khi két hợp lại với
nhau.
Đề chuẩn hóa khoảng cách thẻ đánh dau (Euclide có trọng số) dự, ta sử dụng phương
pháp chuẩn hóa tỉ lệ thập phân (decimal scaling normalization) bằng cách chia khoảng cáchEuclide có trọng số cho khoảng cách Euclide có trọng số tối đa
C(x,y) =3 (= + poss) (2.7)dx,20-Ax,1 Dx20-Dx,1
Trong đó d,yla chuẩn hóa của khoảng cách Euclide có trọng số giữa hai bản nhac x và
y, đ„;là chuân hóa của giá tri khoảng cách nhỏ nhat giữa bản nhac x và toàn bộ các bản nhạc
trong cơ sở dữ liệu, và đx;olà chuân hóa của khoảng cách nhỏ thứ 20 giữa ban nhạc x và các
ban nhạc trong cơ sở dữ liệu Tương tự như vậy với D, ylà chuẩn hóa MECC (Mahalanobis)