IV. PHƢƠNG PHÁP NGHIÊN CỨU
1. 21 Khai phá dữ liệu(Data Minin g DM)
2.2.1 Hồ sơ hàng hóa
Trong 1 hệ thống khuyến nghị dựa trên nội dung, cần phải xây dựng hồ sơ cho mỗi mặt hàng, hồ sơ thể hiện đặc tính của các mặt hàng đó. Trong các
trường hợp đơn giản, hồ sơ bao gồm một vài đặc điểm dễ phát hiện của mặt hàng đó. Ví dụ, cân nhắc đặc điểm của 1 bộ phim mà có thể liên quan đến hệ thống khuyến nghị
1.Dàn diễn viên của bộ phim. Một vài khán giả thích các bộ phim có các diễn viên mà họ yêu thích
2.Đạo diễn. 1 vài khán giả thích tác phẩm của các đạo diễn nhất định 3.Năm bộ phim được sản xuất. Một vài khán giả thích các bộ phim cũ, những người khác thích các bộ phim mới nhất.
4.Thể loại phim. Một vài khán giả chỉ thích hài kịch, những người khác thích phim truyền hình hoặc các tác phẩm lãng mạn
Có rất nhiều các đặc điểm của bộ phim cũng được sử dụng ngoại trừ thể loại phim tùy thông tin của nó đã có sẵn trong phần miêu tả của các bộ phim. Thể loại là một khái niệm mơ hồ. Tuy nhiên, nhìn chung nhiều khán giả gắn tên thể loại phim theo các thuật ngữ hay dùng nhất. Ví dụ Internet Movie Database
(IMDB) gắn với một thể loại hoặc các thể loại cho tất cả các bộ phim.
Nhiều loại mặt hàng khác cũng cho phép ta có được các đặc điểm từ các dữ liệu sẵn có, mặc dù dữ liệu đó, tại 1 thời điểm nào đó, phải được nhập bằng tay. Ví dụ, các sản phẩm thường có các miêu tả do người sản xuất viết ra, đưa ra các đặc điểm tương ứng với loại sản phẩm đó (ví dụ, kích thước màn hình và màu sắc vỏ TV). Các quyển sách có các miêu tả tương tự như việc miêu tả của các bộ phim, do vậy có thể có các đặc điểm như tác giả, năm xuất bản, và thể loại. Các sản phẩm âm nhạc như đĩa CD và MP3 có các đặc điểm như nghệ sĩ, nhà soạn nhạc và thể loại.