Chương 5 .Thực nghiệm và đánh giá
5.3.1 Thu thập dữ liệu phim
Tất các các dữ liệu sẽ được thu thập từ nhiều trang web và thông tin của người dùng từ hệ thống crawler và search của Cốc Cốc hệ thống được chạy hàng ngày ngay khi có tất cả các dữ liệu thêm mới, bộ phân tích sẽ tự động bóc tách (sử dụng Jsoup để bóc tách dữ liệu html đây là công cụ cho phép dùng cú pháp css để chọn các thẻ và thuộc tính html) và lưu trữ vào cơ sở dữ liệu.
a. Thu thập dữ liệu phim IMDb
Đầu tiên là hệ thống sẽ trích xuất các thông tin từ trang web đánh giá phim IMDb (Internet Movie Database). Dưới đây là thông tin một bộ phim được trích xuất từ imdb. (Nguồn http://www.imdb.com/title/tt2193021/)
Hình 5-2 Thông tin phim trên trang IMDb
IMDb là một website trực tuyến nó đóng vai trò như một thư viện, nơi lưu trữ những thông tin chi tiết về các tác phẩm điện ảnh nổi tiếng, ngoài ra IMDb còn là website uy tín đóng vai trò như một nhà phê bình. IMDb cũng là nơi tổng hợp những ý kiến đánh giá, xếp hạng của một tác phẩm điện ảnh dựa trên các yếu tố như kịch bản, công tác đạo diễn, bối cảnh, hiệu quả hình ảnh, kỹ thuật quay phim…IMDb rất có uy tín với giới độc giả Internet, cũng như các tín đồ của môn nghệ thuật thứ 7. Ngoài nội dung phê bình đánh giá về các tác phẩm thuộc lĩnh vực điện ảnh, IMDb còn đánh giá những tác phẩm truyền hình hay những ngôi sao điện ảnh, nhà sản xuất phim…
Các thông tin trên trang được trích xuất trên trang IMDb bao gồm Tên phim, năm sản xuất
Đạo diễn, diễn viên
Nội dung phim, thể loại, điểm số rating.
Bước này thu thập được 117.094 thông tin phim IMDb dữ liệu ban đầu được chứa vào cơ sở dữ liệu MySQL, và được chứa theo định dạng sau.
Bảng 5-3 Định dạng trường dữ liệu thông tin phim IMDb trong cơ sở dữ liệu
Tên trường Miêu tả
id Định danh của IMDb
director Đạo diễn
genre Thể loại
image_link Poster
link Link trên IMDb
name Tên phim
outline Nội dung
year Năm
release_date Ngày phát hành
actor Diễn viên
runtime Thời lượng
ratingCount Tống số đánh giá
Dưới đây là một vài thông tin phim đã thu thập được.
Hình 5-3 Dữ liệu IMDb trong cơ sở dữ liệu Mysql.
b. Thu thập dữ liệu trên trang chiếu phim trực tuyến
Các dữ liệu trên trang chiếu phim trực tuyến sẽ được trích xuất hàng ngày do hệ thống crawler của Cốc Cốc thu thập về từ các domain sau đây.
• http://phim3s.net/ • http://hayhaytv.vn/ • http://phim14.net/ • http://hdviet.com/ • http://www.phimmoi.net/ • http://hdonline.vn/ • http://bomtan.org/
Thông tin về bộ phim được bóc tách từ HTML của các trang bên trên, dưới đây phần khoanh đỏ là thông tin phim được bóc tách của trang “http://www.phimmoi.net/phim/mui-ten-xanh-phan- 5-4268/”
Hình 5-4 Dữ liệu thông tin phim trên trang phimmoi.net
Dữ liệu thông tin thu thập về được lưu trữ vào cơ sở dữ liệu MySQL theo bảng dưới đây
Bảng 5-4 Định dạng trường dữ liệu dữ liệu phim trực tuyến trong cơ sở dữ liệu
Tên trường Miêu tả
id Định danh
director Đạo diễn
genre Thể loại
image_link Poster
outline Nội dung
year Năm
release_date Ngày phát hành
actor Diễn viên
runtime Thời lượng
nameVn Tên phim tiếng việt
nameEn Tên phim tiếng anh
Bước này thu thập được 213.253 dữ liệu mẫu cho phim online và được mô tả dưới đây
Hình 5-5 Thông tin được trích xuất trong trang phim trực tuyến.