Thu thập dữ liệu phim

Một phần của tài liệu (LUẬN văn THẠC sĩ) giải pháp xếp hạng và tính toán song song trên nền tảng apache spark luận văn ths máy tính 60 48 01 (Trang 35 - 39)

Chương 5 .Thực nghiệm và đánh giá

5.3.1 Thu thập dữ liệu phim

Tất các các dữ liệu sẽ được thu thập từ nhiều trang web và thông tin của người dùng từ hệ thống crawler và search của Cốc Cốc hệ thống được chạy hàng ngày ngay khi có tất cả các dữ liệu thêm mới, bộ phân tích sẽ tự động bóc tách (sử dụng Jsoup để bóc tách dữ liệu html đây là công cụ cho phép dùng cú pháp css để chọn các thẻ và thuộc tính html) và lưu trữ vào cơ sở dữ liệu.

a. Thu thp d liu phim IMDb

Đầu tiên là hệ thống sẽ trích xuất các thông tin từ trang web đánh giá phim IMDb (Internet Movie Database). Dưới đây là thông tin một bộ phim được trích xuất từ imdb. (Nguồn http://www.imdb.com/title/tt2193021/)

Hình 5-2 Thông tin phim trên trang IMDb

IMDb là một website trực tuyến nó đóng vai trò như một thư viện, nơi lưu trữ những thông tin chi tiết về các tác phẩm điện ảnh nổi tiếng, ngoài ra IMDb còn là website uy tín đóng vai trò như một nhà phê bình. IMDb cũng là nơi tổng hợp những ý kiến đánh giá, xếp hạng của một tác phẩm điện ảnh dựa trên các yếu tố như kịch bản, công tác đạo diễn, bối cảnh, hiệu quả hình ảnh, kỹ thuật quay phim…IMDb rất có uy tín với giới độc giả Internet, cũng như các tín đồ của môn nghệ thuật thứ 7. Ngoài nội dung phê bình đánh giá về các tác phẩm thuộc lĩnh vực điện ảnh, IMDb còn đánh giá những tác phẩm truyền hình hay những ngôi sao điện ảnh, nhà sản xuất phim…

Các thông tin trên trang được trích xuất trên trang IMDb bao gồm Tên phim, năm sản xuất

Đạo diễn, diễn viên

Nội dung phim, thể loại, điểm số rating.

Bước này thu thập được 117.094 thông tin phim IMDb dữ liệu ban đầu được chứa vào cơ sở dữ liệu MySQL, và được chứa theo định dạng sau.

Bảng 5-3 Định dạng trường dữ liệu thông tin phim IMDb trong cơ sở dữ liệu

Tên trường Miêu tả

id Định danh của IMDb

director Đạo diễn

genre Thể loại

image_link Poster

link Link trên IMDb

name Tên phim

outline Nội dung

year Năm

release_date Ngày phát hành

actor Diễn viên

runtime Thời lượng

ratingCount Tống số đánh giá

Dưới đây là một vài thông tin phim đã thu thập được.

Hình 5-3 Dữ liệu IMDb trong cơ sở dữ liệu Mysql.

b. Thu thp d liu trên trang chiếu phim trc tuyến

Các dữ liệu trên trang chiếu phim trực tuyến sẽ được trích xuất hàng ngày do hệ thống crawler của Cốc Cốc thu thập về từ các domain sau đây.

• http://phim3s.net/ • http://hayhaytv.vn/ • http://phim14.net/ • http://hdviet.com/ • http://www.phimmoi.net/ • http://hdonline.vn/ • http://bomtan.org/

Thông tin về bộ phim được bóc tách từ HTML của các trang bên trên, dưới đây phần khoanh đỏ là thông tin phim được bóc tách của trang “http://www.phimmoi.net/phim/mui-ten-xanh-phan- 5-4268/”

Hình 5-4 Dữ liệu thông tin phim trên trang phimmoi.net

Dữ liệu thông tin thu thập về được lưu trữ vào cơ sở dữ liệu MySQL theo bảng dưới đây

Bảng 5-4 Định dạng trường dữ liệu dữ liệu phim trực tuyến trong cơ sở dữ liệu

Tên trường Miêu tả

id Định danh

director Đạo diễn

genre Thể loại

image_link Poster

outline Nội dung

year Năm

release_date Ngày phát hành

actor Diễn viên

runtime Thời lượng

nameVn Tên phim tiếng việt

nameEn Tên phim tiếng anh

Bước này thu thập được 213.253 dữ liệu mẫu cho phim online và được mô tả dưới đây

Hình 5-5 Thông tin được trích xuất trong trang phim trực tuyến.

Một phần của tài liệu (LUẬN văn THẠC sĩ) giải pháp xếp hạng và tính toán song song trên nền tảng apache spark luận văn ths máy tính 60 48 01 (Trang 35 - 39)

Tải bản đầy đủ (PDF)

(52 trang)