Hệ Thống Thông Tin Giải Pháp Xếp Hàng Và Tính Toán Song Song Nền Tảng Apache Spark.pdf

53 11 0
Hệ Thống Thông Tin Giải Pháp Xếp Hàng Và Tính Toán Song Song Nền Tảng Apache Spark.pdf

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

lOMoARcPSD|29114622 Luận văn Thạc sĩ Hệ thống thông tin Giải pháp xếp hạng tính tốn song song tảng Apache Spark 1193135 Phương pháp nghiên cứu khoa hcoj (Trường Đại Học Nội Vụ Hà Nội) Studocu is not sponsored or endorsed by any college or university Downloaded by D??ng Tr?n (duong.tran@htu.edu.vn) lOMoARcPSD|29114622 ĐẠI HỌC QUỐC GIA HË NỘI TRNG I HC CùNG NGH NGUYN ùNG C GII PHỗP XP HNG Vậ TờNH TOỗN SONG SONG TRổN NN TNG APACHE SPARK LUẬN VĂN THẠC SĨ HỆ THỐNG THïNG TIN Hˆ Nội - 2016 Downloaded by D??ng Tr?n (duong.tran@htu.edu.vn) lOMoARcPSD|29114622 ĐẠI HỌC QUỐC GIA HË NỘI TRƯỜNG ĐẠI HỌC CïNG NGH NGUYN ùNG C GII PHỗP XP HNG Vậ TờNH TOỗN SONG SONG TRổN NN TNG APACHE SPARK Ngnh: Cng Nghệ Th™ng Tin Chuy•n ngˆnh: Hệ thống Th™ng Tin M‹ số chuy•n ngˆnh: 60480104 LUẬN VĂN THẠC SĨ HỆ THỐNG THïNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Ngọc H—a Hˆ Nội Ð 2016 Downloaded by D??ng Tr?n (duong.tran@htu.edu.vn) lOMoARcPSD|29114622 LỜI CAM ĐOAN Ò T™i xin cam đoan đ‰y lˆ c™ng tr“nh nghi•n cứu th‰n C‡c số liệu, kết tr“nh bˆy luận văn nˆy lˆ trung thực vˆ chưa c™ng bố c™ng tr“nh luận văn nˆo trước đ‰y.Ó Chữ ký:ÉÉÉÉÉÉÉÉÉÉÉÉÉÉÉÉÉÉ Downloaded by D??ng Tr?n (duong.tran@htu.edu.vn) lOMoARcPSD|29114622 PHæ DUYỆT CA GIỗO VIổN HNG DN ềTi xin cam oan rng luận ‡n đ‹ đảm bảo đœng y•u cầu chương tr“nh đˆo Thạc sĩ C™ng nghệ Th™ng Tin trường Đại học C™ng Nghệ.Ó Chữ ký:ÉÉÉÉÉÉÉÉÉÉÉÉÉÉÉÉÉÉ Downloaded by D??ng Tr?n (duong.tran@htu.edu.vn) lOMoARcPSD|29114622 MỤC LỤC Lời cảm ơn Danh s‡ch c‡c h“nh Danh s‡ch c‡c bảng 10 Danh s‡ch c‡c từ viết tắt xi Chương Giới thiệu chung 12 Động lực nghi•n cứu 12 Mục ti•u vˆ nội dung luận văn 12 Tổ chức luận văn 13 Chương Tổng quan xếp hạng 14 Tổng quan xếp hạng 14 M™ h“nh xếp hạng dựa tr•n độ li•n quan 16 M™ h“nh xếp hạng dựa tr•n độ quan trọng 18 Chương Học m‡y xếp hạng 21 Nền tảng sở học m‡y 21 Nền tảng sở học m‡y xếp hạng 22 3.2.1 3.2.2 3.2.3 Hướng tiếp cận Pointwise
 23 Hướng tiếp cận Pairwise 23 Hướng tiếp cận Listwise 23 Tổng kết chương 24 Chương Giải ph‡p xếp hạng vˆ t’nh to‡n song song tr•n apache spark 25 Bˆi to‡n đặt 25 M™ h“nh đặt 25 Apache Spark 27 4.3.1 T’nh Apache Spark 28 4.3.2 C‡c thˆnh phần Apache Spark 28 4.3.3 Resilient Distributed Datasets 29 Elasticsearch 29 4.4.1 T’nh tổng qu‡t 30 4.4.2 Kh‡i niệm 30 Downloaded by D??ng Tr?n (duong.tran@htu.edu.vn) lOMoARcPSD|29114622 4.4.3 Ưu điểm Elasticsearch 31 4.4.4 Nhược điểm Elasticsearch 31 T’nh to‡n song song tr•n ElasticSearch vˆ Apache Spark 32 Tổng kết chương 32 Chương Thực nghiệm vˆ đ‡nh gi‡ 33 M™ h“nh thực nghiệm 33 M™i trường thực nghiệm 34 5.2.1 Hạ tầng t’nh to‡n 34 5.2.2 C‡c c™ng cụ sử dụng 34 Thực nghiệm 34 5.3.1 Thu thập liệu phim 35 5.3.2 Thu thập lịch sử click người d•ng 39 5.3.3 Їnh mục cho liệu 41 5.3.4 Tr’ch xuất liệu huấn luyện 42 5.3.5 Tr’ch xuất vector đặc trưng cho m™ h“nh 43 5.3.6 X‰y dựng hệ thống xếp hạng vˆ t’nh to‡n song song 45 5.3.7 Kết thực nghiệm 46 Їnh gi‡ 47 5.4.1 Hiệu 47 5.4.2 Chất lượng xếp hạng 48 Tổng kết chương 49 Kết luận chung 50 Tˆi liệu tham khảo 51 Downloaded by D??ng Tr?n (duong.tran@htu.edu.vn) lOMoARcPSD|29114622 T—m tắt Trong năm gần đ‰y, với ph‡t triển nhanh ch—ng WWW (World Wide Web) vˆ kh— khăn việc t“m kiếm th™ng tin mong muốn, hệ thống t“m kiếm th™ng tin hiệu đ‹ trở n•n quan trọng hết, vˆ c‡c c™ng cụ t“m kiếm đ‹ trở thˆnh c™ng cụ thiết yếu nhiều người Xếp hạng th™ng tin thˆnh phần kh™ng thể thiếu c™ng cụ t“m kiếm, thˆnh phần nˆy chịu tr‡ch nhiệm cho kết hợp c‡c truy vấn xử lý vˆ tˆi liệu lập mục Ngoˆi ra, xếp hạng lˆ thˆnh phần then chốt cho nhiều ứng dụng t“m kiếm th™ng tin kh‡c, v’ dụ lọc cộng t‡c, t—m tắt văn vˆ c‡c hệ thống quảng c‡o trực tuyến Sử dụng m™ h“nh học m‡y qu‡ tr“nh xếp hạng dẫn đến tạo c‡ch m™ h“nh c‡c m™ h“nh xếp hạng s‡ng tạo vˆ hiệu hơn, vˆ dẫn đến ph‡t triển lĩnh vực nghi•n cứu c— t•n lˆ học m‡y xếp hạng (Learning to rank) Trong m™ h“nh nˆy c— nhiều c‡ch tiếp cận Pointwise, Pairwise, Listwise Luận văn nˆy nghi•n cứu c‡c c‡ch tiếp cận cho bˆi to‡n xếp hạng sử dụng Apache Spark vˆ c‡c thˆnh phần b•n n— cho việc ph‰n t’ch liệu đồng thời tr•n quy m™ lớn c— thể mở rộng dễ dˆng khả chịu lỗi Downloaded by D??ng Tr?n (duong.tran@htu.edu.vn) lOMoARcPSD|29114622 Lời cảm ơn Trước ti•n, t™i xin gửi lời cảm ơn vˆ l˜ng biết ơn s‰u sắc tới Ph— Gi‡o sư Tiến sĩ Nguyễn Ngọc H—a, người đ‹ tận t“nh bảo vˆ hướng dẫn t™i suốt qu‡ tr“nh thực kho‡ luận tốt nghiệp T™i ch‰n thˆnh cảm ơn c‡c thầy, c™ đ‹ tạo cho t™i điều kiện thuận lợi để học tập vˆ nghi•n cứu trường Đại Học C™ng Nghệ T™i xin gửi lời cảm ơn tới c‡c anh chị vˆ c‡c đồng nghiệp Cốc Cốc đ‹ giœp đỡ vˆ hỗ trợ t™i nhiều kiến thức chuy•n m™n qu‡ tr“nh lˆm việc Cuối c•ng, t™i muốn gửi lời cảm v™ hạn tới gia đ“nh vˆ bạn b•, người th‰n y•u lu™n b•n cạnh vˆ động vi•n t™i suốt qu‡ tr“nh thực kh—a luận tốt nghiệp T™i xin ch‰n thˆnh cảm ơn! Downloaded by D??ng Tr?n (duong.tran@htu.edu.vn) lOMoARcPSD|29114622 Danh s‡ch c‡c h“nh H“nh 2-1 Hệ thống t“m kiếm tổng qu‡t [24] 14 H“nh 2-2 Minh họa thuật to‡n PageRank [24] 18 H“nh 3-1 Nền tảng sở học m‡y [24] 22 H“nh 3-2 Nền tảng sở học m‡y xếp hạng[24] 23 H“nh 4-1 Cấu trœc thˆnh phần m‡y t“m kiếm Cốc Cốc 25 H“nh 4-2 M™ h“nh giải ph‡p xếp hạng vˆ t’nh to‡n song song 26 H“nh 4-3 Thời gian chạy t’nh to‡n hồi quy Logistic tr•n Hadoop vˆ Spark 27 H“nh 4-4 C‡c thˆnh phần Apache Spark [25] 28 H“nh 4-5 Logo Elasticsearch 29 H“nh 4-6 Minh họa Cluster Elasticsearch 31 H“nh 5-1 M™ h“nh thực nghiệm 33 H“nh 5-2 Th™ng tin phim tr•n trang IMDb 35 H“nh 5-3 Dữ liệu IMDb sở liệu Mysql 37 H“nh 5-4 Dữ liệu th™ng tin phim tr•n trang phimmoi.net 38 H“nh 5-5 Th™ng tin tr’ch xuất trang phim trực tuyến 39 H“nh 5-6 M™ h“nh lưu trữ lịch sử người d•ng 40 H“nh 5-7 Cấu h“nh đ‡nh mục từ Mysql sang cụm ElasticSearch 41 H“nh 5-8 Dữ liệu đ‡nh mục l•n Elasticsearch 42 H“nh 5-9 Lịch sử click người d•ng 44 H“nh 5-10 Vector đặc trưng truy vấn vˆ li•n kết phim 44 H“nh 5-11 Dữ liệu trả từ service t“m kiếm phim trực tuyến Cốc Cốc 46 H“nh 5-12 Minh họa chức t“m kiếm phim trực tuyến 47 H“nh 5-13 Hệ thống t“m kiếm phim online tr•n Cốc Cốc 48 Downloaded by D??ng Tr?n (duong.tran@htu.edu.vn)

Ngày đăng: 30/11/2023, 10:27

Tài liệu cùng người dùng

Tài liệu liên quan