Nghiên cứu phương pháp tư vấn kết hợp dựa vào Hadoop Map Reduce (tt)

18 211 0
Nghiên cứu phương pháp tư vấn kết hợp dựa vào Hadoop Map Reduce (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu phương pháp tư vấn kết hợp dựa vào Hadoop Map ReduceNghiên cứu phương pháp tư vấn kết hợp dựa vào Hadoop Map ReduceNghiên cứu phương pháp tư vấn kết hợp dựa vào Hadoop Map ReduceNghiên cứu phương pháp tư vấn kết hợp dựa vào Hadoop Map ReduceNghiên cứu phương pháp tư vấn kết hợp dựa vào Hadoop Map ReduceNghiên cứu phương pháp tư vấn kết hợp dựa vào Hadoop Map ReduceNghiên cứu phương pháp tư vấn kết hợp dựa vào Hadoop Map ReduceNghiên cứu phương pháp tư vấn kết hợp dựa vào Hadoop Map ReduceNghiên cứu phương pháp tư vấn kết hợp dựa vào Hadoop Map ReduceNghiên cứu phương pháp tư vấn kết hợp dựa vào Hadoop Map ReduceNghiên cứu phương pháp tư vấn kết hợp dựa vào Hadoop Map Reduce

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Trần Thị Giang NGHIÊN CỨU PHƯƠNG PHÁP VẤN KẾT HỢP DỰA VÀO HADOOP - MAPREDUCE Chun ngành: Hệ thống thơng tin Mã số:8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2018 ` Luận văn hồn thành tại: HỌC VIÊN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Nguyễn Duy Phương Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: …… giờ…….ngày …… tháng…… năm …… Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Lý chọn đề tài Trong thời đại phát triển ngành cơng nghệ máy tính, số lượng người sử dụng máy tính tài ngun trực tuyến để xử lý cơng việc, giải trí ngày tăng nhanh Theo ước tính đến 2014, có 37% dân số Việt Nam sử dụng Internet (Theo công nghệ thông tin Truyền thông Việt Nam), số lượng người gia nhập cộng đồng mạng giới cuối năm 2014 khoảng 2.7 tỷ người Hệ tất yếu gia tăng lượng người sử dụng khối lượng liệu số phát triển với tốc độ chóng mặt Theo thống kê IDC tổng dung lượng liệu số lưu trữ năm 2006 khoảng 0.18 zettabytes số năm 2012 2.7 zettabytes Hiện nay, số lượng trang web có mặt Internet lên tới hàng tỷ trang Điều đặt cho nhà phát triển Search Engine số thách thức lớn - Thứ nhất, giới hạn khả lưu trữ ổ cứng Giả sử trang web có kích thước trung bình 10KB, tỷ trang web, ta cần 10Terabyte (TB) để lưu trữ Với toàn khối lượng web Internet, khối lượng lưu trữ cần tới hàng petabyte (PB), vượt khả lưu trữ đĩa cứng thông thường - Thứ hai, cho dù vượt qua giới hạn dung lượng, việc truy xuất khối lượng liệu đồ sộ cách (vì đĩa đơn) thời gian giới hạn tốc độ đọc đĩa Do vậy, bắt buộc phải lưu trữ liệu lên nhiều đĩa cứng thay Điều giúp cải thiện tốc độ truy xuất liệu ta tiến hành đọc/ghi cách song song lên đĩa, mang lại lợi khả lưu trữ tốc độ truy xuất liệu Tuy nhiên, việc trì hệ thống phân tán với nhiều đĩa cứng dẫn đến số vấn đề cần giải Đầu tiên, vấn đề hỏng hóc phần cứng Do liệu lưu nhiều phần cứng khác nhau, nên khả (hay nhiều) phần cứng xảy hỏng hóc tăng lên đáng kể Một cách giải vấn đề mà ta thấy ngay, lưu trữ trùng lặp mẫu liệu lên nhiều đĩa cứng khác Vấn đề thứ hai việc phân tích liệu đơi cần truy đọc liệu từ nhiều đĩa cứng khác Tức liệu đọc từ đĩa cần kết hợp với liệu từ đĩa khác hệ thống Các hệ thống phân tán thường cho phép kết hợp liệu từ nhiều nguồn khác nhau, nhiên làm điều cách xác khơng dễ chút Để giải vấn đề này, nhiều công nghệ đời nhắm thực tính tốn mở rộng việc xử lý liệu theo mơ hình song song khả chịu lỗi cao số lượng lớn máy tính Các máy tính thực tính tốn độc lập với không ảnh hưởng việc xảy lỗi máy khác, giúp tăng hiệu tính tốn so với việc dùng máy, sử dụng mơ hình tính tốn song song giúp giảm giá thành Một công nghệ sử dụng phổ biến để tối ưu hóa việc tính tốn song song Hadoop – MapReduce MapReduce chia việc xử lý thành nhiều khối công việc nhỏ, phân tán khắp nút tính tốn (tiêu biểu server thơng thường), sau tổng hợp để thu kết Đề tài: “Nghiên cứu phương pháp vấn kết hợp dựa vào Hadoop - MapReduce” thực khuôn khổ luận văn thạc sĩ ngành CNTT nhằm nghiên cứu framework Mahout vào việc xây dựng ứng dụng hệ vấn Tổng quan vấn đề nghiên cứu Hiện nay, Hadoop sử dụng rộng rãi ứng dụng big data cơng nghiệp, ví dụ lọc thư rác, tìm kiếm mạng, phân tích luồng click Ngoài ra, nghiên cứu học thuật đáng kể dựa Hapdoop Trong giai đoạn bùng nổ thơng tin Internet nay, kích thước liệu tăng lên nhanh chóng làm cho việc tính tốn máy tính theo mơ hình truyền thống hiệu chậm Ngoài ra, tốc độ nâng cấp phần cứng chậm so với tốc độ tăng trưởng liệu làm cho việc nâng cấp phần cứng tốn Đây vấn đề xây dựng hệ vấn áp dụng cho tập liệu lớn Để giải vấn đề này, thực lưu trữ liệu nhiều máy khác sử dụng Hapdoop thực mơ hình tính tốn song song với MapReduce Việc áp dụng Hadoop MapReduce mang lại nhiều lợi ích như: tăng tính hiệu việc tính tốn tận dụng tài nguyên phần cứng để thực tính tốn song song, tăng khả chịu lỗi việc tính tốn khơng phụ thuộc vào việc xảy lỗi máy tính Hệ vấn hệ thống có khả cung cấp thơng tin phù hợp gỡ bỏ thông tin không phù hợp cho người dùng dịch vụ Internet trực tuyến Hệ vấn xây dựng dựa vào ba phương pháp lọc thông tin bản: lọc cộng tác, lọc nội dung lọc kết hợp Cũng giống vấn đề khác học máy, xử lý ngôn ngữ tự nhiên, xử lý ảnh, hệ vấn đối diện với vấn đề liệu lớn Chính vậy, trọng tâm đề tài xử lý vấn đề liệu lớn hệ vấn dựa vào tảng Hadoop MapReduce Hiện tại, thư viện Mahout MapReduce cung cấp số Engine chuẩn cho hệ vấn đề xuất [3] Tuy vậy, engine cho hệ vấn kết hợp trình thử nghiệm Trong đề tài em mong muốn xây dựng Engine cho hệ vấn kết hợp làm kết nghiên cứu Mục đích nghiên cứu - Nghiên cứu cơng nghệ Hadoop MapReduce ứng dụng xử lý liệu lớn Nghiên cứu phương pháp vấn xây dựng Mahout Mở rộng kỹ thuật xây dựng Mahout cho hệ vấn kết hợp Đối tượng phạm vi nghiên cứu 4.1 Đối tượng nghiên cứu: Công nghệ Hapdoop MapReduce hệ vấn kết hợp 4.2 Phạm vi nghiên cứu: Công nghệ Hapdoop MapReduce, thư viện Mahout phương pháp kết hợp đề xuất [4] Phương pháp nghiên cứu - - Phương pháp nghiên cứu lý thuyết: Nghiên cứu phương pháp xây dựng hệ vấn: phương pháp vấn cộng tác, vấn nội dung cung cấp thư viện Mahout MapReduce Nghiên cứu xây dựng phương pháp vấn kết hợp MapReduce Phương pháp thực nghiệm: thử nghiệm tập liệu có kích thước khác cộng đồng sử dụng Ngồi ra, xây dựng liệu có sử dụng tài nguyên mạng xã hội Môi trường thực nghiệm thực Trung tâm tính tốn hiệu cao Đại học Khoa học tự nhiên Bố cục luận văn Luận văn có bố cục gồm: Phần mở đầu, chương chính, phần kết luận, tài liệu tham khảo Được bố trí theo thứ tự: - Mở đầu Chương 1: Tổng quan Hadoop Mahout Chương 2: Phương pháp vấn dựa vào MapReduce - Chương 3: Thực nghiệm kết - Kết luận Tài liệu tham khảo Chương TỔNG QUAN VỀ HAPDOOP - MAHOUT 1.1 Giới thiệu Hadoop Theo Apache Hadoop định nghĩa: “Apache Hadoop framework dùng để chạy ứng dụng cluster lớn xây dựng phần cứng thông thường Hadoop thực mơ hình Map/Reduce, mơ hình mà ứng dụng chia nhỏ thành nhiều phân đoạn khách nhau, phần chạy song song nhiều node khác Thêm vào đó, Hadoop cung cấp hệ thống file phân tán (HDFS) cho phép lưu trữ liệu lên nhiều node Cả Map/Reduce HDFS thiết kế cho framework tự động quản lý lỗi, hư hỏng phần cứng node” [9] Wikipedia định nghĩa: “Hadoop framework nguồn mở viết Java cho phép phát triển ứng dụng phân tán có cường độ liệu lớn cách miễn phí Nó cho phép ứng dụng làm việc với hàng ngàn node khác hàng petabyte liệu Hadoop phát triển dựa ý tưởng từ cơng bố Google mơ hình MapReduce hệ thống file phân tán Google File System (GFS)” [9] 1.2 Mahout 1.2.1 Tổng quan Apache Mahout Apache Mahout dự án mã nguồn mở Apache Software Foundation (ASF-Quỹ phần mềm Apache) với mục tiêu tạo thuật tốn học máy có khả mở rộng, thuật tốn miễn phí sử dụng theo giấy phép Apache Dự án bước vào năm thứ hai mình, với phát hành cơng khai phạm vi Mahout bao gồm việc thực để phân cụm, phân loại, CF lập trình tiến hóa Hơn nữa, khéo léo sử dụng thư viện Apache Hadoop phép Mahout mở rộng hiệu đám mây 1.2.2 Các kỹ thuật học máy Mahout a) Mahout cho hoc máy b) Mahout cho phân cụm c) Mahout cho phân loại 1.3 Giới thiệu MapReduce 1.3.1 Giới thiệu mô hình tính tốn MapReduce Google phát triển thành cơng mơ hình MapReduce, mơ hình dùng cho xử lý tính tốn song song phân tán hệ thống phân tán Nói cách đơn giản hơn, mơ hình phân rã từ nghiệp vụ (do người dùng muốn thể hiện) thành công việc để chia cơng việc máy tính hệ thống thực xử lý cách song song, sau thu thập lại kết Với mơ hình này, doanh nghiệp cải thiện đáng kể hiệu suất xử lý tính tốn liệu lớn, chi phí đầu rẻ độ an toàn cao 1.3.2 Các thành phần MapReduce Trong mơ hình MapReduce Hadoop, Hadoop định nghĩa MapReduce Job (job) đơn vị nghiệp vụ mà người dùng muốn thực hiện, kèm theo liệu input Ví dụ: tính số lần xuất từ tài liệu Để quản lý thực thi MapReduce Job, Hadoop đưa khái niệm JobTracker TaskTracker - JobTracker: máy vật lý cài đặt Hadoop MapReduce (như master hệ thống), với vai trò tiếp nhận yêu cầu thực thi - MapReduce job, phân chia job thành task phân công cho TaskTracker thực hiện, quản lý tình trạng thực task TaskTracker phân công lại cần JobTracker quản lý danh sách node TaskTracker tình trạng node thơng qua hearbeat Điều đặc biệt, Hadoop định hệ thống có tối đa JobTracker TaskTracker: máy vật lý cài đặt Hadoop MapReduce (là worker hệ thống), với vai trò tiếp nhận task JobTracker phân cơng thực Và hệ thống phép có nhiều TaskTracker 1.3.3 Cơ chế hoạt động MapReduce Đầu tiên chương trình client yêu cầu thực job kèm theo liệu input tới JobTracker JobTracker sau tiếp nhận job này, thơng báo ngược chương trình client tình trạng tiếp nhận job Khi chương trình client nhận thơng báo tình trạng tiếp nhận hợp lệ tiến hành phân rã input thành split (khi dùng HDFS kích thước split thường với kích thước đơn vị Block HDFS) split ghi xuống HDFS Sau chương trình client gửi thơng báo sẵn sàng để JobTracker biết việc chuẩn bị liệu thành công tiến hành thực job  Thực thi Maptask  Thực thi Reducetask 1.3.4 Phát triển ứng dụng theo mơ hình MapReduce – Hapdoop Q trình phát triển phân rõ theo cơng việc người dùng thực can thiệp công việc bên framework tự làm Đối với người dùng, họ can thiệp vào việc phát triển ứng dụng qua giai đoạn sau: - Thiết lập thông số cấu hình hệ thống MapReduce Job - Tiếp theo, truyền vào kiểu format cho cách thức đọc file (như file text, file kếthợp, file Database), kiểu format liệu input, điều thật có ý nghĩa với việc sử dụng hàm map, với kiểu format mà từ với split cho tập record với giá trị key value khác Kết luận chương 1: Trong chương 1, học viên trình bày tổng quan framework Hadoop, Mahout Đặc biệt, học viên trọng tới mơ hình tính tốn MapReduce nhằm phát triển ứng dụng theo mơ hình 10 Chương PHƯƠNG PHÁP VẤN DỰA VÀO MAPREDUCE 2.1 Giới thiệu vấn đề Hệ vấn (Recommender Systems) công cụ cung cấp thông tin cho người dùng cách phân tích thơng tin nội dung hàng hóa hay lịch sử dụng hàng hóa khứ để khám phá tập thông tin tối thiểu phù hợp người dùng Ứng dụng tiêu biểu hệ vấn kể đến giảm tải thông tin cho người dùng Internet, gợi ý kết tìm kiếm, gợi ý truy cập dịch vụ, cấm truy cập vào trang Web đen Đặc biệt, hệ vấn đóng vai trò quan trọng nhằm nâng cao hiệu cho hệ thống thương mại điện tử Sự xuất hệ vấn trang thương mại điện tử lớn Amazon, Yahoo, Google hay FaceBook tranh đầy đủ phản ánh ý nghĩa thời toán vấn Tùy vào phương pháp lọc tin, hệ vấn phân làm loại: vấn dựa vào phương pháp lọc theo nội dung (Content-Based Filtering Recommendation), vấn dựa vào lọc cộng tác (Collaborative Filtering Recommendation), vấn kết hợp (Hybrid Filtering Recommendation) Trong luận văn em tập trung nghiên cứu phương pháp vấn kết hợp dựa vào Hadoop - MapReduce 2.2 Phương pháp vấn kết hợp dựa vào người dùng MapReduce 2.2.1 Kết hợp hồ sơ người dùng vào ma trận đánh giá Để xây dựng hồ sơ người dùng sử dụng đặc trưng sản phẩm ta cần thực hai nhiệm vụ: xác định tập sản phẩm người dùng truy cập hay sử dụng khứ ước lượng trọng số đặc trưng nội dung sản phẩm hồ sơ người dùng 11 2.2.2 Thuật toán vấn kết hợp dựa vào ngưới dùng Do tính chất thưa thớt ma trận đánh giá nên việc xác định mức độ tương tự cặp người dùng gặp nhiều hạn chế Để khắc phục nhược điểm này, phương pháp vấn kết hợp ma trận đánh giá mở rộng R xác định theo công thức đề xuất Trong đó, việc ước lượng mức độ tương tự cặp người dùng không thực ma trận đánh mở rộng cho toàn ma trận đánh giá mở rộng Trong phương pháp kết hợp với ma trận đặc trưng sản phẩm em trình bày cách kết hợp với ma trận đánh giá đặc trưng sản phẩm sản phẩm để đưa dự đốn cho người dùng  Tìm k hàng xóm dựa vào tồn ma trận mở rộng sử dụng số α Phương pháp sử dụng số α ∈(0, 1) tính độ tương quan cho việc tìm k hàng xóm Độ tương quan phương pháp tính dựa tồn ma trận đánh giá mở rộng 2.2.3 Áp dụng MapReduce cho hệ vấn dựa vào người dùng Trong mục này, bước xây dựng hệ vấn phương pháp lọc cộng tác dựa vào người dùng áp dụng MapReduce trình bày cụ thể Mơ hình tính tốn truyền thống xếp lại để tận dụng khả tính tốn song song MapReduce khả xử lý phân tán Hadoop 2.3 Phương pháp vấn kết hợp dựa vào sản phẩm MapReduce 2.3.1 Kết hợp hồ sơ sản phẩm vào ma trận đánh giá Để xây dựng liên hệ sản phẩm đặc trưng người dùng ta cần thực hai nhiệm vụ: xác định tập người dùng 12 sử dụng sản phẩm khứ ước lượng trọng số đặc trưng nội dung người dùng hồ sơ sản phẩm 2.3.2 Phương pháp Item–Base dựa vào ma trận đánh giá mở rộng Trong phương pháp tương quan sản phẩm tính cách kết hợp tương quan sản phẩm dựa ma trận đánh giá ban đầu với tương quan sản phẩm dựa ma trận đánh giá đặc trưng người dùng.Phương pháp thực qua bước - Bước 1: Tính tốn độ tương tự cặp sản phẩm theo tương quan Pearson - Bước 2: Xác định tập láng giềng cho sản phẩm cần vấn - Bước 3: Tính tốn dự đốn cho người dùng với sản phẩm 2.3.3 Áp dụng MapReduce cho phương pháp Item-Base Trong phần trình bày bước xây dựng hệ vấn phương pháp lọc kết hợp dựa vào sản phẩm áp dụng MapReduce Mơ hình tính tốn truyền thống xếp lại để tận dụng khả tính tốn song song MapReduce Kết luận chương 2: Trong chương luận văn, học viên trình bày cách chi tiết phương pháp vấn kết hợp dựa vào người dùng sản phẩm MapReduce 13 Chương THỰC NGHIỆM VÀ KẾT QUẢ 3.1 Dữ liệu thực nghiệm Luận văn sử dụng tập liệu MovieLens [13] Đây tập liệu thu thập Dự án nghiên cứu GroupLens Đại học Minnesota Tập liệu MovieLens có ba lựa chọn với kích thước khác là: MovieLens 100k, MovieLens 1M MovieLens 10M Luận văn sử dụng tập liệu MovieLens 1M 3.2 Phương pháp thực nghiệm - Cách phân chia tập liệu huấn luyện kiểm nghiệm Tập liệu chia thành tập liệu huấn luyện tập liệu kiểm nghiệm với kích thước 80% 20% Việc phân chia tập liệu thực lớp ProcessInput Tập liệu huấn luyện tập kiểm nghiệm chia cách ngẫu nhiên, liệu lần chia khác nhau, thực chia nhiều lần thực chạy tập khác để kết xác 3.3 Kết thực nghiệm 3.3.1 Áp dụng Interaction cut Trong tập liệu MovieLens, người dùng đánh giá tối thiểu 20 sản phẩm, số sản phẩm tối đa người dùng không giới hạn Tuy nhiên, số người dùng đánh giá nhiều p sản phẩm giảm dần p tăng lên, nghĩa tỉ lệ người dùng đánh giá số lượng lớn sản phẩm nhỏ.Điều làm tăng thời gian chạy lại không ảnh hưởng đáng kể đến độ xác dự đốn (cụ thể 14 MAE RMSE) Do Luận văn áp dụng khái niệm Interaction cut, nghĩa giới hạn số lượng đánh giá tối đa người dùng cách lấy ngẫu nhiên số đánh giá định từ tập đánh giá người dùng 3.3.2 Thử nghiệm giá trị trung bình sai số tuyệt đối MAE - Thử nghiệm 1: Giá trị MAE phương pháp thay đổi kích thước tập hàng xóm giữ ngun interaction cut 200 Thử nghiệm 2: Giá trị MAE phương pháp thay đổi kích thước tập hàng xóm giữ nguyên interaction cut 400 Thử nghiệm 3: Giá trị MAE phương pháp thay đổi kích thước tập hàng xóm giữ ngun interaction cut 800 3.3.3 Thử nghiệm giá trị trung bình bình phương sai số MAE - Thử nghiệm 1: Giá trị RMSE phương pháp thay đổi kích thước tập hàng xóm giữ ngun interaction cut 200 Thử nghiệm 2: Giá trị RMSE phương pháp thay đổi kích thước tập hàng xóm giữ nguyên interaction cut 400 Thử nghiệm 3: Giá trị RMSE phương pháp thay đổi kích thước tập hàng xóm giữ ngun interaction cut 800 3.3.4 Thử nghiệm thời gian chạy thử - Thử nghiệm 1: Thời gian chạy với phương pháp sử dụng MapReduce (k=100, interaction cut 800) phương pháp sử dụng thư viện MyMedialite[15] (tính theo giây) 3.2.5 Độ đo kiểm nghiệm Luận văn sử dụng hai độ đo sau để kiểm nghiệm độ xác phương pháp thực nghiệm: - Trung bình sai số tuyệt đối (MAE) 15 - Trung bình bình phương sai số (RMSE) 3.4 Đánh giá so sánh 3.4.1 Đánh giá hai phương pháp Item-Base user-Base Về thời gian chạy: Phương pháp item-based có thời gian chạy ngắn phương pháp user-based Nguyên nhân chênh lệch tập liệu MovieLens 1M có số lượng người dùng lớn nhiều so với số lượng sản phẩm (6040 người dùng so với 3952 sản phẩm) Về độ xác: Các giá trị MAE RMSE phương pháp user-based lớn phương pháp item-based Các giá trị MAE RMSE phương pháp user-based hội tụ nhanh phương pháp item-based tăng giá trị interaction cut 3.4.2 Đánh giá phương pháp vấn sửa dụng MapReduce MyMedialite Theo số liệu mục (hình 3.8), thời gian chạy sử dụng thư viện MyMedialite lớn nhiều sử dụng MapReduce Trong điều kiện thực máy, không tận dụng hết khả tính tốn song song Hadoop – MapReduce, kết tốt.Như vậy, áp dụng Hadoop – MapReduce cho hệ vấn góp phần giải vấn đề mở rộng xây dựng hệ vấn cho liệu lớn 3.4.3 Đánh giá phương pháp chọn tập hàng xóm Về độ xác: Theo số liệu mục (bảng 3.10, 3.11), giá trị MAE RMSE giảm mạnh áp dụng phương pháp chọn tập hàng xóm so với phương pháp cũ, đặc biệt với phương pháp user-based 16 Về thời gian chạy: Theo số liệu bảng 3.7 3.10, thời gian chạy áp dụng phương pháp chọn tập hàng xóm giảm nhiều so với phương pháp cũ Như vậy, phương pháp chọn tập hàng xóm đem lại kết tốt so với phương pháp cũ, thời gian chạy độ xác Kết luận chương 3: Trong chương 3, luận văn trình bày trình thực nghiệm đánh giá kết xây dựng hệ vấn kết hợp Hadoop – MapReduce Quá trình thực nghiệm cho kết tốt Các kết thực nghiệm cho thấy tính khả nghi việc mở rộng hệ vấn kết hợp Hadoop – MapReduce khẳng định tính đắn vấn đề lý thuyết trình bày chương KẾT LUẬN Luận văn trình bày phương pháp áp dụng MapReduce để mở rộng hệ vấn kết hợp với phương pháp lọc kết hợp Với phương pháp lọc kết hợp, luận văn tập trung nghiên cứu hai kỹ thuật kỹ thuật lọc dựa vào sản phẩm lọc dựa vào người dùng Đặc biệt, luận văn cải tiến phương pháp chọn tập hàng xóm so với phương pháp truyền thống, việc cải tiến áp dụng riêng rẽ cho hai kỹ thuật lọc kết hợp vào người dùng dựa vào sản phẩm ... văn em tập trung nghiên cứu phương pháp tư vấn kết hợp dựa vào Hadoop - MapReduce 2.2 Phương pháp tư vấn kết hợp dựa vào người dùng MapReduce 2.2.1 Kết hợp hồ sơ người dùng vào ma trận đánh giá... viện Mahout phương pháp kết hợp đề xuất [4] Phương pháp nghiên cứu - - Phương pháp nghiên cứu lý thuyết: Nghiên cứu phương pháp xây dựng hệ tư vấn: phương pháp tư vấn cộng tác, tư vấn nội dung cung... hệ tư vấn kết hợp Đối tư ng phạm vi nghiên cứu 4.1 Đối tư ng nghiên cứu: Công nghệ Hapdoop MapReduce hệ tư vấn kết hợp 4.2 Phạm vi nghiên cứu: Công nghệ Hapdoop MapReduce, thư viện Mahout phương

Ngày đăng: 28/02/2018, 11:16

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan