1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài báo cáo Tìm TopN các từ được sử dụng nhiều nhất trong các file log

18 340 8

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 18
Dung lượng 623 KB

Nội dung

Bài báo cáo Tìm TopN các từ được sử dụng nhiều nhất trong các file logBài báo cáo Tìm TopN các từ được sử dụng nhiều nhất trong các file logBài báo cáo Tìm TopN các từ được sử dụng nhiều nhất trong các file logBài báo cáo Tìm TopN các từ được sử dụng nhiều nhất trong các file logBài báo cáo Tìm TopN các từ được sử dụng nhiều nhất trong các file logBài báo cáo Tìm TopN các từ được sử dụng nhiều nhất trong các file log

TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG BIG DATA TOP-N CÁC TỪ ĐƯỢC SỬ DỤNG NHIỀU NHẤT TRONG CÁC FILE LOG Học viên thực hiện: Lê Quang Nhường M2517011 Hứa Phước An M2517007 Giáo viên hướng dẫn: TS Phan Thượng Cang NỘI DUNG Mơ tả tốn Giải thuật tìm TOP-N Demo chương trình Kết & Hạn chế Tài liệu tham khảo Hướng dẫn thực hành Mơ tả tốn • Input: Các file log • Output: Top-n từ sử dụng nhiều file log nhuong an nhuong phuong ngan phuong ngan nhuong an phuong ngan nhuong[2,1] an[1,3] phuong[2,1] ngan[2,1] nhuong an an phuong an ngan nhuong an phuong ngan nhuong an phuong ngan nhuong an phuong ngan an nhuong phuong ngan Hàm Map hàm map(k1:id of row in the file, v1: a line of text in the file){ đọc chuẩn hóa liệu; tách từ; if (từ xuất hiện) { cộng giá trị cho thêm 1; lưu lại giá trị hashmap; } else{ gán giá trị cho 1; lưu lại giá trị hashmap;} } Hàm Cleanup-Map Hàm cleanup(data hashmap from function Map){ for(1->end hashmap){ emit(k2: word[i],v2: value); } } Hàm Reduce Hàm reduce( k2:the word, v2:list value of word k2 in hashmap, TopN: limit value display) { tổng hợp giá trị theo khóa; lưu giá trị vào hashmap;//kiểu hashmap java lấy giá trị n;// số kết cần lấy if (hashmap.size() >= n+1 ){ xếp hashmap; giữ lại n phần tử hashmap; } } Hàm Cleanup-Reduce & Hàm Sort Hàm cleanup(data hashmap from function Reduce){ lấy giá trị n;// số kết cần lấy for(1->n in hashmap){ emit(k3:Word , v3:total value of word); } } hàm sort(data hashmap){ xếp hashmap; trả hashmap có thứ tự; } Code Code Code Code Code Demo chương trình Dữ liệu demo: + Số lượng: 2000 files + Số từ : ~1,200,000 + Định dạng : Plain text (txt) Thiết bị: + máy giả lập (Ubuntu 16) cài đặt cấu hình Hadoop Kết đạt - Bước đầu tiếp cận hướng phân tích thiết kế chường trình theo mơ hình MapReduce - Đã cài đặt chương trình tìm Top N từ file log theo mơ hình MapReduce Hadoop Hạn chế - Thời gian tìm hiểu code chương trình dài - Chỉ áp dụng máy tính đơn , hạn chế nhiều phần cứng liệu chạy thử - Chưa có điều kiện chạy thử mơ hình mạng phân tán thật Tài liệu tham khảo - http://www.hadooptpoint.org/hadoop-setup-methodcleanup-method-example-in-mapreduce/ - http://javarevisited.blogspot.it/2012/12/how-to-sorthashmap-java-by-key-and-value.html - https://viblo.asia/p/java-collections-sap-xep-collectionsnaQZRgvdlvx Xin cảm ơn! ...NỘI DUNG Mơ tả tốn Giải thuật tìm TOP-N Demo chương trình Kết & Hạn chế Tài liệu tham khảo Hướng dẫn thực hành Mơ tả tốn • Input: Các file log • Output: Top-n từ sử dụng nhiều file log nhuong

Ngày đăng: 24/03/2019, 14:21

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w