Bài báo cáo Tìm TopN các từ được sử dụng nhiều nhất trong các file logBài báo cáo Tìm TopN các từ được sử dụng nhiều nhất trong các file logBài báo cáo Tìm TopN các từ được sử dụng nhiều nhất trong các file logBài báo cáo Tìm TopN các từ được sử dụng nhiều nhất trong các file logBài báo cáo Tìm TopN các từ được sử dụng nhiều nhất trong các file logBài báo cáo Tìm TopN các từ được sử dụng nhiều nhất trong các file log
TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG BIG DATA TOP-N CÁC TỪ ĐƯỢC SỬ DỤNG NHIỀU NHẤT TRONG CÁC FILE LOG Học viên thực hiện: Lê Quang Nhường M2517011 Hứa Phước An M2517007 Giáo viên hướng dẫn: TS Phan Thượng Cang NỘI DUNG Mơ tả tốn Giải thuật tìm TOP-N Demo chương trình Kết & Hạn chế Tài liệu tham khảo Hướng dẫn thực hành Mơ tả tốn • Input: Các file log • Output: Top-n từ sử dụng nhiều file log nhuong an nhuong phuong ngan phuong ngan nhuong an phuong ngan nhuong[2,1] an[1,3] phuong[2,1] ngan[2,1] nhuong an an phuong an ngan nhuong an phuong ngan nhuong an phuong ngan nhuong an phuong ngan an nhuong phuong ngan Hàm Map hàm map(k1:id of row in the file, v1: a line of text in the file){ đọc chuẩn hóa liệu; tách từ; if (từ xuất hiện) { cộng giá trị cho thêm 1; lưu lại giá trị hashmap; } else{ gán giá trị cho 1; lưu lại giá trị hashmap;} } Hàm Cleanup-Map Hàm cleanup(data hashmap from function Map){ for(1->end hashmap){ emit(k2: word[i],v2: value); } } Hàm Reduce Hàm reduce( k2:the word, v2:list value of word k2 in hashmap, TopN: limit value display) { tổng hợp giá trị theo khóa; lưu giá trị vào hashmap;//kiểu hashmap java lấy giá trị n;// số kết cần lấy if (hashmap.size() >= n+1 ){ xếp hashmap; giữ lại n phần tử hashmap; } } Hàm Cleanup-Reduce & Hàm Sort Hàm cleanup(data hashmap from function Reduce){ lấy giá trị n;// số kết cần lấy for(1->n in hashmap){ emit(k3:Word , v3:total value of word); } } hàm sort(data hashmap){ xếp hashmap; trả hashmap có thứ tự; } Code Code Code Code Code Demo chương trình Dữ liệu demo: + Số lượng: 2000 files + Số từ : ~1,200,000 + Định dạng : Plain text (txt) Thiết bị: + máy giả lập (Ubuntu 16) cài đặt cấu hình Hadoop Kết đạt - Bước đầu tiếp cận hướng phân tích thiết kế chường trình theo mơ hình MapReduce - Đã cài đặt chương trình tìm Top N từ file log theo mơ hình MapReduce Hadoop Hạn chế - Thời gian tìm hiểu code chương trình dài - Chỉ áp dụng máy tính đơn , hạn chế nhiều phần cứng liệu chạy thử - Chưa có điều kiện chạy thử mơ hình mạng phân tán thật Tài liệu tham khảo - http://www.hadooptpoint.org/hadoop-setup-methodcleanup-method-example-in-mapreduce/ - http://javarevisited.blogspot.it/2012/12/how-to-sorthashmap-java-by-key-and-value.html - https://viblo.asia/p/java-collections-sap-xep-collectionsnaQZRgvdlvx Xin cảm ơn! ...NỘI DUNG Mơ tả tốn Giải thuật tìm TOP-N Demo chương trình Kết & Hạn chế Tài liệu tham khảo Hướng dẫn thực hành Mơ tả tốn • Input: Các file log • Output: Top-n từ sử dụng nhiều file log nhuong