1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát triển thuật giải tìm kiếm tương tự với mô hình MapReduce: luận văn thạc sĩ

58 198 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 58
Dung lượng 1,71 MB

Nội dung

http:123link.proV8C5Nội dung của luận văn: Chương 1. Giới thiệu tổng quan; Chương 2. Cơ sở lý thuyết; Chương 3. Phương pháp cải tiến được đề xuất; Chương 4. Đánh giá thử nghiệm; Chương 5. Tổng kết.NỘI DUNG TÓM TẮT1. Nội dung được giao và kết quả mong đợi của người hướng dẫnNghiên cứu và cải tiến tác vụ tìm kiếm tương tự với mô hình MapReduce.2. Cách thức giải quyết vấn đề Đọc và hiểu một số bài báo, tạp chí, một số công trình đã công bố, một số sáchchuyên ngành liên quan:o Tác vụ tìm kiếm tương tự: (Zezula et al., 2010)o Kỹ thuật xử lý ngôn ngữ tự nhiên: (Rajaraman Ullman, 2011)o Mô hình hóa văn bản: (Rajaraman Ullman, 2011)o Mô hình MapReduce: (Dean Ghemawat, 2008)o Giải thuật tìm kiếm tương tự với mô hình MapReduce: (Elsayed et al.,2008; Li et al., 2011; Phan et al., 2014) Đọc hướng dẫn sử dụng Hadoop framework để biết cách thức giao tiếp và triểnkhai mô hình MapReduce với framework Hadoop dùng Python (HadoopStreaming). Nghiên cứu thuật giải từ bài báo “An Elastic Approximate Similarity Searchin Very Large Datasets with MapReduce” của các tác giả (Phan et al., 2014),

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ĐỒN MINH HỒNG PHÁT TRIỂN THUẬT GIẢI TÌM KIẾM TƯƠNG TỰ VỚI HÌNH MAPREDUCE LUẬN VĂN THẠC CÔNG NGHỆ THÔNG TIN Đồng Nai, Năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ĐOÀN MINH HỒNG PHÁT TRIỂN THUẬT GIẢI TÌM KIẾM TƯƠNG TỰ VỚI HÌNH MAPREDUCE LUẬN VĂN THẠC CƠNG NGHỆ THƠNG TIN Chun ngành: Cơng Nghệ Thơng Tin Mã số : 60.48.02.01 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS ĐẶNG TRẦN KHÁNH Đồng Nai, Năm 2017 LỜI CẢM ƠN Tôi xin chân thành gửi lời cám ơn tới PGS.TS Đặng Trần Khánh tận tình hướng dẫn Tơi q trình thực luận văn Trong thời gian nghiên cứu làm việc với Thầy, Tôi nhận nhiều đóng góp ý kiến q giá giúp Tơi học hỏi tiếp thu kiến thức lý luận, phương pháp nghiên cứu thực tiễn để áp dụng vào đề tài Luận văn Tôi xin chân thành cám ơn Khoa Sau Đại Học - Trường Đại Học Lạc Hồng lập chương trình đào tạo Cao Học trường để Tơi có hội học tập nâng cao kiến thức Xin cám ơn quý Thầy/Cô giảng dạy cung cấp cho Tôi kiến thức quý báu thời gian học tập Trường Đại Học Lạc Hồng, giúp nắm vững học hỏi kiến thức chuyên ngành để áp dụng vào thực tiễn sống công việc sau Cuối cùng, xin chân thành cám ơn ban lãnh đạo nhà trường, q Thầy/Cơ q phụ huynh ủng hộ, giúp đỡ suốt trình thực đề tài Cám ơn thành viên gia đình, bạn, đặc biệt người yêu Tôi động viên tinh thần, vật chất trình học tập Tôi Trường Đại Học Lạc Hồng Biên hòa, ngày 10 tháng 06 năm 2017 Học viên Đồn Minh Hồng LỜI CAM ĐOAN Tơi xin cam đoan tất nội dung Luận văn hoàn toàn hình thành, nghiên cứu phát triển từ quan điểm cá nhân Tơi hướng dẫn khoa học PGS.TS Đặng Trần Khánh Các số liệu kết có Luận văn Thạc hồn tồn trung thực Biên hòa, ngày 10 tháng 06 năm 2017 Học viên Đoàn Minh Hoàng TRƯỜNG ĐẠI HỌC LẠC HỒNG KHOA SAU ĐẠI HỌC ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯ TÓM TẮT LUẬN VĂN (Dùng cho học viên người hướng dẫn) Đề tài: Phát triển thuật giải tìm kiếm tương tự với hình MapReduce Ngành: Cơng nghệ thơng tin Mã số: 60.48.02.01 Học viên: Đoàn Minh Hoàng Người hướng dẫn: PGS.TS Đặng Trần Khánh NỘI DUNG TÓM TẮT Nội dung giao kết mong đợi người hướng dẫn Nghiên cứu cải tiến tác vụ tìm kiếm tương tự với hình MapReduce Cách thức giải vấn đề  Đọc hiểu số báo, tạp chí, số cơng trình cơng bố, số sách chuyên ngành liên quan: o Tác vụ tìm kiếm tương tự: (Zezula et al., 2010) o Kỹ thuật xử lý ngôn ngữ tự nhiên: (Rajaraman & Ullman, 2011) o hình hóa văn bản: (Rajaraman & Ullman, 2011) o hình MapReduce: (Dean & Ghemawat, 2008) o Giải thuật tìm kiếm tương tự với hình MapReduce: (Elsayed et al., 2008; Li et al., 2011; Phan et al., 2014)  Đọc hướng dẫn sử dụng Hadoop framework để biết cách thức giao tiếp triển khai hình MapReduce với framework Hadoop dùng Python (Hadoop Streaming)  Nghiên cứu thuật giải từ báo “An Elastic Approximate Similarity Search in Very Large Datasets with MapReduce” tác giả (Phan et al., 2014), từ cải tiến thuật giải  Tiến hành thí nghiệm đánh giá thuật giải đề xuất theo hình MapReduce Đánh giá mặt khoa học kết  Đề xuất phương pháp cải tiến với phương pháp yếu tả sau: o Tối giản MapReduce-job o Cải thiện mức độ đánh giá tương tự o Đơn giản hóa quy trình tính tốn  Hiện thực hình MapReduce hệ thống máy ảo  Chúng Tôi nhận thấy phiên cải tiến đạt hiệu suất cao đánh giá mức độ tương tự tốt phiên gốc Những vấn đề tồn so với nội dung giao (nếu có)  Giới hạn phần cứng thiết bị, kết thí nghiệm triển khai máy ảo với lượng liệu giới hạn  Phương pháp cải tiến chưa tận dụng lợi việc đánh mục  Đánh giá mức độ tương tự mặt ngữ nghĩa bị hạn chế NGƯỜI HƯỚNG DẪN PGS.TS ĐẶNG TRẦN KHÁNH Ngày 10 tháng 06 năm 2017 HỌC VIÊN ĐỒN MINH HỒNG MỤC LỤC Trang Trang bìa phụ Lời cám ơn Lời cam đoan Tóm tắt luận văn Mục lục Danh mục bảng Danh mục hình CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 Giới thiệu đề tài 1.2 Mục tiêu đề tài .2 1.3 Đối tượng phạm vi nghiên cứu 1.3.1 Đối tượng nghiên cứu .3 1.3.2 Phạm vi nghiên cứu 1.4 Phương pháp nghiên cứu .3 1.4.1 Nội dung thực 1.4.2 Phương pháp thực 1.5 Ý nghĩa đề tài CHƯƠNG 2: CƠ SỞ LÝ THUYẾT .5 2.1 Tìm kiếm tương tự 2.2 hình hóa đối tượng tài liệu 2.3 hình MapReduce .8 2.4 Hadoop Framework .9 2.5 Hadoop Streaming .11 2.6 Ngơn ngữ lập trình Python 14 CHƯƠNG 3: 3.1 PHƯƠNG PHÁP CẢI TIẾN ĐƯỢC ĐỀ XUẤT 16 Các cơng trình nghiên cứu liên quan 16 3.2 Phương pháp cải tiến 20 3.2.1 Tối giản MapReduce-job 21 3.2.2 Cải thiện mức độ đánh giá tương tự .22 3.2.3 Đơn giản hóa quy trình tính tốn 24 3.3 Giải thuật đề xuất 24 3.4 Ví dụ minh họa 27 CHƯƠNG 4: ĐÁNH GIÁ THỬ NGHIỆM 29 4.1 Thiết lập môi trường thử nghiệm .29 4.2 Tập liệu 30 4.3 hình hóa đối tượng tài liệu 32 4.4 Đánh giá phương pháp cải tiến 32 4.4.1 Đo lường hiệu suất 32 4.4.2 Đo lường khối lượng xử lý liệu trung gian 33 4.4.3 Đo lường mức độ đánh giá tương tự .34 4.4.4 Đo lường mức độ tác động lên hệ thống file 36 4.4.5 Đo lường mức độ tác động lên hệ thống file phân tán Hadoop .38 4.4.6 Đo lường mức độ tác động lên Hadoop framework .41 CHƯƠNG 5: TỔNG KẾT 45 5.1 Kết luận 45 5.2 Những thiếu sót luận văn 45 5.3 Hướng phát triển 46 Danh mục tài liệu tham khảo DANH MỤC BẢNG Bảng 2-1: Liệt kê file cần cấu hình Hadoop framework 10 Bảng 2-2: Thông số Hadoop Streaming .12 Bảng 3-1: Tổ chức liệu đầu vào đầu cho hai tác vụ MAP REDUCE 22 Bảng 3-2: Giải thuật cho tác vụ Map 25 Bảng 3-3: Giải thuật cho tác vụ Reduce 26 Bảng 4-1: tả thông số phần cứng hệ điều hành 29 Bảng 4-2: Thơng số cấu hình phần mềm 29 Bảng 4-3: tả gói liệu 30 Bảng 4-4: Khối lượng liệu trung gian xuất từ tác vụ Map .34 Bảng 4-5: Khối lượng liệu trung gian xử lý giai đoạn pha trộn .34 Bảng 4-6: tả ý nghĩa tập tin tài liệu văn .35 Bảng 4-7: So sánh mức độ tương tự PBG PBCT 36 Bảng 4-8: tả thông số tác động lên hệ thống file 37 Bảng 4-9: Kết thí nghiệm thơng số tác động lên hệ thống file với 1000 file liệu 37 Bảng 4-10: Kết thí nghiệm thông số tác động lên hệ thống file với 3000 file liệu 37 Bảng 4-11: Kết thí nghiệm thơng số tác động lên hệ thống file với 5000 file liệu 38 Bảng 4-12: tả thông số tác động lên hệ thống file phân tán Hadoop 38 Bảng 4-13: tả thông số tác động lên hệ thống file phân tán Hadoop với 1000 file liệu 39 Bảng 4-14: tả thông số tác động lên hệ thống file phân tán Hadoop với 3000 file liệu 40 Bảng 4-15: tả thông số tác động lên hệ thống file phân tán Hadoop với 5000 file liệu 40 Bảng 4-16: tả thông số tác động lên Hadoop framework 41 Bảng 4-17: tả thông số tác động lên Hadoop framework với 1000 file liệu 42 Bảng 4-18: tả thông số tác động lên Hadoop framework với 3000 file liệu 43 Bảng 4-19: tả thông số tác động lên Hadoop framework với 5000 file liệu 44 DANH MỤC HÌNH Hình 1-1: Minh họa tốn tìm kiếm tương tự với hình MapReduce Hình 2-1: Hai ví dụ biến thể phổ biến tìm kiếm tương tự; a) tìm kiếm tương tự theo phạm vi r; b) tìm kiếm đối tượng gần với truy vấn q .6 Hình 2-2: Tổng quan thực thi hình MapReduce (Dean & Ghemawat, 2008) Hình 2-3: Kiến trúc tổng quan Hadoop với đun 10 Hình 2-4: Dòng chảy Hadoop Streaming 12 Hình 3-1: Tính tốn mức độ tương tự với hai MapReduce job (Elsayed et al., 2008) 16 Hình 3-2: Quá trình tạo từ điển tần số từ với MapReduce (Li et al., 2011) .17 Hình 3-3: Quá trình tạo véc tơ văn với MapReduce (Li et al., 2011) 18 Hình 3-4: Quá trình tạo file ngược PLT với MapReduce (Li et al., 2011) .18 Hình 3-5: Quá trình tìm kiếm tương tự với MapReduce (Li et al., 2011) 19 Hình 3-6: Cơng việc MapReduce-1 (Phan et al., 2014) 19 Hình 3-7: Cơng việc MapReduce-2 (Phan et al., 2014) 20 Hình 3-8: hình tổng quan cho công việc MapReduce 22 Hình 3-9: Một ví dụ minh họa 28 Hình 4-1: Sự phân bố kích thước liệu gói liệu 1000P1 31 Hình 4-2: Sự phân bố kích thước liệu gói liệu 2000P2 31 Hình 4-3: Sự phân bố kích thước liệu gói liệu 2000P3 32 Hình 4-4: Tổng thời gian thực thi MapReduce job 33 34 Bảng 4-4: Khối lượng liệu trung gian xuất từ tác vụ Map STT Gói Khối lượng liệu Khối lượng liệu % Khối lượng liệu trung gian từ PBG trung gian từ liệu trung gian từ (Bytes) PBCT (Bytes) PBCT so với PBG 1000P1 113204515 68706 0.060692 2000P2 654984876 206415 0.031514 2000P3 1.327E+09 344732 0.025984 Bảng 4-5: Khối lượng liệu trung gian xử lý giai đoạn pha trộn STT Gói Khối lượng liệu Khối lượng liệu % Khối lượng liệu trung gian từ PBG trung gian từ PBCT liệu trung gian từ (Bytes) (Bytes) PBCT so với PBG 1000P1 1.16E+08 94706 0.081722 2000P2 6.69E+08 284415 0.042504 2000P3 1.35E+09 474732 0.035043 Nhìn chung, PBCT xuất liệu trung gian PBG Điều đem lại lợi ích lớn mặt hiệu suất tác vụ tìm kiếm tương tự nói chung tác vụ MapReduce nói riêng mà giảm thiểu chi phí lưu trữ đọc ghi liệu 4.4.3 Đo lường mức độ đánh giá tương tự Để thực thí nghiệm này, Luận Văn sử dụng tập tin tài liệu truy vấn 1940.txt phân tách thành tập tin tài liệu tả Bảng 4-6 35 Bảng 4-6: tả ý nghĩa tập tin tài liệu văn STT Tập tin tài liệu văn Ý nghĩa 1940b.txt Là tập tin 1940.txt 1940_1.txt Là phiên chứa nửa nội dung đầu từ tập tin 1940.txt 1940_2.txt Là phiên chứa nửa nội dung cuối từ tập tin 1940.txt 1940_1_1.txt Là phiên chứa nửa nội dung đầu từ tập tin 1940_1.txt 1940_1_2.txt Là phiên chứa nửa nội dung cuối từ tập tin 1940_1.txt 1940_2_1.txt Là phiên chứa nửa nội dung đầu từ tập tin 1940_2.txt 1940_2_2.txt Là phiên chứa nửa nội dung cuối từ tập tin 1940_2.txt 36 Bảng 4-7: So sánh mức độ tương tự PBG PBCT STT Cặp tài liệu văn Mức độ tương tự từ Mức độ tương tự từ phiên gốc phiên cải tiến (PBG) (PBCT) 1940.txt-1940b.txt 48.99% 99.25% 1940.txt-1940_1.txt 36.81% 56.78% 1940.txt-1940_2.txt 32.91% 43.22% 1940.txt-1940_1_1.txt 23.84% 26.91% 1940.txt-1940_1_2.txt 25.48% 29.93% 1940.txt-1940_2_1.txt 24.11% 24.25% 1940.txt-1940_2_2.txt 17.39% 19.46% Khi thực tìm kiếm tương tự từ PBG BPCT, kết mức độ tương tự tập tin tài liệu truy vấn 1940.txt với tập tin 1940b.txt 100% từ tập tin 1940.txt tập tin tả Bảng 4-7 Kết thu từ thí nghiệm cho thấy PBCT cho kết mức độ tương tự tốt PBG Lý PBCT cải thiện việc đánh giá mức độ tương tự cặp tài liệu văn theo phương pháp chuỗi liên tiếp (k-shingle) theo tập hợp từ tài liệu 4.4.4 Đo lường mức độ tác động lên hệ thống file Thông qua biến đếm, kết thống kê mức độ tác động lên hệ thống file MapReduce job, thông số tả Bảng 4-8 37 Bảng 4-8: tả thông số tác động lên hệ thống file STT Tên thông số tả FILE: Number of bytes read Số lượng byte đọc hệ thống file thông qua tác vụ Map Reduce FILE: Number of bytes written Số lượng byte ghi hệ thống file thông qua tác vụ Map Reduce Kết thống kê thí nghiệm với 1000 file liệu tả Bảng 4-9 Bảng 4-9: Kết thí nghiệm thông số tác động lên hệ thống file với 1000 file liệu Phiên Tên công việc FILE: Number of FILE: Number of bytes bytes read PBG PBCT written MapReduce-1 2914549994 29322296001 MapReduce-2 335408328 606891864 2610177424 629560682 MapReduce Kết thống kê thí nghiệm với 3000 file liệu tả Bảng 4-10 Bảng 4-10: Kết thí nghiệm thơng số tác động lên hệ thống file với 3000 file liệu Phiên PBG PBCT Tên công việc FILE: Number of FILE: Number of bytes bytes read written MapReduce-1 31110823502 307907130923 MapReduce-2 5623331346 7585816583 30007707086 3369167982 MapReduce Kết thống kê thí nghiệm với 5000 file liệu tả Bảng 4-11 38 Bảng 4-11: Kết thí nghiệm thơng số tác động lên hệ thống file với 5000 file liệu Phiên PBG PBCT Tên công việc FILE: Number of FILE: Number of bytes bytes read written MapReduce-1 104935680240 926473526978 MapReduce-2 11805099456 15921463475 102950791750 8085009646 MapReduce 4.4.5 Đo lường mức độ tác động lên hệ thống file phân tán Hadoop Thông qua biến đếm, kết thống kê mức độ tác động lên hệ thống file phân tán Hadoop MapReduce job Các thông số tả Bảng 4-12 Bảng 4-12: tả thông số tác động lên hệ thống file phân tán Hadoop STT Tên thông số HDFS: Number of bytes read tả Số lượng byte đọc hệ thống file phân tán Hadoop thông qua tác vụ Map Reduce HDFS: Number of bytes written Số lượng byte ghi hệ thống file phân tán Hadoop thông qua tác vụ Map Reduce HDFS: Number of read operations Số lượng tác vụ đọc hệ thống file phân tán Hadoop thông qua tác vụ Map Reduce HDFS: Number of write operations Số lượng tác vụ ghi hệ thống file phân tán Hadoop thông qua tác vụ Map Reduce 39 STT Tên thông số tả File Input Bytes Read Số lượng byte MapReduce job đọc từ liệu đầu vào thông qua lớp FileInputFormat File Output Bytes Written Số lượng byte MapReduce job ghi liệu xuất thông qua lớp FileOutputFormat Kết thống kê thí nghiệm với 1000 file liệu tả Bảng 4-13 Bảng 4-13: tả thông số tác động lên hệ thống file phân tán Hadoop với 1000 file liệu STT Tên thông số PBG Mapreduce-1 HDFS: Number of 13701651605 PBCT MapReduce-2 MapReduce 284430910 13701651605 bytes read HDFS: Number of 110856985 260695 172866 1013046 106 1013046 1024 28 1024 bytes written HDFS: Number of read operations HDFS: Number of write operations File Input Bytes Read 22989224 43127404 22989224 File 43127404 102694 68706 Output Bytes Written Kết thống kê thí nghiệm với 3000 file liệu tả Bảng 4-14 40 Bảng 4-14: tả thông số tác động lên hệ thống file phân tán Hadoop với 3000 file liệu STT Tên thông số PBG Mapreduce-1 HDFS: PBCT MapReduce-2 MapReduce Number of 209637489031 1060856657 209637489031 Number of 412889312 1383584 519032 HDFS: Number of read 9054066 106 9054066 3024 28 3024 bytes read HDFS: bytes written operations HDFS: Number of write operations File Input Bytes Read 116250658 161217647 116250658 File 161217647 548410 206415 Output Bytes Written Kết thống kê thí nghiệm với 5000 file liệu tả Bảng 4-15 Bảng 4-15: tả thông số tác động lên hệ thống file phân tán Hadoop với 5000 file liệu STT Tên thông số PBG Mapreduce-1 HDFS: PBCT MapReduce-2 MapReduce Number of 805847963037 1934996774 805847963037 Number of 752308333 2674366 863867 HDFS: Number of read 25115086 106 25115086 5024 28 5024 262960304 294448280 262960304 bytes read HDFS: bytes written operations HDFS: Number of write operations File Input Bytes Read 41 STT Tên thông số PBG Mapreduce-1 File Output Bytes PBCT MapReduce-2 294448280 MapReduce 1060160 344732 Written 4.4.6 Đo lường mức độ tác động lên Hadoop framework Thông qua biến đếm, kết thống kê mức độ tác động lên Hadoop framework MapReduce job Các thông số tả Bảng 4-16 Bảng 4-16: tả thông số tác động lên Hadoop framework STT Tên thông số Map input records tả Số lượng dòng liệu đầu vào tiêu thụ tất mappers MapReduce job Map output records Số lượng dòng liệu trung gian xuất tất mappers MapReduce job Map output bytes Số lượng byte liệu trung gian xuất tất mappers MapReduce job Biến đếm tăng lên phương thức Collect() gọi Map output Số lượng byte liệu trung gian xuất materialized bytes tất mappers thực ghi xuống đĩa cứng MapReduce job Reduce input groups Số lượng nhóm dựa giá trị khóa phân biệt tiêu thụ tất reducers MapReduce job Reduce shuffle bytes Tổng số lượng byte xử lý thơng qua q trình pha trộn MapReduce job Reduce input records Số lượng dòng liệu đầu vào tiêu thụ tất reducers MapReduce job Reduce output records Số lượng dòng liệu xuất tất reducers MapReduce job 42 STT Tên thông số Spilled Records tả Tổng số lượng dòng liệu đồ vào đĩa cứng tất tác vụ Map Reduce MapReduce job 10 Shuffled Maps Tổng số lượng mappers trải qua trình pha trộn MapReduce job 11 Merged Map outputs Tổng số lượng file xuất từ mappers sau trình pha trộn MapReduce job 12 GC time elapsed Tổng thời gian (ms) dành cho dọn rác MapReduce job 13 Total committed heap Tổng lượng nhớ heap sử dụng (bytes) usage MapReduce job Kết thống kê thí nghiệm với 1000 file liệu tả Bảng 4-17 Bảng 4-17: tả thông số tác động lên Hadoop framework với 1000 file liệu STT Tên thông số PBG Mapreduce-1 PBCT MapReduce-2 MapReduce Map input records 542086 2829 542086 Map output records 753444 576429 1000 Map output bytes 48086048 65118467 68706 Map 49616936 66271421 94706 output materialized bytes Reduce input groups 3191 807 1000 Reduce shuffle bytes 49616936 66271421 94706 Reduce input records 753444 576429 1000 Reduce 2829 807 1000 1506888 1152858 2000 output records Spilled Records 10 Shuffled Maps 4000 16 4000 11 Merged Map outputs 4000 16 4000 12 GC time elapsed 132703 164 135795 43 STT Tên thông số PBG Mapreduce-1 13 Total committed PBCT MapReduce-2 346396491776 MapReduce 1589235712 346857078784 heap usage Kết thống kê thí nghiệm với 3000 file liệu tả Bảng 4-18 Bảng 4-18: tả thông số tác động lên Hadoop framework với 3000 file liệu STT Tên thông số PBG Mapreduce-1 PBCT MapReduce-2 MapReduce Map input records 2650819 3191 2650819 Map output records 2831894 4212113 3000 Map output bytes 1.8E+08 4.75E+08 206415 Map 1.85E+08 4.84E+08 284415 output materialized bytes Reduce input groups 3191 4322 3000 Reduce shuffle bytes 1.85E+08 4.84E+08 284415 Reduce 2831894 4212113 3000 3191 4322 3000 5663788 12636339 6000 input records Reduce output records Spilled Records 10 Shuffled Maps 12000 16 12000 11 Merged Map outputs 12000 16 12000 12 GC time elapsed 8457 414 8556 13 Total 1.57E+12 1.78E+09 1.57E+12 committed heap usage Kết thống kê thí nghiệm với 5000 file liệu tả Bảng 4-19 44 Bảng 4-19: tả thông số tác động lên Hadoop framework với 5000 file liệu STT Tên thông số PBG Mapreduce-1 PBCT MapReduce-2 MapReduce Map input records 5912348 3191 5912348 Map output records 5129086 8806497 5000 Map output bytes 327675996 999042399 344732 Map 338054168 1016655489 474732 output materialized bytes Reduce input groups 3191 8322 5000 Reduce shuffle bytes 338054168 1016655489 474732 Reduce input records 5129086 8806497 5000 Reduce 3191 8322 5000 10258172 26419491 10000 output records Spilled Records 10 Shuffled Maps 20000 16 20000 11 Merged Map outputs 20000 16 20000 12 GC time elapsed 9757 680 46125 13 Total 5.80064E+12 2612105216 4.16472E+12 committed heap usage 45 CHƯƠNG 5: TỔNG KẾT 5.1 Kết luận Trong phạm vi luận văn, sở lý thuyết tác vụ tìm kiếm tương tự, cách thức hình hóa đối tượng tài liệu, kỹ thuật xử lý liệu lớn với MapReduce tìm hiểu Cụ thể, thực nội dung sau: - Tìm hiểu tác vụ tìm kiếm tương tự - Tìm hiểu kỹ thuật xử lý ngơn ngữ tự nhiên, hình hóa văn tác vụ tìm kiếm tương tự - Tìm hiểu hình MapReduce - Tìm hiểu framework Hadoop việc triển khai thực thi hình MapReduce - Tìm hiểu ngơn ngữ lập trình Python cách thức giao tiếp với Hadoop - Nghiên cứu đề xuất cải tiến thuật giải tìm kiếm tương tự với hình MapReduce - Tiến hành thí nghiệm đánh giá thuật giải đề xuất - Mặt khác, Luận Văn khảo sát cơng trình nghiên cứu liên quan thực tác vụ tương tự với MapReduce Từ đó, phương pháp cải tiến đề xuất với phương pháp yếu tả sau: - Tối giản MapReduce-job - Cải thiện mức độ đánh giá tương tự - Đơn giản hóa quy trình tính tốn Tuy chiến lược cải tiến đơn giản thơng qua kết thí nghiệm, phiên cải tiến đạt hiệu suất cao đánh giá mức độ tương tự tốt phiên gốc 5.2 Những thiếu sót luận văn Mặc dù phương pháp cải tiến đạt nhiều kết tốt so với phương pháp gốc, luận văn nhiều điểm thiếu sót sau: - Do bị giới hạn phần cứng thiết bị, kết thí nghiệm triển khai máy ảo với lượng liệu giới hạn - Phương pháp cải tiến chưa tận dụng lợi việc đánh chì mục 46 - Đánh giá mức độ tương tự mặt ngữ nghĩa bị hạn chế 5.3 Hướng phát triển Hướng phát triển đề tài luận văn đề xuất sau: - Nghiên cứu giải pháp đánh giá mức độ tương tự có kết hợp yếu tố ngữ nghĩa - Thực kết thí nghiệm cụm máy thật - Thực kết thí nghiệm với khối lượng liệu lớn (> TB) DANH MỤC TÀI LIỆU THAM KHẢO Dean, J., & Ghemawat, S (2008) MapReduce: Simplified Data Processing on Large Clusters Communications of the ACM, 51(1), 107–113 http://doi.org/10.1145/1327452.1327492 Elsayed, T., Lin, J., Oard, D.W (2008) Pairwise Document Similarity in Large Collections with MapReduce In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics on Human Language Technologies, Companion Volume, Columbus, Ohio, (pp 265-268) Hadoop Streaming, tham khảo đường link: https://hadoop.apache.org/docs/r1.2.1/streaming.html Letouzé, E (2012) Big data for development: challenges & opportunities In A R Tatevossian & R Kirkpatrick (Eds.), (pp 1–47) UN Global Pulse Li, R., Ju, L., Peng, Z., Yu, Z., Wang, C (2011) Batch Text Similarity Search with MapReduce In Proceedings of the 13th Asia-Pacific Web Conference, volume 6612 of Lecture Notes in Computer Science, Springer (pp 412-423) Phan, T N., Küng, J., & Dang, T K (2014) An Elastic Approximate Similarity Search in Very Large Datasets with MapReduce In A Hameurlain, T K Dang, & F Morvan (Eds.), Proceedings of the 7th International Conference on Data Management in Cloud, Grid and P2P Systems (Vol 8648, pp 49–60) Springer http://doi.org/10.1007/978-3-319-10067-8_5 Rajaraman, A., & Ullman, J D (2011) Chapter 3: Finding similar items In Mining of Massive Datasets (1st ed., pp 71–127) Cambridge University Press Zezula, P., Amato, G., Dohnal, V., & Batko, M (2010) Similarity Search: The Metric Space Approach (1st ed.) Springer Publishing Company, Incorporated Gutenberg Project, tham khảo đường link: https://www.gutenberg.org/ 10 LiveGraph, tham khảo đường link: http://www.live-graph.org/ 11 Elsayed, T., Lin, J., Oard, D.W (2008) Pairwise Document Similarity in Large Collections with MapReduce In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics on Human Language Technologies, Companion Volume, Columbus, Ohio, pp 265-268 12 Baraglia, R., De Francisci Morales, G., Lucchese, C (2010) Document Similarity Self-Join with MapReduce In Proceedings of the 10th IEEE International Conference on Data Mining, pp 731-736 13 Li, R., Ju, L., Peng, Z., Yu, Z., Wang, C (2011) Batch Text Similarity Search with MapReduce In Proceedings of the 13th Asia-Pacific Web Conference, volume 6612 of Lecture Notes in Computer Science, Springer, pp 412-423 14 Zezula, P., Amato, G., Dohnal, V., & Batko, M (2010) Similarity Search: The Metric Space Approach (1st ed.) Springer Publishing Company, Incorporated 15 Minkowski, H (1953) Geometrie der Zahlen Chelsea 16 Levenshtein, V (1965) Binary codes capable of correcting spurious insertions and deletions of ones Problems of Information Transmission, 1, 8–17 17 Hamming, R (1950) Error Detecting and Error Correcting Codes Bell System Technical Journal, 26(2), 147–160 18 Singhal, A (2001) Modern Information Retrieval: A Brief Overview IEEE Data Engineering Bulletin, 24(4), 35–43 Retrieved from http://dblp.unitrier.de/db/journals/debu/debu24.html#Singhal01 19 Jaccard, P (1912) The Distribution of the Flora in the Alpine Zone New Phytologist, 11(2), 37–50 Retrieved from http://www.jstor.org/stable/2427226?seq=3 20 Rajaraman, A., & Ullman, J D (2011) Chapter 3: Finding similar items In Mining of Massive Datasets (1st ed., pp 71–127) Cambridge University Press 21 Tim Peters (2004) PEP20 The Zen of Python, tham khảo link: https://www.python.org/dev/peps/pep-0020 ... tốn tìm kiếm tương tự với mơ hình MapReduce 1.2 Mục tiêu đề tài Phát triển thuật giải tìm kiếm tương tự với mơ hình MapReduce Việc cải tiến mức độ hiệu tác vụ tìm kiếm tương tự tiếp cận mức thuật. .. giá tương ứng cho thuật giải đề xuất 5 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Tìm kiếm tương tự Tìm kiếm tương tự tốn tìm kiếm đối tượng tương tự Tác vụ tìm kiếm tương tự kết hợp hai từ khóa tìm kiếm ... tác vụ tìm kiếm tương tự áp dụng nhằm mục tiêu gom nhóm đối tượng tương tự vào cụm tác vụ tìm kiếm tương tự áp dụng ứng dụng tìm kiếm tập tài liệu văn có mức độ tương tự với tập tài liệu văn cho

Ngày đăng: 01/11/2018, 10:57

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w