Luận văn thạc sĩ thuật toán đánh chỉ mục ngược với mapreduce và ứng dụng trong việc đánh giá ý kiến của học sinh hòa bình trên mạng xã hội​

82 13 0
Luận văn thạc sĩ thuật toán đánh chỉ mục ngược với mapreduce và ứng dụng trong việc đánh giá ý kiến của học sinh hòa bình trên mạng xã hội​

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Lê Đinh Hợp Thuâṭtoán đánh mục ngược với MapReduce ứng duṇg việc đánh giá ý kiến học sinh Hịa Bình mạng xã hội Chuyên ngành: Khoa học máy tính Mã số 60 48 01 01 : Người hướng dẫn khoa học: PGS TS Đỗ Trung Tuấn Thái Nguyên, 12 - 2016 i Lời cam đoan Tôi xin cam đoan: Những kết nghiên cứu trình bày luận văn hồn tồn trung thực, tơi, khơng vi phạm điều luật sở hữu trí tuệ pháp luật Việt Nam Nếu sai, tơi hồn tồn chịu trách nhiệm trước pháp luật TÁC GIẢ LUẬN VĂN Lê Đinh Hợp ii Lời cám ơn Tôi xin chân thành cảm ơn Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên tạo điều kiện thuận lợi cho tơi hồn thành khóa học Tôi xin chân thành cảm ơn Thầy Cô giáo – Các nhà khoa học trực tiếp giảng dạy truyền đạt kiến thức chuyên ngành Khoa học máy tính cho tơi tháng năm học tập trường Đặc biệt tơi xin bày tỏ lịng biết ơn chân thành sâu sắc tới PGS TS Đỗ Trung Tuấn tận tình hướng dẫn, dìu dắt bảo cho kiến thức chuyên môn thiết thực dẫn khoa học quý báu để tơi hồn thành luận văn Luận văn cịn nhiều thiếu sót, mong thầy giáo hội đồng chấm luận văn xem xét, góp ý kiến để luận văn hồn thiện Tơi xin chân thành cảm ơn! Thái Nguyên, tháng 12 năm 2016 iii Mục lục Lời cam đoan i Lời cám ơn iii Mục lục iv Danh sách từ viết tắt vi Danh mục hình vẽ, bảng biểu vii Chương mở đầu Đặt vấn đề Đối tượng phạm vi nghiên cứu 11 Hướng thực đề tài 11 Những nội dung nghiên cứu 11 CHƯƠNG MÔ HÌNH MapReduce 12 1.1 Tổng quan MapReduce 12 1.1.1 Sự quan trọng MapReduce 12 1.1.2 Các ý tưởng MapReduce 13 1.1.3 Cấu trúc liệu MapReduce 15 1.1.4 Mapper Reducer 15 1.1.5 Partitioner Combiner 17 1.2 Bộ khung thực thi 19 1.2.1 Lập lịch 19 1.2.2 Di chuyển liệu mã lệnh 19 1.2.3 Đồng hóa 20 1.2.4 Xử lý lỗi 20 1.3 Hệ thống file phân tán 20 1.3.1 Kiến trúc HDFS 21 1.3.2 Nhiệm vụ NameNode 21 1.3.3 Nhiệm vụ DataNode 22 1.3.4 Nhiệm vụ Secondary NameNode 23 CHƯƠNG 2THUẬT TOÁN XỬ LÝ DỮ LIỆU VĂN BẢN VỚI MapReduce 25 2.1 Thiết kế thuật toán MapReduce 25 iv 2.1.1 Gộp lớn cục 26 2.1.2 Bộ hai ba 30 2.1.3 Tính toán tần số tương đối 33 2.1.4 Sắp xếp thứ cấp 36 2.2 Thuật tốn tính mục ngược để tìm kiếm liệu văn 36 2.2.1 Dị tìm Web 37 2.2.2 Thuật tốn mục ngược 39 2.2.3 Cài đặt theo 41 2.2.4 Cài đặt thuật toán cải tiến 43 2.2.5 Nén mục 45 2.3 Về tìm kiếm 52 CHƯƠNG THỬ NGHIỆM THUẬT TOÁN ĐÁNH GIÁ Ý KIẾN TRÊN MẠNG XÃ HỘI 56 3.1 Mã nguồn mở Solr 56 3.1.1 Giới thiệu 3.1.2 Các tính Solr: 56 56 3.2 Mã nguồn mở Nutch 56 3.2.1 Các lý để tự xây dựng Search Engine 56 3.2.2 Các tính Nutch 57 3.3 API biểu đồ Facebook 58 3.4 Solr Hadoop tìm kiếm thử nghiệm 60 3.4.1 Sơ đồ 60 3.4.1 Cài đặt cụm máy Hadoop 3.4.2 Cài đặt Nutch tích hợp với Solr 3.4.3 Thu thập liệu 62 67 69 3.5 Thực tìm kiếm thử nghiệm tập mục thu thập 72 Kết luận 75 v D CNTT HDFS URL HTML LISP ML HPC NAS SAN GFS SPOF SNN APW REST PRAM BSP vi Danh mục hình vẽ, bảng biểu Hình 1.1 Mơ hình chia để trị 14 Hình 1.2 Hàm Map Fold Functional Programming 15 Hình 1.3 Hai pha Map Reduce MapReduce job 16 Hình 1.4 Mơ hình MapReduce đầy đủ thành phần 19 Hình 1.5 Kiến trúc HDFS 21 Hình 1.6 Vai trị NameNode DataNode HDFS 23 Hình 1.7 Kiến trúc HDFS đầy đủ 23 Hình 2.1 Bảo tồn trạng thái Hadoop 26 Hình 2.2 Tiến trình hoạt động chương trình WordCount 27 Hình 2.3 Thời gian chạy thuật tốn "pairs" "stripes" 32 Hình 2.4 Ví dụ minh họa cặp giá trị 35 Hình 2.5 Minh họa đơn giản mục ngược 40 Hình 2.6: Minh họa đơn giản sở thuật toán lập mục ngược MapReduce với ba mapper hai reducer 43 Hình 2.7 Mười số nguyên dương nguyên phân, γ, mã Golomb (b = 5, 10) 49 Hình 2.8 Ma trận Term-document 53 Hình 3.1 Sơ đồ hoạt động Nutch sử dụng Crawler 57 Hình 3.2 Sơ đồ đầy đủ Nutch sử dụng Search Engine 58 Hình 3.3 Facebook 58 Hình 3.4 Trao đổi qua API 59 Hình 3.5: Mơ hình tổng quan hệ thống khảo sát 60 Hình 3.6: Sơ đồ giai đoạn đánh mục 61 Hình 3.7: đánh mục với MapRedece Solr 61 Hình 3.8: Giao diện làm việc Solr 68 Hình 3.9: Giao diện làm việc Facebook Graph API 69 Hình 3.10: Access Token trình Facebook Graph API 70 vii Hình 3.11: Thu thập liệu từ trang mạng trường THPT Hoàng Văn Thụ 70 Hình 3.12:Giao diên theo dõi trình làm việc MapReduce 71 Bảng 3.2: Kết thu thập liệu chế độ 72 Hình 3.13: Giao diện trang web tìm kiếm Solr 73 Bảng 3.3: Một số kết truy vấn theo chủ đề 73 viii Chương mở đầu Đặt vấn đề Trong thời đại nay, công nghệ thông tin ứng dụng lĩnh vực sống, với hệ thống máy tính người ta làm nhiều công việc, tiết kiệm thời gian, công sức tiền bạc Với phát triển vượt bậc Internet nay, lượng thông tin ngày nhiều, tăng trưởng nói tính cấp số nhân, theo nghiên cứu khoảng năm lượng tri thức nhân loại tăng gấp đôi, với lượng thông tin đồ sộ mạng việc tìm kiếm khai thác thơng tin công việc quan trọng, mang lại nhiều lợi ích khoa học kinh tế Cùng với đời Internet, xuất phát triển không ngừng lĩnh vực thương mại điện tử, lĩnh vực nghiên cứu xã hội khiến cho việc xúc tiến hoạt động kinh doanh nghiên cứu, quảng bá sản phẩm dịch vụ diễn khắp kênh thông tin xã hội, đặc biêt Internet Như biết ngày thông tin đưa lên trang mạng xã hội dạng Posts nhiều người dùng để lại nhận xét (comments) thông tin đưa lên, ta thấy kho thơng tin vơ hưu ích, ta tìm kiếm phân loại liệu ấy, thu kết khảo sát cần thiết phục vụ cho hoạt động nghiên cứu hoạt động sản xuất kinh doanh Kết khảo sát tỉ lệ "thích" (like) khơng có ý kiến vấn đề đưa Việc tìm kiếm xử lý tổng hợp thơng tin hưu ích cần phải có mơ hình đáp ứng nhu cầu việc làm việc lượng liệu lớn tốc độ cao Mơ hình MapReduce mơ hình lập trình giúp ứng dụng xử lý nhanh lượng liệu lớn liệu trện máy phần tán song song, độc lập với từ giúp rút ngắn thời gian xử lý tồn liệu MapReduce chạy phần cứng thông thường (commodity hardware), khơng địi hỏi server chạy MapReduce phải máy tính có cấu hình đặc biết mạnh mẽ Do chi phí triển khai Mapreduce rẻ MapReduce làm đơn giản hóa giải thuật tính tốn phân tán Với MapReduce, bạn cần cung cấp hai hàm Map Reduce với số thành phần xử lý liệu đầu vào Do vậy, nhà phát triển ứng dụng phần tán tập trung nhiều cho phần logic úng dụng, bỏ qua chi tiết phức tạp việc phân tán xử lý Sự đời MapReduce mở cho doanh nghiện trung tâm nhiên cứu hội xử lý nguồn liệu đồ sộ với chi phí thấp thời gian nhanh Hiện nay, có nhiều cơng ty lớn triển khai sử dụng mơ hình MapReduce việc kinh doanh khảo sát Công ty Amazon sử dụng MapReduce để xử lý file log trình mua hàng khách hàng để dự đoán xu hướng mua hàng Facebook xử lý khối lượng 10 tỷ hình ảnh mà hộ lưu trữ để thu thập thơng tin hình ảnh, thu thập 15 terabyte liệu ngày vào kho liệu quy mô Petabyte để thực việc khảo sát đánh giá xu hướng người dùng Việc nghiên cứu xu hướng, đánh giá khảo sát vấn đề quy mô lớn vấn đề gặp nhiều khó khăn Trước nhà khảo sát, đánh giá ý kiến đối tượng nghiên cứu thường sử dụng phương pháp thủ công tốn nhiều thời gian để tổng hợp tin tức, chẳng hạn muốn khảo sát ý kiến học sinh số thay đổi chương trình học, người ta lựa chọn hỏi ý kiến tất học sinh mà lựa chọn số địa điểm đặc trưng để thực khảo sát, đôi khi, kết khảo sát khơng mang tính khách quan tâm lý e ngại em học sinh Và khảo sát này, phải thực vịng vài năm có kết tổng hợp Như nhiều công sức, cải thời gian Với việc thực trạng hầu hết em lứa tuổi học sinh, sinh viên biết sử dụng thích tham gia mạng xã hội Internet ( đặc biết Facebook) việc tìm kiếm từ khóa có tần suất xuất cao phản ánh xu hướng, ý kiến người dùng việc khảo sát thủ công nhiều việc nhận kết khảo sát ý kiến Tổng hợp thơng tin máy tính với hỗ trợ mơ hình MapReduce giúp thực trình đánh giá, khảo sát ý kiến nhanh chóng mang lại hiệu quả, tiết kiệm nhiều thời gian tiền bạc Với nhu cầu cấp thiết trên, học viên thực nghiên cứu kỹ thuật mục ngược (Inverted Indexing) phương pháp thực quét lần văn sau lập danh sách thuật ngữ (từ, cụm từ) file bao gồm thông tin kèm với thuật ngữ (term) ( vị trí, tần suất, độ quan trọng ) Các thông tin tổ chức theo cấu trúc liệu riêng gọi mục Với phương pháp đánh mục ngược kết hợp với mơ hình MapReduce giải hạn chế trước phương pháp thông kê, đánh giá ý kiến quy mơ lớn, lý học viên lựa chọn 10 dfs.replication 2 Default block replication The actual number of replications can be specified when the file is created The default is used if replication is not specified in create time  Riêng máy chủ ta phải cấu hình thêm sau: Cấu hình máy làm nhiệm vụ điều khiển máy Chu Trên máy chủ, ta thêm dòng sau vào tệp tin đường dẫn /usr/local/hadoop/conf/masters: MAY_CHU Ta cấu hình máy làm nhiệm vụ làm việc máy đóng vai trò làm việc nên ta thêm dòng sau vào cuối tệp tin đường dẫn /usr/local/hadoop/conf/slaves MAY_CHU MAY_KHACH  Trước bắt đầu sử dụng cụm máy Hadop này, ta phải định dạng lại HDFS thông qua máy điều khiển câu lệnh sau: $ cd /usr/local/hadoop $ bin/hadoop namenode -format Chú ý ta thực câu lệnh này, tất liệu có hệ thống liệu HDFS bị xóa bỏ Bước 3: Khởi động cụm máy Hadoop kết thúc hồn thành cơng việc Q trình khởi động thực qua bước: Khởi động HDFS khởi động MapReduce Thành phần điều khiển khởi động máy Chu máy lưu trữ khởi động máy Chu may LamViec Chạy tệp tin $HADOOP_HOME/bin/start-dfs.sh máy Chu: $ cd $HADOOP_HOME $ bin/start-dfs.sh Khởi động MapReduce: Thành phần quản lý công việc khởi động máy Chu thành phần quản lý bin/start-mapred.sh máy chủ tác vụ khởi động máy C hu máy LamVie c C hạy câ u lệ nh $ cd $HADOOP_HOME $ bin/start-dfs.sh Kiểm tra hoàn tất cài đặt Hadoop câu lênh jps: 66 Trên máy chủ: $ jps 16017 14799 15686 14880 15596 14977 Jps NameNode TaskTracker DataNode JobTracker SecondaryNameNode Trên máy khách: $ jps 15183 DataNode 15897 TaskTracker 16284 Jps Nếu kết có nghĩa việc cài đặt Hadoop hồn tất Để tắt Hadoop ta thực câu lệnh sau: $ cd $HADOOP_HOME $ bin/stop-all.sh 3.4.2 Cài đặt Nutch tích hợp với Solr Hướng dẫn cài đặt Nutch tích hợp với Solr Trong báo cáo ta sử dụng Nutch 1.6 Solr 4.8.0 Cài đặt Nutch  Tải tệp tin apache-nutch-1.6-src.tar.gz từ địa https://archive.apache.org/dist/nutch/1.6/  Giải nén tệp tin chuyển thư mục tới đường dẫn /usr/local/nutch $ tar –xvzf apache-nutch-1.6-src.tar.gz $ sudo mv apache-nutch-1.6-src /usr/local/nutch  Đi đến thư mục cài đặt Nutch câu lệnh cd /usr/local/nutch  Chỉnh sửa tệp tin nutch-default.xml câu lệnh sudo gedit conf/nutch-default.xml, thêm dòng sau vào cuối nội dung tệp tin: http.agent.name My Nutch Spider  Chạy câu lệnh: $ cd /usr/local/nutch $ ant runtime  Kết câu lệnh thư mục /usr/local/nutch/runtime tạo 67  Kiểm tra cài đặt Nutch thành công câu lệnh sau $ cd /usr/local/nutch/runtime/deploy $ bin/nutch Nếu kết có dạng sau có nghĩa việc cài đặt Nutch hoàn tất: Usage: nutch [-core] COMMAND Cài đặt Solr Tải tệp tin solr-4.8.0.tgz từ địa https://archive.apache.org/dist/lucene/solr/4.8.0/  Giải nén tệp tin di chuyển tới địa /usr/local/solr câu lệnh:  $ tar –xvzf solr-4.8.0.tgz $ sudo mv solr-4.8.0.tgz /usr/local/solr Hình 0.8: Giao diện làm việc Solr  lệnh: Đi đến thư mục example Solr khởi động Solr câu $cd /usr/local/solr/example $java –jar start.jar  Sau khởi động Solr ta kiểm tra hồn tất cài đặt Solr cách truy cập trình duyệt web theo đường dẫn sau: http://localhost:8983/solr/ Tích hợp Solr với Nutch  Sao chép tệp tin /usr/local/nutch/conf/schema-solr4.xml vào thư mục conf đường dẫn /usr/local/solr/example/solr/conf đổi tên tệp tin thành schema.xml  Thêm dòng sau vào tệp tin schema.xml sau dòng : 68  Khởi động Solr câu lệnh $cd /usr/local/solr/example $java –jar start.jar  Ta truy cập vào địa web http://localhost:8983/solr/ 3.4.3 Thu thập liệu Quá trình thu thập liệu thực tảng MapReduce Hadoop, tất bước trình thu thập liệu thực song song tất máy cụm máy Hadoop Từng máy làm nhiệm vụ thu thập liệu với URL phân cơng sau kết trình thu thập liệu trộn lại với hàm rút gọn kết (reducer) Các thư mục cuối trình thu thập lưu lại hệ thống lưu trữ phân tán HDFS Trước hết, việc thu thập liệu Facebook thực qua Facebook Graph API Ta truy cập vào Facebook Graph API qua đường link sau: https://developers.facebook.com/tools/explorer Giao diện lên hình dưới: Hình 0.9: Giao diện làm việc Facebook Graph API Đăng ký App công cụ phát triển Facebook, ta cấp Access Token (Là mã cho phép gửi đòi hỏi tới Server Nếu bạn login vào tài khoản facebook đó, giá trị mặc định hiển thị cho tài khoản đó.), sử dụng để truy cập vào trang Fanpage trang cá nhân 69 Hình 0.10: Access Token trình Facebook Graph API Sau ta thực việc lấy thông tin từ trang Facebook cần dị tìm khảo sát Với cơng cụ Facebook Graph API, lựa chọn tìm kiếm thể rõ ràng hình dưới: Hình 0.11: Thu thập liệu từ trang mạng trường THPT Hoàng Văn Thụ Tất liệu sau Crawler lấy từ Fabook Graph API đưa Hadoop định dạng JSON Khởi động Hadoop Solr: $ $ $ $ cd $HADOOP_HOME bin/start-all.sh cd $SOLR_HOME/example java –jar start.jar Sauk hi hoàn tất việc đưa thư mục chứa URL cần thu thập liệu lên HDFS ta 70 bắt đầu thực công việc thu thập liệu câu lệnh sau: $ cd /usr/local/nutch/runtime/deploy $ hadoop –jar org.apache.nutch.crawl.Crawl thuthap1 http://localhost:8983/solr -depth apache-nutch-1.6.job –dir data –solr Câu lệnh thực thu thập liệu từ trang web đưa kết đên Solr để tạo mục ngược cho liệu Sau câu lệnh cụm máy hadoop bắt đầu thu thập liệu từ địa có nội dung tệp tin seed.txt Ta theo dõi q trình thu thập liệu các, cơng việc tiến hành mapReduce cách truy cập địa http://localhost:50030/jobtracker.jsp: Hình 0.12:Giao diên theo dõi trình làm việc MapReduce Để đọc thơng tin Crawldb Nutch ta thực câu lệnh sau: $ cd $NUTCH_HOME $ bin/nutch readdb data/crawldb –stats Quá trình thu thập liệu trang nhóm học sinh THPT 19-5 Hịa Bình ta có kết sau: 71 Bảng 0.1: Kết thu thập liệu chế độ Chiều sâu Chế độ máy đơn (Standalone) 137 giây 748 giây 10264 giây Dựa vào bảng ta thấy, với chiều sâu lớn thời gian thu thập liệu tăng lên Điều hoàn toàn dễ hiểu qua vòng lặp số URL mà Nutch phải thu thập tăng lên ( từ đến 4513) So sánh chế độ máy đơn chế độ phân tán ảo ta thấy có khác biệt rõ ràng Chế độ phân tán ảo cho kết thời gian thu thập liệu lớn nhiều so với chế độ máy đơn Có thể giải thích điều sau: với môi trường phân tán ảo thực tế tài nguyên máy bị chi phối vào việc trì mơi trường ảo hóa tài nguyên RAM, tài nguyên chip xử lý khơng tận dụng mà cịn bị chi phối Tuy nhiên việc thử nghiệm môi trường phân tán ảo cho ta kết nhân khối liệu đúng, điều chứng minh khả chịu lỗi khôi phục liệu có trục trặc Hadoop 3.5 Thực tìm kiếm thử nghiệm tập mục thu thập Sau thực thu thập liệu ta truy cập trang http://localhost:8983/solr để thực câu lệnh truy vấn Kết câu lệnh truy vấn nhiều dạng khác dễ dàng tích hợp với ứng dụng web Có nhiều định dạng khác Solr sử dụng định dạng PHP, XML, Json … 72 Hình 0.13: Giao diện trang web tìm kiếm Solr Ta dễ dàng xây dựng giao diện web để thực giao tiêp với Solr Việc giao tiếp bao gồm công việc gửi từ truy vấn đến Solr, sau nhận yêu cầu truy vấn Solr thực tìm kiếm trả lại kết Kết trang web phân tích hiển thị cho người dùng Có nhiều thư viện cho phép ta làm công việc Báo cáo sử dụng thư viện giao tiếp với Solr có tên gọi AJAX SOLR AJAX SOLR cung cấp thư viện cho phép giao tiếp với Solr dễ sử dụng Để thực tìm kiếm thử Nutch cho kết rõ ràng hơn, báo cáo thực thu thập liệu nhóm học sinh số trường tỉnh Hịa Bình: https://www.facebook.com/groups/1573580766273010 https://www.facebook.com/Trường-THPT-Cơng-Nghiệp-Hịa-Bình https://www.facebook.com/pages/THPT-chun-Hồng-Văn-Thụ Tổng số tài liệu mà việc thu thập thực khoảng 2000 trang(bao gồm trang mạng cá nhân trang fanpage tập thể học sinh) Với dung lượng liệu lên đến khoảng 2GB Kết tìm kiếm thử nghiệm theo số chủ đề phổ biến ghi lại bảng sau: Bảng 0.2: Một số kết truy vấn theo chủ đề Từ khóa Giáo dục Tuyển sinh Bóng đá Tình u Luật pháp Lớp Gia đình Đồng phục Toán Văn Tiếng Anh Một yêu cầu bắt buộc chương trình tìm kiếm liệu yêu cầu thời gian Một chương trình tìm kiếm phải đảm bảo đáp ứng thời gian tìm kiếm nhanh nhiều so với đại đa số nhiệm vụ liệu lớn khác Theo đánh giá ban đầu kết tìm kiếm tập liệu tương đối khả quan với điều kiện phần cứng trung bình Các kết truy vấn khơng có thời gian vượt hàng phút đáp ứng yêu cầu thời gian tìm kiếm mơi trường web 73 Chương trình bày cách xây dựng cụm máy Hadoop hồn chỉnh với thử nghiệm mơi trường phân tán ảo so sánh khả hoạt động Hadoop môi trường phân tán ảo với máy tính Thực nghiệm cho thấy khả hoạt động Hadoop phụ thuộc nhiều vào dung lượng RAM khả tính tốn chip xử lý, tốc độ Hadoop thực tăng lên cụm máy Hadoop mở rộng quy mô RAM chip xử lý Việc thực thử nghiệm Hadoop mội trường phân tán ảo, vậy, cung đem lại nhiều kết tích cực ta thấy thực tế trình nhân liệu qua máy mạng Hadoop, ta thấy khả phục hồi liệu xảy cố Hadoop Cách mà Hadoop phân chia q trình cơng việc thu thập liệu Nutch cụm máy phân tán Theo dõi công việc hoạt động MapReduce, trình tạo cấu trúc liệu Nutch Chương thực việc cấu hình Nutch với chương trình đánh mục tìm kiếm nguồn mở sử dụng rộng rãi Solr Solr cho kết truy vấn mục tương đối khả quan với điều kiện phần cứng liệu mức trung bình Hồn thành việc xây dựng trang web tìm kiêm đơn giản giao tiếp với Solr thay cho giao diện tìm kiếm mặc định Solr 74 Kết luận Đánh giá kết đề tài Đề tài tìm hiểu kiến thức tổng quan MapReduce, thuật toán đánh mục mục ngược Đồng thời xây dựng hệ thống tìm kiếm khảo sát đánh giá ý kiến học sinh mạng xã hội Đề Tài thực nội dung sau: -Tìm hiểu tổng quan MapReduce xây dựng thuật tốn MapReduce -Tìm hiểu thuật toán đánh mục mục ngược kết hợp với MapReduce -Xây dựng chương trình khảo sát ý kiến mạng xã hội, tổng hợp,cài đặt thử nghiệm hệ thống Hạn chế -Chưa nghiên cứu giải pháp tách từ tiếng Việt đầy đủ, ảnh hưởng tới kết độ xác hệ thống khảo sát ý kiến -Hệ thống dị tìm Web cịn đơn giản, chưa hỗ trợ mạng xã hội Url website internet mức độ khác Hướng phát triển đề tài Mặc dù thực nội dung xây dựng hệ thống hành thành cơng Tuy nhiên, đề hoàn thiện tốt hơn, đề tài cần nghiên cứu bổ sung thêm nội dung tìm kiếm web mạng xã hội khác ngồi Facebook, mở rộng thêm tìm kiếm website, Forum học tập học sinh Tăng cường hiệu tìm kiếm từ xác 75 TÀI LIỆU THAM KHẢO [1] Data-Intensive Text Processing with MapReduce - Jimmy Lin The iSchool University of Maryland [2] MapReduce: Simplified Data Processing on Large Clusters Jeffrey Dean and Sanjay Ghemawat Google Inc [3] Azza Abouzeid, Kamil Bajda-Pawlikowski, Daniel Abadi, Avi Silberschatz, and Alexander Rasin HadoopDB: An architectural hybrid of MapReduce and DBMS technologies for analytical workloads In Proceedingsof the 35th International Conference on Very Large Data Base (VLDB 2009), pages 922{933, Lyon, France, 2009 [4] Vo Ngoc Anh and Alistair Mo_at Inverted index compression using word-aligned binary codes Information Retrieval, (1):151{166, 2005 [5] Stefan Buttcher, Charles L A Clarke, and Gordon V Cormack Information Retrieval: Implementing and Evaluating Search Engines MIT Press, Cambridge, Massachusetts, 2010 [6] Jonathan Cohen Graph twiddling in a MapReduce world Computing in Science and Engineering, 11 (4):29{41, 2009 [7] Jeffrey Dean and Sanjay Ghemawat MapReduce: A exible data processing tool Communications of the ACM, 53 (1):72{77, 2010 [8] F N Afrati, A D Sarma, D Menestrina, A G Parameswaran, and J D Ullman Fuzzy joins using mapreduce In ICDE, pages 498–509, 2012 [3] F N Afrati and J D Ullman Optimizing multiway joins in a map-reduce environment TKDE, 23 (9):1282–1298, 2011 [9] S Blanas, J M Patel, V Ercegovac, J Rao, E J Shekita, and Y Tian A comparison of join algorithms for log processing in mapreduce In SIGMOD, pages 975–986, 2010 76 ... ứng dụng MapReduce thuật toán đánh mục ngược để đánh giá ý kiến mạng xã hội; Trình bày mơ hình hoạt động ứng dụng đánh giá ý kiến mạng xã hội Các kết thử nghiệm hệ thống tìm kiếm đánh giá ý kiến. .. Trình bày nhu cầu đánh giá ý kiến mạng xã hội khả áp dụng Chương 2: Thuật toán xử lý liệu văn với MapReduce; Trình bày thiết kế thuật tốn MapReduce thuật tốn mục ngược để tìm kiếm văn bản; Chương... gọi mục Với phương pháp đánh mục ngược kết hợp với mơ hình MapReduce giải hạn chế trước phương pháp thông kê, đánh giá ý kiến quy mơ lớn, lý học viên lựa chọn 10 đề tài "Thuât toán đánh mục ngược

Ngày đăng: 09/06/2021, 06:59

Tài liệu cùng người dùng

Tài liệu liên quan