BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM NGUYỄN THỊ BÍCH THÙY NGHIÊN CỨU MÔ HÌNH KIỂM SOÁT TRUY XUẤT CHO DỮ LIỆU LỚN LUẬN VĂN THẠC SỸ Chuyên ngành CÔNG NGHỆ THÔNG TIN Mã ngành 60480201 T[.]
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN THỊ BÍCH THÙY NGHIÊN CỨU MƠ HÌNH KIỂM SỐT TRUY XUẤT CHO DỮ LIỆU LỚN LUẬN VĂN THẠC SỸ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã ngành: 60480201 TP HCM, tháng 10/2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN THỊ BÍCH THÙY NGHIÊN CỨU MƠ HÌNH KIỂM SỐT TRUY XUẤT CHO DỮ LIỆU LỚN LUẬN VĂN THẠC SỸ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS VÕ ĐÌNH BẢY TP HCM, tháng 10/2015 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP HCM Cán hướng dẫn khoa học : TS.VÕ ĐÌNH BẢY Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 17 tháng 10 năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ tên Chức danh Hội đồng PGS.TS Lê Hoài Bắc Chủ tịch GS.TSKH Hoàng Văn Kiếm Phản biện TS.Vũ Thanh Hiền Phản biện TS Hồ Đắc Nghĩa Ủy viên TS Cao Tùng Anh Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa Chủ tịch Hội đồng đánh giá LV PGS.TS Lê Hoài Bắc TRƯỜNG ĐH CƠNG NGHỆ TP HCM CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng… năm 20 … NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Thị Bích Thùy Giới tính: Nữ Ngày, tháng, năm sinh: 26/05/1980 Nơi sinh: TP.HCM Chuyên ngành: Công nghệ thông tin MSHV: 1241860022 I- Tên đề tài: Nghiên cứu mơ hình kiểm soát truy xuất cho liệu lớn II- Nhiệm vụ nội dung: - Nghiên cứu liệu lớn - Nghiên cứu mơ hình kiểm sốt truy xuất liệu - Nghiên cứu mơ hình kiểm sốt truy xuất cho liệu lớn - Nghiên cứu thực nghiệm ứng dụng kiểm soát truy xuất cho liệu lớn III- Ngày giao nhiệm vụ: 08/03/2015 IV- Ngày hoàn thành nhiệm vụ: 08/09/2015 V- Cán hướng dẫn: TS.Võ Đình Bảy CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) TS.Võ Đình Bảy KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) ii LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn Nguyễn Thị Bích Thùy iii LỜI CÁM ƠN Trong suốt trình học tập, nghiên cứu hồn thành luận văn tốt nghiệp, tơi nhận hướng dẫn, giúp đỡ động viên q báu Thầy Cơ, Gia đình, Bạn bè anh chị đồng nghiệp Trước hết, xin bày tỏ lịng kính trọng tri ân sâu sắc đến TS.Võ Đình Bảy, người hướng dẫn khoa học tận tâm giúp đỡ, dạy bảo động viên Tôi xin gửi lời cảm ơn sâu sắc đến Q thầy tận tình dìu dắt, truyền dạy kiến thức cho thời gian vừa qua Xin cảm ơn Q thầy Ban giám hiệu, Phịng Quản lý khoa học – Đào tạo Sau đại học, Khoa Công nghệ thông tin trường Đại học Công Nghệ Thành phố Hồ Chí Minh tạo điều kiện thuận lợi thời gian học tập trường Sau cùng, xin cảm ơn gia đình, bạn bè động viên, khích lệ tơi suốt q trình học tập thực luận văn Dù có nhiều cố gắng trình thực luận văn tốt nghiệp, song chắn luận văn tránh khỏi thiếu sót Tơi mong nhận góp ý quý thầy cô, anh chị em đồng nghiệp bạn Tp.Hồ Chí Minh, tháng 10 năm 2015 Nguyễn Thị Bích Thùy iv TĨM TẮT Hệ thống điều khiển truy xuất Access Control (AC) thành phần quan trọng an ninh mạng; kỹ thuật cho phép kiểm soát việc truy nhập đến tài ngun tính tốn cho người dùng nhóm người dùng Điều khiển truy cập thường sử dụng lớp phòng vệ thứ nhất, nhằm ngăn chặn các phần mềm độc hại hành động công, đột nhập vào hệ thống máy tính mạng, truy cập trái phép vào liệu tài ngun tính tốn Vấn đề ngày trở nên nghiêm trọng phức tạp hệ thống phần mềm, chẳng hạn hệ thống xử lý Big Data (BD), hệ thống triển khai để quản lý số lượng lớn thông tin nguồn tài nguyên tổ chức thành cụm xử lý Big Data (BD) Về bản, kiểm sốt truy cập BD địi hỏi phối hợp xử lý để bảo vệ hệ thống điện tốn đám mây dựa tảng tính tốn cho quản lý kiểm soát truy cập phân tán Trong điều kiện hạ tầng mạng nhân lực quản trị hệ thống quan, tổ chức Việt Nam hạn chế, việc nghiên cứu điều khiển truy cập cho liệu lớn BD để tìm giải pháp ứng dụng phù hợp thực cần thiết Luận văn trình bày nghiên cứu liệu lớn, mơ hình kiểm sốt truy xuất cho liệu, đề xuất mơ hình kiểm sốt truy xuất cho liệu lớn thực nghiệm ý tưởng AC phân cụm xử lý BD v ABSTRACT Access control systems Access Control (AC) is one of the most important components network security; a technique that allows to control the access to a computing resource to a user or a particular group of users Access controls are often used as the first layer of defense, preventing the malicious software and the strike action, break into computer systems and networks, or unauthorized access to data and the computing resources This problem is becoming more serious in the more complex software systems, such as Big Data processing systems (BD), which is the system to be deployed to manage a large amount of information and resources are organized in a cluster handle Big Data (BD) Basically, control access to BD requires coordination processor to be protected as the system based on cloud computing platform for managing distributed access control In terms of network infrastructure and system management personnel of the agencies and organizations in Vietnam today is still limited, the study of access control for large data BD to find solutions consistent application where is really necessary This thesis presents a research on big data, model control access to data, the proposed model to control access for big data and applied idea for clustering processing AC BD vi MỤC LỤC DANH MỤC CÁC BIỂU ĐỒ, ĐỒ THỊ, SƠ ĐỒ, HÌNH ẢNH VIII CHƯƠNG 1: MỞ ĐẦU CHƯƠNG 2: TỔNG QUAN VỀ DỮ LIỆU LỚN 2.1 Giới thiệu 2.2 Định nghĩa đặc trưng 2.2.1 Big Data gì? 2.2.2 Cơ kiến trúc Big Data 2.3 Các ứng dụng liệu lớn 2.4 Các mơ hình liệu lớn 2.4.1 Hadoop Apache 2.4.2 Hadoop Distributed File System (HDFS) 14 2.4.3 Map reduce .31 CHƯƠNG 3: MƠ HÌNH ĐIỀU KHIỂN TRUY XUẤT DỮ LIỆU 46 3.1 Tổng quan điều khiển truy cập 46 3.1.1 Giới thiệu điều khiển truy cập 46 3.1.2 Các kiểu xác thực 48 3.1.3 Các nguy điểm yếu điều khiển truy cập 48 3.1.4 Một số ứng tiêu biểu điều khiển truy cập 50 3.2 Các điều khiển truy cập thông dụng .51 3.2.1 Điều khiển truy cập tùy quyền (DAC - Discretionary Access Control) 51 3.2.2 Điều khiển truy cập bắt buộc (MAC – Mandatory access control) 52 3.2.3 Mơ hình điều khiển truy cập sở vai trò (RBAC-Role-based Access Control) .54 3.2.4 Điều khiển truy cập dựa luật (Rule BAC– Rule Based Access Control) 57 CHƯƠNG 4: ĐIỀU KHIỂN TRUY XUẤT DỮ LIỆU LỚN 58 4.1 Giới thiệu 58 4.2 Nutch - Ứng dụng Search Engine phân tán tảng Hadoop .59 4.2.1 Ngữ cảnh đời lịch sử phát triển Nutch 59 vii 4.2.2 Giới thiệu Nutch .60 4.2.3 Kiến trúc ứng dụng Nutch 63 4.2.4 Kiến trúc Nutch 67 4.2.5 Nutch việc áp dụng tính tốn phân tán với mơ hình MapReduce vào Nutch 72 CHƯƠNG 5: THỰC NGHIỆM VÀ CÁC KẾT QUẢ .77 5.1 Giới thiệu 77 5.2 Thực nghiệm triển khai crawl tạo mục 77 5.2.1 Mục đích 77 5.2.2 Phần cứng 77 5.2.3 Phương pháp thực 77 5.2.4 Kết .80 5.2.5 Đánh giá 82 5.2.6 Kết luận 82 5.3 Thực nghiệm tìm kiếm tập mục 83 5.3.1 Mẫu liệu: .83 5.3.2 Phần cứng 83 5.3.3 Phương pháp thực 83 5.3.4 Bảng kết thực truy vấn 83 5.3.5 Đánh giá: 84 5.4 Kết luận, ứng dụng hướng phát triển .85 5.4.1 Kết đạt 85 5.4.2 Ứng dụng 85 5.4.3 Hướng phát triển 86 TÀI LIỆU THAM KHẢO 87 PHỤ LỤC : Phát triển ứng dụng kiểm sốt truy xuất liệu theo mơ hình mapreduce framework hadoop viii Danh mục biểu đồ, đồ thị, sơ đồ, hình ảnh Hình 2.2 Mơ hình 3V Hình 2.2.2.2 Kiến trúc Big Data Hình 2.4.1.1 Cấu trúc thành phần Hadoop 11 Hình 2.4.1.2 Tổng quan Hadoop cluster 13 Hình 2.4.2.3 Kiến trúc HDFS 17 Hình 2.4.2.2.3.1 Quá trình đọc file HDFS 19 Hình 2.4.2.2.3.2 Quá trình tạo ghi liệu lên file HDFS .20 Hình 2.4.2.3.1 Cấu trúc topology mạng 25 Hình 2.4.3.1 Mơ hình Map Reduce Google5 32 Hình 2.4.3.1.3: Hàm map 34 Hình 2.4.3.1.4: Hàm reduce 34 Hình 2.4.3.2.2.1: Kiến trúc thành phần .35 Hình 2.4.3.2.2.2: Cơ chế hoạt động Hadoop MapReduce 37 Hình 2.4.3.2.2.3: Sự liên lạc TaskTracker thực thi Maptask 38 Hình 2.4.3.2.2.4: Cơ chế hoạt động Map task 38 Hình 2.4.3.2.2.5: TaskTracker hồn thành Map task 39 Hình 2.4.3.2.2.6: Cơ chế hoạt động Reduce task 40 Hình 2.4.3.2.2.7: TaskTracker hồn thành Reduce task 41 Hình 2.4.3.2.2.8: Data locality 42 Hình 2.4.3.2.3: Phát triển ứng dụng MapReduce Hadoop 43 Chương 1: Mở đầu Sự bùng nổ dịch vụ trực tuyến phát triển không ngừng công nghệ thiết bị di động làm gia tăng nhu cầu quản lý chia sẻ thông tin, đặc biệt hệ thống quản lý giáo dục, y tế, giải trí,…, phần mềm ứng dụng cho quan quản lý nhà nước nhằm đáp ứng yêu cầu quản lý, thống kê, dự báo, hoạch định,… Các thông tin lưu trữ với số lượng liệu lớn, nhiều dạng khác tốc độ sinh nhanh, liệu gọi liệu lớn Số lượng liệu tăng đa dạng kéo theo việc bảo mật liệu trở nên cấp thiết khó khăn Do đó, bảo mật liệu lớn xem thách thức quan trọng đặt cho nghiên cứu liệu lớn ứng dụng liên quan Dữ liệu lớn ngày thu hút quan tâm nhà nghiên cứu khía cạnh bảo mật Có vấn đề quan trọng việc bảo vệ tính riêng tư cho liệu lớn: điều khiển truy xuất (Access control), kiểm tra (auditing), bảo mật thống kê (statistical privacy) Trong access control (kiểm sốt truy xuất) vấn đề cần thiết việc bảo vệ liệu khỏi truy xuất trái phép, giúp cho việc quản lý chia sẻ liệu hiệu Đây vấn đề trọng tâm quan tâm đề tài Đề tài nhằm nghiên cứu liệu lớn tình trạng bùng nổ liệu nói chung, địi hỏi giải pháp kiểm soát truy xuất chặt chẽ để bảo vệ liệu tránh khỏi truy xuất không hợp lệ nhằm tăng tính an tồn cho liệu, tăng độ tin cậy liệu cho ứng dụng liên quan Luận văn gồm chương với nội dung sau: Chương 1- Mở đầu Chương 2- Tổng quan liệu lớn Chương 3- Mơ hình điều khiển truy cập liệu Các biện pháp điều khiển truy cập thông dụng sâu phân tích chế điều khiển truy cập phổ biến điều khiển truy cập tùy quyền (DAC), điều khiển truy cập bắt buộc (MAC), điều khiển truy cập dựa vai trò (Role-Based AC) điều khiển truy cập dựa luật (Rule-Based AC) Chương 4- Điều khiển truy xuất cho liệu lớn Chương 5- Thực nghiệm kết Chương 6- Kết luận hướng phát triển 3 Chương 2: Tổng quan liệu lớn 2.1 Giới thiệu Hiện có nhiều thảo luận khái niệm Big Data (Dữ liệu lớn), Big Data đơn giản liệu tiêu chuẩn thường phân phối qua nhiều địa điểm, từ đa dạng nguồn tin, định dạng khác thường khơng có cấu trúc định Những thách thức Big Data khả quản lý khối lượng đảm bảo truy cập thường xuyên Bởi vì, bảo vệ liệu khỏi xâm nhập phá hoại, đồng thời trì truy cập an tồn ưu tiên hàng đầu cho chuyên gia bảo mật 2.2 Định nghĩa đặc trưng 2.2.1 Big Data gì? Big Data thuật ngữ dùng để tập hợp liệu lớn phức tạp công cụ, ứng dụng xử lý liệu truyền thống khơng thể đảm đương Kích cỡ Big Data tăng lên ngày, tính đến năm 2012 lên hàng exabyte (1 exabyte = tỷ gigabyte) Các nhà khoa học thường xuyên gặp phải hạn chế tập liệu lớn nhiều lĩnh vực, khí tượng học, di truyền học, mơ vật lý phức tạp, nghiên cứu sinh học môi trường Những hạn chế ảnh hưởng đến việc tìm kiếm internet, tài thơng tin kinh doanh.[24] Theo IBM, lượng thơng tin cơng nghệ bình qn đầu người giới tăng gần gấp đôi 40 tháng kể từ năm 1980 Tính đến năm 2012, ngày có 2,5 exabyte liệu tạo Cịn theo tài liệu Intel vào tháng 9-2013, giới tạo petabyte (1 petabyte = 1.000 terabyte) liệu 11 giây (tương đương đoạn video HD dài 13 năm) [12] Bản thân công ty, doanh nghiệp sở hữu Big Data riêng mình, chẳng hạn trang bán hàng trực tuyến eBay sử dụng trung tâm liệu với dung lượng lên đến 40 petabyte để chứa truy vấn, tìm kiếm, đề xuất cho khách hàng thơng tin hàng hóa Nhà bán lẻ online Amazon.com sử dụng hệ thống Linux để xử lý hàng triệu hoạt động ngày yêu cầu từ khoảng nửa triệu đối tác bán hàng Tính đến năm 2005, họ sở hữu sở liệu Linux lớn giới với dung lượng 7,8TB, 18,5TB 24,7TB Tương tự, Facebook phải quản lý 50 tỷ ảnh từ người dùng tải lên, YouTube hay Google phải lưu lại hết lượt truy vấn video người dùng nhiều loại thơng tin khác có liên quan Năm 2011, Tập đồn McKinsey đề xuất cơng nghệ dùng với Big Data, bao gồm crowsourcing (tận dụng nguồn lực từ nhiều thiết bị điện tốn tồn cầu để xử lý liệu), thuật toán gen di truyền, biện pháp machine learning (các hệ thống có khả học hỏi từ liệu - nhánh trí tuệ nhân tạo), xử lý ngôn ngữ tự nhiên (giống Siri hay Google Voice Search, cao cấp hơn), xử lý tín hiệu, mơ phỏng, phân tích chuỗi thời gian, mơ hình hóa, kết hợp server mạnh lại với Ngoài ra, sở liệu hỗ trợ xử lý liệu song song, ứng dụng hoạt động dựa hoạt động tìm kiếm, tập tin hệ thống (file system) dạng rời rạc, hệ thống điện toán đám mây (bao gồm ứng dụng, nguồn lực tính tốn không gian lưu trữ) thân internet công cụ đắc lực phục vụ cho công tác nghiên cứu trích xuất thơng tin từ Big Data Hiện có vài sở liệu theo dạng quan hệ (bảng) có khả chứa hàng petabyte liệu, chúng tải, quản lý, lưu tối ưu hóa cách sử dụng Big Data [24] Theo http://blog.SQLAuthority.com, mơ hình 3V để định nghĩa Big Data là khối lượng (volume), vận tốc (velocity) chủng loại (variety) Hình 2.2 Mơ hình 3V[5] Volume (Khối lượng) Việc lưu trữ khối lượng liệu tăng trưởng theo cấp số nhân không đơn liệu văn Chúng ta tìm thấy liệu định dạng phim (video), nhạc (music), hình ảnh (image) lớn kênh truyền thơng xã hội Khối lượng liệu ngày lên đến hàng Terabyte Petabyte Khối lượng liệu ngày phát triển ứng dụng kiến trúc xây dựng để hỗ trợ liệu cần phải đánh giá lại thường xuyên Khối lượng lớn liệu thực đại diện cho big data.[5] Velocity (Vận tốc) Sự tăng trưởng liệu phương tiện truyền thông xã hội thay đổi cách nhìn vào liệu Ngày nay, người trả lời kênh truyền thông xã hội để cập nhật diễn biến Trên phương tiện truyền thơng xã hội đơi thơng báo cách vài giây (tweet, status,….) cũ không người dùng quan tâm Họ thường loại bỏ tin nhắn cũ ý đến cập nhật gần Sự chuyển động liệu thực tế (real time) tốc độ cập nhật thông tin giảm xuống đơn vị hàng mili giây Vận tốc liệu cao đại diện cho big data.[5] Variety (Đa dạng) Dữ liệu lưu trữ nhiều định dạng khác Ví dụ như: sở liệu, excel, csv, ms access chí tập tin văn (text) Đơi liệu không dạng truyền thống video, sms, pdf,… Thực tế liệu thuộc nhiều định dạng thách thức Sự đa dạng liệu đại diện cho big data.[5] 2.2.2 Cơ kiến trúc Big Data 2.2.2.1 Chu kỳ Big Data Cũng giống ứng dụng liên quan đến sở liệu khác, dự án Big Data có chu kỳ phát triển Mơ hình 3Vs đóng vai trị quan trọng việc định kiến trúc dự án Big Data Dự án Big Data có đoạn (phase) thu giữ liệu, chuyển đổi, tích hợp, phân tích xây dựng báo cáo Các q trình trơng gần giống nhau, chất liệu, kiến trúc thường hoàn toàn khác 2.2.2.2 Các thành phần kiến trúc Big Data Hồn tồn khơng thể đưa giải pháp tối ưu cho giải pháp big data viết nhất, nhiên, nói khối xây dựng kiến trúc big data Hình 2.2.2.2 Kiến trúc Big Data [5] Hình ảnh cho nhìn tổng quan tốt thành phần khác kiến trúc big data tương tác lẫn Trong big data, nguồn liệu khác phần kiến trúc trích xuất, chuyển đổi tích hợp (extract, transform and intergrate) lớp quan trọng kiến trúc Hầu hết liệu lưu trữ quan hệ không quan hệ giải pháp kho liệu Theo nhu cầu kinh doanh, liệu đa dạng khác xử lý chuyển thành báo cáo trực quan với người dùng Cũng giống phần mềm, phần cứng phần quan trọng kiến trúc big data Trong kiến trúc big data, hạ tầng phần cứng vô quan trọng cần phải cài đặt ngăn chặn lỗi xảy ra, đảm bảo tính sẵn sàng cao NoSQL quản lý liệu NoSQL thuật ngữ tiếng thật có ý nghĩa Not Relational SQL hay Not Only SQL Điều kiến trúc big data, liệu định dạng Để mang tất liệu cơng nghệ mối quan hệ khơng đủ, công cụ mới, kiến trúc thuật toán khác phát minh nhận tất loại liệu Những điều gọi chung NoSQL 2.3 Các ứng dụng liệu lớn Có lợi ích Big Data mang lại: cắt giảm chi phí; giảm thời gian; tăng thời gian phát triển, tối ưu hóa sản phẩm; hỗ trợ người đưa định hợp lý Thí dụ, mua sắm online eBay, Amazon trang thương mại điện tử, trang đưa sản phẩm gợi ý Nếu xem điện thoại, gợi ý mua thêm ốp lưng, pin dự phòng; mua áo thun có thêm gợi ý quần jean, dây nịt Do đó, nghiên cứu sở thích, thói quen khách hàng gián tiếp giúp doanh nghiệp bán nhiều hàng hóa Những thơng tin thói quen, sở thích có từ lượng liệu khổng lồ doanh nghiệp thu thập lúc khách hàng ghé thăm tương tác với trang web Chỉ cần doanh nghiệp biết khai thác cách có hiệu Big Data, khơng giúp tăng lợi nhuận cho họ mà giúp tiết kiệm thời gian cho khách hàng mua sắm Xu hướng Google rút từ từ khóa tìm kiếm liên quan đến dịch H1N1 chứng minh sát với kết hệ thống cảnh báo cúm độc lập Sentinel GP HealthStat đưa Dữ liệu Flu Trends cập nhật gần theo thời gian thực, sau đối chiếu với số liệu từ trung tâm dịch bệnh nhiều nơi giới Theo Oracle, việc phân tích Big Data liệu dung lượng lớn giúp tổ chức kiếm 10,66USD cho 1USD chi phí phân tích, tức gấp 10 lần Một trường học Hoa Kỳ có tăng trưởng doanh thu triệu USD năm, cịn cơng ty tài ẩn danh khác tăng 1.000% lợi nhuận tổng số tiền đầu tư vịng năm Trong World Cup, Big Data đưa dự báo đội tuyển Đức vô địch Thị trường Big Data nhận định có giá trị tới 100 tỷ USD vào năm 2010 khơng ngừng tăng với tốc độ chóng mặt Chẳng hạn, giới có tới 4,6 tỷ thuê bao điện thoại di động có từ 1-2 tỷ người dùng internet Từ năm 19902005, tỷ người giới tham gia vào tầng lớp trung lưu, tức nhu cầu lưu trữ sử dụng thông tin giới tăng lên nhiều lần Nếu để ý chút, thấy mua sắm online eBay, Amazon trang tương tự, trang đưa sản phẩm gợi ý cho bạn, ví dụ xem điện thoại, gợi ý cho bạn mua thêm ốp lưng, pin dự phịng; mua áo thun có thêm gợi ý quần jean, dây nịt Do đó, nghiên cứu sở thích, thói quen khách hàng gián tiếp giúp doanh nghiệp bán nhiều hàng hóa Vậy thơng tin thói quen, sở thích có từ đâu? Chính từ lượng liệu khổng lồ mà doanh nghiệp thu thập lúc khách hàng ghé thăm tương tác với trang web Chỉ cần doanh nghiệp biết khai thác cách có hiệu Big Data khơng giúp tăng lợi nhuận cho họ mà tăng trải nghiệm mua sắm người dùng, tiết kiệm thời gian nhờ lời gợi ý so với việc phải tự tìm kiếm Người dùng cuối hưởng lợi từ việc tối ưu hóa thế, thân người dùng khó mà tự phát triển hay mua giải pháp để khai thác Big Data giá thành chúng q đắt, đến trăm nghìn Ngồi ra, lượng liệu mà có khó xem “Big” có vài Terabyte sinh thời gian dài 9 Ngồi ra, ứng dụng Big Data giúp tổ chức, phủ dự đốn tỉ lệ thất nghiệp, xu hướng nghề nghiệp tương lai để đầu tư cho hạng mục đó, cắt giảm chi tiêu, kích thích tăng trưởng kinh tế, v/v chí phương án phịng ngừa trước dịch bệnh đó, giống phim World War Z, nước Israel biết trước có dịch zombie nên nhanh chóng xây tường thành ngăn cách với giới bên ngồi 2.4 Các mơ hình liệu lớn 2.4.1 Hadoop Apache 2.4.1.1 Hadoop gì? Apache Hadoop định nghĩa: “Apache Hadoop framework dùng để chạy ứng dụng cluster lớn xây dựng phần cứng thơng thường1.Hadoop thực mơ hình Map/Reduce, mơ hình mà ứng dụng chia nhỏ thành nhiều phân đoạn khác nhau, phần chạy song song nhiều node khác Thêm vào đó, Hadoop cung cấp hệ thống file phân tán (HDFS) cho phép lưu trữ liệu lên nhiều node Cả Map/Reduce HDFS thiết kế cho framework tự động quản lý lỗi, hư hỏng phần cứng node.” [23] Wikipedia định nghĩa: “Hadoop framework nguồn mở viết Java cho phép phát triển ứng dụng phân tán có cường độ liệu lớn cách miễn phí Nó cho phép ứng dụng làm việc với hàng ngàn node khác hàng petabyte liệu Hadoop lấy phát triển dựa ý tưởng từ công bố Google mơ hình MapReduce hệ thống file phân tán Google File System (GFS).”[22] Vậy ta kết luận sau: 1) Hadoop framework cho phép phát triển ứng dụng phân tán 2) Hadoop viết Java Tuy nhiên, nhờ chế streaming, Hadoop cho phép phát triển ứng dụng phân tán java lẫn số ngơn ngữ lập trình khác C++, Python, Pearl Phần cứng thông thường: dịch từ thuật ngữ commodity hardware, tức loại phần cứng thông thường, rẻ tiền Các phần cứng thường có khả hỏng hóc cao Thuật ngữ dùng để phân biệt với loại phần cứng chuyên dụng đắt tiền, khả xảy lỗi thấp supermicrocomputer chẳng hạn ... ngành: Công nghệ thông tin MSHV: 1241860022 I- Tên đề tài: Nghiên cứu mơ hình kiểm soát truy xuất cho liệu lớn II- Nhiệm vụ nội dung: - Nghiên cứu liệu lớn - Nghiên cứu mơ hình kiểm sốt truy xuất. .. pháp ứng dụng phù hợp thực cần thiết Luận văn trình bày nghiên cứu liệu lớn, mơ hình kiểm sốt truy xuất cho liệu, đề xuất mơ hình kiểm sốt truy xuất cho liệu lớn thực nghiệm ý tưởng AC phân cụm... Nghiên cứu mơ hình kiểm sốt truy xuất liệu - Nghiên cứu mơ hình kiểm sốt truy xuất cho liệu lớn - Nghiên cứu thực nghiệm ứng dụng kiểm soát truy xuất cho liệu lớn III- Ngày giao nhiệm vụ: 08/03/2015