Nghiên cứu về hệ thống lưu trữ và quản lý dữ liệu trong điện toán đám mây

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Phạm Thị Lệ NGHIÊN CỨU VỀ HỆ THỐNG LƯU TRỮ VÀ QUẢN LÝ DỮ LIỆU TRONG ĐIỆN TỐN ĐÁM MÂY Chun nghành: Kỹ Thuật Máy Tính Truyền Thông LUẬN VĂN THẠC SĨ KỸ THUẬT … Kỹ thuật máy tính Truyền thơng NGƯỜI HƯỚNG DẪN KHOA HỌC : TS Trần Hồng Hải Hà Nội – Năm 2014 MỤC LỤC LỜI CAM ĐOAN DANH MỤC CÁC KÍ HIỆU, CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU CHƯƠNG 1:CÁC HỆ THỐNG LƯU TRỮ TRÊN ĐIỆN TỐN ĐÁM MÂY 12 1.1 Sự phát triển cơng nghệ lưu trữ 13 1.2 Mơ hình lưu trữ, hệ thống tập tin sở liệu 16 1.3 Hệ thống tập tin phân tán, tiền thân .21 1.4 Hệ thống tập tin song song 30 1.5 Hệ thống tập tin Google 34 1.6 Apache Hadoop .40 1.7 Một số so sánh hệ thống lưu trữ liệu 42 1.7.1 Hệ thống tệp tin phân tán 42 1.7.2 NFS (Network File System) 42 1.7.3 AFS (Andrew File System) 43 1.7.5 Hệ thống tệp tin song song (Parallel File System) 43 1.7.6 Hệ thống tập tin Google – SFS (Google File System) 43 1.7.7 Hệ thống tệp tin Hadoop – HDFS (Hadoop File System) .44 1.8 Kết luận: 44 CHƯƠNG II: APACHE HADOOP VÀ MAP REDUCE 45 2.1 Kiến thức Hadoop .45 2.1.1 Các thách thức đặt 45 2.1.2 Sự bùng nổ liệu .45 2.1.3 Sức mạnh xử lý CPU vượt khả HDD 46 2.1.4 Sự cần thiết mở rộng quy mô theo chiều ngang 46 2.2 Cách thức Hadoop giải thách thức .47 2.2.1 Hadoop đưa tính tốn vào liệu .48 2.2.2 Hadoop thiết kế để mở rộng hàng loạt dự đốn 48 2.2.3 Hadoop thiết kế để bị lỗi phần tự khơi phục 49 2.2.4 Hadoop cung cấp tảng phân tích liệu mạnh mẽ linh hoạt 49 2.3 Ứng dụng Hadoop .50 2.4 Giả định Mục tiêu Hadoop 54 2.4.1 Triệt tiêu lỗi phần cứng .54 2.4.2 Tối ưu xử lý theo lô 54 2.4.3 Hệ thống tệp tin phân tán cực lớn 55 2.4.4 Mơ hình viết-một-lần-đọc-nhiều-lần 55 2.4.5 Chạy nhiều loại phần cứng hệ điều hành .56 2.5 Kiến trúc Hadoop File System 56 2.5.1 NameNode 57 2.5.2 DataNode 57 2.5.3 Nhân liệu 58 2.5.4 Lưu thông tin .61 2.5.5 Giao thức giao tiếp 61 2.5.6 Khả chống lỗi 62 2.5.7 Tổ chức liệu 64 2.5.8 Phương pháp truy cập 65 2.5.9 Thu hồi vùng nhớ .67 2.6 MapReduce 68 2.6.1 Khái niệm 68 2.6.2 Ví dụ ứng dụng 68 2.6.3 Đầu vào đầu 69 2.6.4 Phương thức hoạt động 70 2.6.5 Cấu trúc liệu Master .73 2.6.6 Khả chống lỗi (Fault tolerance) 73 2.6.7 Khả xử lý nội .74 2.6.8 Số lượng Mapper Reducer 75 2.6.9 Tác vụ dự phòng 75 2.7 Kết luận: 76 CHƯƠNG III: THỬ NGHIỆM APACHE HADOOP 77 3.1 Kịch tiến hành 77 3.2 Cài đặt máy ảo chạy Ubuntu 14.04 VirtualBox .78 3.3 Cài Java 79 3.4 Cài đặt Single-Node Hadoop Ubuntu14.04 .79 3.5 Thử nghiệm đếm từ 85 3.5.1 Download file thực đếm 85 3.5.2 Chạy chương trình .85 3.6 Kết thực job hiển thị WEB 90 3.7 Kết luận: 91 KẾT LUẬN 92 TÀI LIỆU THAM KHẢO 93 LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu thân Các số liệu, kết trình bày luận văn trung thực Những tư liệu sử dụng luận văn có nguồn gốc rõ ràng, đầy đủ Hà Nội, tháng 09 năm 2014 DANH MỤC CÁC KÍ HIỆU, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt ACL Access Control List Danh sách điều khiển truy nhập ACID Atomicity, Consistency, Nguyên tử, quán, cách ly, Isolation, Durability độ bền AFS Andrew File System Hệ thống tệp Andrew API Application Programming Giao diện chương trình ứng Interface dụng Buf Buffer Bộ đệm Btrfs B-tree file system Hệ thống tệp tin B-tree CRM Customer Relationship Quản lý quan hệ khách hàng Management CPU Central Processing Unit Đơn vị xử lý trung tâm DBMS Data Base Management System Hệ thống quản lý tệp tin sở Dfh Directory file handle Xử lý tệp tin thư mục DRAM Dynamic Random Access Bộ nhớ truy nhập ngẫu nhiên Memory động exFAT Extended File Allocation Table Bảng định vị tệp tin mở rộng FD File descriptor Mô tả tệp tin FH File Handle Xử lý tệp tin GFS Google File System Hệ thống tệp tin Google GPFS General Parallel File System Hệ thống tệp tin song song HDD Hard disk drive Ổ cứng HDFS Hadoop File System Hệ thống tệp tin Hadoop I/O Input / Output Vào / Ra LAN Local Area Network Mạng nội LRU Least Recently Used Ít sử dụng LPDDR2 Low power double-data-rate Tốc độ gấp đôi lượng thấp NAS Công nghệ lưu trữ gắn thiết bị vào Network Attached Storage mạng NFS Network File System Hệ thống tệp tin mạng NTFS New Technology File System Hệ thống tệp tin công nghệ SAN Storage Area Networks Mạng lưu trữ SFS Sprite Network File System Hệ thống tệp tin mạng Sprite RAID Redundant Array Of Inexpensive Giải pháp phòng hộ cho phép Disks ghi liệu lên nhiều đĩa Random Access Memory Bộ nhớ truy nhập ngẫu nhiên RFS Remote File System Hệ thống tệp tin từ xa RPC Remote Procedure Call Thủ tục gọi từ xa RPM Round per minute Số vòng phút PFS Parallel File Systems Hệ thống tệp tin song song TCP/IP Transmission Control Protocol / Giao thức điều khiển giao vận / Internet Protocol Giao thức mạng RAM RDBMS DANH MỤC CÁC BẢNG Tên bảng Trang Bảng 1.1 So sánh vài hệ thống tập tin mạng 29 Bảng 2.1 Ví dụ minh họa nhân liệu 59 Bảng 2.2 Các câu lệnh thực thi thư mục Hadoop 65 Bảng 2.3 Các câu lệnh DataNode 66 Bảng 2.4 Ví dụ nhiệt độ thành phố giới 68 Bảng 2.5 Kết sau sử dụng tác vụ Mapper 69 Bảng 2.6 Kết sau sử dụng tác vụ Reducer 69 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Tên hình vẽ Hình 1.1 Minh họa Read/Write coherence Before-or-after atomicity Hình 1.2 Hai biến A B ghi log tế bào lưu trữ hiển thị Trang 16 17 Hình 1.3 Thiết kế lớp hệ thống tập tin Unix 23 Hình 1.4 Các NFS tương tác client-server 25 Hình 1.5 Các API hệ thống tập tin UNIX RPC tương ứng client NFS đến máy chủ NFS 26 Hình 1.6 Một cấu hình GPFS 32 Hình 1.7 Các kiến trúc cụm (cluster) GFS 37 Hình 1.8 Một cluster Hadoop sử dụng HDFS 41 Hình 2.1 Ứng dụng Hadoop lĩnh vực 53 Hình 2.2 Cụm server Hadoop Yahoo 54 Hình 2.3 Kiến trúc Hadoop File System 56 Hình 2.4 Phương thức hoạt động MapReduce 70 Hình 2.5 Phương thức hoạt động MapReduce 71 Hình 3.1 Cấu hình Hadoop giả phân tán 77 Hình 3.2: Cài đặt máy ảo chạy Ubuntu 14.04 VirtualBox 78 Hình 3.3: Giao diện quản trị Hadoop 85 Hình 3.4: Kết thực cơng việc đếm từ 90 MỞ ĐẦU Lý chọn đề tài: Lưu trữ đám mây dịch vụ “đám mây” sử dụng phổ biến rộng rãi Về chất điện toán đám mây tập hợp nhiều máy tính kết nối với tạo thành máy tính khổng lồ gọi "đám mây" để xử lý cơng việc đó, bao gồm việc lưu trữ liệu Việc kết hợp có nhiều ưu điểm, nhiên điểm bật an toàn liệu, tăng suất xử lý cơng việc Dữ liệu an tồn đám mây thường có chế tự động backup (sao lưu liệu), máy tính chứa liệu đám mây bị tê liệt hỏng hóc, liệu phục hồi máy tính khác đám mây để đảm bảo khơng bị thất Do lưu liệu đám mây, yên tâm, không lo bị liệu bị hỏng đĩa cứng máy tính cá nhân Tăng xuất xử lý cộng việc đơn giản máy tính khổng lồ "đám mây" sử dụng vi xử lý máy tính để giải cơng việc, nhiều máy tính đám mây, máy tính khổng lồ có suất xử lý cơng việc cao Chính ưu điểm kể việc ứng dụng điện toán đám mây lưu trữ quản lý liệu, học viên xin chọn đề tài “Nghiên cứu hệ thống lưu trữ quản lý liệu điện toán đám mây” để hiểu rõ hệ thống ứng dụng cho vấn đề điện tốn đám mây Mục đích nghiên cứu:  Nghiên cứu cách thức liệu lưu trữ xử lý điện toán đám mây  Tìm hiểu phân tích mơ hình, cơng nghệ lưu trữ xử lý liệu điện toán đám mây đã, triển khai thực tế  Cài đặt thử nghiệm Apache Hadoop Đối tượng phạm vi nghiên cứu: Đề tài tập trung nghiên cứu lý thuyết mơ hình lưu trữ, hệ thống lưu trữ, công nghệ lưu trữ quản lý liệu điện toán đám mây đã, triển 3.3 Cài Java Hadoop yêu cầu java 1.5.x Trong phần demo em cài đặt JDK 1.7 Oracle Các bước tiến hành: Cập nhật kho phần mềm cho Ubuntun 10.04 sudo add-apt-repository ppa:webupd8team/java sudo apt-get update Thực cài đặt JDK sudo apt-get install oracle-java8-installer sudo apt-get install oracle-java8-set-default Kiểm tra lại java –version Kết quả: java version "1.7.0_65" Java(TM) SE Runtime Environment (build 1.7.0_65-b17) Java HotSpot(TM) Client VM (build 24.65-b04, mixed mode) 3.4 Cài đặt Single-Node Hadoop Ubuntu14.04 Các bước cài đặt: Hadoop cần sử dụng SSH để giao tiếp node Vì ta cần cấu hình cho phép Hadoop truy cập cá node qua SSH mà không cần xác thực:  ssh-keygen -t rsa -P '' 79  cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys Thực download Hadoop 2.4.1  cd /home/lept/project  http://mirrors.digipower.vn/apache/hadoop/common/hadoop2.4.1/hadoop-2.4.1-src.tar.gz Thực giải nén  tar xfz hadoop-2.4.1.tar.gz Cấu hình Hadoop   Cấu hình file sau  ~/.bashrc  /home/lept/project/hadoop-2.4.1/etc/hadoop/hadoop-env.sh  /home/lept/project/hadoop-2.4.1/etc/hadoop/core-site.xml  /home/lept/project/hadoop-2.4.1/etc/hadoop/yarn-site.xml  /home/lept/project/hadoop-2.4.1/etc/hadoop/mapred-site.xml  /home/lept/project/hadoop-2.4.1/etc/hadoop/hdfs-site.xml Cấu hình file bashrc  nano ~/.bashrc #HADOOP VARIABLES START export HADOOP_INSTALL=/home/lept/project/hadoop-2.4.1 export PATH=$PATH:$HADOOP_INSTALL/bin 80 export PATH=$PATH:$HADOOP_INSTALL/sbin export HADOOP_MAPRED_HOME=$HADOOP_INSTALL export HADOOP_COMMON_HOME=$HADOOP_INSTALL export HADOOP_HDFS_HOME=$HADOOP_INSTALL export YARN_HOME=$HADOOP_INSTALL export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/ lib/native export HADOOP_OPTS="- Djava.library.path=$HADOOP_INSTALL/lib" #HADOOP VARIABLES END  Cấu hình file /home/lept/project/hadoop-2.4.1/etc/hadoop/hadoopenv.sh  Cấu hình tham số sau: #export JAVA_HOME=${JAVA_HOME} export JAVA_HOME=/usr/lib/jvm/java-7-oracle  Cấu hình file /home/lept/project/hadoop-2.4.1/etc/hadoop/core- site.xml  Cấu sau: fs.default.name 81 hdfs://localhost:9000  Cấu hình file /home/lept/project/hadoop-2.4.1/etc/hadoop/yarn- site.xml  Cấu sau: yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler  Cấu hình file /home/lept/project/hadoop-2.4.1/etc/hadoop/mapredsite.xml  Cấu sau: mapreduce.framework.name yarn 82  Cấu hình file /home/lept/project/hadoop-2.4.1/etc/hadoop/hdfs- site.xml   Tạo thư mục o mkdir -p /home/lept/hadoop_store/hdfs/namenode o mkdir -p /home/lept/hadoop_store/hdfs/datanode Cấu sau: dfs.replication 1 dfs.namenode.name.dir file:/usr/local/hadoop_store/hdfs/namenode dfs.datanode.data.dir file:/usr/local/hadoop_store/hdfs/datanode 83 Format Namenode  hdfs namenode -format Chạy Hadoop   Chạy lệnh:  start-dfs.sh  start-yarn.sh Kiểm tra kết  jps 17271 SecondaryNameNode 18400 Jps 17910 JobHistoryServer 16505 NodeManager 16943 NameNode 17090 DataNode 16380 ResourceManager Giao diện quản trị Hadoop 84 Hình 3.3: Giao diện quản trị Hadoop 3.5 Thử nghiệm đếm từ 3.5.1 Download file thực đếm  wget http://www.gutenberg.org/files/19699/19699.zip  Giải nén  unzip 19699 3.5.2 Chạy chương trình  Tạo thư mục chứa file Hadoop   mkdir -p /home/lept/hadoop_data Đẩy file lên thư mục vừa tạo Hadoop  hdfs dfs -copyFromLocal /home/lept/hadoop_data  Thực chạy chương trình đếm từ: 85 19699.txt  hadoop jar ~/project/hadoop- 2.4.1/share/hadoop/mapreduce/hadoop-mapreduceexamples-2.4.1.jar wordcount /home/lept/hadoop_data /home/lept/hadoop_out Log chương trình chạy:  14/09/02 18:37:32 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform using builtin-java classes where applicable 14/09/02 18:37:34 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032 14/09/02 18:37:36 INFO input.FileInputFormat: Total input paths to process : 14/09/02 18:37:36 INFO mapreduce.JobSubmitter: number of splits:1 14/09/02 18:37:37 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1409657777162_0001 14/09/02 18:37:38 INFO impl.YarnClientImpl: Submitted application application_1409657777162_0001 14/09/02 18:37:38 INFO mapreduce.Job: The url to track the job: http://lept:8088/proxy/application_1409657777162_0001/ 14/09/02 18:37:38 INFO mapreduce.Job: Running job: job_1409657777162_0001 14/09/02 18:37:58 INFO mapreduce.Job: Job job_1409657777162_0001 running in uber mode : false 14/09/02 18:37:58 INFO mapreduce.Job: map 0% reduce 0% 14/09/02 18:38:29 INFO mapreduce.Job: map 100% reduce 0% 14/09/02 18:38:56 INFO mapreduce.Job: map 100% reduce 100% 14/09/02 18:38:57 INFO mapreduce.Job: Job completed successfully 14/09/02 18:38:58 INFO mapreduce.Job: Counters: 49 File System Counters FILE: Number of bytes read=706986 86 job_1409657777162_0001 FILE: Number of bytes written=1600489 FILE: Number of read operations=0 FILE: Number of large read operations=0 FILE: Number of write operations=0 HDFS: Number of bytes read=1945849 HDFS: Number of bytes written=521228 HDFS: Number of read operations=6 HDFS: Number of large read operations=0 HDFS: Number of write operations=2 Job Counters Launched map tasks=1 Launched reduce tasks=1 Data-local map tasks=1 Total time spent by all maps in occupied slots (ms)=30049 Total time spent by all reduces in occupied slots (ms)=20652 Total time spent by all map tasks (ms)=30049 Total time spent by all reduce tasks (ms)=20652 Total vcore-seconds taken by all map tasks=30049 Total vcore-seconds taken by all reduce tasks=20652 Total megabyte-seconds taken by all map tasks=30770176 Total megabyte-seconds taken by all reduce tasks=21147648 Map-Reduce Framework Map input records=29626 Map output records=318002 Map output bytes=3172740 Map output materialized bytes=706986 Input split bytes=118 Combine input records=318002 Combine output records=47341 87 Reduce input groups=47341 Reduce shuffle bytes=706986 Reduce input records=47341 Reduce output records=47341 Spilled Records=94682 Shuffled Maps =1 Failed Shuffles=0 Merged Map outputs=1 GC time elapsed (ms)=416 CPU time spent (ms)=4170 Physical memory (bytes) snapshot=208695296 Virtual memory (bytes) snapshot=733454336 Total committed heap usage (bytes)=136843264 Shuffle Errors BAD_ID=0 CONNECTION=0 IO_ERROR=0 WRONG_LENGTH=0 WRONG_MAP=0 WRONG_REDUCE=0 File Input Format Counters Bytes Read=1945731 File Output Format Counters Bytes Written=521228  Kết  Thực lấy file kết từ Hadoop  hdfs dfs -copyToLocal /home/lept/hadoop_out/ 88 Nội dung file kết part-r-00000  " "A 34 "About "Account "Accumulating "Africa" "After "Albion" "All 1 "All-good," "American "An "And "Andreaea "Anti-friction "Are "Areopagus," "Arrahm[=a]n" "As "Association "Avenue "Babbitt's "Badsworth," 1 "Balder "Barnum "Beauvais." "Before "Behold 89 "Belize … 3.6 Kết thực job hiển thị WEB Hình 3.4: Kết thực công việc đếm từ 90 3.7 Kết luận: Từ kiến thức tìm hiểu Apache Hadoop chương II, chương III tập trung vào việc sử dụng Hadoop để giải toán thực tế: thực xây dựng chương trình giải tốn đếm từ văn text 91 KẾT LUẬN Lưu trữ đảm bảo an toàn liệu vấn đề từ lâu quan tâm Cùng với đời phát triển đám mây điện tốn, cơng việc lưu trữ ngày trở nên dễ dàng, thuận tiện an toàn hết Có thể nói, điện tốn đám mây nói chung hay lưu trữ đám mây nói riêng bước tiến lớn lĩnh vực công nghệ thông tin Nó góp phần làm thay đổi cách làm việc hàng ngày Thay sử dụng thiết bị lưu trữ đơn lẻ, hạn chế dung lượng tính di động, dễ bị liệu xảy lỗi Việc sử dụng dịch vụ lưu trữ hệ thống điện toán đám mây khắc phục hoàn toàn vấn đề Sử dụng hệ thống lưu trữ điện toán đám mây đồng nghĩa với việc liệu lưu hệ thống đĩa cứng lớn máy chủ khổng lồ kết nối với mạng Internet, giúp đảm bảo độ an toàn liệu, dễ dàng truy cập liệu từ đâu, thiết bị (máy tính, điện thoại, máy tính bảng …) Đồng thời, sử dụng hệ thống điện toán đám mây đơn giản việc xử lý lượng lớn liệu, chép liệu hiệu chiến lược quản lý lưu trữ Tuy nhiều vấn đề cần giải quyết, với ưu điểm hiệu mang lại, coi điện tốn đám mây nói chung hệ thống lưu trữ đám mây nói riêng xu hướng phát triển tất yếu lĩnh vực công nghệ thông tin Đây hướng phát triển đầy tiềm năng, hứa hẹn đem lại nhiều ứng dụng áp dụng cơng việc hoạt động giải trí đa phương tiện Xin chân thành cảm ơn! 92 TÀI LIỆU THAM KHẢO Atta ur Rehman Khan, Mazliza Othman, Sajjad Ahmad Madani, IEEE Member, and Samee Ullah Khan, IEEE Senior Member, A Survey of Mobile Cloud Computing Application Models Edward J Yoon, An Introduction to Bulk Synchronization Parallel on Hadoop Dan C Marinescu, Cloud Computing: Theory and Practice, Computer Science Division, Department of Electrical Engineering & Computer Science, University of Central Florida, Orlando, FL 32816, USA Allen Wittenauer, Deploying Grid Services Using Hadoop S U Khan, “A multi-objective programming approach for resource allocation in data centers,” inInternational conference on parallel and distributed processing techniques and applications (PDPTA), 2009, pp.152–158 93 ... dụng điện toán đám mây lưu trữ quản lý liệu, học viên xin chọn đề tài ? ?Nghiên cứu hệ thống lưu trữ quản lý liệu điện toán đám mây? ?? để hiểu rõ hệ thống ứng dụng cho vấn đề điện toán đám mây Mục... đích nghiên cứu .5 Cấu trúc luận văn: Bản luận văn với đề tài ? ?Nghiên cứu hệ thống lưu trữ quản lý liệu điện toán đám mây? ?? đề cập đến vấn đề hệ thống lưu trữ quản lý liệu điện toán đám mây với... vi nghiên cứu: Đề tài tập trung nghiên cứu lý thuyết mơ hình lưu trữ, hệ thống lưu trữ, cơng nghệ lưu trữ quản lý liệu điện toán đám mây đã, triển khai thực tế Một số hệ thống tập tin như: hệ thống

Tiêu đề	Nghiên Cứu Về Hệ Thống Lưu Trữ Và Quản Lý Dữ Liệu Trong Điện Toán Đám Mây
Tác giả	Phạm Thị Lệ
Người hướng dẫn	TS Trần Hoàng Hải
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Kỹ Thuật Máy Tính và Truyền Thông
Thể loại	luận văn thạc sĩ kỹ thuật
Năm xuất bản	2014
Thành phố	Hà Nội

Định dạng
Số trang	94
Dung lượng	2,52 MB