Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 60 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
60
Dung lượng
2,35 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BÀI TẬP LÝ THUYẾT VỀ DATA MÔN HỌC CÔNG NGHỆ 4.0 TRONG LÃNH VỰC CƠ KHÍ ME4063 GVHD: TRẦN QUANG PHƯỚC SVTH Kiều Trung Tín Bùi Trung Kiên Huỳnh Nhật Trường Huỳnh Lê Hữu Tuấn Ngô Trần Quang Châu Lê Gia Khánh MSSV 1910610 1910285 1910652 1915762 1912766 1913734 Phân công 4, 6, Tổng hợp 5 Ghi Nhóm trưởng MỤC LỤC MỤC LỤC 1 Data Collection 1.1 Khái niệm 1.2 Các phương pháp thu thập liệu 1.3 Hâu thu thập liệu sai cách 1.4 Yếu tố quan trọng thu thập liệu 1.5 Các bước để thu thập liệu 1.6 Hadoop 1.6.1 Khái niệm 1.6.2 Kiến trúc Hadoop 1.6.3 Hoạt động Hadoop 12 Data Integration 12 2.1 Khái niệm 12 2.3 Hệ thống lưu trữ liệu HDFS 15 2.3.1 Khái niệm 15 2.3.2 Ưu điểm bật HDFS 15 2.3.3 Kiến trúc HDFS 16 Data processing 18 3.1 Định nghĩa 18 3.2 Chức data processing 18 3.3 Các hình thức xử lý liệu 19 3.4 Công cụ hỗ trợ xử lý Apache Spark 20 3.5 Các thành phần Apache Spark 21 3.6 Các liệu bị trùng lặp liệu không liên quan 23 3.7 Chuyển liệu sang dạng để dễ dàng phân tích 24 Data Analysis 25 4.1 Apache Hadoop 25 4.2 Apache Hive 25 4.2.1 Khái niệm 25 4.2.2 Nguyên lý hoạt động 26 4.2.3 Cấu trúc Apache Hive 26 4.2.4 Các Tính Năng Chính 27 4.2.5 Ưu điểm nhược điểm 28 4.3 Apache Impala 28 4.3.1 Khái niệm 28 4.3.2 Nhiệm vụ 29 4.3.3 Ưu điểm nhược điểm Impala 29 4.3.4 Các tính Impala 30 4.3.5 Cơ sở liệu quan hệ Impala 30 4.4 Apache Drill 31 4.4.1 Tìm hiểu Apacha Drill 31 4.4.2 Khái niệm 32 Data Visualization 32 5.1 Khái niệm 32 5.2 Các loại trực quan hóa liệu 34 5.3 Các công cụ trực quan hóa 34 5.4 Ưu điểm nhược điểm 35 5.5 Power BI 35 5.5.1 Sơ phần mềm Power BI 35 5.5.2 Các thành phần Power BI 36 5.5.3 Ưu điểm nhược điểm 36 5.5.4 Hướng dẫn sử dụng Power BI 37 5.6 Apache Zeppelin 44 5.6.1 Giới thiệu Apache Zeppelin 44 5.6.2 Các tính Apache Zeppelin 45 5.7 Tableau 53 5.7.1 Giới thiệu Tableau 53 5.7.2 Ưu điểm, nhược điểm Tableau 55 Data Management 56 6.1 Khát quát 56 6.2 Ứng dụng 56 6.3 Điểm mạnh 56 6.3.1 Hệ thống phân tán 56 6.3.2 Cơ chế lưu liệu 57 6.4 Cấu trúc liệu 58 6.5 Tính dư thừa 58 6.6 Ưu điểm nhược điểm 58 6.6.1 Ưu điểm 58 6.6.2 Nhược điểm 58 Data Collection 1.1 Khái niệm Data collection trình thu thập đo lường thông tin biến số quan tâm, theo cách thức có hệ thống thiết lập cho phép người ta trả lời câu hỏi nghiên cứu nêu, kiểm tra giả thuyết đánh giá kết Thành phần Data collection nghiên cứu chung cho tất lĩnh vực nghiên cứu bao gồm khoa học vật lý xã hội, nhân văn, kinh doanh, v.v Mặc dù phương pháp khác tùy theo ngành học, trọng tâm việc đảm bảo thu thập xác trung thực không đổi Bất kể lĩnh vực nghiên cứu sở thích xác định liệu (định lượng, định tính) gì, việc Data collection xác điều cần thiết để trì tính tồn vẹn nghiên cứu Cả việc lựa chọn công cụ Data collection thích hợp (hiện có, sửa đổi phát triển) hướng dẫn mô tả rõ ràng để sử dụng chúng cách làm giảm khả xảy sai sót 1.2 Các phương pháp thu thập liệu - Phương pháp quan sát (observation) Quan sát phương pháp thu thập liệu cách ghi lại có kiểm sốt kiện hành vi ứng xử người Phương pháp thu thập liệu tiện dụng thường dùng kết hợp với phương pháp khác để kiểm tra chéo độ xác liệu thu thập - Phương pháp vấn Phỏng vấn hỏi đáp bên vấn viên bên người vấn thơng qua hình thức tiếp xúc Trong thực tiễn hình thức tiếp xúc vấn đa dạng: Các hình thức tiếp xúc vấn: + Phỏng vấn trực tiếp; + Phỏng vấn qua thư tín; + Phỏng vấn qua điện thoại; + Phỏng vấn qua Email… - Phương pháp thử nghiệm Phương pháp thu thập liệu gồm loại: - Thử nghiệm phịng thí nghiệm để quan sát đo lường phản ứng tâm lý theo dõi vấn, thảo luận nhóm trọng điểm Phịng thí nghiệm thường chia làm ngăn: Ngăn dành cho người vấn, hay thử nghiệm; Ngăn dành cho quan sát viên trang bị kỹ thuật, ngăn trang bị kính chiều - Thử nghiệm trường việc quan sát đo lường thái độ, phản ứng khách hàng trước thay đổi nhà cung cấp sản phẩm/dịch vụ như: thay đổi giá bán, thay đổi cách thức phục vụ, chăm sóc khách hàng… Việc quan sát thực nơi diễn giao dịch, gọi thử nghiệm trường - Phương pháp điều tra thăm dò Điều tra việc tìm hiểu thật kỹ nguồn kiện, trọng tới việc thu thập thông tin nhân chứng, vật chứng Trong nghiên cứu marketing phương pháp thu thập liệu áp dụng phổ biến ưu nhằm bảo đảm nguyên tắc nghiên cứu khoa học Công cụ chủ yếu dùng để thu thập thông tin, kiện phương pháp “Bảng câu hỏi – Questions Form” khách hàng tự trả lời Nó đặc biệt hữu dụng nghiên cứu định lượng vì: Đối tượng nghiên cứu chủ yếu nghiên cứu marketing ý kiến, kỳ vọng khách hàng, nhà cung cấp, người tiêu dùng… cần đo lường, tính tốn, so sánh cách cụ thể Vì vậy, cách thức để thu thập liệu “bảng câu hỏi” điều tra thăm dò phù hợp - Thảo luận nhóm (focus group) Thảo luận nhóm phương pháp thu thập liệu phổ biến nghiên cứu định tính Các liệu thu thập thông qua thảo luận nhóm đối tượng nghiên cứu (nhóm tập trung hay nhóm chuyên đề) dẫn dắt người điều khiển chương trình (moderator) 1.3 Hâu thu thập liệu sai cách - Khơng có khả trả lời xác câu hỏi nghiên cứu - Khơng có khả lặp lại xác thực nghiên cứu - Phát sai lệch dẫn đến lãng phí tài nguyên - Đánh lừa nhà nghiên cứu khác để theo đuổi đường điều tra kết - Thỏa hiệp định sách - Gây hại cho người tham gia động vật - Mặc dù mức độ tác động từ việc Data collection bị lỗi khác tùy theo kỷ luật chất điều tra, có khả gây tác hại khơng cân xứng kết nghiên cứu sử dụng để hỗ trợ khuyến nghị sách công 1.4 Yếu tố quan trọng thu thập liệu Đảm bảo chất lượng Vì đảm bảo chất lượng có trước việc Data collection, trọng tâm ‘phòng ngừa’ (tức ngăn chặn vấn đề với việc Data collection) Phòng ngừa hoạt động tiết kiệm chi phí để đảm bảo tính tồn vẹn việc Data collection Biện pháp chủ động thể rõ việc chuẩn hóa giao thức phát triển sổ tay thủ tục toàn diện chi tiết để Data collection Sổ tay hướng dẫn viết làm tăng nguy không xác định sớm vấn đề sai sót q trình nghiên cứu Những thất bại chứng minh theo số cách: Sự không chắn thời gian, phương pháp danh tính (những) người chịu trách nhiệm xem xét liệu Liệt kê phần mục cần thu thập Mô tả mơ hồ công cụ Data collection sử dụng thay cho hướng dẫn bước nghiêm ngặt việc quản lý kiểm tra Không xác định nội dung chiến lược cụ thể để đào tạo đào tạo lại nhân viên chịu trách nhiệm Data collection Các hướng dẫn sử dụng, điều chỉnh hiệu chuẩn thiết bị Data collection bị che khuất (nếu thích hợp) Khơng có chế xác định để ghi lại thay đổi thủ tục phát triển q trình điều tra Kiểm sốt chất lượng Mặc dù hoạt động kiểm soát chất lượng (phát / giám sát hành động) diễn sau Data collection, chi tiết cần thực cẩn thận sổ tay thủ tục Một cấu trúc thông tin liên lạc xác định rõ ràng tiền đề cần thiết để thiết lập hệ thống giám sát Khơng có khơng chắn luồng thông tin điều tra viên nhân viên sau phát sai sót q trình Data collection Một cấu trúc giao tiếp phát triển khuyến khích việc giám sát lỏng lẻo hạn chế hội phát lỗi Việc phát giám sát hình thức quan sát nhân viên trực tiếp chuyến thăm thực địa, gọi hội nghị, đánh giá thường xuyên thường xuyên báo cáo liệu để xác định không quán, giá trị cực đoan mã không hợp lệ Mặc dù việc thăm địa điểm khơng phù hợp với tất lĩnh vực, việc không kiểm tra hồ sơ thường xuyên, dù định lượng hay định lượng, khiến nhà điều tra khó xác minh việc Data collection tiến hành theo thủ tục thiết lập sổ tay hướng dẫn Ngồi ra, cấu trúc thơng tin liên lạc không mô tả rõ ràng sổ tay thủ tục, việc truyền tải thay đổi thủ tục đến nhân viên bị tổn hại Kiểm soát chất lượng xác định phản hồi bắt buộc “hành động” cần thiết để sửa chữa thực hành Data collection bị lỗi giảm thiểu cố xảy tương lai Những hành động có khả xảy thủ tục Data collection viết cách mơ hồ bước cần thiết để giảm thiểu tái diễn không thực thông qua phản hồi giáo dục 1.5 Các bước để thu thập liệu Bước 1: Xác định mục tiêu nghiên cứu Trước bắt đầu trình thu thập liệu, bạn cần xác định xác bạn muốn đạt Bạn bắt đầu cách viết tuyên bố vấn đề: vấn đề thực tế khoa học mà bạn muốn giải lại quan trọng? Tiếp theo, hình thành nhiều câu hỏi nghiên cứu xác định xác bạn muốn tìm hiểu Tùy thuộc vào câu hỏi nghiên cứu bạn, bạn cần thu thập liệu định lượng định tính: Dữ liệu định lượng thể số đồ thị phân tích thơng qua phương pháp thống kê Dữ liệu định tính thể từ ngữ phân tích thơng qua diễn giải phân loại Nếu mục đích bạn kiểm tra giả thuyết, đo lường xác điều có hiểu biết thống kê quy mô lớn, thu thập liệu định lượng Nếu mục đích bạn khám phá ý tưởng, hiểu kinh nghiệm hiểu biết chi tiết bối cảnh cụ thể, thu thập liệu định tính Nếu bạn có nhiều mục tiêu, bạn sử dụng cách tiếp cận phương pháp hỗn hợp để thu thập hai loại liệu Bước 2: Chọn phương pháp thu thập liệu bạn Dựa liệu bạn muốn thu thập, định phương pháp phù hợp cho nghiên cứu bạn Nghiên cứu thực nghiệm trước hết phương pháp định lượng Phỏng vấn / nhóm tập trung dân tộc học phương pháp định tính Điều tra, quan sát, nghiên cứu lưu trữ thu thập liệu thứ cấp phương pháp định lượng định tính Cẩn thận xem xét phương pháp bạn sử dụng để thu thập liệu giúp bạn trực tiếp trả lời câu hỏi nghiên cứu Bước 3: Lập kế hoạch cho thủ tục thu thập liệu bạn Khi bạn biết sử dụng (các) phương pháp nào, bạn cần lập kế hoạch xác cách bạn thực chúng Bạn tuân theo quy trình để thực quan sát đo lường xác biến mà bạn quan tâm? Ví dụ: bạn thực khảo sát vấn, định câu hỏi có dạng gì; bạn tiến hành thử nghiệm, đưa định thiết kế thử nghiệm bạn Đơi biến số bạn đo lường trực tiếp: ví dụ: bạn thu thập liệu độ tuổi trung bình nhân viên cách hỏi ngày sinh Tuy nhiên, bạn thường quan tâm đến việc thu thập liệu khái niệm biến trừu tượng mà khơng thể quan sát trực tiếp Hoạt động hóa có nghĩa biến ý tưởng khái niệm trừu tượng thành quan sát đo lường Khi kế hoạch Nếu bạn thu thập liệu nào, bạn cần chuyển định nghĩa khái niệm bạn muốn nghiên cứu thành định nghĩa hoạt động bạn thực đo lường Bước 4: Thu thập liệu Cuối cùng, bạn triển khai phương pháp chọn để đo lường quan sát biến mà bạn quan tâm Để đảm bảo liệu chất lượng cao ghi lại cách có hệ thống, số phương pháp hay nhất: Ghi lại tất thông tin liên quan bạn lấy liệu Ví dụ, ghi lại xem thiết bị phịng thí nghiệm có hiệu chuẩn lại q trình nghiên cứu thử nghiệm hay không Kiểm tra kỹ việc nhập liệu thủ cơng để tìm lỗi Nếu bạn thu thập liệu định lượng, bạn đánh giá độ tin cậy tính hợp lệ để có dấu hiệu chất lượng liệu bạn 1.6 Hadoop 1.6.1 Khái niệm Hadoop Apache framework nguồn mở viết Java cho phép phát triển ứng dụng phân tán có cường độ liệu lớn cách miễn phí Nó thiết kế để mở rộng quy mô từ máy chủ đơn sang hàng ngàn máy tính khác có tính tốn lưu trữ cục (local computation and storage) Hadoop phát triển dựa ý tưởng từ công bố Google mô hình Map-Reduce hệ thống file phân tán Google File System (GFS) Và có cung cấp cho môi trường song song để thực thi tác vụ Map-Reduce Nhờ có chế streaming mà Hadoop phát triển ứng dụng phân tán java lẫn số ngơn ngữ lập trình khác C++, Pyhthon, Pearl, 1.6.2 Kiến trúc Hadoop Hadoop có cấu trúc liên kết master-slave Trong cấu trúc này, có node master nhiều node slave Chức node master gán tác vụ cho node slave khác quản lý tài nguyên Các node slave máy tính thực tế khơng mạnh Các node slave lưu trữ liệu thực master có metadata Kiến trúc Hadoop gồm có ba lớp là:HDFS (Hadoop Distributed File System), Map-Reduce, Yarn HDFS (Hadoop Distributed File System) Là hệ thống file phân tán, cung cấp khả lưu trữ liệu khổng lồ tính tối ưu hố việc sử dụng băng thơng node HDFS sử dụng để chạy cluster lớn với hàng chục ngàn node Cho phép truy xuất nhiều ổ đĩa ổ đĩa Nói cách khác, sử dụng ổ đĩa mà gần không bị giới hạn dung lượng Muốn tăng dung lượng cần thêm node (máy tính) vào hệ thống Có kiến trúc Master-Slave NameNode chạy máy chủ Master, có tác vụ quản lý Namespace điều chỉnh truy cập tệp client 5.6.2 Các tính Apache Zeppelin Giao diện tương tác Apache Zeppelin có giao diện tương tác cho phép bạn xem kết phân tích có kết nối với sáng tạo bạn Tích hợp với nhiều cơng cụ liệu lớn nguồn mở khác dự án Apache Spark, Flink, Hive, Ignite, Lens Tajo Sổ tay trình duyệt Tạo sổ ghi chép chạy trình duyệt bạn (cả máy từ xa) thử nghiệm loại biểu đồ khác để khám phá liệu bạn: Dynamic Forms Tự động tạo hình thức đầu vào máy tính xách tay bạn Hợp tác chia sẻ Cộng đồng nhà phát triển đa dạng sôi động cho phép bạn truy cập vào nguồn liệu liên tục bổ sung phân phối thông qua giấy phép Apache 2.0 nguồn mở họ Thơng dịch viên Khái niệm trình thơng dịch Zeppelin Apache cho phép ngôn ngữ / xử lý liệuphụ trợ cắm vào Zeppelin Hiện tại, Apache Zeppelin hỗ trợ nhiều trình thơng dịch Apache Spark, Python, JDBC, Markdown Shell Thêm thông dịch viên MySQL Trong tảng Apache Zeppelin, chuyển đến trình đơn thả xuống góc bên phải nhấp vào Trình thơng dịch : Đây nơi bạn tìm thấy danh sách tất thơng dịch viên Chúng ta cần tạo cho MySQL, nhấp vào nút Create góc bên phải: Nhập tên dễ nhận biết cho trình thơng dịch (ví dụ: mysql ) chọn nhóm làm JDBC: Giữ tất tùy chọn mặc định, nhập chi tiết cần thiết đảm bảo kết nối đến máy chủ MySQL bạn thiết lập: Chúng ta cần thêm tạo phẩm tùy chỉnh vào JAR trình kết nối MySQL để Zeppelin biết nơi thực Tải xuống trình kết nối , đặt vào thư mục trình thơng dịch / jdbc sau cung cấp đường dẫn xác đến tạo phẩm: Để kiểm tra trình thơng dịch, cần tạo ghi Nhưng trước tiên, thiết lập trình thơng dịch MongoDB Quay trở lại trang Interpreter nhấp vào nút Create Ta sử dụng trình thơng dịch MongoDB mã nguồn mở , bạn cần tải xuống zip tệp đổi tên thành jar Sau đó, đến trình thơng dịch / , tạo thư mục mongodb / dán jar vào thư mục Bây bạn có nhóm Interpreter gọi mongodb Chuyển đến trang Interpreter bạn, nhập tên thân thiện mongodb sau chọn mongodb danh sách thả xuống Interpreter Nhập chi tiết cụm ScaleGrid MongoDB tạo chúng tơi Thuộc tính, tìm thấy phần Tổng quan / Máy trang Chi tiết cụm Tạo ghi Zeppelin Để chạy truy vấn giúp trực quan hóa liệu chúng tôi, cần tạo ghi Từ ngăn tiêu đề Zeppelin , bấm Notebook , Tạo ghi : Đảm bảo tiêu đề máy tính xách tay hiển thị trạng thái kết nối biểu thị dấu chấm màu xanh góc bên phải: Khi tạo ghi chú, bạn thấy hộp thoại để nhập thêm thông tin Chọn trình thơng dịch mặc định mysql tạo nhấp vào Tạo ghi Chạy truy vấn ghi Trước chạy truy vấn nào, chúng tơi cần đề cập đến loại trình thơng dịch sử dụng cho ghi Chúng tơi làm điều cách bắt đầu ghi với %mysql Điều cho Zeppelin mong đợi truy vấn MySQL ghi Và bây giờ, ta sẵn sàng để truy vấn sở liệu ta Với mục đích ví dụ này, sử dụng cài đặt WordPress có chứa wp_options bảng điển hình để truy vấn trực quan hóa liệu 50 Bây bạn nhấp vào biểu đồ khác để trực quan hóa liệu theo định dạng biểu đồ khác Tương tự, MongoDB, đảm bảo bạn có liệu cụm MongoDB Bạn thêm số cách vào tab Quản trị chạy truy vấn Mongo Dưới ví dụ số liệu MongoDB ghi chú: 51 Chia sẻ liên kết đến ghi bạn Bây liệu bạn sẵn sàng để trực quan hóa truy vấn, bạn muốn hiển thị cho nhóm Bạn làm điều dễ dàng cách tạo liên kết chia sẻ đến ghi chú: Liên kết chia sẻ có sẵn cho xem bạn chọn chia sẻ liên kết đến biểu đồ cụ thể: Phần kết luận Apache Zeppelin cơng cụ vơ hữu ích cho phép nhóm quản lý phân tích liệu với nhiều tùy chọn trực quan, bảng liên kết chia sẻ khác để cộng tác 5.7 Tableau 5.7.1 Giới thiệu Tableau Tableau phần mềm hỗ trợ phân tích (Data Analyst) trực quan hóa liệu (Data Visualization), công cụ dùng nhiều ngành BI (Business Intelligence) Tableau giúp tổng hợp liệu từ dãy số thành hình ảnh, biểu đồ trực quan, xây dựng dashboard phân tích (Self-services) Tính bật Tableau Quản lý siêu liệu Hỗ trợ phân tích liệu với Big Data Dễ dàng xây dựng Business Dashboard Khám phá liệu hoạt động doanh nghiệp Xây dựng tài liệu liệu hoạt động (Data Stories) Tính mơ liệu (Data visualization) Phân tích liệu mạng xã hội Xây dựng đồ Hỗ trợ thiết bị di động Tích hợp với ngơn ngữ R Phân tích khảo sát Phân tích theo thời gian Các khả tích hợp Tableau Cơ chế hoạt động Tableau Tableau dựa kết hợp hoạt động: phân tích kinh doanh, khai thác liệu, phân tích liệu công cụ sở hạ tầng để giúp tổ chức đưa định dựa sở liệu thực tế Phân tích liệu hoạt động quan trọng BI Phân tích liệu giúp cho doanh nghiệp thấy khứ sao, từ đưa định, hành động để dự đoán tương lai Các dòng sản phẩm phổ biến Tableau 5.7.2 Ưu điểm, nhược điểm Tableau Ưu điểm Tableau Dễ dàng thao tác xây dựng Dashboard cá phân tích bắt mắt Có thể sử dụng cho phòng ban nhân viên ngành nghề Tốc độ xử lý liệu nhanh với công nghệ In-memory Khả mở rộng sở liệu mức độ phức tạp cho doanh nghiệp phát triển nhanh Có khả quản lý tồn cơng tác, chia sẻ mức độ bảo mật cao Khả kết nối làm việc với nhiều loại liệu lúc Đáp ứng công nghệ mạnh mẽ Big Data, AI khả tích hợp cao Dữ liệu chia sẻ với đưa đến tay người cần để họ tự xử lý Tạo môi trường làm việc dựa liệu phân tích liệu Ln có liệu phân tích lúc nơi Nhược điểm Tableau Hạn chế hỗ trợ truy vấn SQL nâng cao Giá gói dịch vụ cao Data Management 6.1 Khát quát Cassandra hệ sở liệu phân tán kết hợp mơ hình liệu Google Bigtable với thiết kế hệ thống phân tán Amazon Dynamo Được phát triển Facebook tặng cho quỹ Apache với ngôn ngữ phát triển Java Dữ liệu lưu trữ dựa nhiều node nhiều máy khác nhau, theo chế P2P – mô hình mạng phi tập trung với bên có cấu trúc phiên giao tiếp giống Trong đó, nút hoạt động giống máy khách máy chủ hệ thống cho phép chia sẻ phương tiện truyền thơng với dễ dàng hơn, nhanh chóng Hiệu xử lý hệ thống tăng theo số node Một số tổ chức sử dụng Cassandra làm hệ quản trị sở liệu: Spotify, 1&1, Netflix, Dell, … 6.2 Ứng dụng - Nhắn tin: Cassandra thích hợp ứng dụng hay dịch vụ chat Facebook, Discord - Internet vạn vật : Cassandra thích hợp cho ứng dụng mà có tốc độ gửi liệu cực khủng từ thiết bị khác - Phân tích truyền thơng xã hội cơng cụ đề xuất 6.3 Điểm mạnh 6.3.1 Hệ thống phân tán Tính mở rộng Cassandra lớn Khi tốc độ xử lý hệ thống khơng đủ cần thêm node Phân vùng Là kiến trúc phân phối liệu nhiều node bên cluster Dựa theo thuật tốn Consistent Hashing node cấp phát token, dựa vào token phân phối liệu đến node Giao thức chuyện phiếm Là giao thức truyền thông (P2P) node cluster 6.3.2 Cơ chế lưu liệu Việc lưu liệu thông qua chỗ Không gian nhớ (memtable) Không gian đĩa (SSTable) Khi nhập liệu lưu memtale Sau liệu memtable full ghi tồn liệu memtable xuống SSTable Vì đọc liệu tìm memtable trước Sau tìm SSTable khơng thấy memtable Khi xóa liệu liệu gắn cờ (tombstone) xóa sau khoảng thời gian batch Việc lấy liệu trở nên nhanh 6.4 Cấu trúc liệu Dữ liệu thuộc dạng key-value store (KVS) – kiểu sở liệu sử dụng mảng kết hợp Trong key tồn value collection Có thể tạo nhiều table database mà table khơng có quan hệ Nhiều table tổng hợp lại thành keyspace 6.5 Tính dư thừa Khơng có node chính, node cluster có vai trị Dữ liệu lưu tồn node, đó, độ chịu lỗi cao Dù node lỗi, điều hướng sang node khác 6.6 Ưu điểm nhược điểm 6.6.1 Ưu điểm - Mã nguồn mở miễn phí - Kiến trúc ngang hàng - Khả mở rộng đàn hồi: Bất kỳ số lượng node thêm vào xóa cụm Cassandra mà không gây xáo trộn - Highly Availbility Fault Tolerance - Hiệu suất cao: Hiệu suất Cassandra cao hệ quản trị SQL lượng liệu đầu vào lớn 50GB tận dụng hết khả máy - Định hướng cột: Cho nên việc cắt nhanh - Tính qn điều chỉnh: Dữ liệu node tùy chỉnh liệu lưu tất node số node lưu liệu - Schema-less: Các cột tạo theo ý muốn người phát triển - Dễ học sử dụng - Tính phân tán khơng tập trung - Khả phân tích : Có phương pháp phân tích : Tìm kiếm tích hợp dựa Solr Phân tích hàng loạt tích hợp Hadoop Cassandra Phân tích theo lơ bên ngồi hỗ trợ vơí Hadoop Cloudera/Hortonworks Spark dựa phân tích thời gian thực 6.6.2 Nhược điểm - Khơng hỗ trợ nhiều cho việc tính tốn storage, tức khơng hỗ trợ hàm sum, group, join, max, hàm khác để tính tốn liệu - Khi có lỗi sở liệu lỗi lan truyền tồn máy hệ thống