1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO CÁO MÔN HỌC CƠ SỞ DỮ LIỆU NÂNG CAO

72 47 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo Cáo Môn Học Cơ Sở Dữ Liệu Nâng Cao
Tác giả Hoàng Ngọc Thạch
Người hướng dẫn TS. Nguyễn Danh Tú, TS. Nguyễn Tuấn Dũng, TS. Nguyễn Thị Thanh Huyền
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Cơ Sở Dữ Liệu Nâng Cao
Thể loại báo cáo
Năm xuất bản 2019
Thành phố Hà Nội
Định dạng
Số trang 72
Dung lượng 3,47 MB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO MÔN HỌC CƠ SỞ DỮ LIỆU NÂNG CAO Giảng viên hướng dẫn: TS Nguyễn Danh Tú TS Nguyễn Tuấn Dũng TS Nguyễn Thị Thanh Huyền Sinh viên thực hiện: Hồng Ngọc Thạch MSSV: 20153466 Lớp: Tốn Tin 02 - K60 HÀ NỘI – 2019 Mục lục Chương Big Data 1.1 Khái niệm Big Data 1.2 Những vấn đề liên quan 1.2.1 Phân tích liệu Big Data 1.2.2 Xây dựng sở hạ tầng hỗ trợ Big Data 1.2.3 Sử dụng phần mềm công cụ hỗ trợ 1.2.4 Các trường hợp cần sử dụng Big Data 1.3 Sử dụng liệu hiệu Chương Cơ sở liệu phân tán 10 2.1 Khái niệm sở liệu phân tán 10 2.2 Đánh giá sở liệu phân tán 10 2.2.1 Ưu điểm nhược điểm sở liệu phân tán 10 2.2.2 Kiến trúc sở liệu phân tán 11 2.2.3 Phân loại sở liệu phân tán so sánh 12 2.3 Thiết kế sở liệu phân tán 12 2.4 Tính suốt phân tán 13 Chương Hệ quản trị sở liệu Oracle 14 Lecture 14 Lecture 14 Lecture 17 Lecture 21 Lecture 24 Lecture 29 Lecture 34 Chương Bài tập kết thúc môn 38 4.1 Bài 38 4.2 Bài 41 4.3 Bài 46 4.4 Bài 49 4.5 Bài 50 4.6 Bài 54 4.7 Bài 59 4.8 Bài 64 4.9 Bài 66 Tài liệu tham khảo 71 Mở đầu Dữ liệu lớn (Big Data) xem công nghệ trọng Cách mạng cơng nghiệp lần thứ tư Vì vây, báo cáo em xin trình bày tổng quan Big Data Báo cáo gồm chương: • Chương Big Data • Chương Cơ sở liệu phân tán • Chương Hệ quản trị sở liệu Oracle • Chương Bài tập kết thúc môn Chương Big Data 1.1 Khái niệm Big Data Big Data thường định nghĩa tập hợp liệu lớn, bao gồm liệu có cấu trúc, khơng có cấu trúc cấu trúc không đầy đủ, mà liệu sử dụng để khai thác thành thông tin chi tiết Những tập liệu thường lớn phức tạp mà phần mềm xử lý liệu bình thường khó thu thập, lưu trữ xử lý khoảng thời gian phù hợp, khối lượng lên đến Petabyte (hàng triệu Gigabyte) chí Exabyte (bằng 1e+9 gigabyte) Thơng thường, Big Data đặc trưng bốn V, bao gồm: • Volume: độ lớn liệu • Variety: độ đa dạng liệu • Velocity: tốc độ mà liệu cần xử lý phân tích • Veracity: độ xác thực liệu Hình 1: Các đặc trưng Big data Big Data tạo thành từ nguồn bao gồm trang web, phương tiện truyền thơng xã hội, máy tính để bàn ứng dụng di động, thí nghiệm khoa học, cảm biến thiết bị khác internet (IoT) 1.2 Những vấn đề liên quan 1.2.1 Phân tích liệu Big Data Khi có liệu, điều quan trọng phải phân tích liệu để chúng thực mang lại lợi ích tăng doanh thu, cải thiện dịch vụ khách hàng, nâng cao hiệu suất tăng sức cạnh tranh tổng thể Việc phân tích liệu bao gồm việc kiểm tra tập liệu, từ đưa thơng tin chi tiết rút kết luận xu hướng dự đoán hoạt động tương lai Nhờ đó, liệu áp dụng vào công việc lựa chọn thời gian, địa điểm để quảng cáo cho sản phẩm dịch vụ, điều có ích cho cơng ty cần chiến dịch quảng bá sản phẩm theo thời điểm Phân tích liệu bao gồm: • Phân tích liệu thăm dò (để xác định mẫu mối quan hệ liệu) • Phân tích liệu xác nhận (áp dụng kỹ thuật thống kê để tìm hiểu xem giả định tập liệu cụ thể có khơng) • Phân tích liệu định lượng (so sánh thống kê) • Phân tích liệu định tính (tập trung vào liệu phi số video, hình ảnh văn bản) 1.2.2 Xây dựng sở hạ tầng hỗ trợ Big Data Muốn sử dụng khai thác Big Data cách hiệu quả, điều cần thiết phải xây dựng sở hạ tầng đủ để thu thập lưu trữ liệu, cung cấp quyền truy cập bảo mật thông tin lưu trữ chuyển tiếp, bao gồm hệ thống lưu trữ máy chủ, phần mềm quản lý, tích hợp liệu, phần mềm phân tích liệu số thành phần khác Điều thực hóa data center lớn, dịch vụ điện tốn đám mây góp phần giải tốn Dữ liệu đến từ nhiều nguồn khác ứng dụng web, kênh truyền thông xã hội, ứng dụng dành cho thiết bị di động lưu trữ email, IoT trở nên bùng nổ, cảm biến sản phẩm góp phần tạo dựng chuyển hóa liệu Để lưu trữ tất liệu đến, có số lựa chọn phổ biến kho liệu truyền thống, xây dựng hồ liệu tận dụng lưu trữ đám mây Ngồi ra, cịn cần xây dựng sở hạ tầng bảo mật, bao gồm việc mã hóa liệu, xác thực người dùng quyền truy cập, giám sát hệ thống, xây dựng tường lửa, quản lý doanh nghiệp sản phẩm khác để bảo vệ hệ thống liệu 1.2.3 Sử dụng phần mềm công cụ hỗ trợ Để khai thác hiệu Big Data, cần có cơng nghệ cơng cụ hỗ trợ cần thiết, bao gồm: ❖ Hệ sinh thái Hadoop Hadoop coi xương sống dự án Big Data Thư viện phần mềm Hadoop tảng cho phép tập liệu lớn xử lý phân tán thơng qua cụm máy tính sử dụng mơ hình lập trình đơn giản Nó thiết kế để mở rộng từ máy chủ lên hàng nghìn máy, máy chủ có khả cung cấp lực tính tốn lưu trữ cục Dự án bao gồm số mơ-đun: • Hadoop Common, tiện ích phổ biến hỗ trợ mơ-đun Hadoop khác • Hadoop Distributed File System, cung cấp quyền truy cập thông lượng cao vào liệu ứng dụng • Hadoop YARN, tảng cho việc lập kế hoạch công việc quản lý tài nguyên cụm • Hadoop MapReduce, hệ thống dựa YARN để xử lý song song tập liệu lớn ❖ Apache Spark Apache Spark tảng hệ thống tính tốn mã nguồn mở phục vụ công cụ để xử lý Big Data Hadoop Spark trở thành tảng xử lý phân tán liệu quan trọng triển khai theo nhiều cách khác Nó cung cấp ràng buộc nguyên gốc cho Java, Scala, Python (đặc biệt Python Anaconda) ngơn ngữ lập trình R (R đặc biệt phù hợp với liệu lớn), đồng thời hỗ trợ SQL, liệu luồng, machine learning xử lý đồ thị ❖ Cơ sở liệu Cơ sở liệu NoSQL lưu trữ quản lý liệu theo cách linh hoạt xử lý tốc độ cao Không giống sở liệu SQL, nhiều sở liệu NoSQL thu nhỏ theo chiều ngang hàng trăm hàng nghìn máy chủ ❖ Cơ sở liệu nhớ Cơ sở liệu nhớ (IMDB) hệ thống quản lý sở liệu chủ yếu dựa vào nhớ chính, thay đĩa, để lưu trữ liệu Cơ sở liệu nhớ nhanh so với sở liệu đĩa tối ưu hóa, lựa chọn quan trọng cho việc sử dụng phân tích Big Data tạo kho liệu 1.2.4 Các trường hợp cần sử dụng Big Data Big Data áp dụng cho nhiều trường hợp khác nhau, vài ví dụ: • Phân tích khách hàng: Phân tích liệu khách hàng để nâng cao trải nghiệm khách hàng, cải thiện tỷ lệ mua hàng tăng tỷ lệ gắn bó khách hàng • Phân tích hoạt động: Big Data giúp nâng cao suất hiệu suất công việc tổ chức • Phịng chống gian lận: Phân tích liệu giúp tổ chức xác định hành động đáng ngờ gây nguy hại giúp giảm thiểu rủi ro • Tối ưu hóa giá cả: Các cơng ty sử dụng Big Data để tối ưu hóa giá cho sản phẩm dịch vụ, giúp tăng doanh thu Dữ liệu tảng cho việc đưa định dựa vào việc phân tích phần mềm chuyên dụng Nếu liệu bị sai lệch, dẫn đến việc đưa định sách lược sai lầm Xây dựng sở hạ tầng phần cứng phần mềm để hỗ trợ tập hợp liệu khổng lồ phức tạp tốn kém, phần nhỏ so với việc thu thập quản lý liệu cách đáng tin cậy hiệu 1.3 Sử dụng liệu hiệu a) Xác định nhu cầu Điều phải xác định nhu cầu sử dụng Big Data cách rõ ràng Điều giúp ích nhiều việc tìm liệu mà sử dụng để hỗ trợ việc đưa định, cách liệu thao tác, cuối q trình phân tích xác định việc tạo nhìn tổng quát sau b) Xác định nguồn liệu Có thể khơng xác định nguồn liệu cần thiết nhu cầu đặt ra, xác định nguồn liệu cần sử dụng Điều giúp dễ dàng xác định loại liệu mà cần, dễ dàng việc phân lọc liệu sau c) Xác định đối tác phân tích liệu chuyên nghiệp Các đối tác doanh nghiệp cần công nghệ mà vừa cung cấp giải pháp phù hợp với loại liệu xác định ban đầu, vừa phải cung cấp tảng phù hợp với công cụ phân tích có thân doanh nghiệp d) Đánh giá bổ sung liệu cần thiết Như nói trên, khơng thể xác định trước tập liệu cần thiết để cung cấp cho việc xử lý liệu, việc đánh giá bổ sung liệu cần thiết việc khơng thể thiếu để ứng dụng Big Data hiệu e) Xác định công cụ hỗ trợ phù hợp Thị trường cung cấp nhiều công cụ hỗ trợ, từ công cụ thống kê đơn giản ứng dụng tiên tiến dựa tảng Machine Learning Mỗi loại công cụ yêu cầu mức độ hiểu biết khác yêu cầu độ chi tiết liệu Ví dụ, phần mềm dựa tảng Machine Learning xử lý liệu từ dạng phức tạp nhất; cơng cụ thống kê cần liệu tách lọc kĩ Do đó, lựa chọn cơng cụ hỗ trợ phù hợp giúp ích việc giảm tải đẩy nhanh tiến độ việc phân tích liệu f) Mở rộng việc chuẩn bị liệu để kết hợp liệu cũ Hiện tại, nhiều tập liệu trạng thái ln chuyển động có kết nối lẫn Do đó, có liệu phát sẵn sàng để tích hợp vào tập có, việc chuẩn bị liệu phải tiến hành để đảm bảo tính khả dụng Kết quả: • SQL Server: 57 58 Kết quả: 4.7 Bài Câu 7: Viết thủ tục đánh giá kết học tập sinh viên với: Đầu vào: Mã sinh viên Đầu ra: Xếp hạng trình độ sinh viên xếp hạng học lực sinh viên, biết rằng: 59 Bài làm: • Oracle: 60 61 Kết quả: • SQL Server: 62 Kết quả: 63 4.8 Bài Câu 8: Đánh mục bảng takes, student, advisor So sánh tốc độ truy vấn sau thực đánh mục Bài làm: • Oracle: Kết quả: 64 • SQL Server: Kết quả: 65 4.9 Bài Câu 9: Viết thủ tục cho phép sinh viên đăng ký khóa học với lựa chọn phịng thời gian Cài đặt TRANSACTION để đảm bảo toàn vẹn liệu đưa thơng báo lỗi có lỗi xảy Bài làm: • Oracle: 66 Kết quả: 67 • SQL Server: 68 69 Kết quả: 70 Tài liệu tham khảo Slide giảng môn sở liệu nâng cao, TS Nguyễn Thị Thanh Huyền Slide giảng môn sở liệu nâng cao, TS Nguyễn Tuấn Tú Slide giảng Oracle, TS Nguyễn Danh Tú 71 ... nhiều sở liệu NoSQL thu nhỏ theo chiều ngang hàng trăm hàng nghìn máy chủ ❖ Cơ sở liệu nhớ Cơ sở liệu nhớ (IMDB) hệ thống quản lý sở liệu chủ yếu dựa vào nhớ chính, thay đĩa, để lưu trữ liệu Cơ sở. .. hợp với liệu lớn), đồng thời hỗ trợ SQL, liệu luồng, machine learning xử lý đồ thị ❖ Cơ sở liệu Cơ sở liệu NoSQL lưu trữ quản lý liệu theo cách linh hoạt xử lý tốc độ cao Không giống sở liệu SQL,... tăng trưởng cho phép nâng cao hiệu • Các nút thực hệ Xảy nút cài đặt sở liệu riêng • Có cách chia sở liệu thành tập sở liệu Có cách tích hợp sở liệu cục có cục 2.3 Thiết kế sở liệu phân tán Các

Ngày đăng: 14/02/2022, 13:25

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w