1. Trang chủ
  2. » Luận Văn - Báo Cáo

bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl

95 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Các Mô Hình, Loại Hình Kỹ Thuật Hiện Đại Trong Quản Trị CSDL
Tác giả Đỗ Quốc Khánh, Nguyễn Phương Linh, Nguyễn Thị Hải Hà, Phùng Mai Ly, Nguyễn Thị Hồng Liên, Hồ Thị Huyền Thiều, Lê Dũng, Nguyễn Thị Nguyệt Hằng, Nguyễn Minh Nguyệt
Người hướng dẫn GV. Hoàng Phương Thảo
Trường học Học viện tài chính
Thể loại Đề tài
Định dạng
Số trang 95
Dung lượng 16,7 MB

Cấu trúc

  • I. Kho dữ liệu – Data Warehouse (6)
    • 1.1 Data warehouse là gì? (6)
    • 1.2 Đặc điểm chính của Data warehouse (7)
    • 1.3 Đối tượng sử dụng Data warehouse (7)
    • 1.4 Kiến trúc của Data warehouse (7)
    • 1.5 Các loại Data Warehouse (8)
    • 1.6 Lợi ích của Data warehouse (9)
    • 1.7 Ưu nhược điểm của Data Warehouse (9)
    • 1.8 Ứng dụng của Data Warehouse trong thực tế (10)
  • II. Real – time processing (Xử lí thời gian thực) (12)
    • 2.1 Định nghĩa (12)
    • 2.2 Các thành phần chính của một hệ thống xử lý thời gian thực (12)
    • 2.3 Ưu điểm (13)
    • 2.4 Nhược điểm (13)
    • 2.5 Thử thách (13)
    • 2.6 Ứng dụng (13)
  • III. Big Data (Kiến trúc dữ liệu lớn) (15)
    • 3.1 Khái niệm (15)
    • 3.2 Các công việc trong Big Data (15)
    • 3.3 Vai trò (15)
    • 3.4 Thách thức (15)
    • 3.5 Thành phần (15)
    • 3.6 Ứng dụng của Big Data hiện nay (16)
    • 3.7 Các phương pháp riêng của Big Data (18)
  • IV. Cơ sở dữ liệu đám mây (Cloud Database) (91)
    • 4.1 Khái niệm Cloud Database (91)
    • 4.2 Các mô hình triển khai (91)
    • 4.3 Ưu điểm của việc sử dụng CSDL đám mây (91)
    • 4.4 Nhược điểm của CSDL đám mây (92)
    • 4.5 Các giải pháp cơ sở dữ liệu đám mây (92)
    • 4.6 Cơ sở dữ liệu của tương lai - Cơ sở dữ liệu đám mây tự động (93)
    • 4.7 Những điểm cần quan tâm khi lựa chọn CSDL đám mây (94)
  • V. NoSQL - Cơ sở dữ liệu NoSQL (96)
    • 5.1 Yếu tố hình thành NoSQL (96)
    • 5.2 Lịc sử h ra đời (0)
    • 5.3 Khái niệm (97)
    • 5.4 Đặc điểm của NoSQL (98)
    • 5.5 Cơ sở dữ liệu NoSQL hoạt động như nào? (99)
    • 5.6 Bốn loại cơ sở dữ liệu NoSQL quan trọng (100)
    • 5.7 Phân biệt SQL và NoSQL (0)
    • 5.8 Những hạn chế của NoSQL (104)
    • 5.9 Triển khai cơ sở dữ liệu NoSQL trong các doanh nghiệp tổ chức (105)
  • VI. Cơ sở dữ liệu đa mô hình (Multi-model database) (107)
    • 6.1 Lịch sử ra đời (107)
    • 6.2 Khái niệm (107)
    • 6.3 Đặc điểm (107)
    • 6.4 Vai trò (107)
    • 6.5 Ưu và nhược điểm của CSDL đa mô hình (109)
    • 6.6 Các trường hợp sử dụng CSDL đa mô hình (0)
  • VII. Trí t nhân uệ tạo (Artificial Intelligence-AI) (0)
    • 7.1 Động lực phát triển trí tuệ nhân tạo (110)
    • 7.2 Khái niệm Trí tuệ nhân tạo (111)
    • 7.3 Quá trình tiến hóa và phát triển của Trí tuệ nhân tạo (112)
    • 7.4 Phân loại trí tuệ nhân tạo (113)
    • 7.5 Trí tuệ nhân tạo và các nhánh nghiên cứu (114)
    • 7.6 Những thành công của học sâu trong thời gian gần đây (116)
    • 7.7 Các bước chính trong ứng dụng học sâu (119)
    • 7.8 Tác động kinh doanh và xã hội (120)
    • 7.9 Thách thức của trí tuệ nhân tạo (122)
  • VIII. Machine Learning - Học máy (122)
    • 8.1 Lịch sử ra đời (122)
    • 8.2 Khái niệm (123)
    • 8.3 Đặc điểm (124)
    • 8.4 Ưu nhược điểm (126)
    • 8.5 Vai trò (128)
    • 8.6 Machine Learning có thay thế được CSDL không? (0)
    • 8.7 Khái niệm mở rộng (61)
  • IX. Cơ s d ở ữ liệu công ngh ệ ứn g d ụng Blockchain (131)
    • 9.1 Khái niệm (62)
    • 9.2 Lịch sử ra đời (62)
    • 9.3 Cấu trúc của Blockchain (63)
    • 9.4 Đặc điểm nổi bật của Blockchain (64)
    • 9.5 Hệ thống Blockchain chia thành 3 loại chính (65)
    • 9.6 Các phiên bản của công nghệ Blockchain (65)
    • 9.7 Ứng dụng của blockchain trong thực tế (66)
    • 9.8 Blockchain cũng có những ưu điểm và nhược điểm (67)

Nội dung

Data warehouse tập trung và tổng hợp một lượng lớn dữ liệu từ nhiều nguồn như tiếp thị, bán hàng, tài chính, ứng dụng hướng tới khách hàng, và các hệ thống đối tác bên ngoài...Hình 1.1 D

Kho dữ liệu – Data Warehouse

Data warehouse là gì?

Data warehouse hay Kho dữ liệu là một loại hệ thống quản lý lưu trữ dữ liệu được thiết kế để kích hoạt và hỗ trợ các hoạt động kinh doanh thông minh (BI), đặc biệt phân tích Data warehouse là chỉ nhằm mục đích thực hiện các truy vấn và phân tích và thường chứa một lượng lớn dữ liệu lịch sử.

Khái niệm về Data warehouse đã tồn tại từ những năm 1980, khi nó được phát triển để giúp chuyển đổi dữ liệu từ cung cấp năng lượng cho các hoạt động sang cung cấp năng lượng cho các hệ thống hỗ trợ quyết định thể hiện trí tuệ kinh doanh Data warehouse tập trung và tổng hợp một lượng lớn dữ liệu từ nhiều nguồn như tiếp thị, bán hàng, tài chính, ứng dụng hướng tới khách hàng, và các hệ thống đối tác bên ngoài

Hình 1.1 Data Warehouse – Theo Bizfly Cloud Ở cấp độ kỹ thuật, kho dữ liệu định kỳ lấy dữ liệu từ các ứng dụng và hệ thống đó; sau đó, dữ liệu trải qua quá trình định dạng và nhập để khớp với dữ liệu đã có trong kho Data warehouse lưu trữ dữ liệu đã xử lý này để sẵn sàng cho những người ra quyết định truy cập Tần suất kéo dữ liệu xảy ra hoặc cách dữ liệu được định dạng, v.v khác nhau sẽ tùythuộc vào nhu cầu của tổ chức.

Đặc điểm chính của Data warehouse

- Chỉ hỗ trợ quá trình ra quyết định, không hỗ trợ các xử lý giao dịch như các CSDL đơn lẻ

- Lưu trữ các dữ liệu hiện thời và các dữ liệu lịch sử mà các nhà quản lý của tổ chức quan tâm

- Nguồn gốc dữ liệu rất đa dạng: từ các hệ thống nghiệp vụ của tổ chức; từ các nguồn bên ngoài;… được quản trị bằng các mô hình khác nhau

- Dữ liệu từ các nguồn khác nhau đó được sao chép một cách có chọn lọc vào kho dữ liệu theo một chu kỳ nhất định (hàng giờ, hàng ngày, hàng tháng,…) và được chuẩn hóa theo một mô hình dữ liệu chung và được tổng hợp theo cách sao cho có thể sử dụng được trong phạm vi toàn tổ chức trong việc hỗ trợ ra quyết định.

Đối tượng sử dụng Data warehouse

Việc sử dụng Data warehouse là cần thiết đối với:

• Nhân sự chịu trách nhiệm ra quyết định dựa vào khối lượng dữ liệu

• Người sử dụng các quy trình phức tạp, tùychỉnh để thu thập thông tintừ nhiều nguồn khác nhau

• Người có nhu cầu sử dụng công nghệ đơn giản để truy cập dữ liệu

• Người muốn có một cách tiếp cận được hệ thống hóa để đưa raquyết định

• Người muốn tăng hiệu suất với lượng dữ liệu khổng lồ cho các báo cáo, lưới hoặc biểu đồ

• Người muốn khám phá "các mẫu ẩn" của luồng dữ liệu và nhóm

Kiến trúc của Data warehouse

Kiến trúc của Data warehouse được xác định dựa trên nhucầu của doanh nghiệp Một số kiến trúc phổ biến của Data warehouse bao gồm:

Các Data warehouse đều có một thiết kế cơ bản chung, với siêu dữ liệu, dữ liệu tóm tắt và dữ liệu thô được lưu trong kho lưu trữ trung tâm Kho lưu trữ được cung cấp bởi các nguồn dữ liệu tại một đầu, được người dùng cuối truy cập để thực hiện phân tích, báo cáo và khai thác ở đầu còn lại

Dữ liệu hoạt động phải được lọc sạch và xử lý trước khi đưa vào kho Mặc dù thao tác này được thực hiện theo chương trình, nhiều Data warehouse sẽ bổ sung một vùng phân bổ cho dữ liệu trước khi đưa vào kho, nhằm đơn giản hóa công đoạn chuẩn bị dữ liệu

Việc thêm các Data warehouse giữa kho lưu trữ trung tâm và người dùng cuối cho phép doanh nghiệp tùy chỉnh Data warehouse của họ, nhằm phục vụ cho nhiều lĩnh vực kinh doanh khác nhau Khi dữ liệu đã sẵn sàng để sử dụng, sẽ được chuyển đến data mart phù hợp.

Sandboxes là các khu vực riêng tư, bảo mật cho phép doanh nghiệp khám phá các bộ dữ liệu mới hoặc cách phân tích dữ liệu mà không cần tuân thủ theo các quy tắc và giao thức chính thức của Data warehouse.

Các loại Data Warehouse

Hình 1.2: Các loại Data warehouse Theo Bizfly Cloud –

1.5.1 Kho dữ liệu doanh nghiệp (EDW - Enterprise Data Warehouse)

Kho dữ liệu doanh nghiệp đóng vai trò là cơ sở dữ liệu chính hoặc trung tâm tạo điều kiện thuận lợi cho việc ra quyết định trong toàn doanh nghiệp Các lợi ích chính của việc có EDW bao gồm quyền truy cập vào thông tin liên tổ chức, khả năng chạy

8 các truy vấn phức tạp và hỗ trợ các thông tin chi tiết phong phú, có tầm nhìn xa để đưa ra các quyết định dựa trên dữ liệu vàđánh giá rủi rosớm.

1.5.2 Kho dữ liệu hoạt động (ODS - Operational Data Store)

Trong ODS, Data warehouse làm mới theo thời gian thực Do đó, các tổ chức thường sử dụng nó cho các hoạt động doanh nghiệp thông thường, chẳng hạn như lưu trữ hồ sơ của nhân viên Các quy trình nghiệp vụ cũng sử dụng ODS làm nguồn cung cấp dữ liệu cho EDW

Data mart là một tập hợp con của Data warehouse được xây dựng để duy trì một bộ phận, khu vực hoặc đơn vị kinh doanh cụ thể Mỗi bộ phận của doanh nghiệp đều có một kho lưu trữ trung tâm hoặc trung tâm dữ liệu để lưu trữ dữ liệu Dữ liệu từ data mart được lưu trữ định kỳ trong ODS Sau đó, ODS sẽ gửi dữ liệu đến EDW, nơi nó được lưu trữ và sử dụng.

Lợi ích của Data warehouse

Rất nhiều doanh nghiệp thắc mắc tại sao dữ liệu lưu trữ là cần thiết Cách đơn giản nhất để giải thích điều này là thông qua các lợi ích khác nhau cho người dùng cuối:

• Cải thiện quyền truy cập của người dùng cuối vào nhiều loại dữ liệu doanh nghiệp

• Tăng tính nhất quán của dữ liệu

• Tài liệu bổ sung về dữ liệu

• Có khả năng giảm chi phí điện toán và tăng năng suất

• Cung cấp một nơi để kết hợp dữ liệu liên quan từ cácnguồn riêng biệt

• Tạo cơ sở hạ tầng điện toán cóthể hỗ trợ những thay đổi trong hệ thống máy tính và cấu trúc kinh doanh

• Trao quyền cho người dùng cuối thực hiện các truy vấn hoặc báo cáođặc biệt mà không ảnh hưởng đến hiệu suất của hệ thống hoạt động

Các công ty có team Data warehouse chuyên dụng nổi lên trước những công ty khác trong các lĩnh vực chính là phát triển sản phẩm, định giá, tiếp thị, thời gian sản xuất, phân tích lịch sử, dự báo và sự hài lòng của khách hàng Mặc dù Data warehouse có thể hơi tốn kém, nhưng về lâu dài giá trị mang lạilàxứng đáng.

Ưu nhược điểm của Data Warehouse

Data Warehouse cũng có những đặc điểm ưu nhược điểm nhất định và dựa vào đấy chúng ta sẽ biết cáchsử dụng cho hiệu quả nhất

▪ Tính nhất quán và đồng nhất: Data Warehouse tổ chức dữ liệu từ nhiều nguồn khác nhau thành một cấu trúc thống nhất, đảm bảo tính nhất quán và đồng nhất của dữ liệu

▪ Hỗ trợ phân tích và ra quyết định: Kho dữ liệu cung cấp một môi trường phù hợp cho phân tích dữ liệu và giúp ra quyết định thông minh dựa trên thông tin tổng hợp

▪ Dữ liệu lịch sử: Nhờ lưu trữ dữ liệu lịch sử từ nhiều khoảng thời gian khác nhau nên sẽ giúp người dùng dễ dàng phân tích xu hướng theo thời gian

▪ Hiệu suất cao: Kho dữ liệu được tối ưu hóa để cung cấp hiệu suất cao trong việc truy vấn và phân tích dữ liệu

▪ Tính bảo mật: Data Warehouse đòi hỏi các biện pháp bảo mật mạnh mẽ để đảm bảo rằng dữ liệu chỉ được truy cập và sử dụng bởi những người có quyền truy cập

▪ Đòi hỏi tài nguyên và kỹ thuật cao: Xây dựngvà vận hành một Data Warehouse đòi hỏi tài nguyên lớn, bao gồm cả phần cứng, phần mềm cũng như nhân lực kỹ thuật Điều này có thể tốn một khoản chi phí khá đáng kể

▪ Phụ thuộc vào nguồn dữ liệu: Data Warehouse phụ thuộc vào việc trích xuất và chuyển đổi dữ liệu từ các nguồn khác nhau Nếu cósự cố trong quá trình này, có thể ảnh hưởng đến tính sẵn có và chất lượng của dữ liệu trong kho

▪ Khó khăn trong việc thay đổi cấu trúc dữ liệu: Một khi được xây dựng và triển khai thì việc thay đổi cấu trúc dữ liệu có thể sẽ phức tạp và tốn kém Điều này làm cho việc thích ứng với nhu cầu mới trở nên khó khăn.

Ứng dụng của Data Warehouse trong thực tế

Dữ liệu lớn đã trở thành một phần quan trọng trong việc thực hiện lưu trữ dữ liệu và kinh doanh thông minh trong một số ngành Hãy xem qua một số vídụ về lưu trữ dữ liệu trong các lĩnh vực khác nhau coi đó là một phần thiết yếu trong hoạt động hàng ngày của họ

• Lĩnh vực đầu tư và bảo hiểm

Data warehouse chủ yếu được sử dụng để phân tích xu hướng của khách hàng và thị trường cũng như các mẫu dữ liệu khác trong lĩnh vực đầu tư và bảo hiểm Thị trường ngoại hối và thị trường chứng khoán là hai phân ngành chính trong đó kho dữ liệu đóng một vai trò quan trọng bởi vì một điểm khác biệt có thể dẫn đến tổn thất lớn trên diện rộng Data warehouse thường được chia sẻ trong các lĩnh vực này và tập trung vào truyền dữ liệuthời gianthực.

Data warehouse chủ yếu được sử dụng để phân phối và tiếp thị trong lĩnh vực bán lẻ để theo dõi các mặt hàng, kiểm tra chính sách giá cả, theo dõi cácgiao dịch khuyến mại và phân tích xu hướng mua hàng của khách hàng Các chuỗi bán lẻ thường kết hợp hệ thống EDW cho nhu cầu dự báo và BI

Data warehouse được sử dụng để dự báo kết quả, tạo báo cáo điều trị và chia sẻ dữ liệu với các nhà cung cấp bảo hiểm, phòng nghiên cứu và các đơn vị y tế khác trong lĩnh vực chăm sóc sức khỏe EDW là trụ cột của hệ thống chăm sóc sức khỏe vì thông tin điều trị cập nhật, mới nhất là rất quan trọng trong cứu chữa

Với các nguồn dữ liệu ngày càng lớn, các doanh nghiệp trong tương lai cần phải đưa ra những phân tích và hiểu biết dữ liệu tốt hơn Các tổ chức có thể nhận được nhiều hơn từ nỗ lực phân tích của họ bằng cách vượt ra ngoài cơ sở dữ liệu đơn giản và bước vào thế giới kho dữ liệu Việc tìm ra giải pháp Data warehouse phù hợp với nhu cầu kinh doanh có thể tạo nên sự khác biệt trong việc một công typhục vụ khách hàng phát và triển hoạt động của mình một cách hiệu quả như thế nào

Real – time processing (Xử lí thời gian thực)

Định nghĩa

Real – time processing xử lý các luồng dữ liệu được thu thập trong thời gian thực và được xử lý với độ trễ tối thiểu để tạo báo cáo thời gian thực (hoặc gần thời gian thực) hoặc phản hồi tự động

Ví dụ: Bất cứ khi nào bạn yêu cầu tiền tại máy ATM, quá trình xử lý theo thời gian thực sẽ xảy ra Sau khi bạn đã cung cấp thông tin tài khoản và yêu cầu rút tiền cụ thể, máy tính của ngân hàng xác sẽ minh rằng bạn cóđủ tiền trong tài khoản của mình Nếu bạn làm như vậy, thì tiền sẽ được giao cho bạn và ngân hàng sẽ cập nhật ngay lập tức số dư tài khoản của bạn

Hình 2.1: Mô hình hệ thống Real-time processing (Zoiner Tejada )

Xử lý thời gian thực được hiểu là quá trình xử lý luồng dữ liệu đầu vào không giới hạn, với các yêu cầu về độ trễ rất ngắn để xử lý — được đo bằng mili giây hoặc giây.

Các thành phần chính của một hệ thống xử lý thời gian thực

- Dữ liệu đầu vào: Là các dữ liệu được thu thập từ các nguồn khác nhau như cảm biến, thiết bị đo lường hoặc các hệ thống khác Dữ liệu này cần được truyền đến hệ thống xử lý thời gian thực một cách liên tục và nhanh chóng

- Hệ thống xử lý: Bao gốm các công cụ và thuật toán để xử lý dữ liệu Hệ thống này có thể sử dụng các thiết bị phần cứng đặc biệt như vi xử lý nhanh, bộ nhớ RAM mạnh mẽ và các công nghệ tối ưu để đảm bảo tính chính xác vàhiệu xuất

- Luồng dữ liệu: Dữ liệu được xử lý theo một luồng liên tục, không bị ảnh hưởng bởi độ trễ Các quá trình xử lý dữ liệu được sắp xếp và thực hiện theo thứ tự để đảm bảo tính trực tiếp và cung cấp kết quả ngay lập tức

- Phản hồi: Khi quá trình xử lý hoàn thành, hệ thống phản hồi ngay lập tức với kết quả được tạora.Đây cóthể làviệc hiển thị thông tin trên giao diện người dùng, gửi điều khiển tới các thiết bị hoặc thực hiện các hành động khác dựa trên kết quả.

Ưu điểm

- Tính trực tiếp: Xử lý thời gian thực cho phép dữ liệu được xử lý ngay lập tức khi nó được nhận, đảm bảo tính trực tiếp vàhiệu quả trong việc đưa ra quyết định.

- Độ trễ thấp: Xử lý thời gian thực giảm thiểu độ trễ, cho phép dữ liệu được xử lý và phản hồi trong khoảng thời gian ngắn, rất hữu ích trong các ứng dụng yêu cầu phản hồi nhanh như hệ thống điều khiển hoặc phân tích dữ liệu thời gian thực

- Kiểm soát và giám sát: Với xử lý thời gian thực, dễ dàng theo dõi và kiểm soát các quá trình xử lý, từ việc theo dõi dữ liệu đầu vào đến đảm bảo độ tin cậy và chính xác của kết quả xử lý

-Tích hợp hệ thống: Xử lý thời gian thực cho phép tích hợp các hệ thống khác nhau một cách liền mạch, tạo ra các hệ thống phức tạp và hoạt động một cách hiệu quả.

Nhược điểm

- Độ phức tạp cao: Xử lý dữ liệu thời gian thực yêu cầu các thuật toán và hệ thống phức tạp hơn để đảm bảo tính chính xác và hiệu quả Điều này cóthể dẫn đến việc tăng chi phí phát triển và khó khăn trong quản lý và bảo trì hệ thống

- Yêu cầu phần cứng mạnh mẽ: Xử lý thời gian thực thường đòi hỏi phần cứng mạnh mẽ để đáp ứng nhu cầu xử lý và phản hồi trong thời gian ngắn Điều này có thể làm tăng chi phí và khó khăn trong việc triển khai hệ thống

- Giới hạn về khả năng ở thời gian thực: Một số ứng dụng yêu cầu xử lý dữ liệu rất nhanh, có thể không đáp ứng được yêu cầu thời gian thực do hạn chế về công nghệ, kết nối mạng, hoặc tài nguyên phần cứng

- Tính tin cậy: Xử lý thời gian thựccó thể dễ bị ảnh hưởng bởi sự cố kỹ thuật, lỗi phần mềm hoặc hệ thống Điều này đòi hỏi các biện pháp đảm bảo tính tin cậy và khả năng khôi phục nhanh chóng khi xảy ra sự cố

=>Tóm lại, xử lý thời gian thực mang lại nhiều lợi ích trong việc xử lý dữ liệu ngay lập tức và đưa ra quyết định nhanh chóng Tuy nhiên, nó đòi hỏi sự phức tạp cao và yêu cầu phần cứng mạnh mẽ để đáp ứng yêu cầu, đồng thời có thể

Thử thách

- Phải nhập, xử lý và lưu trữ tin nhắn trong thời gian thực, đặc biệt là với khối lượng thông tin lớn

- Kho lưu trữ dữ liệu phải hỗ trợ ghi khối lượng lớn.

- Phải xử lý dữ liệu một cách nhanh chóng.

Ứng dụng

- Hệ thống điều khiển: Xử lý thời gian thực rất quan trọng trong các hệ thống điều khiển như robot công nghiệp, máy móc tự động, hệ thống giao thông, máy bay không người lái, và các hệ thống giám sát vàđiều khiển công nghiệp

- Tài chính: Trong lĩnh vực tài chính, xử lý thời gian thực được sử dụng để phân tích dữ liệu thị trường, giao dịch chứng khoán các và hoạt động giao dịch khác Việc có thông tin và phản hồi nhanh chóng rất quan trọng trong việc raquyết định giao dịch

- Y tế: Xử lý thời gian thực được sử dụng trong các ứng dụng y tế như theo dõi bệnh nhân, giám sát triệu chứng, phát hiện nhanh các tình huống cấp cứu và tổ chức lịch trình chăm sóc

- Mạng xã hội và truyền thông: Nhu cầu cung cấp các thông tin dữ liệu cập nhật liên tục đến người dùng, xử lý thời gian thực đáp ứng được các quá trình trong lĩnh vực này: hiển thị và cập nhật dữ liệu ngay lập tức, phát sóng video trực tiếp, theo dõi và phân tích hoạt động của người tiêu dùng, quảng cáo và tiếp thi trong thời gian thực, phân loại và gợi ý nội dung, phản hồi nhanh chóng tương tác thời gian thực,

- Internet of Thing (IoT): Thu thập và xử lý dữ liệu từ cảm biến và thiết bị kết nối trong thời gian thực để điều khiển giám sát và

- Trò chơi trực tuyến: Xử lý hành động và tương tác của người chơi trong trò chơi để cung cấp trải nghiệm trực tuyến mượt mà và phản hồi nhanh

Big Data (Kiến trúc dữ liệu lớn)

Khái niệm

Kiến trúc dữ liệu lớn được thiết kế để xử lý việc nhập, xử lý và phân tích dữ liệu quá lớn hoặc phức tạp đối với các hệ thống cơ sở dữ liệu truyền thống Ngưỡng mà các tổ chức tham gia vào lĩnh vực dữ liệu lớn khác nhau, tùy thuộc vào khả năng của người dùng và công cụ của họ.

Các công việc trong Big Data

- Xử lý hàng loạt cácnguồn dữ liệu lớn đang nghỉ ngơi.

- Xử lý thời gian thực dữ liệu lớn đang chuyển động

- Khám phá tương tác dữ liệu lớn

- Phân tích dự đoán và học máy

- Lưu trữ và xử lý dữ liệu với khối lượng quá lớn đối với cơ sở dữ liệu truyền thống

- Chuyển đổi dữ liệu phi cấu trúc để phân tích và báo cáo

- Thu thập, xử lý và phân tích các luồng dữ liệu không giới hạn trong thời gian thực hoặc với độ trễ thấp.

Vai trò

- Hiểu vànắm đúng khách hàng mục tiêu

- Định lượng và tối ưu hóa hiệu suất cá nhân

- Phòng chống an ninh, giảm thiểu rủi ro

- Tối ưu hóa giá cả

- Nắm bắt các giao dịch tài chính

Thách thức

- Khối lượng quá lớn vàtăng nhanh

- Chi phí đầu tư không hề nhỏ và không có nhiều người biết tận dụng nó

- Vấn đề an toàn bảo mật thông tin vì các hacker ngày càng tinh vi và khó đề phòng

Thành phần

- Nguồn dữ liệu: Tất cả cácgiải pháp dữ liệu lớn đều bắt đầu với một hoặc nhiều nguồn dữ liệu Những vídụ bao gồm:

+ Cửa hàng dữ liệu ứng dụng, chẳng hạn như cơ sở dữ liệu quan hệ

+ Các tệp tĩnh được tạo bởi các ứng dụng, chẳng hạn như tệp nhật ký máy chủ web

+ Nguồn dữ liệu thời gian thực, chẳng hạn như thiết bị IoT

- Lưu trữ dữ liệu: Dữ liệu cho các hoạt động xử hàng lý loạt thường được lưu trữ trong một kho lưu trữ tệp phân tán có thể chứa khối lượng lớn các tệp lớn ở nhiều định dạng khác nhau Loại cửa hàng này thường được gọi làhồ dữ liệu

- Xử lý hàng loạt: Do các tập dữ liệu quá lớn nên thường thì một giải pháp dữ liệu lớn phải xử lý các tệp dữ liệu bằng cách sử dụng các tác vụ hàng loạt dài hạn để lọc, tổng hợp và mặt khác là chuẩn bị dữ liệu để phân tích

- Real-time message ingestion (Nhập tin nhắn theo thời gian thực): Nếu giải pháp bao gồm các nguồn thời gian thực, thì kiến trúc phải bao gồm cách thu thập và lưu trữ thông báo thời gian thực để xử lý luồng Các tùy chọn bao gồm Trung tâm sự kiện Azure, Trung tâm Azure IoT và Kafka

- Xử lý luồng: Sau khi thu thập thông báo theo thời gian thực, giải pháp phải xử lý chúng bằng cách lọc, tổng hợp và chuẩn bị dữ liệu để phân tích Dữ liệu luồng được xử lý sau đó được ghi vào một đầu ra.

- Machine learning: Đọc dữ liệu đã chuẩn bị để phân tích (từ quá trình xử lý hàng loạt hoặc luồng), thuật toán học máy có thể được sử dụng để xây dựng các mô hình có thể dự đoán kết quả hoặc phân loại dữ liệu Các mô hình này có thể được đào tạo trên các bộ dữ liệu lớn và các mô hình kết quả cóthể được sử dụng để phân tích dữ liệu mới và đưa ra dự đoán

- Kho dữ liệu phân tích: Kho dữ liệu phân tích được sử dụng để phục vụ các truy vấn này có thể là kho dữ liệu quan hệ kiểu Kimball, như được thấy trong hầu hết các giải pháp kinh doanh thông minh (BI) truyền thống

- Phân tích và báo cáo: Mục tiêu của hầu hết các giải pháp dữ liệu lớn là cung cấp thông chi tin tiết về dữ liệu thông qua phân tích và báo cáo

- Orchestration: Hầu hết các giải pháp dữ liệu lớn bao gồm các hoạt động xử lý dữ liệu lặp đi lặp lại, được gói gọn trong quy trình công việc, chuyển đổi dữ liệu nguồn, di chuyển dữ liệu giữa nhiều nguồn và phần chứa, tải dữ liệu đã xử lý vào kho lưu trữ dữ liệu phân tích hoặc đẩy thẳng kết quả vào báo cáohoặc bảng điều khiển.

Ứng dụng của Big Data hiện nay

Big Data hiện đang được ứng dụng trong hầu hết các lĩnh vực của đời sống, kinh tế , xã hội; từ ngành ngân hàng cho tới ngành y, từ thương mại điện tử cho đến ngành bán lẻ,

- Xác định những nơi xuất hiện nhiều khách hàng tiềm năng để lập chi nhánh mới

- Dự đoán lượng tiền mặt cần sẵn để cung ứng ở một chi nhánh mới

16 lận - Machine learning và AIđược ngân hàng sử dụng để phát hiện hoạt động gian

- Hỗ trợ xử lý, lưu trữ và phân tích lượng lớn dữ liệu từ cáchoạt động hàng ngày và giúp đảm bảo an ninh

- Sắp xếp, phân công catrực cho đội ngũ y bác sĩ

- Big Data có thể theo dõi tình trạng bệnh nhân và gửi báo cáo cho bác sĩ bằng cách sử dụngcácthiết bị kỹ thuật số.

- Đánh giá triệu chứng, xác định bệnh ở giai đoạn đầu

- Lưu trữ hồ sơ một cách hiệu quả.

- Báo trước khu vực có nguy cơ bùng phát dịch bệnh

- Thu thập dữ liệu của khách hàng trước khi khách hàng mua sản phẩm/dịch vụ

- Giúp các nhà tiếp thị tiếp cận đúng khách hàng

- Giúp nhà quản lý trang thương mại điện tử xác định các sản phẩm được xem nhiều nhất, từ đó tối ưu thời gian hiển thị của các trang này

- Đánh giá hành vi của khách hàng và đề xuất sản phẩm tương tự; giúp khả năng bán hàng, tạo doanh thu cao ra hơn

- Khi khách hàng thêm sản phẩm vào giỏ hàng nhưng không thanh toán, Big Data cóthể tự động gửi mã khuyến mại để thúc đẩy hành vi mua hàng

- Phân tích nhu cầu của khách hàng để gửi cho họ thông tin về những sản phẩm phù hợp.

- Big Data giúp nhà quản lý xây dựng mô hình chi tiêu của từng khách

- Phân tích lượng mua hàng của từng sản phẩm để đẩy mạnh các sản phẩm bán tốt và giảm(hoặc loại bỏ) các sản phẩm không được đón nhận.

- Phân tích lượng cung cầu theo từng- thời điểm để nhập về số lượng sản phẩm phù hợp đáp ứngnhucầu của khách hàng

- Phân tích thị trường, đối thủ cạnh tranh, tìmhiểu insight khách hàng

- Nhắm mục tiêu khách hàng phù tới hợp dựa trên nhân khẩu học, giới tính, tuổi tác, sở thích, thu nhập,

- Tạo báo cáo sau mỗi chiến dịch quảng cáo

- Mở rộng tệp khách hàng bằng cách sử dụng cơ sở dữ liệu khách hàng hiện có để nhắm tớimục tiêutới các khách hàng cóđặc điểm tương tự

Các phương pháp riêng của Big Data

- Khi làm việc với các tập dữ liệu rất lớn, có thể mất nhiều thời gian để chạy loại truy vấn mà khách hàng cần Các truy vấn này không thể được thực hiện trong thời gian thực và thường yêu cầu các thuật toán hoạt động song song trên toàn bộ tập dữ liệu Các kết quả sau đó được lưu trữ riêng biệt với dữ liệu thôvà được sử dụng để truy vấn

- Nhược điểm của phương pháp này là nó gây rađộ trễ — nếu quá trình xử lý mất vài giờ, truy vấn cóthểtrả về kết quả cũ hơn vài giờ

- Tất cả dữ liệu đi vào hệ thống đều đi qua hai con đường sau:

+ Lớp hàng loạt Batch layer (đường dẫn lạnh): lưu trữ tất cả dữ liệu đến- ở dạng thô và thực hiện xử lý hàng loạt trên dữ liệu Kết quả của quá trình xử lý này được lưu trữ dưới dạngchế độ xem hàng loạt

+ Lớp tốc độ speed layer (đường dẫn nóng): phân tích dữ liệu theo thời- gian thực Lớp này được thiết kế cho độ trễ thấp, với chi phí chính xác

- Lớp lô cung cấp vào một lớp phục vụ Serving layer lập chỉ mục chế độ xem- hàng loạt để truy vấn hiệu quả Lớp tốc độ cập nhật lớp phục vụ với các bản cập nhật gia tăng dựa trên dữ liệu gần nhất.

Hình 3.1: Sơ dòng đồ chảy dữ liệu (Theo Zoiner Tejada)

Dữ liệu chảy vào đường dẫn nóng bị hạn chế bởi các yêu cầu về độ trễ do lớp tốc độ áp đặt để dữ liệu có thể được xử lý nhanh nhất có thể Thông thường, điều này đòi hỏi phải đánh đổi một số mức độ chính xác để có dữ liệu sẵn sàng nhanh nhất có thể Mặt khác, dữ liệu chảy vào đường dẫn lạnh không phải tuân theo các yêu cầu về độ trễ thấp tương tự Điều này cho phép tính toán với độ chính xác cao trên c áctập dữ liệu lớn, cóthể tốn rất nhiều thời gian

Cuối cùng, các đường dẫn nóng và lạnh hội tụ tại ứng dụng phân tích khách hàng Nếu khách hàng cần hiển thị dữ liệu kịp thời, nhưng có khả năng kém chính xác hơn trong thời gian thực, thì nó sẽ thu được kết quả từ đường dẫn nóng Nếu không, nó sẽ chọn kết quả từ đường dẫn lạnh để hiển thị dữ liệu ít kịp thời hơn nhưng chính xác hơn Nói cách khác, đường dẫn nóng có dữ liệu trong một khoảng thời gian tương đối nhỏ, sau đó kết quả có thể được cập nhật với dữ liệu chính xác hơn từ đường dẫn lạnh

Dữ liệu thô được lưu trữ ở lớp lô là không thay đổi Dữ liệu đến luôn được thêm vào dữ liệu hiện có vàdữ liệu trước đó không bao giờ bị ghi đè Mọi thay đổi đối với giá trị của một dữ liệu cụ thể được lưu trữ dưới dạng bản ghi sự kiện được đánh dấu thời gian mới Điều này cho phép tính toán lại tại bất kỳ thời điểm nào trong lịch sử của dữ liệu được thu thập Khả năng tính toán lại chế độ xem hàng loạt từ dữ liệu thô ban đầu rất quan trọng vì nó cho phép tạo chế độ xem mới khi hệ thống phát triển

- Là một giải pháp thay thế cho kiến trúc lambda Nó có các mục tiêu cơ bản giống như kiến trúc lambda, nhưng có một điểm khác biệt quan trọng: Tất cả dữ liệu truyền qua một đường dẫn duynhất, sử dụng hệ thống xử lý luồng

- Một nhược điểm của kiến trúc lambda là sự phức tạp của nó Logic xử lý xuất hiện ở hai nơi khác nhau — đường dẫn lạnh và nóng — sử dụng các khung khác nhau. Điều này dẫn đến logic tính toán trùng lặp và sự phức tạp của việc quản lý kiến trúc cho cả hai đường dẫn.

- Tất cả dữ liệu truyền qua một đường dẫn duy nhất, sử dụng hệ thống xử lý luồng

Hình 3.2: Hệ thống xử lýdữ liệu (Theo Zoiner Tejada)

- Dữ liệu được nhập dưới dạng một sự kiện vào một nhật ký thống nhất có khả năng chịu lỗi và được phân phối Các sự kiện này được sắp xếp theo thứ tự và trạng

60 các hàng và cột, đảm bảo tính toàn vẹn, an toàn và có khả năng truy vấn dữ liệu một cách hiệu quả

+ Machine learning là một lĩnh vực của trí tuệ nhân tạo (AI) tập trung vào việc phát triển các thuật toán và mô hình để máy tính có thể học từ dữ liệu vàcải thiện hiệu suất theo thời gian Machine learning không phải là một hệ thống lưu trữ dữ liệu, mà nó là công phân tích, cụ để xửlý và rút thông tin ra từ dữ liệu

Sự kết hợp giữa cơ sở dữ liệuvà machine learning là quan trọng

+ Cơ sở dữ liệu cung cấp dữ liệu cấu trúc, sẵn sàng để thực hiện các thao tác truy vấn phân tích và

+ Machine learning sử dụng dữ liệu từ cơ sở dữ liệu để tạo ra các mô hình dự đoán, phân loại, vànhận diện mẫu trong dữ liệu

→ Cơ sở dữ liệu cung cấp nguyên liệu cho machine learning, và machine learning cung cấp sự thông minh và phân tích sâu hơn từ dữ liệu

- Tóm lại, machine learning không thể thay thế cơ sở dữ liệu mà cả hai phải hoạt động cùng nhau để tạo ragiá trị từ dữ liệu.

Các khái niệm mở rộng của học máy liên quan đến những phương pháp và lĩnh vực mà học máy có thể được áp dụng để tạo ra giá trị và sự thông minh trong các tình huống phức tạp hơn Dưới đây là một số khái niệm mở rộng của học máy:

● Deep Learning (Học Sâu): Deep learning là một nhánh của học máy tập trung vào việc xây dựng và huấn luyện các mạng neuron nhân tạo có nhiều lớp Deep learning đã mang lại sự cách mạng trong việc xử lý ảnh, nhận dạng giọng nói, dịch máy, và nhiều lĩnh vực khác

● Reinforcement Learning (Học Tăng cường): Reinforcement learning tập trung vào việc học thông qua việc thực hiện hành động và nhận phản hồi từ môi trường Nó thường được sử dụng trong việc xây dựng các hệ thống tự động quyết định, như trò chơimáy tính và robot

● Transfer Learning (Học Truyền Transfer): Transfer learning là việc sử dụng các kiến thức đã học từ một tác vụ để cải thiện hiệu suất trên một tác vụ khác Điều

61 này giúp tận dụng kiến thức đã có và giảm thiểu thời gian và nguồn lực cần cho việc huấn luyện.

Cơ sở dữ liệu đám mây (Cloud Database)

Khái niệm Cloud Database

Một cơ sở dữ liệu đám mây là một loại cơ sở dữ liệu được thiết kế, triển khai và truy cập trong một môi trường đám mây tính toán Nó cung cấp các mô hình triển khai và lợi ích sovới cơ sở dữ liệu truyền thống trên nền tảng nội bộ

Thay vì triển khai và quản lý cơ sở dữ liệu trên cơ sở hạ tầng nội bộ của một tổ chức, cơ sở dữ liệu đám mây được lưu trữ trên hạ tầng đám mây công cộng, riêng tư hoặc kết hợp Điều này giúp tổ chức tránh phải quản lý phần lớn nhiệm vụ cơ sở hạ tầng và tập trung vào việc sử dụng và tối ưu hóa dữ liệu

Các loại cơ sở dữ liệu đám mây bao gồm cả cơ sở dữ liệu SQL (SQL databases)

Các mô hình triển khai

4.2.1 Triển Khai Cơ Sở Dữ Liệu Truyền Thống:

Mô hình này liên quan đến việc mua không gian máy ảo từ nhà cung cấp dịch vụ đám mây và triển khai cơ sở dữ liệu lên không gian ảo đó Các nhà phát triển hoặc nhân viên CNTT của tổ chức sau đó quản lý hoạt động, bảo trì và bảo mật của cơ sở dữ liệu, tương tự như với cơ sở dữ liệu trên nền tảng nội bộ.

4.2.2 Cơ Sở Dữ Liệu dưới Dạng Dịch Vụ (DBaaS):

Trong mô hình này, tổ chức đăng ký dịch vụ cơ sở dữ liệu của nhà cung cấp dịch vụ đám mây Nhà cung cấp xử lý các nhiệm vụ hoạt động như triển khai, sao lưu, mở rộng, bảo mật, cập nhật và giám sát Cơ sở dữ liệu hoạt động trên cơ sở hạ tầng của nhà cung cấp, và tự động hóa đóng vai trò quan trọng trong việc quản lý và duy trì cơ sở dữ liệu.

Ưu điểm của việc sử dụng CSDL đám mây

4.3.1 Nhanh Chóng Sáng và Tạo:

Cơ sở dữ liệu đám mây có thể được thiết lập và huỷ bỏ nhanh chóng, giúp thử nghiệm và xác nhận ý tưởng kinh doanh mới một cách nhanh chóng Dự án có thể bị bỏ hoặc được mở rộng dễ dàng dựa trên sự thành công của chúng.

4.3.2 Rút Ngắn Thời Gian Đưa Sản Phẩm Ra Thị Trường:

Cơ sở dữ liệu đám mây loại bỏ việc phải chờ đợi thiết lập và cấu hình phần cứng, cho phép nhà phát triển truy cập vào cơ sở dữ liệu trong vòng vài phút, từ đó thúc đẩy quá trình phát triển.

Tự động hóa trong cơ sở dữ liệu đám mây có thể thúc đẩy các thực tiễn bảo mật tốt nhất và giảm thiểu sai sót của con người Các tính năng tự động hiệu suất cao và SLA giúp giảm thiểu thời gian chết máy và mất doanh thu cóthể xảyra

Cơ sở dữ liệu đám mây cung cấp mô hình đăng ký trả theo sử dụng và khả năng mở rộng linh hoạt, cho phép tổ chức cung cấp tài nguyên theo nhu cầu, giúp tiết kiệm chi phí so với việc duy trì khả năng cao đỉnh trong nhà

4.3.5 Khả Năng Đa Mô Hình:

Các cơ sở dữ liệu đám mây hiện đại có thể hỗ trợ nhiều mô hình dữ liệu và phương pháp truy cập trong một hệ thống quản lý cơ sở dữ liệu duy nhất Tiếp cận này cho phép ứng dụng sử dụng cùng một hệ thống cơ sở dữ liệu trong khi đáp ứngcác yêu cầu dữ liệu đa dạng của các trường hợp sử dụng khác nhau

Tóm lại, cơ sở dữ liệu đám mây cung cấp cho tổ chức tính linh hoạt, khả năng mở rộng và tự động hóa cần thiết để quản lý dữ liệu một cách hiệu quả trong môi trường đám mây, mang lại lợi ích như giảm thiểu rủi ro, tăng tốc độ sáng tạo và giảm chi phí Sự chuyển đổi hướng đến cơ sở dữ liệu đa mô hình càng cải thiện tính đa dạng của các giải pháp cơ sở dữ liệu đám mây.

Nhược điểm của CSDL đám mây

Bảo mật dữ liệu có thể gặp thách thức do sự phụ thuộc vào kết nối Internet và các vấn đề liên quan đến việc lưu trữ các dữ liệu trên nền tảng đám mây.

Các giải pháp cơ sở dữ liệu đám mây

Hầu hết các ngành công nghiệp, từ dịch vụ tài chính đến chăm sóc sức khỏe, đều có thể hưởng lợi từ việc sử dụng các giải pháp cơ sở dữ liệu đám mây Sự lựa chọn không phải là sử dụng cơ sở dữ liệu đám mây hay không Sự lựa chọn là mô hình và loại nào sẽ hoạt động tốt nhất để đáp ứng nhu cầu cụ thể của doanh nghiệp

Nhiều tổ chức chọn tiếp cận từng giai đoạn cho việc sử dụng cơ sở dữ liệu đám mây, kết hợp mô hình cơ sở dữ liệu đám mây truyền thống với mô hình DBaaS Đối với những ngành công nghiệp khác như dịch vụ tài chính, việc giữ các ứng dụng quan trọng cho nhiệm vụ trong nhà có thể vẫn làưu tiên

Tuy nhiên, mọi thứ đang thay đổi nhanh chóng Khi mô hình DBaaS trở nên mạnh mẽ hơn và sự chuyển đổi sang cơ sở dữ liệu đám mây tự động đang diễn ra, khả năng cao là doanh nghiệp sẽ tìm thấy nhiều cơ hội và lợi ích hơn trong việc di chuyển hoàn toàn cơ sở dữ liệu của họ lên đám mây.

Cơ sở dữ liệu của tương lai - Cơ sở dữ liệu đám mây tự động

Loại cơ sở dữ liệu đám mây mới nhất và đầy đổi mới nhất là cơ sở dữ liệu tự lái (còn được gọi là cơ sở dữ liệu tự động, đã được đề cập ở trên) Loại cơ sở dữ liệu này sử dụng công nghệ đám mây và học máy để tự động hóa việc điều chỉnh cơ sở dữ liệu, bảo mật, sao lưu, cập nhật và các tác vụ quản thông lý thường khác

Cơ sở dữ liệu tự lái được thiết kế để tự động chịu được sự cố phần cứng, bao gồm cả các sự cố tại các trang web nền tảng đám mây, và cung cấp việc cập nhật toàn bộ bộ phần mềm, firmware, ảo hóa và gom cụm trực tuyến Chúng dễ dàng mở rộng hiệu suất và khả năng theo nhu cầu Hơn nữa, chúng bảo vệ dữ liệu khỏi cả các cuộc tấn công từ bên ngoài và người dùng nội bộ có ý định xấu, và tránh nhiều vấn đề liên quan đến thời gian chết máy của các mô hình khác bao gồm cả việc bảo trì theo kế- hoạch

Nghiên cứu của IDC cho thấy (PDF) rằng lên đến 75% tổng chi phí quản lý dữ liệu của một doanh nghiệp có thể nằm trong lao động một mình Một cơ sở dữ liệu tự động có thể tiết kiệm cho doanh nghiệp trung bình hàng trăm hoặc có thể là hàng ngàn giờ làm việc của nhân viên toàn thời gian hàng năm cho mỗi cơ sở dữ liệu chính của họ Ngoài ra, đã được ước tính (PDF) rằng 72% ngân sách CNTT doanh nghiệp được dành cho việcduy trì hệ thống hiện tại, chỉ còn lại25% cho sự đổi mới.

Cơ sở dữ liệu tự động có thể tiến xa trong việc loại bỏ những chi phí cao này và cho phép doanh nghiệp sử dụng các chuyên gia quản trị cơ sở dữ liệu của họ cho công việc có giá trị cao hơn chẳng hạn như mô hình dữ liệu, hỗ trợ các lập trình viên về- kiến trúc dữ liệu và kế hoạch cho khả năng tương lai

Gartner dự đoán sự tăng trưởng hàng đầu cho cơ sở dữ liệu đám mây Gartner đã tôn vinh cơ sở dữ liệu đám mây là một trong các phân đoạn tăng trưởng nhanh nhất của thị trường dịch vụ đám mây công cộng và dự kiến doanh thu nền tảng cơ sở dữ liệu dưới dạng dịch vụ (dbPaaS) sẽ đạt gần 10tỷ đô vào la năm 2021.

Những điểm cần quan tâm khi lựa chọn CSDL đám mây

Hình 4.1: Mô hình cơ sở dữ liệu đám mây - Theo phoeniznap.com

Có nhiều nhà cung cấp và tùy chọn cho các tổ chức đang tìm kiếm giải pháp cơ sở dữ liệu đám mây cho doanh nghiệp của họ Bạn nên chọn một mô hình hoạt động tốt nhất cho nhu cầu kinh doanh cụ thể của bạn Dưới đây là một số tính năng quan trọng cần tìm kiếm từ bất kỳ cơ sở dữ liệu đám mây nào:

Việc tự động và độc lập mở rộng tính toán vàlưu trữ, cập nhật và nâng cấp với - sự khả dụng dữ liệu liên tục đối với ứng dụng - sẽ đảmbảo rằng khả năng cơ sở dữ liệu của bạn đáp ứng nhu cầu biến đổi của doanh nghiệp của bạn mà không làm gián đoạn hoạt động Tối ưu hiệu suất tự động và trực tuyến, chẳng hạn như tự động tạo chỉ mục, là điều cần thiết Bạn cũng muốn sự mở rộng với cụm đọc và viết để đảm bảo rằng các công việc thời gian thực quan trọng cho nhiệm vụ đang diễn ra liền mạch. 4.7.2 Bảo mật

Tính năng bảo mật mạnh mẽ là quan trọng Bất kỳ mô hình cơ sở dữ liệu bạn chọn nên có khả năng mã hóa dữ liệu ở trạng thái nằm yên và trong quá trình chuyển, và cung cấp các cập nhật bảo mật tự động Cũng cần thiết để đảm bảo việc tách biệt nghiêm ngặt các nhiệm vụ để không cho phép hoạt động truy cập vào dữ liệu khách hàng Khả năng che giấu dữ liệu mạnh mẽ giúp đảm bảo rằng khả năng xem dữ liệu nhạy cảm bị giới hạn và kiểm soát Khả năng phát hiện và ngăn chặn cuộc tấn công từ bên ngoài dựa trên học máy cung cấp thêm một lớp bảo mật thời gian thực Cuối cùng, đối với các ứng dụng kinh doanh quan trọng nhất của bạn, bạn sẽ muốn có một hạ tầng đám mây riêng biệt bao gồm cách ly phần cứng khỏi các bên khách hàng khác

Các đặc điểm khác cần tìm kiếm bao gồm cơ sở dữ liệu dự phòng đọc (kết hợp với báo cáo) để giảm chi phí sẵn sàng cao, và các công nghệ flashback hàng đầu trong ngành để giúp bảo vệ khỏi lỗi người dùng Cuối cùng, cơ sở dữ liệu của bạn nên tương thích rộng rãivới cácứng dụng của bên thứ ba

NoSQL - Cơ sở dữ liệu NoSQL

Yếu tố hình thành NoSQL

Hệ quản trị cơ sở dữ liệu quan hệ (Relational database - RDBMS) ra đời vào những năm 70của thế kỉ trước, cho phép các g ứn dụng lưu trữ dữ liệu thông qua ngôn ngữ truy vấnvà mô hình hóa dữ liệu tiêu chuẩn (Structured Query Language - SQL) SQL nói chung hay cụ thể như RDBMS là một sản phẩm đã có bề dày sử dụng từ nhiều thập kỷ phát triển công nghệ, cho thấy khả năng ứng dụng và đáp ứng tốt trong thử nghiệm ứng suất thực tế Vào thời điểm đó, việc lưu trữ dữ liệu khá tốn kém, tuy nhiên các lược đồ dữ liệu cũng tương đối đơn giản, dễ hiểu nên nhu cầu về một công cụ mới là chưa cần thiết

Càng về sau, công nghệ ngày càng phát triển, nhất là từ khi web nổi lên, khối lượng dữ liệu, thông tin về người dùng, về sản phẩm, đối tượng, sự kiện mà các hệ thống cần phải xử lý giờ đây ngày 1 lớn Ví dụ như Google, Facebook phải lưu trữ và xử lý một lượng dữ liệu cực lớn mỗi ngày Ngay cả việc hiển thị một trang web hoặc trả lời một yêu cầu API có thể làm mất hàng chục hoặc hàng trăm yêu cầu cơ sở dữ liệu khi các ứng dụng xử thông ngày lý tin một phức tạp.

Giờ đây thì SQL lại gây một số cản trở với những hạn chế cụ thể là lược- đồ/schema cứng nhắc, thiếu linh hoạt khiến - chúng trở nên phù ít hợp hơn với các loại ứng dụng khác

Hình 5.1: Cơ sở dữ liệu SQL – Theo Quản Trị Mạng

27 Để đáp ứng những cần thiết về cơ sở dữ liệu, những cơ sở hạ tầng phục vụ và cả những chiến lược liên tục được các nhà phát triển đưa ra và cũng đã có những thay đổi đáng kể Những công nghệ đám mây đơn giản hơn và giá cả hợp lý đã xuất hiện để thay thế những máy chủ phức tạp và đắt tiền Hay nữa là những kĩ sư sử dụng các phương pháp đẩy nhanh tốc độ, nhằm mục đích liên tục phát triển và rút ngắn các chu trình, mục đích để truy vấn dữ liệu với tốc độ nhanh, đáp ứng nhu cầu của người dùng

Và như vậy, NoSQL đã rađời để phục vụ những yêu cầu phù hợp với hiện tại.

Hệ thống NoSQL lưu trữ và quản trị dữ liệu sao cho có thể hỗ trợ được tốc độ vận hành ở công suất cao và cung cấp tính linh hoạt tuyệt vời cho các nhà phát triển sử dụng Không giống với cơ sở dữ liệu SQL, rất nhiều cơ sở dữ liệu NoSQL cóthể mở rộng theo chiều ngang trên hàng trăm hoặc hàng ngàn máy chủ

Thuật ngữ NoSQL được sử dụng bởi Carlo Strozzi vào năm 1998 để đặt tên cho cơ sở dữ liệu quan hệ mã nguồn mở Strozzi NoSQL nhỏ gọn của mình, mà không tiết lộ giao diện SQL tiêu chuẩn, nhưng vẫn còn là kiểu quan hệ RDBMS của ông khác với khái niệm chung về cơ sở dữ liệu NoSQL được định nghĩa vào năm 2009 Strozzi gợi ý rằng, vì phong trào NoSQL hiện thời “đi mất từ mô hình kiểu quan hệ cùng với nhau, vì thế nên được gọi cho phù hợp hơn đó là “NoREL”

Johan Oskarsson của Last.fm giới thiệu lại thuật ngữ NoSQL vào đầu năm 2009 khi tổ chức một sự kiện thảo luận về "các cơ sở dữ liệu phân tán, không quan hệ nguồn mở" Tên gọi này cố gắng để đánh dấu sự xuất hiện ngày càng nhiều các kho lưu trữ dữ liệu phân tán, không quan hệ, bao gồm các nhân bản mã nguồn mở

BigTable/MapReduce của Google và Dynamo của Amazon Hầu hết các hệ thống NoSQL đầu tiên đã không cố gắng cung cấp các bảo đảm tính nguyên tố, nhất quán, tách biệt vàbền vững, trái với ưu thế thực tế trong cáchệ thống cơ sở dữ liệu kiểu quan hệ

5.3 Khái niệm Để hiểu rõ hơn về khái niệm này ta cần hiểu sơ lược khái niệm SQL gì?là

Ngôn ngữ truy vấn có cấu trúc (SQL) là một ngôn ngữ lập trình phục vụ việc lưu trữ và xử lý thông tin trong cơ sở dữ liệu quan hệ Cơ sở dữ liệu quan hệ lưu trữ thông tin dưới dạng bảng có các hàng và cột đại diện cho những thuộc tính dữ liệu và nhiều mối quan hệ khác nhau giữa các giá trị dữ liệu Bạn có thể sử dụng các câu lệnh SQL để lưu trữ, cập nhật, loại bỏ, tìm kiếm và truy xuất thông tin từ cơ sở dữ liệu Bạn cũng có thể sử dụng SQL để duy trì và tối ưu hóa hiệu suất cơ sở dữliệu

NoSQL là viết tắt của “ không chỉ SQL ”, một cái tên tóm tắt mô hình cơ sở dữ liệu một cách ngắn gọn Thay vì là một giải pháp thay thế riêng biệt, nó là một bổ sung nâng cao và hữu ích cho cơ sở dữ liệu SQL quan hệ truyền thống Cơ sở dữ liệu

NoSQL vượt qua các giới hạn của hệ thống quan hệ bằng cách sử dụng các môhình cơ sở dữ liệu thay thế Nhưng điều này không nhất thiết có nghĩa là cơ sở dữ liệu NoSQL không sử dụng bất kỳ hệ thống SQL nào Ngoài ra còn có nhiều biến thể kết hợp sử dụng cả hai giải pháp và vẫn nằm dưới sự bảo trợ của NoSQL

Cơ sở dữ liệu NoSQL thường được gọi là kho lưu trữ dữ liệu có cấu trúc để nhấn mạnh sự khác biệt chính giữa NoSQL và cơ sở dữ liệu SQL quan hệ Cơ sở dữ liệu NoSQL không sử dụng lược đồ dạng bảng cứng nhắc trong đó dữ liệu phải được xác định trước khi lưu trữ Họ sử dụng các phương pháp linh hoạt hơn giúp dễ dàng thêm các tập dữ liệu mới, được cập nhật liên tục trong ứng dụng Các giải pháp

NoSQL cũng hữu ích để xử lý dữ liệu phi cấu trúc hoặc không xác định, điều không thể thực hiện được với cơ sở dữ liệu quan hệ.

• NoSQL lưu trữ dữ liệu của mình theo dạng cặp giá trị “key – value” Sử dụng số lượng lớn các node để lưu trữ thông tin

• Mô hình phân tán dưới sự kiểm soát phần mềm

• Chấp nhận dữ liệu bị trùng lặpdo một số node sẽ lưu cùng thông tingiống nhau

• Một truy vấn sẽ được gửi tới nhiều máy cùng lúc, do đó khi mộtmáynào đó không phục vụ được sẽ không ảnh hưởng lắm đến chất lượng trả về kết quả.

• Phi quan không có ràng hệ – buộc nào cho việc nhất quán dữ liệu

• Tính nhất quán không theo thời gian thực: Sau mỗi thay đổi CSDL, không cần tác động ngay đến tất cả các CSDL liên quan mà được lan truyền theo thời gian

5.5 Cơ sở dữ liệu NoSQL hoạtđộng như nào?

Không giống như cơ sở dữ liệu dựa trên SQL quan hệ, cơ sở dữ liệu NoSQL không sử dụng các bảng thông thường với các hàng và cột để lưu trữ dữ liệu Thay vào đó, họ tổ chức lượng lớn dữ liệu bằng cách sử dụng các kỹ thuật linh hoạt như tài liệu, đồ thị, cặp giá trị và cột Điều này làm cho cơ sở dữ liệu NoSQL trở nên lý tưởng cho các ứng dụng phải xử lýkhối lượng lớn dữ liệu và dođó yêu cầu cấu trúc linh hoạt Cơ sở dữ liệu NoSQL sử dụng các cụm phần cứng và máy chủ đám mây, vì vậy dung lượng được phân bổ đồng đều và cơ sở dữ liệu chạy trơn tru ngay cả khi khối lượng dữ liệu cao Trái ngược với cơ sở dữ liệu quan hệ, vốn nhanh chóng giảm hiệu suất khi lượng dữ liệu tăng lên, cơ sở dữ liệu NoSQL là một giải pháp mạnh mẽ, linh hoạt và có thể mở rộng ngay cả với khối lượng dữ liệu lớn.

Khái niệm

Để hiểu rõ hơn về khái niệm này ta cần hiểu sơ lược khái niệm SQL gì?là

Ngôn ngữ truy vấn có cấu trúc (SQL) là một ngôn ngữ lập trình phục vụ việc lưu trữ và xử lý thông tin trong cơ sở dữ liệu quan hệ Cơ sở dữ liệu quan hệ lưu trữ thông tin dưới dạng bảng có các hàng và cột đại diện cho những thuộc tính dữ liệu và nhiều mối quan hệ khác nhau giữa các giá trị dữ liệu Bạn có thể sử dụng các câu lệnh SQL để lưu trữ, cập nhật, loại bỏ, tìm kiếm và truy xuất thông tin từ cơ sở dữ liệu Bạn cũng có thể sử dụng SQL để duy trì và tối ưu hóa hiệu suất cơ sở dữliệu

NoSQL là viết tắt của “ không chỉ SQL ”, một cái tên tóm tắt mô hình cơ sở dữ liệu một cách ngắn gọn Thay vì là một giải pháp thay thế riêng biệt, nó là một bổ sung nâng cao và hữu ích cho cơ sở dữ liệu SQL quan hệ truyền thống Cơ sở dữ liệu

NoSQL vượt qua các giới hạn của hệ thống quan hệ bằng cách sử dụng các môhình cơ sở dữ liệu thay thế Nhưng điều này không nhất thiết có nghĩa là cơ sở dữ liệu NoSQL không sử dụng bất kỳ hệ thống SQL nào Ngoài ra còn có nhiều biến thể kết hợp sử dụng cả hai giải pháp và vẫn nằm dưới sự bảo trợ của NoSQL

Cơ sở dữ liệu NoSQL thường được gọi là kho lưu trữ dữ liệu có cấu trúc để nhấn mạnh sự khác biệt chính giữa NoSQL và cơ sở dữ liệu SQL quan hệ Cơ sở dữ liệu NoSQL không sử dụng lược đồ dạng bảng cứng nhắc trong đó dữ liệu phải được xác định trước khi lưu trữ Họ sử dụng các phương pháp linh hoạt hơn giúp dễ dàng thêm các tập dữ liệu mới, được cập nhật liên tục trong ứng dụng Các giải pháp

NoSQL cũng hữu ích để xử lý dữ liệu phi cấu trúc hoặc không xác định, điều không thể thực hiện được với cơ sở dữ liệu quan hệ.

Đặc điểm của NoSQL

• NoSQL lưu trữ dữ liệu của mình theo dạng cặp giá trị “key – value” Sử dụng số lượng lớn các node để lưu trữ thông tin

• Mô hình phân tán dưới sự kiểm soát phần mềm

• Chấp nhận dữ liệu bị trùng lặpdo một số node sẽ lưu cùng thông tingiống nhau

• Một truy vấn sẽ được gửi tới nhiều máy cùng lúc, do đó khi mộtmáynào đó không phục vụ được sẽ không ảnh hưởng lắm đến chất lượng trả về kết quả.

• Phi quan không có ràng hệ – buộc nào cho việc nhất quán dữ liệu

• Tính nhất quán không theo thời gian thực: Sau mỗi thay đổi CSDL, không cần tác động ngay đến tất cả các CSDL liên quan mà được lan truyền theo thời gian.

Cơ sở dữ liệu NoSQL hoạt động như nào?

Không giống như cơ sở dữ liệu dựa trên SQL quan hệ, cơ sở dữ liệu NoSQL không sử dụng các bảng thông thường với các hàng và cột để lưu trữ dữ liệu Thay vào đó, họ tổ chức lượng lớn dữ liệu bằng cách sử dụng các kỹ thuật linh hoạt như tài liệu, đồ thị, cặp giá trị và cột Điều này làm cho cơ sở dữ liệu NoSQL trở nên lý tưởng cho các ứng dụng phải xử lýkhối lượng lớn dữ liệu và dođó yêu cầu cấu trúc linh hoạt Cơ sở dữ liệu NoSQL sử dụng các cụm phần cứng và máy chủ đám mây, vì vậy dung lượng được phân bổ đồng đều và cơ sở dữ liệu chạy trơn tru ngay cả khi khối lượng dữ liệu cao Trái ngược với cơ sở dữ liệu quan hệ, vốn nhanh chóng giảm hiệu suất khi lượng dữ liệu tăng lên, cơ sở dữ liệu NoSQL là một giải pháp mạnh mẽ, linh hoạt và có thể mở rộng ngay cả với khối lượng dữ liệu lớn.

Chia tỷ lệ theo chiều ngang là một tính năng đặc biệt khác của cơ sở dữ liệu NoSQL Cơ sở dữ liệu SQL quan hệ được chia tỷ lệ theo chiều dọc và chạy trên một máy chủ Để tăng dung lượng của chúng, bạn sẽ phải đầu tư vào một máy chủ mạnh hơn Điều này tốn kém về lâu dài và hạn chế khả năng phát triển ứng dụng Các giải pháp NoSQL thường phân phối dữ liệu trên nhiều máy chủ Nếu lượng dữ liệu tăng lên, các máy chủ mới sẽ được thêm vào một cách đơn giản Điều này cho phép cơ sở dữ liệu NoSQL dễ dàng lưu trữ và xử lý lượng lớn dữ liệu, khiến chúng trở nên lý tưởng cho các ứng dụng dữ liệu lớn

Bốn loại cơ sở dữ liệu NoSQL quan trọng

Không giống như cơ sở dữ liệu quan hệ, kho lưu trữ dữ liệu có cấu trúc không sử dụng lược đồ cố định và do đó hoàn hảo cho các ứng dụng dữ liệu lớn Nhiều cơ sở dữ liệu NoSQL khác nhau đã được sử dụng trên khắp thế giới, hầu hết trong số đó là nguồn mở và có cấu trúc khác nhau tùy thuộc vào nhà cung cấp và yêu cầu Mặc dù các hệ thống rất khác nhau, nhưng các cách tiếp cận khác nhau đối với NoSQL được chia thành bốn loại chính

Hình 5.2: Các loại kiểu dữ liệu quan trọng – Theo Quản Trị Mạng

5.6.1 Cơ sở dữ liệu hướng tài liệu(Document Database)

Trong cơ sở dữ liệu NoSQL hướng tài liệu , dữ liệu được lưu trữ trực tiếp trong các tài liệu có độ dài khác nhau Dữ liệu không cần phải được cấu trúc Dữ liệu được gán các thuộc tính hoặc thẻ khác nhau có thể được sử dụng để tìm kiếm nội dung của tài liệu Cơ sở dữ liệu NoSQL hướng tài liệu đặc biệt hữu ích cho cáchệ thống quản lý

31 nội dung và blog Định dạng dữ liệu được sử dụng phổ biến nhất là JSON ( J ava S cript O bject N otation), cho phép trao đổi dữ liệu nhanh chóng giữa các ứng dụng

• Ưu điểm: Dùng khi dữ liệu nguồn không đượcmô tả đầy đủ.

• Nhược điểm: Hiệu năng truy vấn, Không có cú pháp chuẩn cho câu truy vấn dữ liệu

5.6.2 Cơ sở dữ liệu đồ thị(Graph Datatbase)

Cơ sở dữ liệu đồ thị sử dụng các nút và cạnh để thể hiện mối quan hệ giữa dữ liệu Mạng lưới các mối quan hệ giữa dữ liệu được tổ chức bằng cách sử dụng các nút và các kết nối của chúng với nhau Đối với các tập dữ liệu có thông tin được kết nối với nhau cao, cơ sở dữ liệu đồ thị NoSQL mang lại hiệu suất tốt hơn nhiều so với cơ sở dữ liệu SQL quan hệ Chúng chủ yếu được sử dụng trong các ứng dụng truyền thông xã hội , chẳng hạn như để thể hiện mối quan hệ giữa những người theo dõi trên Twitter hoặc Instagram

• Ưu điểm: Ứng dụng các thuật toán trên đồ thị như Đường đi ngắn nhất, liên thông,…

• Nhược điểm: Phải duyệt nội bộ đồ thị, để trả lời lại các truy vấn Không dễ để phân tán

5.6.3 Cơ sở dữ liệu key-value(Key-value stores)

Trong khi cơ sở dữ liệu SQL sử dụng các lược đồ và bảng cứng nhắc, cơ sở dữ liệu key valueị - lưu trữ dữ liệu dưới dạng các cặp giá trị khóa Các giá trị riêng lẻ được liên kết với các khóa cụ thể, với chính tập dữ liệu đóng vai trò là khóa và đại diện cho một giá trị Khóa cũng tạo thành một chỉ mục có thể được sử dụng để tìm kiếm cơ sở dữ liệu Các khóa của cơ sở dữ liệu khóa giá trị NoSQL luôn là duy nhất và tương tự- như các khóa chính của cơ sở dữ liệu quan hệ

• Ưu điểm: Dùng khi dữ liệu nguồn không đượcmô tả đầy đủ.

• Nhược điểm: Hiệu năng truy vấn, Không có cú pháp chuẩn cho câu truy vấn dữ liệu

5.6.4 Cơ sở dữ liệu hướng cột(Wide Column Store)

Không giống như các mô hình cơ sở dữ liệu quan hệ, cơ sở dữ liệu hướng cột lưu trữ dữ liệu trong cột thay vì hàng Điều này dẫn đến quá trình đọc dữ liệu nhanh hơn và hiệu suất cao hơn Mô hình NoSQL này chủ yếu được sử dụng cho các ứng dụng phân tích và khai thác dữ liệu

• Ưu điểm: Tìm kiếm nhanh, Phân tán dữ liệu tốt.

• Nhược điểm: Hỗ trợ được với rất ítphần mềm

Lịch sử Được phát triển vào những năm 1970 với làn sóng ứng dụng lưu trữ dữ liệu đầu tiên Được phát triển vào những năm 2000 để giải quyết các hạn chế của cơ sở dữ liệu SQL, đặc biệt liên quan đến quy mô, nhân rộng và lưu trữ dữ liệu phi cấu trúc

CSDL đại diện MySQL, Postgres, Oracle Database MongoDB, Cassandra, HBase, Neo

Các bản ghi riêng lẻ (ví dụ: "nhân viên") được lưu trữ dưới dạng các hàng trong bảng, với mỗi cột lưu trữ một phần dữ liệu cụ thể về bản ghi đó (ví dụ: "người quản lý", "ngày được thuê" ), giống như một bảng tính Các kiểu dữ liệu riêng biệt được lưu trữ trong các bảng riêng biệt và sau đó được nối với nhau khi các truy vấn phức tạp hơn được thực thi Ví dụ: "văn phòng" có thể được lưu trữ trong một bảng "nhân viên" trong và bảng khác

Khi người dùng muốn tìm địa chỉ làm việc của nhân viên, công cụ cơ sở dữ liệu sẽ nối các bảng "nhân viên" và"vă phòng" lại với nhau để có được tất cả thông tincần thiết.

Khác nhau dựa trên loại cơ sở dữ liệu NoSQL Ví dụ: các key-value store hoạt động tương tự như cơ sở dữ liệu SQL, nhưng chỉ có hai cột ("khóa- key" và "giá trị-value") Document database loại bỏ hoàn toàn mô hình table-and-row, lưu trữ tất cả dữ liệu có liên quan với nhau tại một "tài liệu" duy nhất trong JSON, XML hoặc định dạng khác, có thể lồng các giá trị theo thứ bậc

Theo chiều dọc, có nghĩa là máy chủ duy nhất phải ngày càng mạnh mẽ để đáp ứng nhu cầu mở rộng của dữ liệu

Có thể mở rộng cơ sở dữ liệu SQL trên nhiều máy chủ, nhưng cần bổ sung thêm kỹ thuật quan trọng

Theo chiều ngang, có nghĩa là để thêm dung lượng, người quản trị cơ sở dữ liệu chỉ cần thêm nhiều máy chủ hoặc đám mây Cơ sở dữ liệu NoSQL tự động phân tán dữ liệu trên các máy chủkhi cầnthiết

Kết hợp mã nguồn mở (ví dụ: Postgres,

MySQL) và mã nguồn đóng (ví dụ: Cơ sở dữ liệu Oracle)

Ngôn ngữ cụ thể bằng cách sử dụng các câu lệnh Select, Insert, Update

Ví dụ: SELECT fields FROM table

Thông qua các API hướng đối tượng

Tính nhất quán Có tính nhất quán mạnh mẽ

Phụ thuộc vào hệ thống Có hệ thống ưu tiên cung cấp tính nhất quán (ví dụ: MongoDB) trong khi một số khác cung cấp tính nhất quán cuối cùng (ví dụ: Cassandra)

Cấu trúc và kiểu dữ liệu được cố định trước Để lưu trữ thông tin về một mục dữ liệu mới, toàn bộ cơ sở dữ liệu phải được thay đổi, trong thời gian đó cơ sở dữ liệu phải được ngoại tuyến.

Các bản ghi có thể thêm thông tin mới một cách nhanh chóng, không giống như các hàng trong bảng SQL, dữ liệu khác nhau có thể được lưu trữ cùng nhau khi cần thiết Đối với một số cơ sở dữ liệu việc thêm các trường mới một cách linh hoạt sẽ khó khăn hơn

Hình 5.3: Điểm khác biệt giữa SQL & NoSQL – Theo Quản Trị Mạng

5.8 Những hạn chế của NoSQL

Nếu NoSQL cung cấp rất nhiều sự tự do và linh hoạt, tại sao không từ bỏ hoàn toàn SQL? Câu trả lời đơn giản: còn rất nhiều ứng dụng vẫn yêu cầu các loại ràng buộc, tính nhất quán và các biện pháp bảo vệ mà cơ sở dữ liệu SQL cung cấp Trong những trường hợp đó, một số lợi thế trên nền tảng của NoSQL cóthể bị chuyển thành nhược điểm

Một số hạn chế khác xuất phát từ thực tế là các hệ thống NoSQL còn khá “non trẻ”, có thể kể đến một vài nhược điểm như sau:

Những hạn chế của NoSQL

Nếu NoSQL cung cấp rất nhiều sự tự do và linh hoạt, tại sao không từ bỏ hoàn toàn SQL? Câu trả lời đơn giản: còn rất nhiều ứng dụng vẫn yêu cầu các loại ràng buộc, tính nhất quán và các biện pháp bảo vệ mà cơ sở dữ liệu SQL cung cấp Trong những trường hợp đó, một số lợi thế trên nền tảng của NoSQL cóthể bị chuyển thành nhược điểm

Một số hạn chế khác xuất phát từ thực tế là các hệ thống NoSQL còn khá “non trẻ”, có thể kể đến một vài nhược điểm như sau:

Ngay cả khi bạn lấy dữ liệu ở dạng tự do, bạn hầu như luôn cần áp đặt các ràng buộc để làm cho nó hữu ích Với NoSQL, trách nhiệm sẽ được chuyển từ cơ sở dữ liệu sang nhà phát triển ứng dụng Ví dụ, nhà phát triển có thể áp đặt cấu trúc thông qua một hệ thống map đối tượng quan hệ hoặc ORM Nhưng nếu bạn muốn lược đồ tự dữ liệu, NoSQL thường sẽ không hỗ trợ

Một số giải pháp NoSQL cung cấp các cơ chế xác thực và nhập dữ liệu tùy chọn Chẳng hạn, Apache Cassandra cómột loạt các kiểu dữ liệu nguyên gốc tương tự các kiểu dữ liệu được tìm thấy trong SQL thông thường

NoSQL đánh đổi sự nhất quán để ưu tiên tốc độ, hiệu suất hiệu quả hơn Dữ liệu được chèn vào cụm dù thế nào cũng sẽ khả dụng trên toàn bộ hệ thống, nhưng không thể biết hắc c chắn khoảng thời gian nào

Một số cơ sở dữ liệu NoSQL có các cơ chế để khắc phục điều này Chẳng hạn như MongoDB, hệ thống này đảm bảo tính nhất quán cho các hoạt động riêng lẻ, nhưng không phải cho toàn bộ cơ sở dữ liệu Microsoft Azure CosmosDB cho phép bạn chọn mức độ nhất quán cho mỗi yêu cầu, do đó bạn có thể chọn hànhvi phù hợp với trường hợp sử dụng của mình.

Hầu hết các hệ thống NoSQL đều tương tự về khái niệm, tuy nhiên, cách thực hiện lại rất khác nhau Mỗi hệ thống sẽ có cơ chế truy vấn dữ liệu và quản lý riêng Điều này có thể sẽ trở gây ratrở ngại nếu xảy các thay ra đổi hệ thống trong quá trình làm việc

Một hạn chế khác đối với NoSQL là người sử dụng có thể sẽ thiếu các kỹ năng chuyên môn ở mức tương đối Trong khi thị trường dành cho SQL vẫn phát triển thì NoSQL còn rất non trẻ bởi hệ thống này còn khá mới và không phải ai cũng biết cách sử dụng thành thạo

Theo thống kê của Truth.com vào cuối năm 2017, khối lượng danh sách công việc cho SQL, thông thường là MySQL MySQL, Microsoft SQL Server, Oracle

Database, cao hơn tổngbanăm với khối lượng công việc cho MongoDB, Couchbase và Cassandra Nhu cầu của NoSQL đang tăng lên, nhưng nó vẫn là một phần nhỏ của thị trường cho SQL.

Triển khai cơ sở dữ liệu NoSQL trong các doanh nghiệp tổ chức

Với những lợi thế của mình, NoSQL trở nên cực kỳ phù hợp với các thách thức của việc lưu trữ dữ liệu hiện đại.

Thêm nữa việc tiết kiệm chi phí và thời gian làm cho

NoSQL càng thêm nổi bật so với các giải pháp cơ sở dữ liệu quan hệ

Hình 5.3: Triển khai cơ sở dữ liệu theo tổ thức – Theo Quản Trị Mạng

Thông thường, các tổ chức sẽ bắt đầu với thử nghiệm quy mô nhỏ trên cơ sở dữ liệu NoSQL Hầu hết các cơ sở dữ liệu này là nguồn mở, có nghĩa là chúng có thể được tải xuống, triển khai vàmở rộng với chi phí thấp

Nhiều tổ chức bắt đầu nhận thấy những lợi thế đáng kể khi sửdụng cơ sở dữ liệu NoSQL cho các dự án Bởi vì chu kỳ phát triển nhanh hơn, các tổ chức có thể đổi mới nhanh hơn vàcung cấp trải nghiệm khách hàng vượt trội hơn với chi phí thấp hơn Với những ưu điểm trên, NoSQL đang được sử dụng nhiều trong các dự án Big Data, các dự Real-time, án số lượng dữ liệu nhiều

Cơ sở dữ liệu đa mô hình (Multi-model database)

Lịch sử ra đời

Xuất hiện từ những năm 1990 Các công ty và tổ chức nổi tiếng như Oracle, IBM, Microsoft, MongoDB, Neo4j đã phát triển và cung cấp các cơ sở dữ liệu đa mô hình cho thị trường

Ví dụ: nếu bạn có trang web Thương mại điện tử, bạn có thể cần cơ sở dữ liệu quan hệ như MySQL để giao dịch, công cụ tìm kiếm như Elaticsearch Nhược điểm chính của sự kiên trì đa ngôn ngữ là nó bổ sung thêm chi phí đáng kể Giải pháp thay thế cho tính bền bỉ của đa ngôn ngữ làcơ sở dữ liệu đa mô hình cho phép bạn lưu trữ và truy cập dữ liệu thuộc các loại

Khái niệm

Cơ sở dữ liệu đa mô hình (Multi-model database) là một hệ thống quản lý cơ sở dữ liệu được thiết kế để hỗ trợ nhiều mô hình dữ liệu đối với một chương trình phụ trợ tích hợp.

Đặc điểm

+ Đa dạng các mô hình khác nhau

Vai trò

Cơ sở dữ liệu đa mô hình có vai trò quan trọng trong việc quản lí và xử lí dữ liệu từ nhiều nguồn và dữ liệu khác nhau Một số tính năng phổ biến của CSDL đa mô hình:

• Lưu trữ, sao lưu và phục hồi dữ liệu: Giống như hầu hết các hệ thống cơ sở dữ liệu, mục đích chính của cơ sở dữ liệu đa mô hình là lưu trữ dữ liệu Chúng cho phép người dùng cơ sở dữ liệu lưu trữ dữ liệu dưới dạng tài liệu, đồ thị, hình ảnh và các định dạng khác tùy thuộc vào nhu cầu của họ Người dùng cũng cóthể tạo bản sao lưu dữ liệu và khôi phục dữ liệu

• Cơ chế truy vấn vàlập chỉ mục : Cơ sở dữ liệu đa mô hình sử dụng ngôn ngữ truy vấn để thực hiện các truy vấn Họ cũng sử dụng các cơ chế lập chỉ mục để đảm bảo truy vấn hiệu quả.

• Tích hợp: Các sản phẩm cơ sở dữ liệu đa mô hình tốt nhất tích hợp liền mạch với các khả năng và mô hình cơ sở dữ liệu mới nhất Chúng cho phép các nhà phát triển cơ sở dữ liệu và người dùng phát triển các mô hình dữ liệu họ cần trên một mặt sau duy nhất Người dùng cũng có thể tích hợp dữ liệu từ nhiều nguồn và ở nhiều định dạng

• Tính năng bảo mật nâng cao: Bảo mật dữ liệu là một trong những tính năng quan trọng nhất của bất kỳ hệ thống cơ sở dữ liệu nào Cơ sở dữ liệu đa mô hình bao gồm các tính năng bảo mật nâng cao như mã hóa topnotch và cơ chế kiểm tra để bảo mật dữ liệu của bạn

Hình 6.1: Một thiết lập đơn giản hóasử dụng cơ sở dữ liệu đa mô hình (Theo oreilly)

Nhìn chung, cách tiếp cận trong sử dụng cơ sở dữ liệu đa mô hình cho phép bạn th hiện những việc sau:

• Giảm lượng ETL cần thiết

• Giảm lượng dữ liệu trùng lặp trên toàn hệ thống, điều này sẽ dẫn đến chất lượng dữ liệu ở mức cao hơn

• Giảm hoặc loại bỏ nhu cầu về silo dữ liệu, tăng khả năng chia sẻ dữ liệu giữa các tổ chức

- Cơ sở dữliệuđamô hình cho phép lưu trữ và quản lý dữ liệu trong nhiều mô hình khác nhau như mô hình quan hệ, mô hình tài liệu, mô hình đồ thị, … Điều này cho phép người dùng linh hoạt trong việc lựa chọn mô hình phùhợp nhất

- Giúp tăng tính hiệu quả trong việc phân tích và xử lý dữ liệu

- Cơ sở dữ liệu đa mô hình có thể cung cấp hiệu suất tốt hơn so với các cơ sở dữ liệu truyền thống

- CSDL đa mô hình giúp giảm chi phí

Bên cạnh những ưu điểm thì CSDL đa mô hình còn 1 số nhược điểm sau:

- Cơ sở dữ liệu đa mô hình có thể phức tạp hơn so với các cơ sở dữ liệu đơn mô hình Việc quản lý và triển khai cơ sở dữ liệu đa mô hình có thể đòi hỏi kiến thức và kỹ năng chuyên môn cao Nó cũng có thể đòi hỏi thời gian và công sức để hiểu và làm việc với các mô hình khác nhau

- Việc tương thích dữ liệu giữacác mô hình cóthểlà một thách thức Việc chuyển đổi dữ liệu giữa các mô hình có thể gây ra sự mất mát thông tin hoặc sự không nhất quán

- Không thích hợp cho các hệ thống hoặc dự án đơn giản hơn.

• Giảm nỗ lực cần thiết để quản lýbảomật toàn bộ hệthống, sao lưu dữ liệu,.

Ưu và nhược điểm của CSDL đa mô hình

6.6 Các trường hợp sử dụng CSDL mô hình đa

+ Các ứng dụng SaaS tương tác

+ Đo từxa & phân tích IoT

+ Phân tích truyền thông trực tuyến & Tối ưu hóa quảng cáo

+ Bảng xếp hạng trò chơi….

Trí t nhân uệ tạo (Artificial Intelligence-AI)

Động lực phát triển trí tuệ nhân tạo

Không thể phủ nhận rằng ngày nay máy móc đang được xây dựng khả năng rất giống với con người, thậm chí trí tuệ nhân tạo (Al) đã được chứng minh là giỏi hơn con người ở nhiều khía cạnh Năm 1997, Deep Blue - Al do THA phát triển đã đánh bại nhà vô địch cờ vua thế giới Carry Kasparov Thuật toán chính được Deep Blue sử dụng rất đơn giản khi áp dụng một biển thể của cách tiếp cận của nhà toán học Claude Chanon năm 1950 Từ một vị trí nhất định, máy tính phân tích các nước đi khả thi và với mỗi nước đi, nó phân tích sẽ tiếpcácphản ứng cóthểcó tử đối thủ Thuật toán tiếp tục thực hiện các phân tích này cho nhiều vòng tùy thuộc vào tốc độ xử lý và thời gian có Sau đó, máy tính chỉ chọn nước đi với khả năng thông cao nhất.

Hình 7.1: Động lực của trí tuệ nhân tạo: khả năng xử lý, dữ liệu lớn, thuật toán

Al như Deep Blue có thể cải thiện mạnh mẽ nhờ tăng gấp đôi sức mạnh xử lý và do đó thắng được Kasparov năm 1997, trong khi thua năm 1996 Sự gia tăng theo cấp số nhân trong khả năng xử lý vượt xa khả năng xử lý tự nhiên của người chơi cờ vua Tuy nhiên, trong mọi trường hợp, chỉ có sức mạnh xử lý thi không đủ để xây dựng AI mà cần ít nhất hAI thành phần khác Đầu tiên là cách để nắm bắt tích và lũy cácyếu tố đầu vào từ thế giới mà AI tương tác Thứ hai, cần phải tìm các thuật toán và kỹ thuật phù hợp để xử lý đầu vào này và cho rakết quả đúng.

Khái niệm Trí tuệ nhân tạo

J McCarthy là người đầu tiên đưa cụm từ “Trí tuệ nhân tạo” (artificial intelligence-AI) trở thành một khái niệm khoa học J McCarthy và cộng sự cho rằng nghiên cứu TTNT nhằm mô tả chính xác các khía cạnh của xử lý trí tuệ và học (để có được tri thức) và tạo ra được các hệ thống, máy mô phỏng hoạt động học và xử lý trí tuệ Ở giai đoạn đầu, TTNT hướng tới xây dựng các hệ thống, máy cókhả năng sử dụng ngôn ngữ tự nhiên, trừu tượng hóa hình thức hóa các khái niệm và giải quyết vấn đề- dựa trên tiếp cận lô gic, raquyết định trong điều kiện thiếu thông tin TTNT là lĩnh vực liên ngành của Triết học, Tâm lý học, Khoa học thần kinh, Toán học, Điều khiển học, Khoa học máy tính,Ngôn ngữ học, Kinh tế.

Hơn sáu thập kỷ phát triển của TTNT chứng kiến nhiều định nghĩa về TTNT, góp phần định hướng các nghiên cứu triển khai TTNT S Russell và P Norvig cung cấp bốn kiểu định nghĩa về TTNT theo hai chiều: (tư duy – hành vi), (như con người –hợp lý) như trong Bảng 1

Tiếp cận thực tế xem rằng TTNT là lĩnh vực nghiên cứu triển khai, hướng tới phát triển máy tính (nói riêng) và máy (nói chung) với năng lực trí tuệ có thể chứng minh (cảm nhận, đối sánh; đo đếm, đánh giá) được Một số năng lực trí tuệ điển hình là: (i)

Học từ kinh nghiệm (trích rút tri thức từ kinh nghiệm) và áp dụng tri thức; (ii) Xác định và trích chọn các đặc trưng quan trọng của các đối tượng, sự kiện, quá trình; (iii) Xử lý tình huống phức tạp; (iv) Phản ứng nhanh chóng chính xác và đối với tình huống mới;(v) Nhận dạng và hiểu được ngữ nghĩa hình ảnh; (vi) Xử lý và thao tác ký hiệu (vii) Sáng tạo và có trí tưởng tượng; (viii) Sử dụng heuristic (mẹo) Việc chứng minh khả năng trí tuệ của máy hoặc do con người kiểm định (kiểm thử Turing) hoặc đánh giá khách quan (sử dụng các công cụ thống kê, lô gic vị từ và mệnh đề.

Quá trình tiến hóa và phát triển của Trí tuệ nhân tạo

Hình 7.2 tóm tắt quá trình tiến hóa TTNT qua mười giai đoạn kể từ năm 1943 tới nay, được S Russell và P Norvig tổng hợp [35] Sự mở rộng của TTNT, đi quá xa so với khởi nguồn ban đầu cũng làm cho một số người sáng lập TTNT (John McCarthy, Marvin Minsky, v.v.) bất bình, do họ cho rằng TTNT cần tập trung vào mục tiêu nguyên thủy là tạo ra “máy nghĩ, học và sáng tạo” Tuy nhiên, thực tiễn đã minh chứng sự mở rộng này, đặc biệt là TTNT với dữ liệu lớn, đã tạo nên các công nghệ và nền tảng công nghiệp TTNTphát triển theo hàm mũ trong giai đoạn hiện nay

Hình 7.2: Tóm tắt quá trình tiến hóa của trí tuệ nhân tạo Trong mỗi giai đoạn có danh sách các nhà khoa học TTNT tiêu biểu.

S Russell và P Norvig nhận định rằng TTNT đã trải qua các chu kỳ thành công, có thể đưa đến sự lạc quan thái quá dẫn tới tình trạng giảm sút nhiệt tình và tài trợ, nhưng đồng thời, cũng cócácchu kỳ với tiếp cận sáng tạo mới, để có được những

43 thành tựu lớn hơn S Russell và P Norvig liệt kê các chủ đề TTNT hiện tại là ô tô tự- lái, đoán nhận tiếng nói, lên kế hoạch và lập lịch tự trị, máy chơi trò chơi, chống rác, lập kế hoạch hậu cần, người máy, dịch máy

Quá trình tiến hóa của TTNT chỉ ra rằng thành tựu của mỗi giai đoạn sau là kết quả của sự thừa kế, phát huy các bộ phận phù hợp và sự rút gọn, hiệu chỉnh các bộ phận không phù hợp từ các giai đoạn trước đó Một khía cạnh của

TTNT thay cósự đổi về chất nhận thức được thì sự thay đổi như vậy là kết quả của một quá trình thay đổi về lượng.

Phân loại trí tuệ nhân tạo

Hình 7.4: A1 tổng hợp và Al thuhẹp (Nguồn: BCG) Để khách quan hơn, AI có thể được phân biệt thành hAI loại AI tổng hợp và AI thu hẹp AI tổng hợp là một hệ thống hoàn chỉnh không khác con người: biết, có thể học bất cứ điều gì con người biết, có cảm xúc, thậm chí có mục đích trong cuộc sống AI thu hẹp là một hệ thống thể hiện những đặc điểm thông minh giống như con người trên một lĩnh vực hoặc nhiệm vụ cụ thể AlphaGo biết cách chơi game, nhưng không thể viết một công thức bánh Watson có thể trả lời các câu hỏi kiến thức chung và được đào tạo để

44 phát hiện ung thư, nhưng không thể đưa ra bất cứ bình luận hay cảm xúc gì Ngày nay, con người chưa biết cách xây dựng AI tổng hợp nhưng đang ngày càng giỏi hơn trong phát triển AI thuhẹp Điều này là do cácphần riêng biệt của AI thu hẹp đã sẵn sàng; đủ sức mạnh xử lý, nhiều dữ liệu có sẵn, và cuối cùng là các kỹ thuật và thuật toán phù hợp.

Trí tuệ nhân tạo và các nhánh nghiên cứu

Trí tuệ nhân tạo (Artificial Intelligence AI) là một lĩnh vực nghiên cứu với- mục đích tạo ra những chương trình và máy móc có những khả năng của con người Những khả năng quan trọng củacon ngườimàlĩnh vực Trí tuệ nhân tạo rất quan tâm đó là: (a) khả năng học, (b) khả năng biểu diễn tri thức và suy diễn, (c) khả năng nghe nhìn, (d) khả năng sử dụng ngôn ngữ, và (e) khả năng- thể hiện cử chỉ

Theo wikipedia.org, AI là trí tuệ do con người lập trình tạo nên với mục tiêu giúp máy tính có thể tự động hóa các hành vi thông minh như con người Trí tuệ nhân tạo khác với việc lập trình logic trong các ngôn ngữ lập trình là ở việc ứng dụng các hệ thống học máy (tiếng Anh: machine learning) đểmô phỏng trí tuệ của con người trong các xử lý mà con người làm tốt hơn máy tính Cụ thể, trí tuệ nhân tạo giúp máy tính có được những trí tuệ của con người như: biết suy nghĩ và lập luận để giải quyết vấn đề, biết giao tiếp do hiểu ngôn ngữ, tiếng nói, biết học và tự thích nghi,…

Trí tuệ nhân tạo bắt đầu được nghiên cứu vào những năm 1940, trải qua nhiều thăng trầm và hiện tại rất thành công Hiện nay (2018), nhờ vào Trí tuệ nhân tạo các công ty công nghệ đã tạo ra được những sản phẩm rất hữu ích và độc đáo Tuy vậy, với sự phát triển mạnh trong những năm gần đây, Trí tuệ nhân tạo cũng để lại không ít lo lắng cho chính con người về khả năng bị máy móc vượt qua trong tương lai Từ một khái niệm được đề xuất bởi một nhóm nhỏ các nhà nghiên cứu thuộc các trường đại học ở Mỹ, hiện nay lĩnh vực Trí tuệ nhân tạo đã được chia ra làm nhiều nhánh nghiên cứu con; mỗi nhánh quan tâm đến một vài khả năng của con người như được trình bày ở bảng bên dưới.

Các nhánh nghiên cưú thuộc Trí tuệ nhân tạo

Khả năng Nhánh nghiên cưú Mục tiêu

Khả năng học Học máy, Học sâu Học máy nghiên cứu và phát triển các kỹ thuật giúp cho máy tính cóthể học tri thức từ dữ liệu đầu vào

Khả năng biểu diễn tri thức và suy diễn

Các phương pháp biểu diễn tri thứcvà suy diễn

N hánh cung cấp cơ sở để máy tính cóthể thực hiện việc suy diễn như con người Khả năng nghe - nhìn Thị giác máy tính,

Các nhánh này nghiên cứu và phát triển các kỹ thuật để giúp máy tính có thể nghe và nhìn như con người.

Khả năng sử dụng ngôn ngữ

Xử lý ngôn ngữ tự nhiênNhánh nghiên cứu này giúp cho máy tính có thể hiểu được ngôn ngữ mà con người đang sử dụng

Khả năng thể hiện cử chỉ Robotics Nhánh này giúp robot thể hiện các hành động và cử chỉ như con người

Với con người, học là khả năng rất quan trọng; nhờ học tập mà một người có thể sở hữu kiến thức và kỹ năng cụ thể nào đó Tương tự như vậy, Học máy cung cấp những kỹ thuật và phương pháp để hiện thực nhiều khả năng khác của máy móc; nhiều ứng dụng trong các nhánh con như Thị giác máy tính, Xử lý tiếng nói và Xử lý ngôn ngữ tự nhiên được hiện thực nhờ vào các kỹ thuật trong Học máy Học máy đã được nghiên cứu từ những ngày đầu của lĩnh vực Trí tuệ nhân tạo, nhiều kỹ thuật hữu ích đã được tạo ra để giúp máy tính có thể học tập từ dữ liệu Trong khoảng một thập niên gần đây, một kỹ thuật mới đã được tạo ra và mang lại những thành công vang dội, đó là Học sâu (Deep learning) Về mặt học thuật, Học sâu là một kỹ thuật nâng cấp của Mạng nơron nhân tạo, một kỹ thuật đã được tạo ra từ những ngày đầu thành lập hướng nghiên cứu

Trí tuệ nhân tạo Tuy vậy, với những nâng cấp mới nhất, Học sâu đã chứng minh được sự hiệu quả trong các nhánh nghiên cứu về Thị giác máy tính, Xử lý tiếng nói và Xử lý ngôn ngữ tự nhiên.

Những thành công của học sâu trong thời gian gần đây

Hai bài toán cơ bản của Xử lý tiếng nói là Nhận dạng tiếng nói và Tổng hợp tiếng nói; Nhận dạng Tiếng nói chuyển một tín hiệu âm dạng số sang dạng văn bản gồm các tiếng có trong đoạn âm, còn Tổng hợp tiếng nói làm công việc ngược lại Hiện nay đã có những sản phẩm cung cấp hai khả năng này với độ chính xác và tốc độ rất cao, thậm chí cho Tiếng việt.

• Google search: cung cấp dịch vụ tìm kiếm bằng giao tiếp qua ngôn ngữ tự nhiên, Google search hỗ trợ khá nhiều ngôn ngữ (có Tiếng việt) Ở một số mẫu câu Google hiểu được ý của người hỏi, nó có thể tổng hợp câu trả dưới dạng âm thanh và đọc lại cho người hỏi.

• Siri: Một sản phẩm tương tự như Google Search đó là Siri của hãng Apple, sản phẩm này được cài đặt mặc nhiên trên hệ điều hành iOS của Apple

• Các trang tin tức: Rất nhiều kênh tin tức Tiếng Anh có hỗ trợ tổng hợp tiếng nói (Tiếng Anh) và đọc lại cho người nghe, như VOA News

7.6.2 Xử lý ngôn ngữ tự nhiên

Ngoài các chức năng đơn giản như kiểm tra tính đúng đắn về mặt từ vựng và cú pháp đã được phát triển từ lâu, hiện nay việc dịch máy - tức là chuyển một đoạn văn (bài văn) từ ngôn ngữ này sang ngôn ngữ khác đã có thể thực hiện dễdàng bởi ứng dụng- Google Translate, với kết quả rất tốt

Gần đây, một dạng ứng dụng khác liên quan đến khả năng hiểu ngôn ngữ tựnhiên cũng rất được quan tâm đó là chatbot Các chatbot có thể hiểu được của người đang ý

47 nói chuyện và nó cũng có thể đưa ra câu trả lời phù hợp với ngữ cảnh đang nói Do đó, nếu kết hợp với khả năng nhận dạng và tổng hợp tiếng nói như đã đề cập ở trên, máy tính có thể giao tiếp tự nhiên với con người Hiện nay chatbot đã được khá nhiều công ty sử dụng làm trợ lý ảo trên các trang mua sắm và các diễn đàn

Việc trang bị khả năng nhìn cho máy tính đã được nghiên cứu từ vài thập niên gần đây, tuy vậy, cho đến trước năm 2012 các kết quả đạt được còn khá hạn chế về độ chính xác, về tính bền vững với môi trường làm việc và về tốc độtính toán Với sự hỗ trợ từ Học sâu, hiện nay máy tính có khả năng thực hiện các bài toán trong Thị giác máy tính với tốc độ vàđộ chính xác cao

7.6.4 Nguyên nhân thành công của học sâu vàtriển vọng

Trước đây, khi giải quyết một bài toán trong Trí tuệ nhân tạo có dùng đến Học máy, các nhà phát triển thường xây dựng giải pháp gồm có hai khối công việc chính, như được trình bày trong Hình 2 (a) Khối đầu tiên sẽ nhận vào tín hiệu thô (ví dụ như, đoạn âm thanh, tập tinvăn bản, và video); khối này thường phải tiền xử lý tín hiệu (như lọc nhiễu) và sau đó tiến hành rút trích và biễu diễn các đặc trưng mong muốn dưới dạng một véc-tơ, gọi là véc-tơ đặc trưng Ở bước huấn luyện, chương trình huấn luyện sẽ nhận vào hai tập hợp các véc-tơ đặc trưng; một tập dùng để huấn luyện, một tập dùng để kiểm thử chất lượng trong quá trình huấn luyện Dựa trên các tập dữ liệu này, chương trình huấn luyện sẽ tạo ra một bộ ra quyết định (tùy theo ứng dụng bộ ra quyết định này còn được gọi là bộ phân loại, bộ nhận dạng, v.v.) Ở bước làm việc, véc-tơ đặc trưng thu được từ bộ rút trích đặc trưng sẽ nạp vào bộ ra quyết định để cho ra kết quả cuối cùng (kết quả cuối cùng có thể là nhãn phân loại (bài toán phân loại), tên định danh (bài toán nhận dạng), v.v.)

Hình 7.5: (a) cách tiếp cận truyền thống, (b) cách tiếp cận dùng mạng nơron học sâu

Nhược điểm của cách tiếp cận truyền thống:

- Cần chuyên gia: cách tiếp cận truyền thống phải cần đến các chuyên gia trong lĩnh vực cụ thể (ví dụ như, Xử lý tiếng nói, Xử lý ngôn ngữ tự nhiên, và Thị giác máy tính) để nghiên cứu và đề xuất phương pháp rút trích và biểu diễn đặc trưng cụ thể; chính vì vậy, đặc trưng theo cách này được gọi là đặc trưng được thiết kế thủ công (handcrafted features)

- Tính thích nghi thấp: Trước khi thiết kế, các chuyên gia cần phải khảo sát dữ liệu gốc và đề xuất các ràng buộc về điều kiện làm việc rất cụ thể; do đó, các đặc trưng được thiết kế theo cách này rất khó được mở rộng.Cách tiếp cận dùng Học sâu được trình bày trong Hình 1 (b); theo đó, tín hiệu thô được nạp vào mạng, mạng tính toán và cho ra kết quả cuối cùng Theo cách này, mạng không cần đến chuyên gia trong lĩnh vực đểthiếtkế các trích bộ chọn đặc trưng Các đặc trưng được học tự động trong cách làm này Ở bước huấn luyện,cácđặc trưngđược học tự động sao cho toàn bộ mạng cho kết quả đánh giátrên tập kiểm thử là tốt nhất Cách tiếp cận này có nhiều ưu điểm như: (a) thích nghi tốt với các điều kiện làm việc, (b) tránh được sự lan truyền lỗi từ khối xử lý trước sang các khối tính toán tiếp theo như trong cách làm truyền thống, và (c) có thể tính toán rất nhanh nhờ vào các công nghệ tính toán song song

Tuy vậy, Học sâu cũng có những nhược điểm sau:

+ Cần lượng lớn dữ liệu có nhãn: Học sâu cần đến một lượng lớn dữ liệu có nhãn (dữ liệu có nhãn là dữ liệu đã được chú thích nhãn đi kèm Ví dụ, với bài toán nhận dạng: ảnh là dữ liệu, nhãn tên là định danh người trong ảnh đó.) để huấn luyện, kiểm

49 thử và kiểm tra Lượng dữ liệu này cần phải bao phủ đầy đủ các tình huống trong môi trường làm việc thực tiễn để cho kết quả cuối cùng với độ chính xác cao Rấtmaymắn, các nghiên cứu gần đây cho thấy rằng, việc thiếu thốn dữ liệu huấn luyện có thể được giảm nhẹ phần nào bằng kỹ thuật học chuyển tiếp; ở đó, trước khi huấn luyện mạng với tập dữ liệu nhỏ, các nhà phát triển có thể sử dụng lại các thông số học được trong bài toán khác để làm điểm khởi đầu cho quá trình học Ngoài ra, các kỹ thuật làm giàu dữ liệu (data augmentation) cũng rất quan trọng để đảm bảo đủ dữ liệu cho huấn luyện mạng

+ Cần kiến trúc mạngphù hợp: Điểm quan trọng nhất trong ứng dụng Học sâu là phải đề xuất một kiến trúc mạng phù hợp cho bài toán cần giải quyết Đây cũng là việc khó nhất, vì nó yêu cầu sự hiểu biết về Học máy nói chung và Học sâu Việc sử dụng lại và nâng cấp các mô hình mạng đang có trong cộng đồng nghiên cứu cũng là một hướng đi phù hợp cho triển khai ứng dụng

+ Cần công nghệ tính toán song song: Mạng nơron học sâu thường gồm rất nhiều lớp tính toán Lượng tham số cần học của một mạng nơron hữu ích nào đó trong Học sâu thông thường đã lên đến vài trăm triệu con số Thêm vào đó, lượng dữ liệu huấn luyện thường phải rất lớn Do đó, việc tính toán bằng CPU thông thường là không phù hợp Rất may mắn, hiện nay có nhiều công nghệ tính toán song song có thể ứng dụng vào tăng tốc việc tính toán của mạng Điển hình của việc này là sử dụng các card đồ họa (GPU) của hãng Nvidia, như Telsa P100, P40, v.v Khi sử dụng các GPU để tính toán, quá trình huấn luyện có thể rút ngắn lại chỉ gồm vài ngày thay vì vài tuần hay cả tháng (tùy vào bài toán) Tuy vậy, quá trình làm việc (inference) thì có đáp ứng rất nhanh; ví dụ, với bài toán phát hiện vật thể trong ảnh, một giây card có thể xử lý lên đến hàng trăm hình.

Các bước chính trong ứng dụng học sâu

Việc ứng dụng học sâu để giải quyết một bài toán nào đó trong Trí tuệ nhân tạo sẽ bao gồm các bước sau:

+ Chuẩn bị dữ liệu: Ở bước này người phát triển cần phải chuẩn bị dữ liệu có nhãn để huấn luyện, kiểm thử và kiểm tra Cả ba tập này phải bao phủ đầy đủ các tình huống trong thực tiễn sẽ triển khai Tuy vậy, lượng dữ liệu của tập huấn luyện thường rất nhiều sovới hai tập còn lại Quá trình làm giàu dữ liệu cóthể được tiến hành ở bước này và lưu lại, hoặc tiến hành trực tuyến trước mỗi lần nạp dữ liệu huấn luyện vào mạng + Xây dựng kiến trúc: Người phát triển cần phải xây dựng một kiến trúc mạng phù hợp cho bài toán Kiến trúc mạng nên được hiện thực ở một trong các framework phổ biến như Pytorch, Tensorflow, Caffe, v.v

+ Huấn luyện, kiểm thử và kiểm tra: Huấn luyện mạng là công việc dùng tập dữ liệu huấn luyện để tìm ra các thông số của mạng sao cho đáp ứng của mạng với tập dữ liệu kiểm thử là đủ tốt; cách làm này được kỳ vọng rằng mạng tìm được cho kết quả đánh giá trên tập kiểmtốt tra cũng như được dùng trong thực tiễn Đây là công việc tốn khá nhiều thời gian vì phải tinh chỉnh các siêu tham số và phải đợi quá trình học cho ra kết quả chấp nhận được Khi huấn luyện, người phát triển thường phải làm các việc sau: (a) xây dựng hàm tổn thất, (b) lựa chọn giải thuật huấn luyện, (c) lựa chọn các siêu tham số, và (d) chạy, quan sát giá trị tổn thất, và tinh chỉnh siêu tham số - thậm chí tái là kiến trúc mạng.

+ Triển khai hệ thống: Nếu quá trình huấn luyện thành công, người phát triển đã có mô hình mạng cóthể triển khai trong thực tiễn Ở bước này, người phát triển cần lựa chọn phương pháp tính toán phù hợp – là tính toán tập trung tại máy chủ hay tính toán phân tán tại các máy trạm Mỗi sự lựa chọn sẽ cho ra một dạng phần cứng khác nhau Với công nghệ tính toán đã chọn, người phát triển tiến hành thử nghiệm, đánh giá và nhân rộng quy mô.

Tác động kinh doanh và xã hội

Hình 7.6: Đầu tư cho AI tăng >50%/ năm (nguồn: BCG)

Tất cả các doanh nghiệp công nghệ lớn đều đầu tư mạnh vào vào Al, như Google mua lại Al Startup DeepMind năm 2014 với giá 400 triệu USD Microsoft Ventures đầu vào các công ty khởi nghiệp Al, Agolo và BonsAI Amazon thậm chí xây dựng đơn vị Amazon Al của riêng mình mang tên Amazon Echo Đầu tư toàn cầu vào AI đã tăng từ 0,6 triệu đô la năm 2012 lên khoảng 5 tỷ năm 2016 và ước tính đạt 12,5 tỷ đô la trong năm 2017 Tức là tăng hơn 50%/ năm Sự tăng trưởng này dự kiến sẽ tiếp tục tới năm

2020 khi doanh thusẽ gần50 USD tỷ

Hơn 60% các nhà điều hành trong một cuộc khảo sát chung củaMIT BCG tin và rằng AI sẽ có tác động lớn đến các doanh nghiệp trong 5 năm tới đi đầu là các ngành như viễn thông và dịch vụ tài chính

Các doanh nghiệp nên bắt đầu thử nghiệm và đưa ra những ứng dụng tiềm năng của AI dành cho công ty của minh AI bao gồm ba yếu tố cơ bản: khả năng xử lý, thuật toán học và dữ liệu đầu vào Khả năng xử lý: Công suất máy tính ngày càng rẻ hơn Trừ khi doanh nghiệp hoạt động trong một chuyên ngành chuyên sâu đặc thù, doanh nghiệp sẽ không phải cạnh tranh và có thể sử dụng cloud (điện toán đám mây) theo cơ chế trả theo mức sử dụng Thuật toán cũng là một lĩnh vực nghiên cứu sinh động và yếu tố thách thức lớn nhất là tim ra tài năng phù hợp để theo kịp các tiến bộ này Đó không chỉ là khoa học dữ liệu hay tài năng học máy, mà còn là việc nâng cấp toàn bộ lực lượng lao động để làm việc trong môi trường hỗ trợ Al Cuối cùng, dữ liệu đào tạo là thứ thường tạo ralợi thế cạnh tranh và bí kíp kinh doanh, tài là sản doanh nghiệp cần giữ khi không có thuật toán nào cóthểbù đắp cho dữ liệu bị thiếu hoặc chất lượng thấp

Hình 7.7: Trí tuệ nhân tạo và máy học

Thách thức của trí tuệ nhân tạo

Thách thức rất lớn với Al là con người không thể hiểu rõ các lựa chọn AI tạo ra, hay trong hầu hết các trường hợp là không chắc Thuật toán AI tinh vi nhất giống như các hộp đen, học hỏi từ kinh nghiệm để đưa ra lựa chọn, nhưng không AI có thể xác định rõ ràng biển đầu vào nào hay trải nghiệm quá khứ nào dẫn đến lựa chọn nào Và điều này đôi khi ảnh hưởng về mặt đạo đức, lương tâm

Ví dụ, năm 2015, một nghiên cứu đã chứng minh rằng các thuật toán AI có thể phát triển các thành kiến phân biệt đối xử dựa trên chủng tộc hoặc giới tính Ví dụ nếu nhà phát triển tạo thuật toán để lọc hồ sơ ứng viên phù hợp cho vị trí công việc nhất định như lập trình viên hoặc y tá vàdữ liệu đầu vào là các hồ sơ ứng viên cùng kết quả y lựa chọn trong 3 5 năm qua, nhà phát triển có thể "lặp lại" các thành kiến về giới hay với- một số nhóm thiểu số hay trong việc chi trả lương, thưởng, chính sách đãi ngộ.

Machine Learning - Học máy

Lịch sử ra đời

- Lịch sử ra đời và phát triển của machine learning bắt đầu từ những năm đầu của thế kỷ 20 vàđã trải qua nhiều giai đoạn quan trọng:

● Thập kỷ 1940: Mô hình neural đầu tiên được giới thiệu bởi Warren McCulloch và Walter Pitts trong bài báo "A logical calculus of the ideas immanent in nervous activity" năm 1943, đánh dấu sự bắt đầu của lý thuyết mạng neural

● Thập kỷ 1950: Donald Hebb đề xuất lý thuyết về "Hebbian learning," một khái niệm cơ bản trong việc hiểu cách các liên kết trong mạng neural có thể được cải thiện thông qua sự tương tác giữacác đơn vị

● Năm 1956: Hội nghị Dartmouth College về Trí tuệ Nhân tạo được tổ chức, đánh dấu sự ra đời của thuật ngữ "Trí tuệ Nhân tạo" và tạo nền tảng cho sự phát triển của học máy

● Thập kỷ 1960-1970: Quá trình phát triển các thuật toán học máy ban đầu như Perceptron, mộtmạng neuralđơn giản có khả năng học cơ bản

● Thập kỷ 1980: Phát triển cácphương pháp học máy dựa trên lý thuyết xác suất và thống kê, bao gồm Support Vector Machines (SVM) và các thuật toán học tăng cường (reinforcement learning)

● Thập kỷ 1990 2000: Mạng neural đa tầng (Multilayer Perceptrons) trở lại nhờ- vào thuật toán lan truyền ngược (backpropagation) và các phương pháp tối ưu hóa mới, mở ra kỷ nguyên mới cho học sâu (deep learning)

● Thập kỷ 2010: Các mô hình học sâu như Convolutional Neural Networks (CNNs) và Recurrent Neural Networks (RNNs) xuất hiện và đạt được những thành tựu đáng kể trong lĩnh vực nhận dạng hình ảnh, xử lý ngônngữ tự nhiên và nhiều ứng dụng khác

● Thập kỷ 2020: Học máy gia tăng, kết hợp nhiều phương pháp như học sâu, học tăng cường và học máy học không giám sát, dẫn đến sự phát triển mạnh mẽ của trí tuệ nhân tạo trong nhiều lĩnh vực ứng dụng.

- Lịch sử học máy là một hành trình dài và đa dạng, đã tạo ra nhiều tiến bộ quan trọng và mở ra nhiều cơ hội mới trong lĩnh vực khoa học máy và trí tuệ nhân tạo.

Khái niệm

Những năm gần đây, AI - Artificial Intelligence (Trí Tuệ Nhân Tạo), vàcụ thể hơn là Machine Learning nổi lên như một bằng chứng của cuộc cách mạng công nghiệp lần thứ tư Machine Learning là một tập con của AI

Mục tiêu chính của học máy là tạo ra các mô hình hoặc thuật toán có khả năng tìm ra mẫu, xuhướng hoặc thông tin hữu ích từ dữ liệu, từ đó có thể dự đoán hoặc đưa ra quyết định trên dữ liệu mới mà chưa được thấy trước đó Quá trình học trong học máy thường dựa trên việc tinh chỉnh các tham số hoặc trọng số của mô hình để tối ưu hoá hiệu suất của nó dựa trên mục tiêu cụ thể, chẳng hạn như chính xác dự đoán hoặc tối ưu hóa hàm mục tiêu

→ Machine Learning (Máy học hoặc học máy) là một lĩnh vực trong trí tuệ nhân tạo (AI) tập trung vào việc phát triển các thuật toán và mô hình máy tính có khả năng học từ dữ liệu để thực hiện nhiệm vụ mà chúng không cần phải đượclập trình cụ thể Thay vì việc lập trình thủ công, học máy cho phép máy tính tự động tìm hiểu và cải thiện hiệu suấttheo thời gian thông qua việc xử lý phân và tích dữ liệu

Hình 8.1: Ảnh minh hoạ-Theo tma.vn

Đặc điểm

Có rất nhiều ví dụ lặp lại các đặc điểm của học máy trong thế giới giàu dữ liệu ngày nay Dưới đây là sáu đặc điểm chính củamáyhọc:

8.3.1 : Khả năng thực hiện trực quan hóa dữ liệu tự động

Một lượng lớn dữ liệu được tạo ra bởi các doanh nghiệp và người dân thông thường một cách đều đặn

Bằng cách thể hiện các mối quan hệ trực quan trong dữ liệu, các doanh nghiệp không chỉ cóthể đưa ra quyết định tốt hơn mà còn tạo sự tự tin

Học máy cung cấp một loạt công cụ cung cấp các đoạn dữ liệu phong phú có thể được ápdụng cho cả dữ liệuphicấu trúc và cấu trúc

Với sự trợ giúp của các nền tảng thị giác dữ liệu tự động thân thiện với người dùng trong học máy, các doanh nghiệp có thể thu được một nguồn thông tin mới để tăng năng suất trong quá trình kinh doanh của họ

8.3.2 : Tự động hóa ở mức tốt nhất

Một trong những đặc điểm quan trọng nhất của học máy là khả năng tự động hóa cácnhiệm vụ lặp đi lặp lại và từ đó tăng năng suất.

Một số lượng lớn tổ chức đã sử dụng hệ thống tự động hóa tài liệu và email dựa trên học máy

Ví dụ, trong lĩnh vực tài chính một lượng lớn các nhiệm vụ lặp đi lặp lại, đòi hỏi dữ liệu nhiều và dễ dự đoán phải được thực hiện Chính vì vậy, lĩnh vực này sử dụng nhiều loại giải pháp học máy khác nhau một cách rất rộng rãi Các giải pháp này giúp làm cho nhiệm vụ kế toán trở nên nhanh hơn, thông minh hơn chính xác và hơn

Một số khía cạnh đã được xử lýbởi học máy bao gồm việc giải quyếtcác câu hỏi tài chính thông qua chatbot, dự đoán, quản lý chi phí, đơn giản hóa việc lập hóa đơn và tự động hóa việc cân đối ngân hàng

8.3.3 : Khám phá tương tác khách hàng Đối với bất kỳ doanh nghiệp nào, một trong những cách quan trọng nhất để thúc đẩy sự tương tác là tạo lòng trung thành đối với thương hiệu và xây dựng mối quan hệ khách hàng bền vững là bằng cách khởi đầu các cuộc trò chuyện có ý nghĩa với đối tượng khách hàng mục tiêu.

Học máyđóng vai trò quan trọng trong việc giúp các doanh nghiệp và thương hiệu tạo ra cáccuộc trò chuyện có giá trị hơn liên quan đến tương tác ách hàng kh Công nghệ này phân tích các cụm từ cụ thể, từ ngữ, câu, thành ngữ và định dạng nội dung mà đồng cảm với những thành viên của một phần của khán giả cụ thể

Bạn có thể nghĩ đến Pinterest, một nền tảng đang thành công sử dụng học máy để cá nhân hóa các đề xuất cho người dùng của mình Họ sử dụng công nghệ này để tìm kiếm nội dung mà người dùng sẽ quan tâm, dựa trên những vật thểmàhọ đã ghim trước đó

8.3.4 : Khả năng thay đổi thị trường thế chấp

Thực tế là xây dựng một điểm tín dụng tích cực thường đòi hỏi sự kỷ luật, thời gian và rất nhiều kế hoạch tài chính cho đa số người tiêu dùng Đối với các nhà cho vay, điểm tín dụng của người tiêu dùng là một trong những chỉ số quan trọng nhất về khả năng trả nợ, bao gồm nhiều yếu tố như lịch sử thanh toán, tổng nợ, thời gian sử dụng dịch vụ tín dụng v.v.

Với sự trợ giúp của học máy, các nhà cho vay hiện có thể hiểu rõ hơn về hình ảnh người tiêu dùng Họ có thể dự đoán liệu khách hàng cóphải người tiêu tiền hay ít nhiều, vàhiểu rõ điểm bùng phát của việc tiêu tiền của anh/chị ấy

Ngoài việc cho vay mua nhà, các tổ chức tài chính đang sử dụng các kỹ thuật tương tự cho các loại hình vay tiêu dùng khác

8.3.5 : Dự đoán và phân tích dữ liệu chính xác

Mục tiêu chính của học máy là dự đoán hoặc phân tích dữ liệu mới dựa trên kiến thức đã học từ dữ liệu đào tạo Mô hình học máy cókhả năng tự động ánh xạ đầu vào đến đầu rahoặc tìm ra cấu trúc bên trong dữ liệu

Thông thường, việc phân tích dữ liệu luôn bao gồm phương pháp thử và sai, một phương pháp trở nên không thể thi hành khi chúng ta đang làm việc với các tập dữ liệu lớn và không đồng nhất.

Học máy đến như là giải pháp tốt nhất cho tất cả những vấn đề này bằng cách cung cấp các phương pháp thay thế hiệu quả để phân tích các khối lượng lớn dữ liệu

Bằng việc phát triển các thuật toán hiệu quả và nhanh chóng, cũng như mô hình dữ liệu dựa trên quá trình xử lý dữ liệu thời gian thực, học máy có khả năng tạo ra các phân tích chính xác

8.3.6 : Kinh doanh thông minh ở mức tốt nhất

Các đặc điểm của học máy, khi kết hợp với công việc phân tích dữ liệu lớn, có thể tạo ra mức thông minh kinh doanh độ cực kỳ cao, thông qua đó nhiều ngành công nghiệp khác nhau đang thực hiện các sáng kiến chiến lược.

Từ bán lẻ đến dịch vụ tài chính, chăm sóc sức khỏe và nhiều lĩnh vực khác - học máy đã trở thành một trong những công nghệ hiệu quả nhất để thúc đẩy hoạt động kinh doanh

Ưu nhược điểm

8.4.1 Ưu điểm của học máy

○ Trong học máy, toàn bộ quá trình giải thích và phân tích dữ liệu được thực hiện bởi máy tính Không cần sự can thiệp của con người cho việc dự đoán hoặc giải thích dữ liệu.

○ Một trong những ví dụ là Google Home cókhả năng nhận diện giọng nói và sau đó tìm ra kết quả mà người dùng muốn, và phần mềm diệt virus phát hiện ra virus trên máy tính vàsửa chữa nó

● Sử dụng trong nhiều lĩnh vực:

○ Họcmáyđược sử dụng trong nhiều lĩnh vực cuộc sống như giáo dục, tế, kỹ y thuật, v.v Từ các ứng dụng nhỏ cho đến các máy phức tạp có cấu trúc lớn giúp trong việc dự đoán và phân tích dữ liệu

○ Nó không chỉ trở thành nhà cung cấp dịch vụ chăm sóc sức khỏemà còn cung cấp các dịch vụ nhân cá hơn cho khách hàng tiềm năng

● Có thể xử lý nhiều loại dữ liệu: Ngay cả trong môi trường không chắc chắn và biến đổi, nó có thể xử lý nhiều loại dữ liệu Nó có khả năng đa chiều cũng như là một người thực hiện nhiều nhiệm vụ

○ Như con người sau khi có kinh nghiệm tự cải thiện bản thân cùng cách, học máy cũng tự cải thiện và trở nên chính xác và hiệu quả hơn trong công việc Điều này dẫn đến quyết định tốt hơn

○ Ví dụ, trong dự báo thời tiết, càng có nhiều dữ liệu và kinh nghiệm, máy tính càng cung cấp dự báo nâng cao hơn.

● Có thể nhận biết xuhướng và mẫu:

○ Máy tính có thể học nhiều hơn khi nó nhận được nhiều dữ liệu hơn, và bởi vì nó nhận được nhiều dữ liệu hơn, nó cũng học cách nhận biết mẫu và xu hướng

○ Ví dụ, trên mạng xã hội như Facebook, người ta lướt qua nhiều dữ liệu và sở thích của họ được ghi lại và hiểu được mẫu và xu hướng, từ đó hiển thị các xu hướng tương tự hoặc giống nhau để duy trì sự quan tâm của họ trong ứng dụng cùng

● Được coi làtốt nhất cho Giáo dục:

○ Học máy được coi là tốt nhất cho giáo dục vì giáo dục là động và hiện nay lớp học thông minh, học từ xa và học trực tuyến cho học sinh đã tăng lên rất nhiều

○ Họcmáy thông minh sẽ hoạt động như một giáo viên vàgiữ cho học sinh cập nhật với tình hình thế giới hiện tại.

8.4.2 Nhược điểm của học máy

● Khả năng xảy ralỗi hoặc sai sót cao hơn:

○ Mặc dù học máyđược coi là chính xác hơn, nhưng nó rất dễ tổn thương

○ Ví dụ, một tập chương trình được cung cấp cho máy có thể bị thiên vị hoặc chứa lỗi Cùng một chương trình được sử dụng để đưa ra dự báo hoặc dự đoán khác, sau đó sẽ có một chuỗi lỗi có thể được hình thành, mặc dù có thể được nhận biết nhưng mất một thời gian để tìm ra nguồn gốc của lỗi

● Yêu cầu dữ liệu nhiều hơn:

○ Họcmáycàng có nhiều dữ liệu thì càng trở nên chính xác và hiệu quả, do đó cần nhiều dữ liệu hơn để đưa vào máy để dự báo hoặc đưa ra quyết định tốt hơn

○ Nhưng đôi khi có thể không khả thi Hơn nữa, dữ liệu phải không thiên vị và chất lượng tốt Yêu cầu về dữ liệu đôi khi gây khó khăn

● Tốn thời gian vàđòi hỏi tài nguyên nhiều hơn:

○ Có thời điểm quá trình học của máy có thể mất rất nhiều thời gian vì hiệu quả vàhiệusuất chỉ có thểđạt đượcqua kinh nghiệm, điều này lại đòi hỏi thời gian

○ Ngoài ra, tài nguyên yêu cầu cũng nhiều hơn, ví dụ như có thể cần thêm máy tính

● Khả năng sai sót trong việc giải thích dữ liệu:

○ Như chúng ta đã thấy, một chút biến đổi hoặc dữ liệu thiên vịcóthể dẫn đến chuỗi lỗi kéo dài và do đó có khả năng sai sót trong việc giải thích

○ Đôikhi dữliệumà không có lỗi cũng có thể bị máy giải thích sai lệch do dữ liệucung cấptrước đó cóthể không đáp ứng đủ cáccơ bản của máy

● Yêu cầu không gian nhiều hơn:

○ Khi cần nhiều dữ liệu để giải thích, cầnnhiều không gian để lưu trữ dữ liệu, đây là một trong những điểm yếu của học máy

○ Nhiều dữ liệu có nghĩa là có nhiều kiến thức hoặc tài liệu để học từ đối với máy, điều này yêu cầu nhiều không gian để lưu trữ hoặc quản lý dữ liệu để đưa raquyết định sau này.

Vai trò

Vai trò của Học Máy rất quan trọng và đa dạng, chúng đã thay đổi cách chúng ta tiếp cận và giải quyết nhiều vấn đề trong nhiều lĩnh vực Dưới đây là một số vai trò chính của Học Máy:

● Dự đoán và Dự báo: Học Máy có khả năng dự đoán kết quả dựa trên dữ liệu đã học từ quá khứ Điều này có thể được áp dụng trong dự đoán thời tiết, dự đoán xu hướng thị trường tài chính, và nhiều ứng dụng khác

● Phân loại và Nhận dạng: Học Máy có thể phân loại dữ liệu vào các nhóm khác nhau dựa trên các đặc điểmvà thông tin Vídụ, trong nhận dạng ảnh, nó cóthể xác định các đối tượng cụ thể trong hình ảnh.

● Xử lý ngôn ngữ tự nhiên: Học Máy có thể giúp máy tính hiểu và tương tác với ngôn ngữ con người Điều này có thể được sử dụng trong chatbot, dịch thuật tự động, phân tích ý kiến người dùng trên mạng xã hội, vànhiều ứng dụng khác

● Tối ưu hóa tự động: Học Máy có thể tìm kiếm các giải pháp tối ưu cho các vấn đề phức tạp Chẳng hạn, trong lập lịch giao hàng, nó có thể tối ưu hóa lộ trình để tiết kiệm thời gian và nguyên liệu

● Hiểu biết và phân tích dữ liệu phức tạp: Học Máy có thể phân tích và hiểu biết các mẫu phức tạp trong dữ liệu Điều này giúp hỗ trợ quyết định dựa trên thông tin được ẩn trong tập dữ liệu lớn và phức tạp.

● Tự động hóa công việc: Học Máy có thể tự động hoá c ácnhiệm vụ lặp đi lặp lại hoặc phức tạp, giúp giảm thời gian và công sức của con người Ví dụ, trong sản xuất tự động,nó cóthể kiểm soát vàđiều khiển các quy trình sản xuất

● Phát triển tự học: Học Máy có thể cải thiện hiệu suất của mình thông qua việc học từ dữ liệu mới Điều này cho phép nóthích ứng với môi trường và thay đổi theo thời gian

● Tạo ra thông tin thúvị từ dữ liệu: Học Máy có khả năng tìm ra thông tin mới, mẫu, và kiến thức từ dữ liệu có sẵn, giúp mở ra những cái nhìn mới và hỗ trợ trong việc đưa ra quyết định

8.6 Machine Learning thay có thế được CSDL không?

Machine learning không thể thay thế cơ sở dữ liệu mà thực tế là hai khái niệm này phục vụ mục đích khác nhau và có mối quan hệ bổ sung cho nhau chứ không phải là thay thế

+ Cơ sở dữ liệu (Database) là một hệ thống tổ chức vàlưu trữ dữ liệu theo cách có cấu trúc, có thể truy vấnvà quản lý Cơ sở dữ liệu lưu trữ thông tin theo các bảng,

60 các hàng và cột, đảm bảo tính toàn vẹn, an toàn và có khả năng truy vấn dữ liệu một cách hiệu quả

+ Machine learning là một lĩnh vực của trí tuệ nhân tạo (AI) tập trung vào việc phát triển các thuật toán và mô hình để máy tính có thể học từ dữ liệu vàcải thiện hiệu suất theo thời gian Machine learning không phải là một hệ thống lưu trữ dữ liệu, mà nó là công phân tích, cụ để xửlý và rút thông tin ra từ dữ liệu

Sự kết hợp giữa cơ sở dữ liệuvà machine learning là quan trọng

+ Cơ sở dữ liệu cung cấp dữ liệu cấu trúc, sẵn sàng để thực hiện các thao tác truy vấn phân tích và

+ Machine learning sử dụng dữ liệu từ cơ sở dữ liệu để tạo ra các mô hình dự đoán, phân loại, vànhận diện mẫu trong dữ liệu

→ Cơ sở dữ liệu cung cấp nguyên liệu cho machine learning, và machine learning cung cấp sự thông minh và phân tích sâu hơn từ dữ liệu

- Tóm lại, machine learning không thể thay thế cơ sở dữ liệu mà cả hai phải hoạt động cùng nhau để tạo ragiá trị từ dữ liệu

Các khái niệm mở rộng của học máy liên quan đến những phương pháp và lĩnh vực mà học máy có thể được áp dụng để tạo ra giá trị và sự thông minh trong các tình huống phức tạp hơn Dưới đây là một số khái niệm mở rộng của học máy:

● Deep Learning (Học Sâu): Deep learning là một nhánh của học máy tập trung vào việc xây dựng và huấn luyện các mạng neuron nhân tạo có nhiều lớp Deep learning đã mang lại sự cách mạng trong việc xử lý ảnh, nhận dạng giọng nói, dịch máy, và nhiều ĩnh vực l khác

● Reinforcement Learning (Học Tăng cường): Reinforcement learning tập trung vào việc học thông qua việc thực hiện hành động và nhận phản hồi từ môi trường Nó thường được sử dụng trong việc xây dựng các hệ thống tự động quyết định, như trò chơimáy tính và robot

Khái niệm mở rộng

Các khái niệm mở rộng của học máy liên quan đến những phương pháp và lĩnh vực mà học máy có thể được áp dụng để tạo ra giá trị và sự thông minh trong các tình huống phức tạp hơn Dưới đây là một số khái niệm mở rộng của học máy:

● Deep Learning (Học Sâu): Deep learning là một nhánh của học máy tập trung vào việc xây dựng và huấn luyện các mạng neuron nhân tạo có nhiều lớp Deep learning đã mang lại sự cách mạng trong việc xử lý ảnh, nhận dạng giọng nói, dịch máy, và nhiều lĩnh vực khác

● Reinforcement Learning (Học Tăng cường): Reinforcement learning tập trung vào việc học thông qua việc thực hiện hành động và nhận phản hồi từ môi trường Nó thường được sử dụng trong việc xây dựng các hệ thống tự động quyết định, như trò chơimáy tính và robot

● Transfer Learning (Học Truyền Transfer): Transfer learning là việc sử dụng các kiến thức đã học từ một tác vụ để cải thiện hiệu suất trên một tác vụ khác Điều

61 này giúp tận dụng kiến thức đã có và giảm thiểu thời gian và nguồn lực cần cho việc huấn luyện.

● Unsupervised Learning (Học không giám sát): Trong loại học này, không códữ liệu đào tạo được gắn nhãn hay giám sát Mục tiêu của học không giám sát là khám phá cấu trúc ẩn trong dữ liệu mà không cần biết kết quả mong muốn trước

● Semi-Supervised Learning (Học bán giám sát): Đây là sự kết hợp giữa học có giám sát và học không giám sát Một phần dữ liệu có nhãn và một phần không có Điều này có thể giúp tận dụng cả dữ liệu không có nhãn để cải thiện hiệu suất học máy

● Online Learning (Học trực tuyến): Trong loại học này, mô hình được cập nhật liên tục khi có dữ liệu mới thay vì huấn luyện một lầnduynhất vàsử dụng mô hình đó Điều này thích hợp cho các tình huống dữ liệu đang liên tục thay đổi

● Bayesian Learning (Học Bayesian): Bayesian learning sử dụng lý thuyết xác suất Bayesian để xác định xác suất của các kết quả khả thi Nó thường được sử dụng trong việc giảiquyết các vấn đề liên quan đến không chắc chắn

● Evolutionary Algorithms (Giải thuật tiến hóa): Các giải thuật tiến hóa mô phỏng quá trình tiến hóa trong tự nhiên để tối ưu hóa các vấn đề phức tạp Chúng có thể được sử dụng để tìm kiếm giải pháp tốt nhất trong không gian lớn của các biến số

IX, CƠ SỞ DỮ LIỆU CÔNG NGHỆ ỨNG DỤNG

Blockchain là công nghệ chuỗi (chain) – khối (block), cho phép truyền tải dữ liệu một cách an toàn dựa trên hệ thống mã hóa vô cùng phức tạp, tương tự như cuốn sổ cái kế toán của một công ty, nơi mà tiền được giám sát chặt chẽ và ghi nhận mọi giao dịch trên mạng ngang hàng

Mỗi khối (block) đều chứa thông tin về thời gian khởi tạo và được liên kết với khối trước đó, kèm theo đó là một mã thời gian và dữ liệu giao dịch Dữ liệu khi đã được mạng lưới chấp nhận thì sẽ không có cách nào thay đổi được Blockchain được thiết kế để chống lại việc gian lận, thay đổi của dữ liệu

Cha đẻ của Blockchain được ghi nhận cho Satoshi Nakamoto vào năm 2008 Tuy nhiên Blockchain đãcó chiều dài lịch sử từ đầu những năm 90s Ý tưởng về Blockchain bắt nguồn từ một ý tưởng về chuỗi dữ liệu bất biến được mô tả lần đầu năm 1991 bởi 2 nhà nghiên cứu W Scott Stornetta và Stuart Haber trên

1 bài báo có tiêu đề: “Làm thế nào để đóng dấu thời gian một tài liệu kỹ thuật số” Trên bài báo đó đã đưa ra cácvấn đề cần giải quyết bài toán đóng dấu thời gian chính xác cho các tệp dữ liệu nhằm ghi nhận thời gian thực để không bị chỉnh sửa và giả mạo Tuy nhiên, cách giải thích của Stornetta và Haber được coi là không hoàn chỉnh và giới chuyên gia cho rằng vẫn cần một bên thứ 3 để đảm bảo Sau đó công nghệ blockchain được đổi mới từ các nhà khoa học máy tính khác cho tới năm 2008 với sự ra đời của bitcoin, Satoshi Nakamoto đã được ghi nhận là người phát minh ra

Hình 9.1: Các nhà phát triển công nghệ Blockchain

Blockchain bao gồm phần 2 chính:

+ Khối (Block): các khối chứa dữ liệu

+ Chuỗi (Chain): do các khối chứa dữ liệu liên kết với nhau tạo thành chuỗi

Mỗi khối (Block) bao gồm 3 thành phần chính: Data (Dữ liệu), Mã Hash của khối hiện tại (Mã hàm băm) và Mã Previous Hash (mã Hash khối trước đó)

+ Data (Dữ liệu): Các bản ghi dữ liệu đã xác minh của bạn được bảo vệ bằng các thuật toán mã hóa phụ thuộc vào mỗi chuỗi khối (Thông tin người gửi, người nhận, số lượng coin đã được gửi,…)

+ Mã Hash của khối hiện tại (Mã hàm băm): Là một chuỗi ký tự và số được tạo ngẫu nhiên không giống nhau hoàn toàn Nó đại diện cụ thể cho khối và sử dụng một thuật toán mã hóa để mã hóa nó Mã này được sử dụng để phát hiện những thay đổi trong khối Những mã này là duy nhất, không bao giờ trùng nhau

Cơ s d ở ữ liệu công ngh ệ ứn g d ụng Blockchain

Khái niệm

Blockchain là công nghệ chuỗi (chain) – khối (block), cho phép truyền tải dữ liệu một cách an toàn dựa trên hệ thống mã hóa vô cùng phức tạp, tương tự như cuốn sổ cái kế toán của một công ty, nơi mà tiền được giám sát chặt chẽ và ghi nhận mọi giao dịch trên mạng ngang hàng

Mỗi khối (block) đều chứa thông tin về thời gian khởi tạo và được liên kết với khối trước đó, kèm theo đó là một mã thời gian và dữ liệu giao dịch Dữ liệu khi đã được mạng lưới chấp nhận thì sẽ không có cách nào thay đổi được Blockchain được thiết kế để chống lại việc gian lận, thay đổi của dữ liệu.

Lịch sử ra đời

Cha đẻ của Blockchain được ghi nhận cho Satoshi Nakamoto vào năm 2008 Tuy nhiên Blockchain đãcó chiều dài lịch sử từ đầu những năm 90s Ý tưởng về Blockchain bắt nguồn từ một ý tưởng về chuỗi dữ liệu bất biến được mô tả lần đầu năm 1991 bởi 2 nhà nghiên cứu W Scott Stornetta và Stuart Haber trên

1 bài báo có tiêu đề: “Làm thế nào để đóng dấu thời gian một tài liệu kỹ thuật số” Trên bài báo đó đã đưa ra cácvấn đề cần giải quyết bài toán đóng dấu thời gian chính xác cho các tệp dữ liệu nhằm ghi nhận thời gian thực để không bị chỉnh sửa và giả mạo Tuy nhiên, cách giải thích của Stornetta và Haber được coi là không hoàn chỉnh và giới chuyên gia cho rằng vẫn cần một bên thứ 3 để đảm bảo Sau đó công nghệ blockchain được đổi mới từ các nhà khoa học máy tính khác cho tới năm 2008 với sự ra đời của bitcoin, Satoshi Nakamoto đã được ghi nhận là người phát minh ra

Hình 9.1: Các nhà phát triển công nghệ Blockchain

Cấu trúc của Blockchain

Blockchain bao gồm phần 2 chính:

+ Khối (Block): các khối chứa dữ liệu

+ Chuỗi (Chain): do các khối chứa dữ liệu liên kết với nhau tạo thành chuỗi

Mỗi khối (Block) bao gồm 3 thành phần chính: Data (Dữ liệu), Mã Hash của khối hiện tại (Mã hàm băm) và Mã Previous Hash (mã Hash khối trước đó)

+ Data (Dữ liệu): Các bản ghi dữ liệu đã xác minh của bạn được bảo vệ bằng các thuật toán mã hóa phụ thuộc vào mỗi chuỗi khối (Thông tin người gửi, người nhận, số lượng coin đã được gửi,…)

+ Mã Hash của khối hiện tại (Mã hàm băm): Là một chuỗi ký tự và số được tạo ngẫu nhiên không giống nhau hoàn toàn Nó đại diện cụ thể cho khối và sử dụng một thuật toán mã hóa để mã hóa nó Mã này được sử dụng để phát hiện những thay đổi trong khối Những mã này là duy nhất, không bao giờ trùng nhau

+ Mã Previous Hash (mã Hash khối trước đó): Được sử dụng giúp cho các khối liền kề biết khối nào ở trước, khối nào ở sau, nhằm liên kết đúng với nhau Tuy nhiên khối đầu tiên, bởi không có vì khối nào trước nên mã Hash nó của nólà một chuỗi số

0 Khối đầu tiên này được gọi là Genesis Block tức là “Khối nguyên thủy” hay khối gốc

Hình 9.2: Mô hình cấu trúc Blockchain - Nguồn Cục chuyển : đổi số quốc gia

Đặc điểm nổi bật của Blockchain

+ Tính bất biến: Tất cả các giao dịch thực hiện trên Blockchain không thể làm giả, không thể phá hủy, thêm bớt, chèn dữ liệu Các dữ liệu trong Blockchain được lưu trữ mãi mãi Theo lý thuyết, khi không còn Internet trên toàn cầu thì chỉ có máy tính lượng tử mới cóthểgiải mã Blockchain và công nghệ Blockchain biến mất

+ Tính bảo mật: Thông tin, dữ liệu trong được phân tán và an toàn tuyệt đối là đặc điểm tiếp theo của Blockchain Chỉ có người nắm giữ Private Key (khóa riêng tư) mới có thể truy cậpcác dữliệu bên trong Blockchain

+ Tính minh bạch: Bất cứ ai cũng có thể theo dõi dữ liệu Blockchain đi từ địa chỉ này tới địa chỉ khác Đặc biệt, ai cũng có thể thống kê và truy xuất toàn bộ lịch sử trên địa chỉ đó Thậm chí người ta có thể phân quyền để cho phép người khác truy cập một phần thông tin trên Blockchain

+ Hợp đồng thông minh: Đây là hợp đồng kỹ thuật số được nhúng vào đoạn code if-this-then-that (IFTTT) và chúng có thể tự thực thi mà không cần bên thứ ba, không ai có thể ngăn cản hoặc phá hủy hợp đồng này

+ Tính phi tập trung: Blockchain hoạt động độc lập dựa trên cơ chế của các thuật toán đồng thuận hoàn toàn không bị bất kỳ một tổ chức nào nắm quyền kiểm soát nên không có chuyện bên thứ 3 nắm quyền kiểm soát

+ Tính phân tán: Các block chứa dữ liệu giống nhau nhưng được phân tán ở nhiều nơi khác nhau Nên trong trường hợp dữ liệu gặp vấn đề mất hoặc hỏng thì vẫn có thể khôi phục nhờ dữ liệu còn trên Blockchain

Hệ thống Blockchain chia thành 3 loại chính

Bất kỳ ai cũng có quyền đọc và ghi dữ liệu trên Blockchain Quá trình xác thực giao dịch trên Blockchain này đòi hỏi phải córất nhiều nút tham gia Vì vậy, muốn tấn công được vào hệ thống Blockchain này cần chi phí rất lớn và thực sự không khả thi

Người dùng chỉ được quyền đọc dữ liệu, không có quyền ghi vì điều này thuộc về bên tổ chức thứ ba tuyệt đối tin cậy Vì đây là một Private Blockchain, cho nên thời gian xác nhận giao dịch khá nhanh vì chỉ cần một lượng nhỏ thiết bị tham gia xác thực giao dịch Ví dụ: Ripple là một dạng Private Blockchain, hệ thống này cho phép 20% các nút là gian dối vàchỉ cần 80% còn lại hoạt động ổn định là được

9.5.3 Permissioned (hay còn gọi Consortium) là

Một dạng của Private nhưng bổ sung thêm 1 số tính năng khác, đây là sự kết hợp giữa Public và Private Ví dụ: Các ngân hàng hay tổ chức tài chính liên doanh sẽ sử dụng Blockchain cho riêng mình.

Các phiên bản của công nghệ Blockchain

Công nghệ Blockchain 1.0 – Tiền tệ và Thanh toán: Ứng dụng chính của phiên bản này là tiền mã hoá: bao gồm việc chuyển đổi tiền tệ, kiều hối và tạo lập hệ thống

65 thanh toán kỹ thuật số Đây cũng là lĩnh vực quen thuộc với chúng ta nhất mà đôi khi khá nhiều người lầm tưởng Bitcoin Blockchain và là một

Công nghệ Blockchain 2.0 – Tài chính và Thị trường: Ứng dụng xử lý tài chính và ngân hàng: mở rộng quy mô của Blockchain, đưa vào các ứng dụng tài chính và thị trường Các tài sản bao gồm cổ phiếu, chi phiếu, nợ, quyền sở hữu và bất kỳ điều gì có liên quan đến thỏa thuận hay hợp đồng

Thiết kế và Giám sát hoạt động: Đưa Blockchain vượt khỏi biên giới tài chính, và đi vào các lĩnh vực như giáo dục, chính phủ, y tế và nghệ thuật.

Hình 9.3: Các phiên bản Blockchain -blogchiasekienthuc.com

Ứng dụng của blockchain trong thực tế

+ Nếu doanh nghiệp sản xuất sữa ứng dụng Blockchain vào quản lý chất lượng sản phẩm thì nhàquản & lý người tiêudùng có thể truy xuất được các thông tin

+ Nhà sản xuất có thể thống kê và lưu trữ toàn bộ sữa đó trên thị trường, biết được số lượng sữa được tiêu thụ, số lượng sữa còn hạn & đã hết hạn

9.7.2 Đối với người tiêu dùng:

+ Người tiêu dùng có thể ứng dụng Blockchain để kiểm tra thông tin hộp sữa có phải hàng chính hãng hay không nhằm ngăn chặn sản phẩm nhái trên thị trường

+ Walmart – nhà bán lẻ tại Mỹ là một trong những doanh nghiệp tiên phong sử dụng Blockchain Hiện tại, thương hiệu đã sử dụng Blockchain để theo dõi nguồn thịt lợn nhập từ Trung Quốc.

9.7.3 Đối với lĩnh vực y tế:

+ Khi người bệnh đi khám hay xét nghiệm, mọi kết quả khám bệnh của họ sẽ được lưu trữ Việc sử dụng công nghệ Blockchain giúp sẽ người bệnh bảo mật toàn bộ thông tin và chỉ số xét nghiệm của mình Trong trường hợp người bệnh có nhu cầu chuyển sang bệnh viện khác ở bất kỳ đâu, họ chỉ cần kết chuyển thông tin trên chuỗi Blockchain cho dù hai bệnh viện (nơi khám ban đầu và nơi chữa bệnh mới) không cùng ngôn ngữ hay sử dụng phần mềm khác nhau

9.7.4 Đối với ngành tài chính:

+ Nhiều ngân hàng và các tổ chức tài chính khác đã nghiên cứu, áp dụng công nghệ Blockchain vào các hoạt động nghiệp vụ của mình

+ Tại Châu Á, OCBC Bank là ngân hàng đầu tiên trên thế giới sử dụng công nghệ Blockchain trong dịch vụ chuyển tiền nội địa và quốc tế Điều này đã làm tăng hiệu suất, sự minh bạch, giảm chi phí và cải thiện trải nghiệm khách hàng

9.7.5 Đối với ngành giáo dục :

+ Công nghệ blockchain trong giáo dục giúp minh bạch hóa hồ sơ học sinh, sinh viên, giúp nhà trường hay nhà tuyển dụng sau này dễ dàng truy xuất để kiểm tra quá trình học tập của ứng viên.

Blockchain cũng có những ưu điểm và nhược điểm

+ Cải thiện độ chính xác bằng cách loại bỏ sự tham gia của con người vào quá trình xác minh

+ Giảm thiểu chi phíbằng cách loại bỏ quá trình xác minh của bên thứ ba

+ Tính phi tập trung làm cho việc giả mạo trở nên khó hơn

+ Giao dịch an toàn, riêng tư và hiệu quả

+ Cung cấp giải pháp thay thế ngân hàng và cách để bảo mật thông tin cá nhân cho công dân của các quốc gia có chính phủ không ổn định hoặc kém phát triển 9.8.2 Nhược điểm Blockchain:

+ Chi phí công nghệ đáng kể liên quan đến việc khai thác Bitcoin

+ Giao dịch thấp mỗi giây

+ Lịch sử sử dụng cho các hoạt động bất hợp pháp, như "Dark Web"

+ Quy định thay đổi tuỳ theo thẩm quyền và vẫn không chắc chắn.

+ Lưu trữ dữ liệu bị giới hạn

BỘ TÀI CHÍNH HỌC VIỆN TÀI CHÍNH

CÁC MÔ HÌNH, LOẠI HÌNH KỸ THUẬT HIỆN ĐẠI TRONG QUẢN TRỊ CSDL

Giảng viên hướng dẫn: GV Hoàng Phương Thảo

Sinh viên Đỗ Quốc Khánh 2273404050048

Nguyễn Phương Linh 2273404050050 Nguyễn Thị Hải Hà 2273404050043

Thiều LêDũng 2273404050041Nguyễn Thị Nguyệt Hằng 2273404050012Nguyễn Minh Nguyệt 2273404050012

I Kho dữ liệu – Data Warehouse 5

1.1 Data warehouse là gì? 5 1.2 Đặc điểm chính của Data warehouse 6 1.3 Đối tượng sử dụng Data warehouse 6 1.4 Kiến trúc của Data warehouse 6 1.5 Các loại Data Warehouse 7 1.6 Lợi ích của Data warehouse 8 1.7 Ưu nhược điểm của Data Warehouse 8 1.8 Ứng dụng của Data Warehouse trong thực tế 9

II Real – time processing (Xử lí thời gian thực) 11

2.1 Định nghĩa 11 2.2 Các thành phần chính của một hệ thống xử lý thời gian thực: 11 2.3 Ưu điểm 12 2.4 Nhược điểm 12 2.5 Thử thách 12 2.6 Ứng dụng 12

III Big Data (Kiến trúc dữ liệu lớn) 14

3.1 Khái niệm 14 3.2 Các công việc trong Big Data 14 3.3 Vai trò 14 3.4 Thách thức 14 3.5 Thành phần 14 3.6 Ứng dụng của Big Data hiện nay 15 3.7 Các phương pháp riêng của Big Data 17

IV Cơ sở dữ liệu đám mây (Cloud Database) 21

4.1 Khái niệm Cloud Database 21 4.2 Các mô hình triển khai 21 4.3 Ưu điểm của việc sử dụng CSDL đám mây 21 4.4 Nhược điểm của CSDL đám mây 22 4.5 Các giải pháp cơ sở dữ liệu đám mây 22 4.6 Cơ sở dữ liệu của tương lai - Cơ sở dữ liệu đám mây tự động 23 4.7 Những điểm cần quan tâm khi lựa chọn CSDL đám mây 24

V NoSQL - Cơ sở dữ liệu NoSQL 26

5.1 Yếu tố hình thành NoSQL 26 5.2 Lịch sử ra đời 27 5.3 Khái niệm 27 5.4 Đặc điểm của NoSQL 28 5.5 Cơ sở dữ liệu NoSQL hoạt động như nào? 29 5.6 Bốn loại cơ sở dữ liệu NoSQL quan trọng 30 5.7 Phân biệt SQL và NoSQL 32 5.8 Những hạn chế của NoSQL 34 5.9 Triển khai cơ sở dữ liệu NoSQL trong các doanh nghiệp tổ chức 35

VI Cơ sở dữ liệu đa mô hình (Multi-model database) 37

6.1 Lịch sử ra đời 37 6.2 Khái niệm: 37 6.3 Đặc điểm: 37 6.4 Vai trò 37 6.5 Ưu và nhược điểm của CSDL đa mô hình 39 6.6 Các trường hợp sử dụng CSDL đa mô hình 39

VII Trí tuệ nhân tạo (Artificial Intelligence-AI) 40

7.1 Động lực phát triển trí tuệ nhân tạo 40 7.2 Khái niệm Trí tuệ nhân tạo 41 7.3 Quá trình tiến hóa và phát triển của Trí tuệ nhân tạo 42 7.4 Phân loại trí tuệ nhân tạo 43 7.5 Trí tuệ nhân tạo và các nhánh nghiên cứu 44 7.6 Những thành công của học sâu trong thời gian gần đây 46 7.7 Các bước chính trong ứng dụng học sâu 49 7.8 Tác động kinh doanh và xã hội 50 7.9 Thách thức của trí tuệ n hân tạo 52

VIII Machine Learning - Học máy 52

8.1 Lịch sử ra đời 52 8.2 Khái niệm 53 8.3 Đặc điểm 54 8.4 Ưu nhược điểm 56 8.5 Vai trò 58 8.6 Machine Learning có thay thế được CSDL không? 59 8.7 Khái niệm mở rộng 60

IX, CƠ SỞ DỮ LIỆU CÔNG NGHỆ ỨNG DỤNG BLOCKCHAIN 61

9.1 Khái niệm 61 9.2 Lịch sử ra đời 61 9.3 Cấu trúc của Blockchain 62 9.4 Đặc điểm nổi bật của Blockchain 63 9.5 Hệ thống Blockchain chia thành 3 loại chính: 64 9.6 Các phiên bản của công nghệ Blockchain 64 9.7 Ứng dụng của blockchain trong thực tế 65 9.8 Blockchain cũng có những ưu điểm và nhược điểm 66

Thế kỷ 21 là thời đại của nền kinh tế trí thức Mọi hoạt động của chúng ta muốn đạt hiệu quả cao, giành được thắng lợi trong thế cạnh tranh gay gắt thì nhất thiết phải có những phương pháp để có được những thông tin, tri thức cần thiết một cách nhanh và chính xác

Việc áp dụng công nghệ thông tin vào thực tiễn sản xuất nghiệp vụ đã mang lại những hiệu quả và lợi ích to lớn Công nghệ ngày càng được phát triển, hoàn thiện hơn để đáp ứng những yêu cầu ngày càng cao của thực tế nghiên cứu, quản lý sản xuất và nghiệp vụ Sự mở rộng qui mô áp dụng từ những ứng dụng đơn lẻ đến các hệ thống thông tin cỡ lớn đã dẫn đến những thành công vượt bậc trong nghiệp vụ Các hệ thống thông tin từ chỗ chỉ giải quyết những xử lý công việc hàng ngày nay đã tiến tới đáp ứng được những yêu cầu ở mức độ cao hơn Các nhà quản lý điều hành không những biết được công việc đang diễn ra như thế nào mà còn biết cái gìsẽ xảy ra sau đó, có nghĩa là thông tin mang tính phân tích và hệ thống thông tin có khả năng hỗ trợ quyết định.

Ngày nay để quản lý và khai thác thông tin, dữ liệu một cách chính xác và hiệu quả, chúng ta có rất nhiều mô hình, loại hình kĩ thuật hiện đại để thực hiện việc đó Vì vậy nhóm chúng em đã tiến hành tìm hiểu, đánh giá các kĩ thuật hiện đại đó một cách tổng quát và đầy đủ nhất, giúp chúng ta có cáinhìn rộng hơn về quản trị cơ sở dữ liệu.

I Kho dữ liệu – Data Warehouse

Data warehouse hay Kho dữ liệu là một loại hệ thống quản lý lưu trữ dữ liệu được thiết kế để kích hoạt và hỗ trợ các hoạt động kinh doanh thông minh (BI), đặc biệt phân tích Data warehouse là chỉ nhằm mục đích thực hiện các truy vấn và phân tích và thường chứa một lượng lớn dữ liệu lịch sử.

Khái niệm về Data warehouse đã tồn tại từ những năm 1980, khi nó được phát triển để giúp chuyển đổi dữ liệu từ cung cấp năng lượng cho các hoạt động sang cung cấp năng lượng cho các hệ thống hỗ trợ quyết định thể hiện trí tuệ kinh doanh Data warehouse tập trung và tổng hợp một lượng lớn dữ liệu từ nhiều nguồn như tiếp thị, bán hàng, tài chính, ứng dụng hướng tới khách hàng, và các hệ thống đối tác bên ngoài

Hình 1.1 Data Warehouse – Theo Bizfly Cloud Ở cấp độ kỹ thuật, kho dữ liệu định kỳ lấy dữ liệu từ các ứng dụng và hệ thống đó; sau đó, dữ liệu trải qua quá trình định dạng và nhập để khớp với dữ liệu đã có trong kho Data warehouse lưu trữ dữ liệu đã xử lý này để sẵn sàng cho những người ra quyết định truy cập Tần suất kéo dữ liệu xảy ra hoặc cách dữ liệu được định dạng, v.v khác nhau sẽ tùythuộc vào nhu cầu của tổ chức.

1.2 Đặc điểm chính của Data warehouse

- Chỉ hỗ trợ quá trình ra quyết định, không hỗ trợ các xử lý giao dịch như các CSDL đơn lẻ

- Lưu trữ các dữ liệu hiện thời và các dữ liệu lịch sử mà các nhà quản lý của tổ chức quan tâm

- Nguồn gốc dữ liệu rất đa dạng: từ các hệ thống nghiệp vụ của tổ chức; từ các nguồn bên ngoài;… được quản trị bằng các mô hình khác nhau

- Dữ liệu từ các nguồn khác nhau đó được sao chép một cách có chọn lọc vào kho dữ liệu theo một chu kỳ nhất định (hàng giờ, hàng ngày, hàng tháng,…) và được chuẩn hóa theo một mô hình dữ liệu chung và được tổng hợp theo cách sao cho có thể sử dụng được trong phạm vi toàn tổ chức trong việc hỗ trợ ra quyết định.

1.3 Đối tượng sử dụng Data warehouse

Việc sử dụng Data warehouse là cần thiết đối với:

• Nhân sự chịu trách nhiệm ra quyết định dựa vào khối lượng dữ liệu

• Người sử dụng các quy trình phức tạp, tùychỉnh để thu thập thông tintừ nhiều nguồn khác nhau

• Người có nhu cầu sử dụng công nghệ đơn giản để truy cập dữ liệu

• Người muốn có một cách tiếp cận được hệ thống hóa để đưa raquyết định

• Người muốn tăng hiệu suất với lượng dữ liệu khổng lồ cho các báo cáo, lưới hoặc biểu đồ

• Người muốn khám phá "các mẫu ẩn" của luồng dữ liệu và nhóm

1.4 Kiến trúc của Data warehouse

Kiến trúc của Data warehouse được xác định dựa trên nhucầu của doanh nghiệp Một số kiến trúc phổ biến của Data warehouse bao gồm:

Các Data warehouse đều có một thiết kế cơ bản chung, với siêu dữ liệu, dữ liệu tóm tắt và dữ liệu thô được lưu trong kho lưu trữ trung tâm Kho lưu trữ được cung cấp bởi các nguồn dữ liệu tại một đầu, được người dùng cuối truy cập để thực hiện phân tích, báo cáo và khai thác ở đầu còn lại

Ngày đăng: 17/05/2024, 12:21

HÌNH ẢNH LIÊN QUAN

Hình 1.1 Data Warehouse – Theo Bizfly Cloud - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 1.1 Data Warehouse – Theo Bizfly Cloud (Trang 6)
Hình 1.2: Các loại Data warehouse   Theo Bizfly Cloud  – 1.5.1 Kho    dữ liệu doanh nghiệp (EDW - Enterprise Data Warehouse) - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 1.2 Các loại Data warehouse Theo Bizfly Cloud – 1.5.1 Kho dữ liệu doanh nghiệp (EDW - Enterprise Data Warehouse) (Trang 8)
Hình 2.1: Mô hình hệ  thống  Real-time processing ( Zoiner Tejada )  Xử lý thời gian thực được hiểu là quá trình xử lý luồng dữ liệu đầu vào không  giới hạn, với các yêu cầu về độ trễ rất ngắn để xử lý — được đo bằng mili giây hoặc giây - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 2.1 Mô hình hệ thống Real-time processing ( Zoiner Tejada ) Xử lý thời gian thực được hiểu là quá trình xử lý luồng dữ liệu đầu vào không giới hạn, với các yêu cầu về độ trễ rất ngắn để xử lý — được đo bằng mili giây hoặc giây (Trang 12)
Hình 3.1: Sơ   dòng  đồ chảy dữ liệu (Theo Zoiner Tejada)  Dữ liệu chảy vào đường dẫn nóng bị hạn chế bởi các yêu cầu về độ trễ do lớp  tốc độ áp đặt để dữ liệu có thể được xử lý nhanh nhất có thể - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 3.1 Sơ dòng đồ chảy dữ liệu (Theo Zoiner Tejada) Dữ liệu chảy vào đường dẫn nóng bị hạn chế bởi các yêu cầu về độ trễ do lớp tốc độ áp đặt để dữ liệu có thể được xử lý nhanh nhất có thể (Trang 18)
Hình 3.2: Hệ thống xử    lý dữ liệu (Theo Zoiner Tejada) - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 3.2 Hệ thống xử lý dữ liệu (Theo Zoiner Tejada) (Trang 19)
Hình 9.1: Các nhà phát triển công  nghệ  Blockchain - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 9.1 Các nhà phát triển công nghệ Blockchain (Trang 63)
Hình 9.2:  Mô  hình  cấu trúc Blockchain - Nguồn Cục chuyển  :   đổi số quốc gia - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 9.2 Mô hình cấu trúc Blockchain - Nguồn Cục chuyển : đổi số quốc gia (Trang 64)
Hình 9.3: Các phiên bản Blockchain -blogchiasekienthuc.com - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 9.3 Các phiên bản Blockchain -blogchiasekienthuc.com (Trang 66)
Hình 3.3: Sơ đồ  một  quá trình  hoạt động của  IoT (Theo Zoiner Tejada)  - Cloud gateway (cổng đám  mây) nhập các sự kiện thiết bị ở ranh giới  đám mây,  sử dụng  hệ  thống nhắn  tin có độ trễ thấp,  đáng tin cậy - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 3.3 Sơ đồ một quá trình hoạt động của IoT (Theo Zoiner Tejada) - Cloud gateway (cổng đám mây) nhập các sự kiện thiết bị ở ranh giới đám mây, sử dụng hệ thống nhắn tin có độ trễ thấp, đáng tin cậy (Trang 89)
Hình 4.1:  Mô  hình    cơ sở dữ  liệu đám  mây - Theo phoeniznap.com  Có nhiều nhà cung cấp và tùy chọn cho các tổ chức đang tìm kiếm giải pháp cơ sở  dữ liệu đám mây cho doanh nghiệp của họ - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 4.1 Mô hình cơ sở dữ liệu đám mây - Theo phoeniznap.com Có nhiều nhà cung cấp và tùy chọn cho các tổ chức đang tìm kiếm giải pháp cơ sở dữ liệu đám mây cho doanh nghiệp của họ (Trang 94)
Hình  5.1: Cơ sở dữ liệu SQL – Theo  Quản Trị Mạng - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
nh 5.1: Cơ sở dữ liệu SQL – Theo Quản Trị Mạng (Trang 96)
Hình 5.2: Các loại kiểu  dữ liệu quan trọng – Theo Quản Trị Mạng - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 5.2 Các loại kiểu dữ liệu quan trọng – Theo Quản Trị Mạng (Trang 100)
Hình 5.3: Điểm khác biệt giữa SQL & NoSQL    – Theo Quản Trị Mạng - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 5.3 Điểm khác biệt giữa SQL & NoSQL – Theo Quản Trị Mạng (Trang 103)
Hình 5.3: Triển khai cơ sở dữ  liệu  theo    tổ thức – Theo Quản Trị  Mạng - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 5.3 Triển khai cơ sở dữ liệu theo tổ thức – Theo Quản Trị Mạng (Trang 105)
Hình 7.1: Động lực của trí tuệ nhân tạo: khả năng xử lý, dữ liệu lớn, thuật toán  (Nguồn: BCG) - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 7.1 Động lực của trí tuệ nhân tạo: khả năng xử lý, dữ liệu lớn, thuật toán (Nguồn: BCG) (Trang 110)
Hình 7.2 tóm tắt quá trình tiến hóa TTNT qua mười giai đoạn kể từ năm 1943 tới  nay, được S - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 7.2 tóm tắt quá trình tiến hóa TTNT qua mười giai đoạn kể từ năm 1943 tới nay, được S (Trang 112)
Hình 7.3: Các khu vực của Trí tuệ nhân  tạo 7.4 Phân  loại trí  tuệ  nhân  tạo - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 7.3 Các khu vực của Trí tuệ nhân tạo 7.4 Phân loại trí tuệ nhân tạo (Trang 113)
Hình 7.5: (a) cách tiếp cận truyền thống,  (b) cách tiếp cận dùng mạng nơron học  sâu - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 7.5 (a) cách tiếp cận truyền thống, (b) cách tiếp cận dùng mạng nơron học sâu (Trang 118)
Hình 7.6: Đầu tư cho AI tăng >50%/ năm (nguồn: BCG) - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 7.6 Đầu tư cho AI tăng >50%/ năm (nguồn: BCG) (Trang 120)
Hình 7.7: Trí tuệ nhân  tạo và máy học - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 7.7 Trí tuệ nhân tạo và máy học (Trang 121)
Hình 8.1: Ảnh minh hoạ-Theo tma.vn - bài tập lớn nhóm 2 các mô hình loại hình kỹ thuật hiện đại trong quản trị csdl
Hình 8.1 Ảnh minh hoạ-Theo tma.vn (Trang 124)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w