III NỘI DUNG NGHIÊN CỨU VÀ KẾT QUẢ ĐẠT ĐƯỢC
4. Cơ sở khoa học công nghệ về thu thập, quản lý, chia sẻ và khai thác thông tin dữ liệu
4.10 Khả năng ứng dụng của công nghệ CSDL phi cấu trúc
4.10.1 Tổng quan về cơng nghệ CSDL có cấu trúc
Cơ sở dữ liệu phi cấu trúc (unstructured database): là cơ sở dữ liệu không được xác định cấu trúc thông tin từ trước. Thường là tập hợp các dữ liệu thô, hỗn tạp và không đồng nhất. Các thành phần của cơ sở dữ liệu khơng có đặc điểm chung. Chúng ta có thể hình dung cơ sở dữ liệu này là tập hợp các thông tin, dữ liệu bao gồm: thư điện tử, dữ liệu ảnh, video, âm thanh, các bài viết,…Dữ liệu phi cấu trúc có mặt ở khắp mọi nơi và được sản sinh ra từ các nguồn khác nhau. Để quản lý, dữ liệu phi cấu trúc cần được chuyển đổi thành dữ liệu có cấu trúc qua q trình chuẩn hóa.
Dữ liệu phi cấu trúc hay cịn gọi là các thơng tin khơng có mơ hình xác định và khơng được tổ chức theo một cách cụ thể từ trước. Dữ liệu phi cấu trúc thường ở dạng văn bản nhưng cũng có thể ở dạng ngày tháng, dạng số hoặc các mốc sự kiện. Do khơng có cấu trúc xác định nên dữ liệu thường ở dạng mơ hồ, khó nắm bắt đối với các chương trình máy tính truyền thống.
Các nghiên cứu sớm nhất về trí thơng minh nhân tạo là tập trung vào dữ liệu phi cấu trúc chứ khơng phải là dữ liệu có cấu trúc. Ngay từ năm 1958 các nhà khoa học máy tỉnh
như H.P. Luhn đặc biệt quan tâm đến việc khai thác và phân loại văn bản phi cấu trúc. Tuy nhiên cho đến đầu thế kỷ 21 thì cơng nghệ mới bắt kịp được xu thế nghiên cứu. Năm 2004 viện SAS phát triển hệ thống SAS text miner, sử dụng công nghệ SVD (Singular Value Decomposition), nhằm đơn giản hóa dữ liệu văn bản siêu chiều thành các kích thước nhỏ hơn giúp phân tích hiệu quả bằng máy tính
Hình : Dữ liệu phi cấu trúc đa dạng và đến từ nhiều nguồn
Các loại dữ liệu phi cấu trúc:
- Một trong những loại phổ biến nhất của dữ liệu phi cấu trúc là văn bản. Dữ liệu văn bản (text) được tạo ra và thu thập dưới nhiều hình thức, bao gồm tài liệu Word, email, thuyết trình PowerPoint, phản hồi cuộc khảo sát, bảng ghi chép của các tương tác trung tâm cuộc gọi, và các bài viết từ các blog và các trang truyền thông xã hội.
- Các loại dữ liệu phi cấu trúc khác bao gồm hình ảnh, tệp âm thanh và video. Dữ liệu máy là một loại khác, loại này đang phát triển nhanh chóng ở nhiều tổ chức. Ví dụ: tệp nhật ký từ các trang web, máy chủ, mạng và ứng dụng - đặc biệt là các thiết bị di động - mang lại một hoạt động và dữ liệu hiệu suất. Ngồi ra, các cơng ty ngày càng nắm
bắt và phân tích dữ liệu từ các bộ cảm biến trên thiết bị sản xuất và các phương tiện kết nối Internet khác (IoT).
Trong một số trường hợp, dữ liệu phi cấu trúc có thể được coi là bán cấu trúc (semi- structured). Ví dụ: nếu gắn thêm thẻ siêu dữ liệu (metadata tags) để cung cấp thông tin và ngữ cảnh về nội dung của dữ liệu. Ranh giới giữa dữ liệu phi cấu trúc và bán cấu trúc là không rõ ràng, tuy nhiên; một số khuyến cáo trong quản lý dữ liệu cho rằng tất cả các dữ liệu, ngay cả loại khơng có cấu trúc, thì đều mang cấu trúc ở một mức độ nào đó.
4.10.2 Khả năng ứng dụng của cơng nghệ CSDL có cấu trúc a) Dữ liệu phi cấu trúc gắn với công nghệ Big trúc a) Dữ liệu phi cấu trúc gắn với công nghệ Big Data
Vào năm 2001, nhà phân tích Doug Laney của hãng META Group (giờ là công ty nghiên cứu Gartner) đã nói rằng những thách thức và cơ hội nằm trong việc tăng trưởng dữ liệu có thể được mơ tả bằng ba chiều “3V”: tăng về số lượng lưu trữ (volume), tăng về tốc độ xử lý (velocity) và tăng về chủng loại (variety). Giờ đây, Gartner cùng với nhiều công ty và tổ chức khác trong lĩnh vực công nghệ thông tin tiếp tục sử dụng mơ hình “3V” này để định nghĩa nên Big Data. Đến năm 2012, Gartner bổ sung thêm rằng Big Data ngồi ba tính chất trên thì cịn phải “cần đến các dạng xử lí mới để giúp đỡ việc đưa ra quyết định, khám phá sâu vào sự vật/sự việc và tối ưu hóa các quy trình làm việc”.
Hình : Năm tính chất của Big Data
- Volume (Số lượng lưu trữ):
Big Data (“dữ liệu lớn”) là tập hợp dữ liệu có dung lượng lưu trữ vượt mức đảm đương của những ứng dụng và cơng cụ truyền thống. Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu mà thôi.
- Velocity (Tốc độ xử lý):
Dung lượng gia tăng của dữ liệu rất nhanh và tốc độ xử lý đang tiến tới real-time. Các ứng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng khơng, Qn
sự, Y tế – Sức khỏe ngày hôm nay phần lớn dữ liệu lớn được xử lý theo thời gian thực. Công nghệ xử lý dữ liệu lớn ngày một tiên tiến cho phép chúng ta xử lý tức thì trước khi chúng được lưu trữ vào cơ sở dữ liệu.
- Variety (Đa dạng chủng loại):
Hình thức lưu trữ và chủng loại dữ liệu ngày một đa dạng hơn. Trước đây chúng ta hay nói đến dữ liệu có cấu trúc thì ngày nay hơn 80% dữ liệu trên thế giới được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, video, voice v.v.). Cơng nghệ Big Data cho phép chúng ta ngày nay liên kết và phân tích đa dạng chủng loại dữ liệu với nhau như comments/post của một nhóm người dùng nào đó trên Facebook với thông tin video được chia sẻ từ Youtube và Twitter.
- Veracity (Độ chính xác):
Một trong những tính chất phức tạp nhất của BigData là độ chính xác của dữ liệu. Với xu hướng Social Media và Social Network ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác định về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn. Bài tốn phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng của BigData.
- Value (Giá trị thơng tin):
Giá trị thơng tin là tính chất quan trọng nhất của xu hướng công nghệ Big Data. Ở đây doanh nghiệp phải hoạch định được những giá trị thơng tin hữu ích của BigData cho vấn đề, bài tốn hoặc mơ hình hoạt động kinh doanh của mình. Có thể nói việc đầu tiên là phải xác định được tính chất “Value” thì mới nên bắt tay vào BigData.
Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những cơng cụ, ứng dụng xử lí dữ liệu truyền thống khơng thể nào đảm đương được. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thơng tin q giá mà nếu trích xuất thành cơng, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định điều kiện giao thơng theo thời gian thực. Chính vì thế, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường.
b) Đánh giá về việc sử dụng cơ sở dữ liệu phi cấu trúc
- Ưu điểm:
+ Linh hoạt: Cơ sở dữ liệu phi cấu trúc thường cung cấp các sơ đồ linh hoạt giúp công đoạn phát triển nhanh hơn và có khả năng lặp lại cao hơn. Mơ hình dữ liệu linh hoạt biến cơ sở dữ liệu phi cấu trúc thành lựa chọn lý tưởng cho dữ liệu không được tổ chức thành cấu trúc hoặc có cấu trúc chưa hồn chỉnh.
+ Khả năng thay đổi quy mơ: Cơ sở dữ liệu phi cấu trúc thường được thiết kế để tăng quy mô bằng cách sử dụng các cụm phần cứng được phân phối thay vì tăng quy mơ bằng cách bổ sung máy chủ mạnh và tốn kém. Một số nhà cung cấp dịch vụ đám mây xử lý các hoạt động này một cách không công khai dưới dạng dịch vụ được quản lý đầy đủ.
+ Hiệu năng cao: Cơ sở dữ liệu phi cấu trúc được tối ưu hóa theo các mơ hình dữ liệu cụ thể và các mẫu truy cập giúp tăng hiệu năng cao hơn so với việc cố gắng đạt được mức độ chức năng tương tự bằng cơ sở dữ liệu quan hệ.
+ Cực kỳ thiết thực: Cơ sở dữ liệu phi cấu trúc cung cấp các API và kiểu dữ liệu cực kỳ thiết thực được xây dựng riêng cho từng mơ hình dữ liệu tương ứng.
- Nhược điểm: + Khơng có lược đồ:
Ngay cả khi người dùng lấy dữ liệu ở dạng tự do, họ hầu như luôn cần áp đặt các ràng buộc để làm cho dữ liệu có hữu ích. Với cơ sở dữ liệu phi cấu trúc, trách nhiệm sẽ được chuyển từ cơ sở dữ liệu sang nhà phát triển ứng dụng. Ví dụ, nhà phát triển có thể áp đặt cấu trúc thơng qua một hệ thống map đối tượng quan hệ hoặc ORM.
+ Thiếu tính nhất quán:
Cơ sở dữ liệu phi cấu trúc đánh đổi sự nhất quán để ưu tiên tốc độ, hiệu suất hiệu quả hơn. Dữ liệu được chèn vào cụm dù thế nào cũng sẽ khả dụng trên toàn bộ hệ thống, nhưng không thể biết chắc chắn khoảng thời gian nào.
+ Nhiều cơ chế truy vấn dữ liệu:
Hầu hết các cơ sở dữ liệu phi cấu trúc đều có khái niệm cơ chế truy vấn dữ liệu tương tự nhau, tuy nhiên, cách thực hiện lại rất khác nhau. Mỗi hệ thống sẽ có cơ chế truy vấn dữ liệu và quản lý riêng. Điều này có thể sẽ trở gây ra trở ngại nếu xảy ra các thay đổi hệ thống trong quá trình làm việc.
+ Chưa có nhiều chun gia có kinh nghiệm:
Một hạn chế khác đối với cơ sở dữ liệu phi cấu trúc là người sử dụng có thể sẽ thiếu các kỹ năng chuyên môn ở mức tương đối. Cơ sở dữ liệu phi cấu trúc còn rất mới mẻ và không phải ai cũng biết cách sử dụng thành thạo.
c) Áp dụng dữ liệu phi cấu trúc
Với những phân tích ở trên ta có bảng đánh giá việc áp dụng dữ liệu phi cấu trúc như sau:
CSDL phi cấu trúc
1 Tốc độ tăng trưởng Cao Với các dữ liệu quan trắc liên tục nhanh
2 Nhiều định dạng thông Cao tin
3 Dữ liệu có tính định Thấp Các dữ liệu thu thập đều dựa trên
hướng các biểu mẫu có trước
4 Có khả năng cấu trúc Thấp hóa tốt
5 Cần phân tích nhanh Thấp tức thì
6 Tiết kiệm chi phí Thấp
Với bài tốn mà đề tài đặt ra, tuy số lượng dữ liệu rất lớn và đa dạng, lại tăng trưởng nhanh. Tuy nhiên đây hồn tồn là những dữ liệu có thể xác định trước định dạng, có khả năng cấu trúc hóa và thơng tin phân tích đầu ra cũng rõ ràng. Do vậy áp dụng dữ liệu phi cấu trúc là chưa thật cần thiết, vì để áp dụng CSDL dạng này cần có cơng nghệ khai phá dữ liệu đi kèm vô cùng tốn kém.
Cho đến hiện nay dữ liệu phi cấu trúc và công nghệ Big Data thường áp dụng với bài tốn phân tích xã hội với dữ liệu đầu vào được thu thập từ dữ liệu sẵn có là chính. Kết quả nghiên cứu của chun đề cho thấy để khai thác được dữ liệu phi cấu trúc thì cũng phải trải qua bước cấu trúc hóa dữ liệu trước khi phân tích. Do vậy khi có đủ điều kiện để xác định trước cấu trúc của dữ liệu thì khơng cần thiết phải sử dụng dữ liệu phi cấu trúc.