Chương 1: Tổng quan về công nghệ quản lý dữ liệu phi cấu trúc và hệ thống quản lý văn bản, điều hành trực tuyến
1.1. Tổng quan về các công nghệ quản lý dữ liệu phi cấu trúc
1.1.4. Khái quát về dữ liệu phi cấu trúc và công nghệ quản lý dữ liệu phi cấu trúc …
1.1.4.1. Khái niệm dữ liệu phi cấu trúc
Dữ liệu phi cấu trúc thường dùng để chỉ dữ liệu ở dạng tự do (free type) và không cần có cấu trúc định nghĩa sẵn. Các loại văn bản, các trang web các dữ liệu multimedia như: tập tin video, tập tin ảnh, tập tin âm thanh… là các ví dụ của dữ liệu phi cấu trúc. Nếu dùng các hệ quản trị cơ sở dữ liệu quan hệ để lưu trữ dữ liệu phi cấu trúc, việc truy tìm dữ liệu theo danh sách từ khóa sẽ gặp các hạn chế, cần chỉ rõ đối tượng cần truy vấn, và tốc độ truy vấn.
Mã nguồn (Trong ngôn ngữA)
Mã nguồn (Trong ngôn ngữA) Mô hình
thiết kế
Dịch ngược Dịch xuôi
Dịch xuôi Dịch ngược
Mô hình thiết kế Mô hình thiết kế
Mã nguồn
Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/
Sự phát triển của dữ liệu phi cấu trúc sẽ đòi hỏi các hệ thống lưu trữ tệp tin lớn hơn và tính khả mở cao hơn. Các hệ thống lưu trữ tệp tin chuẩn sẽ cần phải được thay thế bởi những hệ thống lưu trữ tệp tin dựa trên đối tượng (object-based file system) nhằm đáp ứng nhu cầu ngày càng tăng này. Việc quản lý dữ liệu của hệ thống tệp tin và metadata dưới dạng đối tượng cho phép khôi phục hệ thống tệp tin nhanh, tăng cường hiệu năng truy xuất tệp tin và mang tới khả năng tự động hóa phân lớp tệp tin.
Dữ liệu phi cấu trúc là thông tin không có mô hình dữ liệu xác định và nó không phụ thuộc vào các bảng quan hệ, hay nói cách khác nó không được tổ chức một cách xác định trước. Nó không phù hợp vào một mô hình hay một quan hệ ngay cả khi lắp ráp nó vào một mô hình nào đó thì cũng không thể cái thiện được gì trong việc quản lý và khai thác dữ liệu này. Hình ảnh , video, email , tài liệu, văn bản, email,… là một ví dụ về dữ liệu phi cấu trúc.
Gần đây các nhà phân tích định lượng rằng dữ liệu sẽ tăng trưởng 800% trong vòng năm năm tới và thông tin dữ liệu phi cấu trúc chiếm hơn 70% đến 80% trong tất cả dữ liệu của các công ty, tổ chức. Sự nhìn nhận này cho thấy sự bùng nổ về dữ liệu mà trong đó đa phần là dữ liệu phi cấu trúc thì việc quản lý và khai thác nó một cách hiệu quả là một vấn đề khá lớn, nó trở thành điều kiện tiên quyết trong việc ra quyết sách một cách chính xác và là một điều kiện tồn tại cạnh trang của các công ty, tổ chức..
Theo ước tính, có đến 85% thông tin các công ty thu thập được không theo đúng dạng mà họ có thể đánh giá hay phân tích được, được gọi là phi cấu trúc (unstructured). Gartner Group cho biết dữ liệu phi cấu trúc này cứ 3 tháng lại tăng lên gấp đôi lên, trong khi đó có 7 triệu website được công bố mỗi ngày. Việc không đồng bộ này dẫn đến một trong những thử thách lớn nhất mà các công ty ngày nay phải đối mặt.
Hầu hết các công ty, tổ chức nào đang cộng tác với những khách hàng lớn đều hiểu rất rõ điều này. Thị trường ngày nay tràn ngập những phần mềm có khả năng phân loại, sắp xếp, tìm kiếm, tổ chức và quản lý phần lớn dữ liệu phi cấu trúc này. Thế nhưng việc khám phá ra sự thật trong những dữ liệu này như : “ai”, “cái gì”, “nơi nào”,
“khi nào”, “làm thế nào” và quan trọng nhất là “tại sao” hiện vẫn đang là một thách thức khiến hầu hết các công ty lúng túng. Công ty tiến hành khảo sát khách hàng, tập
Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/
trung vào các nhóm đại diện và những cuộc phỏng vấn hy vọng sẽ nắm bắt nhu cầu thị hiếu của họ và chỉ có thể thông qua kết quả tiếp thị, số lượng hàng hóa bán được, nghiên cứu để phát triển sản phẩm, dịch vụ hay đáp ứng ý tưởng khách hàng.
1.1.4.2. Xử lý dữ liệu phi cấu trúc
Các công nghệ như khai phá dữ liệu (data mining), phân tích văn bản, phân tích dữ liệu âm thanh… cung cấp các phương pháp khác nhau để tìm kiếm mẫu. Kỹ thuật chung cho cấu trúc văn bản thường liên quan tới việc gắn thẻ siêu liên kết hoặc gắn thẻ bán giọng nói để biết thêm về văn bản khai thác dựa trên cấu trúc. Kiến trúc quản lý thông tin phi cấu trúc (UIMA) cung cấp một khuôn khổ chung cho xử lý thông tin này để trích xuất ý nghĩa và tạo ra cấu trúc dữ liệu về thông tin.
UIMA là viết tắt của phi cấu trúc kiến trúc quản lý thông tin. Một tiêu chuẩn OASIS UIMA đến nay các tiêu chuẩn công nghiệp chỉ dành cho phân tích nội dung.
Kiến trúc UIMA ra đời do một yêu cầu thực tế: hiện nay các chương trình quản lí dữ liệu phi cấu trúc phát triển rất nhiều, nhưng mỗi chương trình được xây dựng theo một phương pháp, công nghệ khác nhau, vì vậy cần qui định một kiến trúc chung cho những chương trình này để việc xây dựng các dễ dàng hơn và có thể kết hợp những chương trình này lại. UIMA ban đầu được phát triển bởi IBM, hiện nay đã trở thành một chuẩn được quản lí bởi OASIS và có 2 phiên bản cài đặt bằng Java và C++ mã nguồn mở phát triển bởi Apache.
Kiến trúc UIMA chia chương trình quản lí dữ liệu phi cấu trúc thành nhiều component, mỗi component này thực hiện một công đoạn nào đó trong quá trình phân tích dữ liệu. UIMA qui định chuẩn cho các component, chuẩn cho dữ liệu trao đổi giữa các component và chuẩn lắp ráp các component thành qui trình phân tích dữ liệu.
Điều này giúp cho những component trong các chương trình UIMA có tính tái sử dụng cao; và các component UIMA mã nguồn mở xuất hiện rất nhiều trên mạng (ví dụ: các component có sẵn trong project Apache UIMA), thực hiện nhiều công việc khác nhau như tách từ, gán nhãn từ loại, phát hiện thực thể dựa vào biểu thức chính qui,…
Việc chia chương trình thành nhiều component như trên còn giúp cho việc triển khai chương trình dễ dàng hơn. Toàn bộ chương trình gồm nhiều component có thể chạy trên cùng một máy hoặc chia ra cho nhiều máy (mỗi máy chạy một hay nhiều
Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/
component) và ta có thể cấu hình load balance, replicate, ... để việc chạy chương trình trên nhiều máy hiệu quả hơn.
Data mining: Khai phá dữ liệu là một quá trình trích xuất thông tin có mối quan hệ hoặc có mối tương quan nhất định từ một kho dữ liệu lớn (cực lớn) nhằm mục đích dự đoán các xu thế, các hành vi trong tương lai, hoặc tìm kiếm những tập thông tin hữu ích mà bình thường không thể nhận diện được.
Ứng dụng của nó rất đa dạng và rộng lớn, từ marketing, chống gian lận, giảm giá thành sản xuất, tăng doanh thu, phân tích hành vi sử dung người dùng internet để đúng nhu cầu mục tiêu, đúng đối tượng hay ứng dụng hỗ trợ ra quyết định, nghiên cứu khoa học đến việc chống khủng bố v.v..
Các công cụ, kỹ thuật data mining có thể trả lời các câu hỏi mà các công cụ truyền thống đòi hỏi rất nhiều thời gian cần thiết để có thể giải đáp được (thậm chí các cách truyền thống không thể giải được). Nó có thể tìm thấy được những thông tin cực kỳ hữu ích mà rất dễ bị bỏ qua hoặc không xem xét đến để có thể dự đoán những xu thế/hành động xảy ra trong tương lai. Để có thể khai phá dữ liệu một cách hiệu quả, điều đầu tiên cần phải thu thập dữ liệu và định nghĩa lại theo các tiêu chí cần phân tích.
Các kỹ thuật khai phá dữ liệu có thể cài đặt rất nhanh chóng trên các nền tảng phần mềm, phần cứng phổ thông mà không cần đòi hỏi quá phức tạp, tuy vậy khai phá dữ liệu thường gắn liền với việc phân tích một khối lượng dữ liệu cực lớn nên cần ứng dụng các công nghệ hiệu suất cao client/server hoặc xử lý song song (parallel programming).
Công nghệ khai phá dữ liệu là kết quả của quá trình lâu dài nghiên cứu và phát triển sản phẩm. Quá trình này bắt đầu từ khi những dữ liệu đầu tiên lưu vào máy tính, tiếp đến là quá trình cải tiến, nâng cấp cách thức truy xuất dữ liệu và dần dần cho phép người dùng có thể duyệt dữ liệu theo thời gian thực. Kết quả của quá trình này cho phép truy xuất các nguồn dữ liệu quá khứ, tính toán và định vị lại việc truyền tải, cung cấp thông tin cho hiện tại, tương lai hay đưa ra các dự đoán tình huống có thể sắp diễn ra.
Hiện nay có rất nhiều các giải pháp thương mại sẵn có để phân tích trong lĩnh vực kinh doanh như một số sản phẩm từ các công ty như SAS, Provalis Research và
Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/
SPSS cũng như nhiều dịch vụ chuyên ngành như Attensity, Clarabridge và Sysomos tập trung vào việc phân tích dữ liệu phi cấu trúc của các mạng xã hội.
1.1.4.3. Công nghệ quản lý dữ liệu phi cấu trúc
Với sự bùng nổ của thông tin mà chủ yếu thông tin là các dữ liệu phi cấu trúc một cách nhanh chóng thì các giải pháp để hỗ trợ cho việc quản lý và dữ liệu phi cấu trúc ngày càng được thiết kế đưa ra những giải pháp nhằm hỗ trợ cho việc điều hành quản lý, phân tích thông tin một cách nhanh chóng cho nhà quản lý trong đó có những công nghệ được thương mại hóa mà tiêu biểu là hãng Microsoft với những hệ điều hành mạng mạnh nhằm đáp ứng việc xử lý lưu trữ thông tin một các nhanh chóng với những tính năng chia tải tài nguyên trong việc xử lý các khối lượng dữ liệu lớn cũng như các tính năng quản lý mail server, quản lý dữ liệu mail phục vụ cho quản lý của công ty tổ chức.
Ngoài ra hệ quản trị CSDL SQL Server là một hệ quản trị CSDL điển hình của Microsoft với các phiên bản khác nhau được nâng cấp để phù hợp với yêu cầu quản lý dữ liệu phi cấu trúc tiêu biểu là phiên bản 2008 với sự cải tiến vượt bậc giải quyết các thách thức của dữ liệu phi cấu trúc như thách thức về lưu trữ dữ liệu phi cấu trúc với khối lượng lớn mà đảm bảo được việc truy xuất và tính mềm dẻo của hệ thống, đảm bảo được hiệu suất và khả năng mở rộng của dữ liệu phi cấu trúc, tính nhất quản của dữ liệu liên quan tới mối quan hệ… chúng ta sẽ làm rõ nó trong phần sau.
Ngoài hệ điều hành và CSDL SQL Server mạnh thì Microsoft còn xây dựng công nghệ ASP. Công nghệ này đầu tiên với giải pháp kết hợp hệ quản trị CSDL để thay thế việc quản lý chia sẻ thông tin trên nền website tĩnh nhằm bắt nhịp sự thay đổi nhanh chóng của thông tin một cách hiệu quả khi mà yêu cầu của sự bùng nổ dữ liệu phi cấu trúc và nhu cầu quản lý thông tin. Trong nhiều năm qua, ASP đã được cho rằng đó thực sự là một lựa chọn hàng đầu cho web developers trong việc xây dựng những web sites trên nền máy chủ web Windows bởi nó vừa linh hoạt mà lại đầy sức mạnh. Với sự ra đời và cải tiến của ASP sang ASP.NET càng giúp việc quản lý và truy xuất dữ liệu phi cấu trúc một cách dễ dàng nhanh chóng cho người dùng. Những thay đổi và nâng cấp nhằm mục tiêu cho việc phù hợp với sự thay đổi càng ngày của dữ liệu phi cấu trúc.
Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/
Những công nghệ của Microsoft khá đắt và giải pháp tốt là sử dụng công nghệ nguồn mở. Công nghệ mã nguồn mở cũng không kém gì so với công nghệ của Microsoft và thực sự trở thành một trào lưu trong việc giảm chi phí và tranh thủ được sự hỗ trợ của cộng đồng, đó là Linux OS, hệ quản trị CSDL MySQL…
Linux một hệ điều hành hoàn thiện với sự hỗ trợ cho một loạt các mô hình sử dụng. Nhưng thật khó khi nghĩ rằng Linux chỉ là một hệ điều hành. Nhân mô đun và tính linh hoạt của nó có thể xử lý trong nhiều mô hình sử dụng (từ siêu máy tính lớn nhất đến các thiết bị nhúng nhỏ nhất) đến mức thật khó phân loại nó vào bất cứ thứ gì khác hơn là một công nghệ khả dụng. Linux còn cung cấp các mảng lớn nhất về các dịch vụ web (và các tùy chọn khác nhau cho các dịch vụ đó). Linux không chỉ là một yếu tố chính trong các mô hình điện toán cluster và các mô hình điện toán phân tán, nó còn là một đơn vị điều khiển và ở lõi của nhiều mô hình sử dụng mới. Hai mô hình chính đang phát triển nhanh chóng hiện nay là điện toán đám mây và dữ liệu lớn
Ngoài Linux là hệ quản trị CSDL MySQL. MySQL là hệ quản trị cơ sở dữ liệu tự do nguồn mở phổ biến nhất thế giới và được các nhà phát triển rất ưa chuộng trong quá trình phát triển ứng dụng. Vì MySQL là cơ sở dữ liệu tốc độ cao, ổn định và dễ sử dụng, có tính khả chuyển, hoạt động trên nhiều hệ điều hành cung cấp một hệ thống lớn các hàm tiện ích rất mạnh.Với tốc độ và tính bảo mật cao, MySQL rất thích hợp cho các ứng dụng có truy cập CSDL trên internet. Khi dữ liệu ngày càng nhiều thì vấn đề tìm kiếm thông tin chính xác càng trở nên quan trọng. Với khối lượng dữ liệu lớn và có tổ chức phức tạp, vấn đề đặt ra là làm thế nào để tìm nhanh và đúng thông tin cần. Người dùng không muốn tìm kiếm một từ mà lại có cả triệu câu trả lời, họ cần sự chính xác và loại bỏ các từ gây nhiễu. Lúc đó, người dùng sẽ cần đến tính năng tìm kiếm toàn văn. Một trong những giải pháp để quản lý dữ liệu phi cấu trúc hiệu quả cùng với tốt độ bùng nổ dữ liệu phi cấu trúc là các phiên bản nâng cấp mới phù hợp với nó.
PHP là một công là một ngôn ngữ lập trình được kết nối chặt chẽ với máy chủ, PHP rất ổn định và tương hợp, mới đây PHP đã vận hành khá ổn định trên các hệ điều hành gồm cả Unix, Windows... Đồng thời nó cũng nối với một số máy chủ như IIS hay Apache. Với thư viện phong phú và khả năng mở rộng lớn, ứng dụng PHP có thể
Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/
tương tác với hầu hết các loại ứng dụng phổ biến như xử lý hình ảnh, nén dữ liệu, mã hóa, thao tác file PDF, Office, Email, Streaming…
1.1.4.4. Mối liên hệ giữa dữ liệu phi cấu trúc và tái kỹ nghệ phần mềm
Các sản phẩm công nghệ hầu hết đều có tính ứng dụng cao. Chúng ta sử dụng nó thường xuyên nhưng rồi sau đó, nó dần trở nên cũ và lạc hậu. Nó thường xuyên xảy ra sự cố, chúng ta phải dành khá nhiều thời gian để sửa chữa và bảo trì, khi đó nó không còn là công nghệ mới nhất. Khi mà càng ngày thông tin càng trở nên tràn ngập với khối lượng dữ liệu phi cấu trúc luôn luôn thay đổi làm cho việc phân tích, tìm kiếm, khai thác càng trở nên thực sự khó khăn đối với các tổ chức, doanh nghiệp. Vậy chúng ta phải làm gì? Nếu là sản phẩm về phần cứng, ta có thể loại bỏ nó và mua một sản phẩm mới về. Nhưng nếu nó là một phần mềm được xây dựng theo nhu cầu thì ý kiến trên không mang nhiều tính khả thi. Chúng ta cần phải tái xây dựng lại phần mềm, tạo ra một sản phẩm với các chức năng được bổ sung để cải thiện độ tin cậy, bảo trì làm cho nó có hiệu suất làm việc tốt hơn. Chúng ta gọi đó là tái kỹ nghệ. Như vậy việc tái kỹ nghệ nhằm mục đích thực hiện giai đoạn bảo trì cập nhật thay đổi. Mặt khác, nếu như việc tái cấu trúc trên một nền tảng quá cũ kỹ, những công nghệ lỗi thời lạc hậu thì sẽ trở nên khó khăn cho việc cập nhật những thay đổi và giảm chi phí trong quá trình bảo trì. Các yêu cầu phần mềm phục vụ cho việc quản lý tổng hợp khai khác khối lượng thông tin càng ngày càng gia tăng cả về khối lượng lẫn sự liên hệ phức tại thì cần phải có các công nghệ quản lý dữ liệu phi cấu trúc đi kèm. Các công nghệ quản lý dữ liệu phi cấu trúc giúp cho việc phát triển và cập nhật những thay đổi một cách khoa học như việc đánh lại chỉ số quản lý trong việc tìm kiếm dữ liệu phi cấu trúc trong các công nghệ như SQLServer của Microsoft, MySQL, … cùng với sự hỗ trợ xử lý của hệ thống máy tính có tốc độ xử lý lớn.