TẠP CHÍ KHOA HỌC, Đại học Huế, Tập 74B, Số 5, (2012), 55-63
55
XÂY DỰNGKIẾNTRÚCKHOTÀILIỆUDỰATRÊNMỐILIÊNHỆGIỮA
KHO DỮLIỆUTRUYỀNTHỐNGVÀKHOTÀILIỆU
Lê Văn Hòa
Khoa Du lịch, Đại học Huế
Tóm tắt. Trong quá trình tìm hiểu về các thành phần, quy trình xâydựngkhotàiliệuvà vai
trò của khotài liệu, từ đó thấy được sự cần thiết của khotàiliệu đối với các doanh nghiệp
và tổ chức cần thực hiện việc ra quyết định nhanh với độ chính xác cao. Dựa vào sự tương
đồng giữa các giai đoạn trong quy trình xâydựngkhodữliệutruyềnthốngvàkhotài liệu,
bài viết này đã đề xuất kiếntrúckhotài liệu. Kiếntrúckhotàiliệu đề xuất có độ tin cậy và
độ chính xác cao nhờ việc tham khảo các công trình nghiên cứu, các công trình này đã
chứng minh sự tương đồng giữa các quy trình xâydựngkhodữliệutruyềnthốngvàkhotài
liệu.
1. Đặt vấn đề
Theo [3], người ta đã thống kê chỉ có 20% dữliệu là dữliệu có cấu trúcvà được
lưu trữ trong cơ sở dữliệu quan hệ, trong khi khoảng 80% là dữliệu không có cấu trúc
văn bản và được lưu trữ trong các hình thức khác nhau của tàiliệu như báo cáo, các bài
báo tin tức, e-mail, và các trang web là chủ yếu. Chính vì dữliệu có cấu trúc trong các
tổ chức và doanh nghiệp chiếm tỉ lệ thấp do đó khi xâydựngkhodữliệutruyềnthống
sẽ ảnh hưởng đến chất lượng khodữliệuvà độ tin cậy của việc đưa ra quyết định.
Chính vì những lý do đó, khotàiliệu được đề xuất để có thể đưadữliệu bán cấu trúcvà
phi cấu trúc vào kho. Chính nhờ những khẳng định thuyết phục của Sullivan [5] về mối
tương đồng giữa các quy trình trong quá trình xâydựngkhodữliệutruyềnthốngvàkho
tài liệu, bài viết này đã đề xuất kiếntrúckhotàiliệudựatrênmốiliênhệgiữakhodữ
liệu truyềnthốngvàkhotài liệu.
2. Khodữliệutruyềnthốngvà những vấn đề tồn tại
Kho dữliệu là tập hợp dữliệu hướng chủ thể, tích hợp, biến thời gian và bền
vững hỗ trợ ra quyết định [2]. Theo [1], mục tiêu chính của khodữliệu là nhằm đáp ứng
các tiêu chuẩn cơ bản sau:
- Phải có khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng.
- Hỗ trợ để có thể thực hiện tốt và có hiệu quả công việc, như có những quyết
định hợp lý, nhanh giúp cho năng suất cao hơn, thu được lợi nhuận cao hơn,
v.v.
56 Xâydựngkiếntrúckhotàiliệudựatrênmốiliên hệ…
- Giúp cho tổ chức xác định, quản lý và điều hành các dự án, các nghiệp vụ
một cách hiệu quả và chính xác.
- Tích hợp dữliệuvà các siêu dữliệu từ nhiều nguồn khác nhau.
Theo [1], kiếntrúchệthốngkhodữliệutruyềnthống gồm 3 tầng:
- Tầng thu thập
- Tầng xử lý phân tích trực tuyến (OLAP)
- Tầng thể hiện
Hình 1. Kiếntrúchệthốngkhodữliệutruyềnthống
Kho dữliệutruyềnthốngvà những vấn đề đang tồn tại:
Theo [3], dữliệu có cấu trúc được thể hiện trong một hình thức quan hệvà phi
cấu trúc trong văn bản. Theo thống kê chỉ có 20% các dữliệu sẵn có được cấu trúcvà
được lưu trữ trong cơ sở dữliệu quan hệ, trong khi khoảng 80% là không có cấu trúc
văn bản và được lưu trữ trong các hình thức khác nhau của tàiliệu như báo cáo, các bài
báo tin tức, e-mail, và các trang web. Chính vì dữliệu có cấu trúc chiếm tỉ lệ thấp do đó
ảnh hưởng đến chất lượng khodữliệuvà độ tin cậy của việc đưa ra quyết định.
Vì vậy, để có được thông tin tri thức nghiệp vụ hoàn chỉnh, kết hợp và phân tích
dữ liệu văn bản là rất cần thiết. Thông qua phân tích các dữliệu có cấu trúc, chẳng hạn
thông tin ở đâu, khi nào, ai, và bằng cách nào để có thể được trích xuất. Thông qua phân
tích các thông tin để đưa ra lý do tại sao nó đã được thực hiện.
LÊ VĂN HÒA 57
3. Kiếntrúckhotàiliệu
3.1. Các thành phần chính của khotàiliệu
Theo [5], thành phần của khotàiliệu bao gồm 5 thành phần chính:
- Nguồn tàiliệu
- Máy chủ xử lý văn bản
- Văn bản cơ sở và các kho lưu trữ khác
- Kho siêu dữliệu
- Hồ sơ người sử dụng.
3.1.1. Nguồn tàiliệu
Nguồn tàiliệu là các văn bản. Có ba kiểu nguồn tàiliệu phân biệt bao gồm:
Nguồn bên trong, internet và các dịch vụ.
Nguồn bên trong: Trong một tổ chức, tàiliệuvà các loại văn bản khác như:
email, máy chủ file, trong khotài liệu, và trong hệthống quản lý tài liệu. Trong khi
những hệthống quản lý file, chúng không thể cung cấp đặc trưng phân tích tổng hợp
văn bản trong khai phá văn bản và truy xuất thông tin thông minh.
Internet: Internet là nguồn văn bản tích hợp có khả năng lớn nhất cung cấp cho
chúng ta. Một vài kiểu khác nhau của kho văn bản trên internet, bao gồm: WWW, máy
chủ Gopher, và máy chủ FTP. Trong đó, dữliệutại WWW thật khó để phân loại toàn bộ
nội dung của WWW.
Các dịch vụ: Các dịch vụ cung cấp truy cập đến CSDL riêng cho những khách
hàng của các doanh nghiệp và các tổ chức.
3.1.2. Máy chủ xử lý văn bản
Trong môi trường khotài liệu, có 4 kiểu máy chủ phân biệt: Máy chủ thu thập
tài liệu, máy chủ phân tích văn bản, máy chủ xuất bản và phân tán, máy chủ lưu trữ.
3.1.2.1. Thu thập tàiliệu
Tập hợp máy chủ thu thập tàiliệuvà xử lý văn bản. Xử lý thu thập có thể xảy ra
theo 3 cách
Xử lý tập văn bản sử dụng danh sách tiền định nghĩa nguồn cho thu thập tự
động trực tiếp: Hầu hết các văn bản đưa vào khotàiliệuthông qua tiền định nghĩa thu
thập trực tiếp. Trong kịch bản này, một danh nguồn được duy trì trong CSDL, và
chương trình thu thập, hay tập hợp các chương trình, những file thật sự đưa vào khotài
liệu.
Xử lý tập văn bản sử dụng tiền danh sách định nghĩa chủ đề cho tìm kiếm trực
tiếp: Chúng ta không thể biết trong khotàiliệu bao gồm những tàiliệu gì. Nếu ứng
58 Xâydựngkiếntrúckhotàiliệudựatrênmốiliên hệ…
dụng chính của khotàiliệu của chúng ta có khả năng cạnh tranh thông minh và phân
tích tàiliệu thì chúng ta sẽ muốn để biết thông tin để đưa ra quyết định chính xác.
Tài liệu được tự động đưa vào: Một vài kiểu tài liệu, đặc biệt là phát hiện luật
bên trong, chiến lược đánh giá và các loại thông tin hạn chế, không nên được mở tự
động đưa vào khotài liệu.
3.1.2.2. Máy chủ phân tích văn bản
Máy chủ phân tích văn bản cung cấp 2 thao tác: Tiền xử lý và xử lý chính.
Tiền xử lý: Công việc của máy chủ tiền xử lý là để chứng thực định dạng tàiliệu
và nếu cần thì chuyển đổi tàiliệu sang một định dạng có thể chấp nhận được cho công
cụ xử lý văn bản khác. Ngôn ngữ văn bản cũng được chứng thực và nếu cần thiết được
chuyển đổi vào trong đối tượng ngôn ngữ có thể chấp nhận được.
Xử lý chính: Mục đích của máy chủ xử lý chính là đưa văn bản vào hình thức
phù hợp cho việc tìm kiếm hiệu quả và khai phá văn bản. Quá trình thao tác bao gồm
lập chỉ mục, phân cụm, trích chọn đặc trưng và tổng hợp. Thao tác xử lý chính được
tính toán trong khotài liệu.
3.1.2.3. Xuất bản và phân tán
Thông thường giá trị của thông tin tri thức nghiệp vụ bị mất nếu nó không được
phân tán đến đúng người hay không được xuất bản trong thời gian quản lý. Để bảo tồn
giá trị của thông tin văn bản gốc, nó phải trình diễn cho người sử dụng một cách phụ
thuộc vào nội dung.
3.1.3. Văn bản cơ sở và các kho lưu trữ khác
Chúng ta có một vài tùy chọn cho việc lưu trữ văn bản trong khotài liệu. Chúng
bao gồm: Văn bản cơ sở, cơ sở dữliệu hỗ trợ văn bản, file hệ thống, kết hợp file hệ
thống và CSDL.
3.1.4. Kho siêu văn bản
Siêu văn bản là tàiliệu mô tả thông tin, những văn bản và là một phần then chốt
của môi trường khotài liệu. Siêu dữliệu thỏa mãn một vài mục đích:
- Tăng khả năng tìm kiếm rõ ràng và khả năng nhớ lại
- Cho phép mở rộng các tùy chọn tìm kiếm, như là: theo tác giả, ngày xuất
bản,
- Phân loại văn bản
- Cho biết mối quan hệ chất lượng giữa các mức, tính tin cậy, vàđúng lúc.
3.1.5. Hồ sơ người sử dụng
Người sử dụng yêu cầu mục đích cụ thể về kế hoạch tiếp thị, sự thay đổi tốc độ
LÊ VĂN HÒA 59
và những ảnh hưởng về giá cả. Ngoài ra, người sử dụng quan tâm đến việc sử dụng dài
hạn và nhất quán. Ví dụ: người quản lý sản phẩm quan tâm đến giá cả hiện tại của sản
phẩm, kế hoạch tiếp thị và bán sản phẩm, thông tin về đối thủ cạnh tranh, điều kiện tiếp
thị và những nhân tố khác ảnh hưởng đến việc bán hàng.
3.2. So sánh khotàiliệuvàkhodữliệutruyềnthống [6]
KhotàiliệuKhodữliệutruyềnthống
Giống nhau
1. Cả hai cùng quy trình xâydựngvà chúng có thể được triển khai theo giản đồ
hình sao hay bông tuyết để thiết kế quy trình mô hình
2. Cùng chung tàiliệu nghiệp vụ hay dữliệu từ nguồn hỗn tạp
3. Người sử dụng có thể xử lý phân tích trực tuyến thông qua kết quả được thiết
lập
Khác nhau
Có ý định đạt được tri thức nghiệp vụ
định hướng văn bản (text–oriented)
Có ý định đạt được tri thức nghiệp vụ
định hướng số (numeric–oriented)
Tài nguyên được thu thập từ báo cáo
điều tra thị trường, báo cáo trạng thái
dự án, lời phàn nàn của khác hàng, thư
điện tử, quảng cáo cạnh tranh
Tài nguyên được thu thập từ CSDL
bên trong các điểm bán hàng, hệ
thống ERP, hệthống thanh toán, hay
hệ thống quản lý tài chính
Nó lọc những tàiliệu không cần thiết
và định hướng giúp người sử dụng trả
lời câu hỏi vì sao
Nó tích hợp dữliệu theo một vài
chiều và có khuynh hướng giúp
người sử dụng trả lời một số câu hỏi
ai, cái gì, khi nào, ở đâu và người nào
/ cái nào
Nâng cao chất lượng với công nghệ
khai phá văn bản cho việc tóm tắt tài
liệu hay phân loại tàiliệu
Nâng cao chất lượng với công nghệ
khai phá dữliệu cho việc tóm tắt,
phân lớp, phân cụm dữliệu đã được
định dạng hay tìm sự kết hợp
Nguồn dữliệu nên được tích hợp trong
file hệthống hay CSDL XML
Nguồn dữliệu có thể được tích hợp
trong CSDL quan hệ
3.3. Quy trình khotàiliệu
Kho tàiliệu bao gồm 6 quy trình chính:
- Chứng thực nguồn tàiliệu
- Truy xuất tàiliệu
- Thao tác tiền xử lý
- Thao tác phân tích văn bản
60 Xây dựngkiếntrúc kho tàiliệudựatrênmốiliên hệ…
- Quản lý khotàiliệu
- Hỗ trợ thao tác người dùng cuối
Theo [5], ba bước truy xuất tài liệu, thao tác tiền xử lý, thao tác phân tích văn
bản tương ứng quá trình xử lý chiết, chuyển đổi và nạp trong khodữliệutruyền thống.
Trong khi 2 bước cuối, quản lý khotàiliệuvà hỗ trợ thao tác người dùng cuối, giống
như duy trì khodữ liệu.
3.3.1. Chứng thực nguồn tàiliệu
Bước đầu tiên trong quy trình tàiliệu là để chứng thực tàiliệu được đưa vào kho.
Trước hết, chúng ta mô tả 3 cách để chứng thực tài liệu: danh sách nguồn, tìm theo từ
khóa, và tìm theo chủ đề.
Tìm tiềm năng nguồn tài liệu: Bắt đầu với tìm kiếm Web rộng là cách thông
dụng nhất của việc tìm kiếm tiềm năng nguồn tàiliệu nhưng có những kỹ thuật khác
như là luật thông thường, sẽ được cung cấp kết quả chất lượng cao.
3.3.2. Truy xuất tàiliệu
Quy trình truy xuất tàiliệu là tương tự như giai đoạn chiết dữliệu trong khodữ
liệu truyền thống. Chúng ta đã chứng thực nguồn của tài liệu, chúng ta cần lập lịch truy
xuất chúng. Khi chúng ta nhìn thấy thảo luận về kiếntrúc của khotài liệu, máy chủ truy
xuất hoạt động như là một đại lý để thu thập tàiliệuvà nạp chúng vào kho. Không
giống như khodữ liệu, chúng không có công cụ đặc biệt giống như những trình cung
cấp bởi Informatica, Sagent được thiết kế để đưa văn bản vào khotài liệu. Có một vài
nhân tố để xem xét khi phát triển bộ lập lịch truy xuất tài liệu.
- Khả năng băng thông
- Tốc độ truy xuất của đối tượng trang Web
- Bản sao lập lịch của máy chủ file bên trong
- Quyền ưu tiên của đối tượng tàiliệu
3.3.3. Các thao tác tiền xử lý
Tương tự bước chuyển đổi dữliệu trong khodữ liệu. Để xử lý toàn bộ tàiliệu
trong kho, ba bước tiền xử lý cơ bản nên thực hiện:
Đặc tính tập chứng thực: Nhiều người trong chúng ta quen làm việc với bảng
mã ASCII. Có 2 tập đặc tính có phương pháp chiếm ưu thế cho miêu tả đặc tính trong
ứng dụng máy tính. Một tiêu chuẩn mới hơn, UNICODE nổi trội hơn về phối hợp giải
mã bởi vì nó có khả năng đưa ra nhiều đặc tính hơn ASCII.
Định dạng quá trình chuyển đổi: Tàiliệu đến trong vô số định dạng. Có một
vài từ xử lý thông thường, bảng tính, sự trình diễn, và lấy ra định dạng. Quá trình này
phụ thuộc vào công cụ xử lý sẽ được sử dụng trong các bước sau, những tàiliệu có thể
LÊ VĂN HÒA 61
cần để được chuyển đổi đến một định dạng đích có thể chấp nhận được trong các ứng
dụng.
Chứng thực ngôn ngữ và máy dịch: Một vài công cụ, như công cụ phân loại
phân tích, là ngôn ngữ đặc biệt, khi chứng thực ngôn ngữ được sử dụng trong một tài
liệu quan trọng. Tàiliệu với thẻ đánh dấu một vài ngôn ngữ đặc biệt sử dụng thẻ siêu dữ
liệu. Chương trình chứng thực ngôn ngữ phải được xác định. Nếu một tàiliệu có giá trị
cao nhưng không phải trong ngôn ngữ phù hợp cho công cụ xử lý văn bản, thì nó phải
được dịch.
3.3.4. Các thao tác phân tích văn bản
Thao tác phân tích văn bản giống như thao tác nạp dữliệu vào khotài liệu. Thao
tác tiền xử lý đã được hoàn tất, công việc thật sự bắt đầu. Thao tác này bao gồm: Lập
chỉ mục, trích chọn đặc trưng, phân loại, tóm tắt, phân cụm, máy dịch.
3.3.5. Quản lý khotàiliệu
Bây giờ chúng ta đã tạo ra một khotàiliệuvà mở nó trên Web và phần còn lại là
của tổ chức, chúng ta phải quản lý và chăm sóc để nó hoạt động bình thường. Thêm vào
đó để xử lý những nhiệm vụ được mô tả ở trước, người quản trị khotàiliệu sẽ tìm
chúng với một vài nhiệm vụ cơ bản, bao gồm: Duy trì hệ thống, duy trì siêu dữ liệu, lưu
trữ, cắt tỉa và làm linh khiết
3.3.6. Thao tác hỗ trợ người dùng cuối
Thao tác người dùng cuối là thao tác quan trọng nhất của khotài liệu. Tàiliệu có
thể được tập hợp, chuyển đổi, và dịch khi cần thiết, đánh chỉ mục, gom vào vùng đơn
giản, tóm tắt, đưa đến người đọc, và cuối cùng lưu trữ trong khotài liệu. Bây giờ người
dùng cuối, từ phân tích công việc trong siêu thị và kế hoạch để đưa ra chiến lược tìm
kiếm cạnh tranh thông minh đưa ra phía trước để giải quyết phàn nàn của khách hàng.
3.4. Kiếntrúckhotàiliệu
Dựa trên Các thành phần chính của khotài liệu, Quy trình khotàiliệuvàmối
liên hệgiữakhodữliệutruyềnthốngvàkhotài liệu, tôi xây dựngkiếntrúc kho tàiliệu
Các thành phần trong kiếntrúckhotài liệu:
Nguồn dữliệu tác nghiệp là dữliệu văn bản vàdữliệu từ các nguồn tàiliệu
không có cấu trúc. Đây là dữliệu chiếm phần lớn trong các doanh nghiệp và tổ chức.
Máy chủ thu thập tàiliệu có nhiệm vụ chiết dữliệu từ các nguồn dữliệu tác
nghiệp thông qua việc truy xuất tàiliệu từ nguồn dữliệu tác nghiệp.
Dữ liệu sau khi chiết sẽ qua quá trình tiền xử lý để chuyển dữliệu về định dạng
thích hợp trong khodữ liệu, đồng thời trong quá trình này dữliệu sẽ được làm sạch.
Máy chủ phân tích văn bản có nhiệm vụ đưađữliệu sau khi chuyển đổi vào kho
62 Xây dựngkiếntrúc kho tàiliệudựatrênmốiliên hệ…
tài liệu. Thao tác này bao gồm: Lập chỉ mục, trích chọn đặc trưng, phân loại, tóm tắt,
phân cụm, máy dịch. Sau quá trình này dữliệu từ nguồn tác nghiệp sẽ được đưa vào kho
để phục vụ quá trình phân tích và trích rút tri thức. Khotàiliệu đặc trưng với 4 thuộc
tính:
- Văn bản không có cấu trúc đơn giản hay kiểu văn bản đơn giản
- Văn bản được trích rút từ nhiều nguồn
- Đặc trưng chủ yếu của văn bản được tự động chiết và lưu trữ rõ ràng
- Khotàiliệu được thiết kế để tích hợp ngữ nghĩa văn bản được quan hệ.
Hình 2. Kiếntrúckhotàiliệu
4. Kết luận và hướng phát triển
Bài viết đã phân tích vai trò của khodữ liệu, những vấn đề còn tồn tại ảnh
hưởng đến chất lượng khodữliệuvà độ tin cậy của việc đưa ra quyết định. Đồng thời,
bài viết đã chỉ ra được mốiliênhệgiữakhodữliệutruyềnthốngvàkhotàiliệu làm nền
tảng cho việc xây dựngkiếntrúc kho tài liệu. Nhờ vào kiếntrúckhotàiliệu chúng ta có
thể biết được quy trình để xâydựngkhodữliệu từ nguồn dữliệu là các văn bản vàtài
liệu không có cấu trúc.
Bài viết chỉ dừng lại ở mức độ xây dựngkiếntrúc kho tàiliệudựa vào các công
trình nghiên cứu của các tác giả. Hướng phát triển của đề tài sẽ xâydựng một khodữ
liệu văn bản dựa vào kiếntrúc đã xây dựng.
Truy xu
ấ
t
tài liệu
Văn
bản
Máy ch
ủ
thu
thập tàiliệu
Tiền xử lý
Máy ch
ủ
phân tích
văn bản
Kho văn
bản
Kh
ố
i văn
bản
Ngu
ồ
n
tài liệu
không có
cấu trúc
Ch
ợ
văn
bản
Tóm tắt
Phân cụm
Máy dịch
Lập chỉ mục
Trích chọn đặc trưng
Phân loại
LÊ VĂN HÒA 63
TÀI LIỆU THAM KHẢO
[1]. Nguyễn Thanh Bình, Trần Hiếu, Xâydựnghệthống tích hợp thông tin hỗ trợ cho hệ
thống tư vấn học tập trực tuyến, Luận văn thạc sĩ khoa học, Đại học Khoa học – Đại
học Huế, Huế, 2007.
[2]. Nguyễn Thanh Bình, Lê Văn Hòa, Giải pháp Web cho dịch vụ xâydựngkhodữ liệu.
Luận văn thạc sĩ khoa học, Trường Đại học Khoa học – Đại học Huế, Huế, 2010.
[3]. Byung-Kwon Park, Il-Yeol Song, Toward Total Business Intelligence Incorporating
Structured and Unstructured Data, Uppsala – Sweden, 2011.
[4]. Frank S.C. Tseng, Design of a multi-dimensional query expression for document
warehouses, Department of Information Management, National Kaohsiung First
University of Science and Technology, Kaohsiung 811, Taiwan, ROC, 2004.
[5]. Sullivan, Dan, Document Warehousing and Text Mining, John Wiley, 2011.
[6]. Shufu, Wu, Document Warehousing, Dept. of Information Management, NTU, 2004.
[7]. Kalli Srinivasa Nageswara Prasad, Prof. S. Ramakrishna, Text Analytics to Data
Warehousing, International Journal on Computer Science and Engineering, 2010.
BUILDING AN ARCHITECTURE OF THE DOCUMENT WAREHOUSES
BASED ON THE RELATIONSHIPS BETWEEN TRADITIONAL DATA
WAREHOUSES AND DOCUMENT WAREHOUSES
Le Van Hoa
Faculty of Hospitality and Tourism, Hue University
Abstract. This paper represents the process of learning the components, the process of
building document warehouses and the role of document warehouses which lead to the
awareness toward the need document warehousing with businesses and organizations that
need quick decisions with high precision. Based on the similarity between the stages in the
process of building traditional data warehouses and document warehouses, the architecture
of the document warehouses is proposed. The reliability and high accuracy of proposed
architecture could be ensured by means of the researches that demonstrate the similarities
between the process of building a traditional data warehouses and document warehouses.
.
3.4. Kiến trúc kho tài liệu
Dựa trên Các thành phần chính của kho tài liệu, Quy trình kho tài liệu và mối
liên hệ giữa kho dữ liệu truyền thống và kho tài. được mối liên hệ giữa kho dữ liệu truyền thống và kho tài liệu làm nền
tảng cho việc xây dựng kiến trúc kho tài liệu. Nhờ vào kiến trúc kho tài liệu chúng