1. Trang chủ
  2. » Luận Văn - Báo Cáo

Hệ thống khai thác và quản lý nội dung trên nền web iCMS

34 701 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 34
Dung lượng 297,5 KB

Nội dung

Hệ thống khai thác và quản lý nội dung trên nền web iCMS

Trang 1

Hệ thống khai thác và quản lý nội

dung trên nền web iCMS

Nhóm iCMS

Nguyễn Công Kha Tôn Nữ Minh Anh Đặng Quang Huy Nguyễn Anh Tuấn Nguyễn Thanh Tùng

Trang 2

Hà nội

Mục lục

I Giới thiệu 4

I.1 Nhu cầu thực tế 4

I.1.1 Thực trạng các web site tại Việt Nam 4

I.1.2 Nhu cầu về cập nhật và quản lý nội dung thông tin web site 4

I.2 Hoàn cảnh ra đời 5

I.3 Giới thiệu sản phẩm 6

I.4 Các khó khăn và cách giải quyết trong quá trình phát triển sản phẩm 9

I.5 Các kết quả đã đạt được 11

I.6 Đánh giá tiềm năng thị trường 11

II Cơ sở lý thuyết 13

II.1 Yêu cầu đối với hệ thống quản lý nội dung (Content Management System) và hướng áp dụng trong iCMS 13

II.1.1 Giới thiệu chung về hệ thống quản lý nội dung 13

II.1.2 Các chức năng cơ bản mà một hệ thống CMS phải có 13

II.1.3 Các yêu cầu mới hiện nay đối với hệ thống CMS chuyên nghiệp 14

II.1.4 Định hướng phát triển cho sản phẩm iCMS 15

II.2 Lý thuyết về thu thập và phân tích thông tin và hướng tích hợp với hệ quản lý nội dung iCMS 15

II.2.1 Toàn cảnh 15

II.2.2 Khái niệm 15

II.2.3 Tầm quan trọng 16

II.2.4 Mô hình về một hệ thống thu thập và phân tích thông tin 16

II.2.5 Thiết kế phần thu thập thông tin của iCMS NewsSpider 16

II.2.6 Thiết kế phần phân tích thông tin của iCMS NewsSpider 17

II.2.7 Mô hình của một hệ thống hoạt động tự động trong iCMS NewsSpider 18

II.2.8 Phân phối thông tin và hướng tích hợp với iCMS 18

III Mô tả giải pháp 20

III.1 Các đặc điểm cơ bản của iCMS 20

Trang 3

III.1.1 Đa hệ điều hành 20

III.1.2 Đa hệ quản trị cơ sở dữ liệu 20

III.1.3 Hỗ trợ chuẩn xuất bản và thu nhận thông tin theo XML, RDF, RSS 20

III.1.4 Hệ thống thu thập và phân loại thông tin từ các nguồn xuất bản không tuân theo chuẩn ( dành riêng cho điều kiện Việt Nam) 21

III.1.5 Multi Input ( Multi document format, Multi protocol, RDF source…) 21

III.1.6 Multi Output (Web Browser, Printer, WAP Mobile Phone, iCMS Offline Client, RSS …) .21 III.1.7 Quản lý quy trình và phân quyền biên tập thông tin 21

III.1.8 Cơ chế quản lý tính duy nhất (kiểm tra vào ra (Check-in; Check-out)) 22

III.1.9 Quản lý phiên bản (Versioning) 23

III.1.10 Đa ngôn ngữ 23

III.1.11 Đa giao diện, đa website 23

III.1.12 Tối ưu hoá cho các máy tìm kiếm 23

III.1.13 Tìm kiếm Toàn văn đa ngôn ngữ trên toàn bộ dữ liệu 24

III.1.14 Thống kê và phân tích thông tin 24

III.1.15 Sao lưu dự phòng và hồi phục 24

III.1.16 Bảo mật 25

III.1.17 Xuất bản thông tin 25

III.1.18 Khả năng tích hợp và mở rộng 25

III.2 Mô hình triển khai 25

IV Ưu điểm của iCMS và so sánh với các hệ thống khác 27

IV.1.1 Ưu điểm của việc ứng dụng iCMS 27

V Tài liệu cài đặt và sử dụng iCMS 30

V.1 Yêu cầu môi trường triển khai 30

V.2 Hướng dẫn cài đặt 30

V.3 Hướng dẫn sử dụng iCMS 30

V.4 Hướng dẫn sử dụng module iCMS News Spider 30

V.5 Hướng dẫn sử dụng phần mềm iCMS Off-line Client 30

VI Kết luận và định hướng phát triển tiếp theo 31

VI.1 Nguyện vọng trong tương lai 32

VII Tài liệu tham khảo 33

Trang 4

I Giới thiệu

I.1 Nhu cầu thực tế

I.1.1 Thực trạng các web site tại Việt Nam

a) Theo một tài liệu của Bộ Khoa học và Công nghệ thì hiện nay, Việt Nam có khoảng 10.000 web site tiếng Việt và là một số lượng khá khiêm tốn nếu biết rằng trong cả nước có khoảng 70 ngàn doanh nghiệp, không kể số lượng hàng ngàn các đơn vị, cơ quan trong hệ thống quản lý của nhà nước Nhu cầu xây dựng web site tại Việt Nam, đặc biệt là các web site tiếng Việt như vậy còn rất lớn

b) Thông tin trên các web site của Việt Nam nói chung được đánh giá là còn sơ sài, nghèo nàn và chưa đáp ứng được nhu cầu của người sử dụng cả trong nước lẫn ngoài nước Một trong những nguyên nhân cơ bản mang tính kỹ thuật là do thiếu qui trình cập nhật thông tin, thiếu các công cụ phần mềm cho việc cập nhật và quản trị nội dung thông tin, đặc biệt là các công cụ bằng tiếng Việt

I.1.2 Nhu cầu về cập nhật và quản lý nội dung thông tin web site

a) Đa phần các web site cập nhật thông tin từ xa bằng các tệp siêu văn bản thông qua một phần mềm truyền tệp được cài đặt trên máy trạm rồi được chuyển vào máy chủ truyền tệp Từ đây dữ liệu được lấy ra, được duyệt và được đưa lên web site bằng phương pháp sao chép thủ công

b) Số ít các web site được cập nhật nhờ các form mẫu được thiết kế để nhập dữ liệu vào trong một hệ quản trị cơ sở dữ liệu và các dữ liệu này có kết nối với các tệp siêu văn bản và hình ảnh nằm trong cây thư mục của máy chủ web Rất nhiều các form mẫu nhập liệu loại này chỉ có thể chạy trên một hệ thống mạng LAN

c) Với hai cách trên, việc cập nhập dữ liệu của hầu hết các web site không được tự động hoá bằng một qui trình khép kín, làm nảy sinh mâu thuẫn giữa người chịu trách nhiệm về thông tin và người đưa thông tin lên web site

d) Cũng do những cách cập nhật nội dung như trên, việc quản lý nội dung thông tin web site trở nên khó khăn, đôi khi là không thể thực hiện được Những ví dụ thường thấy là rất nhiều web site có những thông tin đã cũ rích, không còn giá trị nhưng vẫn tồn tại vì có lẽ trước đó, người ta chỉ nghĩ tới việc đưa các thông tin lên web site chứ chưa nghĩ tới việc đưa nó xuống như thế nào

Trang 5

e) Vì vậy, việc xây dựng web site với những công cụ cập nhật và quản lý nội dung thông tin được tích hợp ngay trên web site đó, là một nhu cầu rất lớn hiện nay tại Việt Nam

Những nhược điểm của các web site hiện hành được phân tích bên trên có thể giải quyết được bằng một hệ thống quản trị nội dung thông tin web site như iCMS iCMS

là một hệ quản lý thông tin website được xây dựng

I.2 Hoàn cảnh ra đời

* Đầu năm 2001, khi tham gia trong CLB Nhà doanh nghiệp tương lai ĐHNT, Nguyễn Công Kha tham gia phụ trách mảng xây dựng một Website thông tin phục

vụ nghiên cứu và hoạt động của CLB Bài toán đặt ra là có một phần mềm quản lý việc đưa tin lên Web một cách thuận tiện, đơn giản và dễ dàng, bất kỳ người nào có kiến thức cơ bản về tin học cũng thể sử dụng được Một bài toán khác cũng đặt ra lúc đấy là việc khai thác, biên tập thông tin trên mạng rất tốn rất nhiều thời gian online

và công sức tìm kiếm của nhiều người trong ban biên tập, trong khi đó chi phí Internet lúc đó chủ yếu do các thành viên tự trả Do vậy, nếu có một công cụ nào đấy giúp việc khai thác thông tin trên mạng nhanh chóng, dễ dàng, có thể sử dụng off-line, một người khai thác nhưng có thể cho nhiều người dùng sẽ giúp giảm chi chí, thời gian và công sức rất nhiều

* Nguyễn Công Kha đã trao đổi ý tưởng xây dựng hệ thống phần mềm này với một

số người bạn quen trên các diễn đàn về công nghệ thông tin trên Internet đang học chuyên ngành CNTT là Đặng Quang Huy, Nguyễn Anh Tuấn, Nguyễn Thanh Tùng Lúc đó, Tùng đang nghiên cứu dự án về tự động tìm kiếm và khai thác thông tin trên các Website Internet Còn Tuấn và Huy đang tham gia phát triển và quản trị Website của một số công ty tin học và câu lạc bộ sinh viên

* Say mê với công việc mới thú vị, chỉ 02 tháng sau, nhóm cho ra đời một phần mềm phục vụ quản lý Website Internet đáp ứng cơ bản các yêu cầu đặt ra Tuy nhiên, phần mềm mới là sản phẩm tự phát xây dựng chưa được định hướng về công nghệ cũng như tư tưởng, khái niệm sản phẩm rõ ràng

* Trong thời gian này, một người bạn thân của nhóm là Tôn Nữ Minh Anh lúc đó đang học ngành quản trị kinh doanh ở nước ngoài biết đến sản phẩm và có trao đổi ý tưởng về sản phẩm cũng như khả năng triển khai ứng dụng thực tế những gì mà nhóm đang phát triển Minh Anh cũng đã nghiên cứu và tham gia cộng tác, thực tập

với một số công ty nước ngoài nên có nhiều ý tưởng hay về hệ thống quản trị nội

dung chuyên nghiệp Đồng thời, Minh Anh cũng gợi ý nếu mọi người tập trung

nghiên cứu khái niệm Knowledge Mangement, Content Management, nghiên cứu

Trang 6

quy trình phát triển phần mềm chuyên nghiệp để ứng dụng phát triển thành sản phẩm hoàn thiện, đáp ứng yêu cầu của hệ thống CMS chuyên nghiệp Khi đó, Minh Anh có thể giúp đỡ đưa ứng dụng triển khai tại một số công ty, tổ chức nước ngoài Hơn nữa, sản phẩm CMS hoàn thiện có khả năng ứng dụng hiệu quả phục vụ nhu cầu trong.nước, giúp giải quyết nhu cầu nghiên cứu, chia sẻ, trao đổi nội dung trực tuyến một cách thuận tiện, đơn giản, nhanh chóng chóng, tiết kiệm nhiều thời gian và chi phí.

* Sự tham gia của Minh Anh vào nhóm đã thúc đẩy tinh thần và quyết tâm của nhóm xây dựng một phần mềm CMS chuyên nghiệp đáp ứng các tiêu chuẩn của thế giới

Nhóm thành lập lấy tên là iCMS với 5 thành viên cơ cấu gồm 3 người phụ trách kỹ

thuật, phát triển sản phẩm là Huy, Tuấn, Tùng ; 2 người phụ trách xây dựng các yêu cầu sản phẩm, quy trình làm việc, kế hoạch đưa ra triển khai và ứng dụng là Kha và

Minh Anh Nhóm đặt tên sản phẩm là Hệ thống khai thác và quản lý nội dung trên

nền web iCMS (Innovative Content Management System), cùng nhau xây dựng kế

hoạch học hỏi và hợp tác với các chuyên gia trong lĩnh vực công nghệ thông tin, báo chí, các bạn bè đang học tập, nghiên cứu ở trong và ngoài nước, xây dựng kế hoạch nghiên cứu và phát triển sản phẩm lâu dài theo các giai đoạn khác nhau

I.3 Giới thiệu sản phẩm.

Hệ thống khai thác và quản lý thông tin trên nền web iCMS (Innovative Content Management System)

Ngoài tính năng của một hệ quản trị nội dung chuyên nghiệp (Content Management System) theo các chuẩn quốc tế đã và đang được triển khai và đem lại hiệu quả cao trong thực tiễn, iCMS còn được tích hợp với hệ thống khai thác thông tin trực tuyến, tạo thành một giải pháp hoàn chỉnh trong việc khai thác, quản lý, phân phối và xuất bản thông tin

Giải pháp iCMS gồm 3 hệ thống: Hệ thống quản lý nội dung iCMS; Hệ thống khai

thác và phân tích thông tin iCMS News Spider; Hệ thống iCMS Off-line Client

tạo thành một giải pháp hoàn chỉnh phục vụ việc khai thác và quản lý nội dung trực tuyến từ lúc thu thập thông tin cho đến khi phân phối thông tin đến người dùng cuối

iCMS

News Spider

iCMSContent Management System

iCMSOff-line Client

iCMS Solution

Trang 7

Hình minh họa cơ chế hoạt động của Hệ thống khai thác và quản lý nội dung trên web iCMS

Cơ chế hoạt động gồm 3 giai đoạn lớn: Khởi tạo nội dung – Quản lý nội dung – Xuất bản nội dung được mô tả như mô hình dưới đây

XML, RDF, RSS

iCMS WYSIWYG Tool

iCMS News Spider

Others

K h ở i t ạ o n ộ i d u n g

M u l t i m e d i a D o c u m e n t s

Quản lý quy trình Quản lý phiên bản Quản lý lưu trữ Thống kê Phân quyền bảo mật, Quản lý người dùng Tích hợp hệ thống V v

Q u ả n l ý n ộ i d u n g

i C M S C o r e E n g i n e

XML, RDF, RSS

Internet, Intranet Website

Mobile, PDA, Email, Print

iCMS Off-line Client

X u ấ t b ả n n ộ i d u n g

M u l t i m e d i a D o c u m e n t s

Mô tả cơ chế hoạt động của giải pháp iCMS

Trang 8

iCMS giải quyết đầy đủ 3 giai đoạn của nghiệp vụ quản trị nội dung gồm:

1 Quản lý khỏi tạo, thu thập nội dung

iCMS cung cấp phong phú các công cụ phục vụ quá trình tạo, thu thập, xử lý các loại nội dung thông tin đầu vào từ nhiều nguồn tin, thiết bị đưa tin khác nhau.

• iCMS cho phép thông tin đầu vào từ nhiều nguồn khác nhau: Từ các hệ thống xuất bản thông tin chuẩn theo các định dạng XML, RDF, RSS; Nội dung do người dùng trực tiếp biên tập và nhập vào hệ thống

• Hỗ trợ nhiều định dạng dữ liệu: Tất cả các định dạng tài liệu trên máy tính: văn bản, hình ảnh, âm thanh, bảng tính

• Công cụ biên tập khởi tạo nội dung WYSIWYG (công cụ biên tập “thấy là được” tương tự Microsoft Word) trực tiếp trên nền web, các mẫu (template) định dạng đối tượng nội dung thông tin

• Tích hợp công cụ khai thác và thu thập tin tức tự động iCMS News Spider phép phân tích, khai thác, tổng hợp thông tin tự động từ các hệ thống trực tuyến khác như hệ thống Website, diễn đàn là thông tin đầu vào

Nội dung trong quá trình khởi tạo này có thể được lưu trữ trong hệ thống kho dữ liệu phục vụ việc tham khảo, nghiên cứu hoặc được sử dụng như là nguồn thông tin đầu vào cho quá trình xuất bản nội dung ở các giai đoạn sau

2 Quản lý quá trình xử lý nội dung

Phần quan trọng của iCMS là cung cấp các cơ chế, tính năng phục vụ công việc quản lý quá trình biên tập nội dung, quản lý phiên bản, quy trình duyệt tin, phê chuẩn, lưu chữ Đây là cầu nối, nhân xử lý quan trọng liên kết các dữ liệu thông tin đầu vào để tạo ra nội dung đầu ra

• iCMS cung cấp cơ chế workflow engine cho phép các thực hiện các quy trình biên tập và xuất bản thông tin, bao gồm việc phân quyền theo vai trò biên tập nội dung, quản lý duy nhất (cơ chế check-in, check-out); quản lý quy trình linh hoạt với khả năng tùy biến cao; cung cấp trang thái xử lý nội dung

• iCMS cho phép tạo lập không giới hạn các phiên bản tài liệu, thể hiện trạng thái hiện thời của phiên bản tài liệu

Trang 9

• Công cụ báo cáo thống kê tình trạng hoạt động của hệ thống đầy đủ và phong phú

• iCMS cho phép lưu trữ nội dung thông tin dưới nhiều dạng khác nhau database, XML, HTML, TEXT

3 Phân phối và xuất bản thông tin

iCMS cung cấp khả năng phân phối và xuất bản thông tin đa dạng phong phú tới bằng nhiều phương thức, tới nhiều thiết bị và đối tượng khác nhau:

iCMS cho phép xuất bản thông tin trực tiếp từ một nguồn duy nhất ra các phương tiện khác nhau như hệ thống Website Internet, Intranet, các thiết bị di động, cầm tay,

in ấn, email

iCMS cung cấp nội dung thông tin theo các định dạng chuẩn XML, RDF, RSS cho phép các hệ thống khai thác nội dung của iCMS một cách thuận tiện và dễ dàng Ngoài ra, iCMS còn hỗ trợ phần mềm iCMS Off-line Client cho phép người dùng sử dụng khai thác thông tin off-line nhằm tiết kiệm thời gian và chi phí

4 Dễ dàng tích hợp với các module khác

iCMS module hóa, cho phép dễ dàng thêm, bớt, quản lý các module khác gồm:

• Công cụ quản lý quảng cáo

• Công cụ thăm dò dư luận (Poll)

• Công cụ điều tra ý kiến (Survey)

• Công cụ phỏng vấn, hội thoại trực tuyến, tích hợp văn bản, âm thanh, hình ảnh (Live Support)

• Và nhiều module khác (Customize Modules)

I.4 Các khó khăn và cách giải quyết trong quá trình phát triển

Trang 10

là phải tạo ra sản phẩm có chất lượng tương đương với những sản phẩm quốc tế

trong khi có nhiều nguồn lực hạn chế và phải vừa làm vừa tự nghiên cứu

* Việc xây dựng iCMS khó hơn những suy nghĩ ban đầu của các thành viên Cả nhóm đã có những “sản phẩm” đã giải quyết được bài toán đặt ra: Tùng có sản phẩm

tự động phân tích, khai thác thông tin trên Internet; Huy và Tuấn đã lập trình và quản trị mạng cho một số Website, và còn một số sản phẩm nhỏ nữa có thể tích hợp được Tuy nhiên, do các sản phẩm này đựoc xây dựng chưa chuyên nghiệp nên rất hạn chế trong khả năng tích hợp lại với nhau, đồng thời hạn chế khả năng mở rộng, xây dựng phát triển theo các tiêu chuẩn quốc tế Do vậy, cả nhóm bắt tay xây dựng iCMS gần như là từ đầu Phải lựa chọn lại công nghệ, nghiên cứu các sản phẩm của nước ngoài, nghiên cứu lý thuyết về ứng dụng Content Management, quy trình phát triển phần mềm

* Các khó khăn mà nhóm đã trải qua trong quá trình phát triển sản phẩm đó là

- Phải tự học hỏi những tiêu chuẩn, khái niệm mới trong lĩnh vực phát triển giải pháp CMS theo chuẩn chuyên nghiệp của thế giới nhằm xây dựng được những yêu cầu cụ thể, chính xác, có định hướng cho sản phẩm

- Khi mới bắt đầu phát triển iCMS, cả nhóm đã phân tích nghiên cứu và lựa chọn nền tảng NET Framework Lúc đó, NET Framework vẫn rất còn mới mẻ

ở Việt Nam Do vậy, song song với việc nghiên cứu, xây dựng yêu cầu sản phẩm, đội công nghệ cũng phải tự đầu tư nghiên cứu để triển khai công nghệ mới

- Việc xây dựng ứng dụng iCMS đòi hỏi phải có hệ thống mạng, máy chủ, Internet, Intranet, thiết bị để nghiên cứu thử nghiệm, tuy nhiên các thiết bị này cũng rất bị hạn chế

- Do các thành viên là phân tán, có thời gian biểu không giống nhau, lại vừa học, vừa phát triển sản phẩm nên nhóm cũng gặp khó khăn về thời gian và địa điểm làm việc cùng nhau

- Ngoài ra, đó là khó khăn về kinh phí và nhân lực dẫn đến việc chưa có đủ nguồn lực để có thể nâng cao hơn nữa thời gian và chất lượng sản phẩm

* Tuy nhiên, bên cạnh khó khăn đó, chúng tôi cũng gặp nhiều thuận lợi Chúng tôi đã

nhận được rất nhiều ý kiến động viên chia sẻ về ý tưởng, phương thức, định hướng

để phát triển, hoàn thiện sản phẩm của những người quan tâm đến lĩnh vực mà chúng tôi đang nghiên cứu Chúng tôi nhận được một số nguồn tài liệu, kinh nghiệm quý báu trong lĩnh vực chuyên môn và công nghệ từ các bạn bè, công ty, tổ chức trong và

Trang 11

ngoài nước ủng hộ Điều này giúp chúng tôi có cái nhìn rộng hơn, sâu hơn và tự tin hơn vào công việc đang làm.

I.5 Các kết quả đã đạt được

iCMS hiện đã là một sản phẩm hoàn thiện, có thể triển khai để quản lý nội dung website của các Toà soạn báo điện tử, các trang thông tin điện tử, trang web của các

cơ quan, ban ngành, tổ chức xã hội và hệ thống thông tin của doanh nghiệp

Sản phầm iCMS hiện được thử nghiệm và ứng dụng tại nhiều website của các tổ chức, công ty, trang tin hàng đầu Việt Nam như

• Hệ thống quản lý thông tin trên web của Đài truyền hình Việt Nam (

I.6 Đánh giá tiềm năng thị trường

Thị trường Web-based Content Management System trên thế giới mới xuất hiện trong vòng 5 năm trở lại đây ( đến năm 2002 hãng Microsoft mới gia nhập thị trường này), riêng ở Mỹ đây là thị trường có giá trị 13 đến 15 tỉ USD và hiện đang tăng trưởng nhanh trên toàn thế giới Đặc biệt ở Việt Nam, cùng với sự phát triển của Internet, nhu cầu thực tế của các tổ chức, công ty có một hệ thống website có thể quản lý tin tức, xuất bản thông tin, làm việc nhóm trực tuyến ngày càng cao Có thể nói iCMS có thị trường tiềm năng lớn cả trong và ngoài nước, vì:

Việt Nam là thị trường mới đối với CMS và có nhu cầu rất lớn: Theo thống kê của VNNIC, hầu hết các công ty, tổ chức ở Việt Nam chưa có tên miền riêng hoặc mới mua tên miền nhưng chưa xây dựng website ( trong số trên 70.000 doanh nghiệp và hàng chục ngàn tổ chức mới chỉ có 2300 tên miền được đăng ký trong nước và khoảng 10.000 trang web trên mạng) Thị trường của iCMS khá rộng bao gồm các trang tin điện tử, các cơ quan Bộ, ban, ngành, UBND các cấp , các tổ chức, hiệp

Trang 12

hội, các doanh nghiệp Hiện iCMS đã được ứng dụng thành công để quản lý thông tin qua hệ thống web của Đài truyền hình Việt Nam, công ty viễn thông Hà Nội, công ty viễn thông Dầu khí, trang tin điện tử Tin tức Việt Nam

Với cách tiếp cận hiện đại, iCMS không hề thua kém nhiều sản phẩm cùng loại trên thế giới Cấu trúc mở của iCMS khiến phần mềm có thể ứng dụng với mọi ngôn ngữ khác nhau và qui trình quản lý nội dung khác nhau Nếu có bộ phận tiếp thị, bán hàng hiệu quả phần mềm hoàn toàn có khả năng thu hút khách hàng quốc tế nhờ chất lượng tốt và giá thành hợp lý Hiện nhóm tác giả đang chuẩn bị bán iCMS cho một

số công ty, tổ chức tại Hà Lan, Đan Mạch

Trang 13

II Cơ sở lý thuyết

II.1 Yêu cầu đối với hệ thống quản lý nội dung (Content

Management System) và hướng áp dụng trong iCMS

II.1.1 Giới thiệu chung về hệ thống quản lý nội dung

* Sự bùng nổ của kỷ nguyên Internet đã dẫn tới một nhu cầu mới rất lớn, đó là nhu cầu tìm kiếm, khai thác và trao đổi thông tin trên mạng Internet Các website xuất hiện liên tục và ngày càng nhiều, do đó, đẫn tới một nhu cầu mới: Nhu cầu quản lý

và khai thác và trao đổi thông tin trên mạng Internet Những giải pháp quản trị nội dung Internet được phát triển và ngày càng được chuẩn hóa, giúp cho các tổ chức, doanh nghiệp thuận tiện hơn trong việc xuất bản cũng như khai thác thông tin

* Trong môi trường liên kết và tương tác cao như môi trường Internet, việc nhận thức và phát triển một ứng dụng theo tiêu chuẩn chung của quốc tế, có khả năng tương tác cao với các hệ thống khác là một yếu tố hết sức quan trọng và cần thiết

* Một cách đơn giản nhất, Hệ thống quản trị nội dung (Web Content Management System) là một hệ thống quản lý các thành phần làm nên nội dung của một Website Tuy nhiên “nội dung” là một khái niệm rất rộng Do vậy, khi nhắc đến CMS, người

ta phải nhắc đến các đến các yếu tố cấu thành nội dung nằm trong phạm vi mà hệ CMS đề cập tới cũng như các đặc điểm trong các chu trình quản lý nội dung đó

* Một cách chính xác hơn, CMS là hệ thống quản lý việc khởi tạo nội dung, quá trình

xử lý nội dung đó cho đến khi nó được xuất bản, phân phối tới người dùng cuối.CMS = Khởi tạo nội dung -> Quản lý quá trình xử lý nội dung đó -> Phân phối nội dung tới người dùng cuối

II.1.2 Các chức năng cơ bản mà một hệ thống CMS phải có

* Cung cấp công cụ phục vụ quá trình soạn thảo, biên tập, chỉnh lý nội dung

* Có hệ thống quản lý lưu trữ nội dung chung

* Quản lý phiên bản tài liệu, giám sát sự thay đổi, cho phép tìm lại nội dung thay liệu trước và sau khi thay đổi, biên tập

* Cung cấp hệ thống quản lý quy trình xử lý nội dung thông tin

* Có khả năng kết xuất thông tin đầu ra tự động từ hệ thống quản lý lưu trữ nội dung dùng chung

Trang 14

* Cung cấp khả năng cá nhân hóa thông tin cho người dùng

* Cung cấp cho người dùng những công cụ tìm kiếm tra cứu theo thuộc tính, tìm kiếm toàn văn giúp nhanh chóng tìm kiếm và định vị được nội dung thông tin

II.1.3 Các yêu cầu mới hiện nay đối với hệ thống CMS chuyên nghiệp

• Trong môi trường điện toán phức tạp như hiện nay, thông tin không còn là thực thể đơn lẻ nữa, nó là một phần trong một hệ thống thông tin lớn hơn, luôn cần có

sự kết hợp, trao đổi, liên thông dữ liệu với nhau

• Yêu cầu trong quá trình khởi tạo nội dung:

- Độc lập nội dung và các lớp giao diện thể hiện

- Cho phép nhiều người sử dụng, làm việc trên một tài liệu

- Đối với mỗi nội dung, chỉ có một nguồn duy nhất

- Cung cấp khả năng quản lý các thuộc tính khác liên quan đến nội dung thông tin (Tác giả, tiêu đề, từ khóa ) (Metacontent)

- Người sử dụng không cần có kỹ năng đặc biệt về lập trình và công nghệ có thể

sử dụng các công cụ biên tập và xử lý nội dung

- Tính dễ sử dụng

• Yêu cầu trong quá trình quản lý nội dung

- Quản lý phiên bản tài liệu, Quản lý lưu trữ

- Quản lý quy trình biên tập và phê duyệt nội dung thông tin

- Đảm bảo tính bảo mật

- Có khả năng tích hợp với các hệ thống thông tin khác bên ngoài

- Cung cấp các dữ liệu báo cáo tình hình hoạt động đa dạng

• Xuất bản thông tin

- Đồng nhất về khả năng trình bày với những loại dữ liệu giống nhau

- Cung cấp các mẫu, định dạng (template) giúp xuất bản nội dung một cách nhanh chóng và thuận lợi

- Có khả năng xuất bản ra nhiều định dạng khác nhau như Web, In ấn, thiết bị cầm tay

Trang 15

- Có khả năng cá nhân hóa thông tin

• Về mặt công nghệ

- Hệ thống phải tiện dụng và thân thiện với người dùng

- Công nghệ giúp hệ thống có khả năng tương thích và dễ dàng tích hợp, mở rộng

- Hệ thống phải tuân theo các chuẩn dữ liệu xuất bản thông tin trực tuyến

II.1.4 Định hướng phát triển cho sản phẩm iCMS

Thông qua nghiên cứu yêu cầu đặt ra đối với hệ thống CMS chuyên nghiệp, nhóm iCMS định hướng phát triển sản phẩm tuân theo các chuẩn đặt ra của hệ thống quản trị nội dung, có khả năng tích hợp và mở rộng trong tương lai để tạo thành giải pháp hoàn chỉnh trong việc quản lý khai thác và xử lý thông tin trực tuyến

II.2 Lý thuyết về thu thập và phân tích thông tin và hướng tích

hợp với hệ quản lý nội dung iCMS

II.2.1 Toàn cảnh

Hiện nay công nghệ thông tin đang phát triển cực kỳ mạnh mẽ, lượng thông tin điện

tử được cập nhật và bổ sung hàng ngày với dung lượng tăng theo cấp số mũ Một phần lớn trong số đó là những dữ liệu văn bản không có cấu trúc Những công cụ tìm kiếm đã trợ giúp đắc lực cho nhu cầu tìm kiếm của người dùng, chúng mang lại một phương thức hiệu quả để thu thập thông tin với những truy vấn gồm một tập những

từ khóa mà người dùng mô tả thông tin Tuy nhiên, sử dụng công cụ tìm kiếm không thể đạt hiệu quả với những nhu cầu tìm kiếm thông tin không thể đưa ra từ khóa Một

ví dụ thực tế rất điển hình: “Liệt kê những tin tức trong ngày hôm nay” Sử dụng một công cụ tìm kiếm không phải là một ý tưởng tốt cho vấn đề này Một công cụ thu thập thông tin (Information Retrieval) và phân tích thông tin (Information Extraction)

sẽ là giải pháp cần thiết và hợp lý hơn

II.2.2 Khái niệm

Công nghệ thu thập tin: (Information Extraction) là quá trình thu thập, xử lý thông tin từ một số nguồn văn bản xác định (có thể là nguồn chuẩn hoặc không chuẩn) tách

ra những thông tin cần thiết để có thể lưu trữ và sử dụng lại được (reusable) Nguồn văn bản này thường là từ Internet

Công nghệ phân phối tin: Từ các dữ liệu đã thu thập được, thông tin sẽ được phân phối tới các ứng dụng khác như ứng dụng CMS (Content Management System – Hệ

Trang 16

thống quản lý thông tin), ứng dụng WAP (Wireless Application - Ứng dụng không dây)…

Công nghệ thu thập và phân phối tự động: các tài liệu được tự động cập nhật, người

sử dụng không cần điều khiển liên tục để thu thập thông tin Sau đó hệ thống tự động điều phối tin tới các ứng dụng cần thiết

II.2.3 Tầm quan trọng

Với sự phát triển mạnh mẽ của công nghệ thông tin, các nguồn tin trên mạng xuất hiện càng nhiều Vì vậy nhu cầu thu thập và phân tách thông tin ngày càng lớn Người dùng có thể chọn các nguồn tin có chất lượng sau đó sử dụng công nghệ thu thập thông tin để tạo ra cơ sở dữ liệu thông tin lưu trữ cho cá nhân hoặc tập thể Các nguồn tin này có thể là tin tức báo chí, tỉ giá chứng khoán, thông tin thời tiết, hay bất

cứ nguồn tin nào khác Sau đó các thông tin này sẽ được phân phối tới các ứng dụng làm nhiệm vụ xử lý, xuất bản lại

II.2.4 Mô hình về một hệ thống thu thập và phân tích thông tin

Đầu vào của hệ thống là một nguồn xác định Người sử dụng trong quá trình tìm kiếm thông tin, đã tìm được một số nguồn thông tin tin cậy để phục vụ cho nhu cầu của mình Ví dụ: mục Vi tính của báo điện tử VnExpress là một nguồn thông tin có chất lượng cao, địa chỉ URL là http://vnexpress.net/Vietnam/Vi-tinh/ Từ đầu vào này, hệ thống tìm các thông tin liên quan, đưa vào bộ xử lý tương ứng với báo điện

tử VnExpress, kết quả đầu ra là những tin bài của mục Vi tính của báo điện tử VnExpress

II.2.5 Thiết kế phần thu thập thông tin của iCMS NewsSpider

Nguồn

ban đầu

xác định

Những thông tin liên quan

Bộ xử lý tương ứng với nguồn

Nội dung

có cấu trúc

đã được phân tích

Thu thập thông tin Phân tích thông tin

Trang 17

Phần thu thập thông tin của iCMS NewsSpider sử dụng công nghệ tương đương với công nghệ của một bộ công cụ tìm kiếm nhưng với phạm vi áp dụng nhỏ hơn và giới hạn chặt chẽ hơn Với phạm vi ứng dụng trên Internet, đầu vào của hệ thống thu thập thông tin trong iCMS là một liên kết (hyperlink) tới một trang web chứa thông tin liên quan Hệ thống duyệt nội dung của trang web, tìm ra những liên kết có liên quan, những liên kết này có thể dẫn trực tiếp tới nội dung cần phân tích hoặc dẫn tới nguồn có thể chứa những liên kết mới (đầu vào mới).

II.2.6 Thiết kế phần phân tích thông tin của iCMS NewsSpider

Nội dung sau khi đã được lấy về sẽ được chuyển tới bộ chuẩn hóa XML chuyển văn bản về dạng XML, sau đó được đưa vào bộ lọc thông tin tương ứng; kết quả trả về là thông tin đã phân tích có cấu trúc xác định, lưu trữ lại vào hệ cơ sở dữ liệu thích hợp Một nét đặc trưng của iCMS NewsSpider là thông tin luôn được chuẩn hóa theo đặc

tả XML – ngôn ngữ của tương lai - nhằm đảm bảo tính tương thích với công nghệ mới cao, khả năng lọc chính xác và hiệu quả, những thông tin có cấu trúc trả về đã được chuẩn hóa

Với thiết kế phần thu thập và phân tích thông tin như vậy, một cơ chế linh hoạt mà các sản phẩm hiện đại thường dùng đó là sử dụng plugin Mỗi một plugin sẽ là một

bộ lọc bao gồm bộ lọc đường dẫn và bộ lọc nội dung Tương ứng plugin – đầu vào là

Đầu

vào

Bộ lọc tương ứng

Thông tin liên quan

Nội dung cần phân tíchNội dung chứa đầu vào mới

Nội dung

cần phân

tích

Bộ lọc nội dung tương ứng

Nội dung

có cấu trúc

đã được phân tích

Chuẩn hóa XML

Ngày đăng: 31/01/2016, 13:56

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w