VAI TRÒ CỦA CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN TRONG CÔNG TÁC DẠY VÀ HỌC
Các dữ liệu đa phương tiện
Dữ liệu văn bản là tập các ký tự đƣợc thao tác từ các phần mềm (Soạn thảo, xử lý văn bản, bộ chữ, bộ gõ) thuộc tính của ký tự: chữ đậm, chữ nghiêng, gạch chân, kiểu chữ…; Ký tự cho một đoạn thụt ra, thụt vào, đầu lề, dòng Dữ liệu văn bản là một loại dữ liệu rời rạc, dạng thông tin cơ bản nhất trong biểu diễn thông tin
Các loại dữ liệu văn bản điển hình nhƣ:
Dữ liệu văn bản có cấu trúc như: Tác giả, Tiêu đề, chương, bảng…;
Dữ liệu văn bản phi cấu trúc nhƣ: kiểu chữ, cỡ chữ, font chữ; văn bản đánh dấu: Tách biệt nội dung và cấu trúc
Các vấn đề đối với văn bản là thu nhân văn bản từ bàn phím, thu nhận tự động bằng nhận dạng hình ảnh, xử lý tạo văn bản, chỉnh và biên tập, nguyên tắc, lưu trữ: tách biệt nội dung và cấu trúc, mã hóa và nén, nén không mất thông tin; hiển thị, hiển thị và cảm nhận; các vấn đề phổ biến đó là sự không tương thích giữa các văn bản
Có thể kể đến những vấn đề liên quan tới văn bản nhƣ sau:
Mã hóa văn bản: Mã ASCII có mã tiêu chuẩn 7 bít, có mã mở rộng 8 bít
Các thao tác trên văn bản: thao tác trên ký tự, thể hiện thông qua ký tự
Các thao tác trên xâu: Thao tác trên chuỗi ký tự
Soạn thảo văn bản và biên tập văn bản: các thao tác thay đổi khuôn dạng và cấu trúc của văn bản
Định dạng văn bản: thực hiện các thao tác đặt các thuộc tính về bố trí văn bản
So sánh mẫu và tìm kiếm mẫu cho trước: tìm kiếm bằng cách so sánh với mẫu hoặc các tiêu chí tìm kiếm
Phân văn bản theo các tiêu chí xác định
Một số phần mềm chỉnh sửa Font chữ: fontcreator, fontographer, metafont…
Fontcreator là một phần mềm chỉnh sửa Font chữ phổ biến, có giao diện trực quan, cho phép người sử dụng làm việc hiệu quả nhờ có công cụ vẽ để tạo và chỉnh sửa Font
Hình 1.1 Giao diện phần mềm FontCreator v6.2
Fontographer là phương tiện đơn giản nhất để tạo nên những phông chữ riêng, độc đáo phục vụ cho việc in ấn, các phương tiện truyền thông hay các ứng dụng trên Internet Ta dễ dàng sử dụng khi gặp phải những phông chữ có các kí hiệu số, kí tự nước ngoài, ngoài ra với phần mềm này ta có thể tự tạo lập những kiểu chữ hoàn chỉnh từ những bước đơn giản đầu tiên
Hình 1.2 Giao diện phần mềm Fontographer 4.1
Dữ liệu âm thanh: là một tập hợp các định dạng âm thanh, một định dạng âm thanh là một định dạng Tệp để lưu trữ dữ liệu âm thanh trên một máy tính hệ thống, là một thành phần điển hình của dữ liệu đa phương tiện Âm thanh gồm có:
Âm thanh có thoại: Nhƣ bản nhạc mà tổng phổ phần chính và phần hòa âm, ca từ (văn bản) gồm làn điệu và tiết tấu
Âm thanh không có thoại: Gồm có tiếng động, tiếng tự nhiên…
Dữ liệu âm thanh được số hóa trên đĩa, đoạn nhạc âm thanh thường được xử lý trong hậu trường (phòng thu âm), xử lý bằng phần mềm hay thiết bị xử lý âm thanh
Phần mềm CoolEdit: Cho phép lọc nhiễu lọc ồn;
Hình 1.3 Giao diện phần mềm CoolEdit 2.0
Thiết bị Equaliser: Equaliser là một thiết bị đƣợc thiết kế nhằm làm thay đổi tính chất âm thanh khi âm thanh đi qua nó Nó còn đƣợc hiểu là bộ cân bằng âm thanh Equaliser sử dụng nhiều bộ lọc điện tử mà mỗi cái làm việc theo nguyên lý tăng giảm tín hiệu của từng dải tần Có nhiều loại Equaliser khác nhau và mỗi loại lại có những nút điều khiển khác nhau làm chúng ta khó phân biệt Cho phép lấy tần số, thêm tiếng Bass, trầm tăng chất lƣợng âm thanh, âm nổi
Tín hiệu âm thanh: là tín hiệu liên tục, trong thực tế âm thanh có dạng sóng hình sin Số hóa âm thanh ta phải chia thời gian của âm thanh thành các khoảng nhỏ, tại mỗi khoảng đó, biên độ âm thanh sẽ đƣợc mã hóa thành một con số nhị phân tương ứng Có rất nhiều các phần mềm sở hữu các định dạng như:
Mp3-mpeg layer 3: Là một phần mềm định dạng tập tin âm thanh dạng MP3, đây là một định dạng âm thanh với nhiều loại khác nhau của các chương trình và các thiết bị âm thanh cầm tay;
Windowns media audio: Là một phầm mềm loại định dạng phổ biến đƣợc Microsoft sản xuất, đây là công nghệ nén nhạc độc quyền của công nghệ Windows Media
Audio real: Là phần mềm đƣợc thiết kế âm thanh cho các tuyến âm thanh trên Internet
Dữ liệu hình ảnh: bao gồm tập hợp các tệp định dạng hình ảnh Hình ảnh đƣợc số hóa hay chụp (bằng máy quét hay máy kỹ thuật số) thể hiện cố định một nội dung
Tín hiệu ảnh là tín hiệu hai chiều liên tục trên miền không gian, để xử lý hình ảnh ta phải tiến hành số hóa, tín hiệu liên tục đƣợc chuyển thành tín hiệu rời rạc, chất lƣợng hình ảnh thể hiện trên màn hình phụ thuộc vào khả năng biểu diễn mầu, bộ nhớ RAM dành cho màn hình, khoảng cách giữa các điểm ảnh, tốc độ quét trong quá trình tạo lưu ảnh Điểm ảnh: Ảnh là một tập hợp các phần tử và mỗi phần tử đó gọi là phần tử ảnh, phần tử ảnh đó gọi là điểm ảnh, mỗi điểm ảnh gồm một cặp tọa độ x, y và mầu
Hình 1.4 Biểu diễn ảnh với độ phân giải khác nhau
Nhận dạng ảnh: là quá trình phân loại các đối tƣợng ảnh theo một mô hình nào đó và gán chúng vào một lớp dựa theo những quy luật và các mẫu chuẩn Ta có ba cách tiếp cận nhận dạng nhƣ sau:
Nhận dạng dựa trên phân hoạch không gian
Nhận dạng dựa trên cấu trúc
Nhận dạng dựa vào kỹ thuật mạng Noron
Nén ảnh (mã hóa ảnh): là quá trình làm giảm lƣợng thông tin dƣ thừa trong ảnh gốc, ảnh thu được sau khi nén nhỏ hơn nhiều so với ảnh gốc Có nhiều phương pháp nén ảnh khác nhau, mỗi phương pháp cho ảnh thu được sau khi nén là khác nhau Nếu phân loại theo phương pháp nén dựa trên nguyên lý nén ta chia thành hai phương pháp nén chính sau:
Nén chính xác hay nén không mất mát thông tin: bao gồm các phương pháp nén mà sau khi giải nén ta thu đƣợc chính xác dữ liệu ảnh gốc
Nén có mất mát thông tin: Các phương pháp nén này sau khi giải nén ta không thu đƣợc dữ liệu nhƣ bản gốc
Dữ liệu hình động: là một tập hợp các tệp hình động, hình động có thể do phần mềm động tạo ra
Hình động: là tập hợp các hình tĩnh tạo ra, có liên quan tới nội dung của nó trong một khoảng thời gian, khi xem nhanh các khung hình tĩnh thì ta thấy sự chuyển động Tập các khung hình tĩnh gắn vào một sự kiện thì ta thấy sự chuyển động và tạo thành một cảnh, nhiều cảnh đƣợc gọi là một đoạn, một đoạn gọi là một Video Clip Hình động thường được sử dụng trong quảng cáo, thương mại, giáo dục…
Vai trò của dữ liêu đa phương tiện trong quá trình nhận thức của con người 15 1 Phương pháp học tập cổ điển
Con người có nhiều hình thức để thể hiện nhu cầu trạng thái tâm lý của mình và nhận thức của con người được thông qua các loại hình thể hiện như: chữ viết (văn bản), hình vẽ tĩnh (chụp, vẽ), hoạt hình (hình ảnh động), âm thanh và gọi là dữ liệu đa phương tiện Như vậy hành động, trạng thái tâm lý đã và đang diễn ra được lưu trữ ở các dạng dữ liệu này, nhờ vào dữ liệu lưu lại ta có thể liên kết, so sánh, những sự kiện, hiện tượng sảy ra trước và sau của nhận thức của con người, đó là thể hiện của quá trình nhận thức của con người
1.2.1 Phương pháp học tập cổ điển
Quá trình dạy: là một quá trình trong đó chứa đựng các yếu tố cơ bản nhƣ mục tiêu dạy học, nội dung dạy học, phương pháp dạy học, phương tiện dạy học, hình thức tổ chức dạy học và đánh giá kết quả, mỗi một yếu tố trong quá trình dạy có một vai trò nhất định, tạo nên mối liên kết cơ bản mang tính nhân quả của cả hệ thống dạy học
Học: là một quá trình trong đó người học tiếp nhận kiến thức của thầy, trong sách vở để trở thành kiến thức của mình, đáp ứng nhu cầu của quá trình đòi hỏi cụ thể, học tập phải có phương pháp học cụ thể
Dạy và học bằng phương pháp cổ điển là một hệ thống các hành động của người dạy nhằm tổ chức hoạt động nhận thức và thực hành của người học đảm bảo người học lĩnh hội được những nội dung học vấn Dạy học bằng phương pháp truyền thống là hoạt động là lấy người dạy làm trung tâm, Theo Frire-nhà xã hội học nhà giáo dục nổi tiếng người Brazin đã gọi phương pháp dạy học này là một
“hệ thống ban phát kiến thức”, là một quá trình truyền tải thông tin từ người dạy sang người học Thực hiện cách dạy này người dạy thuyết trình, diễn giảng, là “kho tri thức” sống, người học là người nghe, ghi chép và suy nghĩ, người dạy là chủ thể, là tâm điểm và người học là khách thể, là quỹ đạo Đặc điểm về nội dung: Nội dung được quy định bởi chương trình giảng dạy và tất cả người học cùng lĩnh hội nội dung tại cùng một thời điểm Người học sẽ được quyền sử dụng nội dung thông tin trong giới hạn do người dạy hoặc thư viện trường .Các chủ đề được học thường không liên quan tới nhau, đến các lĩnh vực chủ thể và đến thế giới thực Người học, học thuộc lòng các sự kiện và đôi khi phân tích thông tin một cách độc lập, người học làm việc để tìm ra câu trả lời đúng, người dạy lựa chọn các hoạt động và cung cấp các tài liệu ở cấp độ thích hợp Đặc điểm về phương pháp: Người dạy cung cấp thông tin trên bục giảng, giúp người học đạt được kỹ năng và kiến thức, Người học hoàn thành những hoạt động và những bài học ngắn, tách rời nhau dựa trên những mảng và những kỹ năng cụ thể, giáo viên là những chuyên gia, dạy học là một quá trình truyền đạt thông tin Để đánh giá người học, người dạy yêu cầu người học làm bài thi bằng bút, giấy, yên lặng và riêng rẽ và kết quả là điểm của những bài kiểm tra hay bài thi
Công nghệ giảng dạy: người dạy sử dụng nhiều loại công nghệ khác nhau để giải thích chứng minh và minh họa cho các chủ đề khác nhau
Như vậy cách dạy học theo phương pháp truyền thống sẽ rất hiệu quả nếu như việc chia sẻ thông tin không dễ dàng tìm thấy ở nơi khác, việc trình bày thông tin một cách nhanh chóng, tạo ra sự quan tâm của người học vào thông tin, tạo ra kỹ năng lắng nghe tốt trong quá trình học của người học Tuy nhiên ở phương pháp dạy học truyền thống này có những mặt hạn chế nhất định của nó bởi không phải người học nào cũng có khả năng học tốt về lắng nghe, thường không duy trì lâu sự chú ý của người học, hạn hẹp trong việc tiếp thu thông tin, chưa phát huy hết năng lực vốn có của người học
1.2.2 Học tập tương tác, tích cực
Phương pháp dạy học tích cực: là dạy học bằng hướng phát huy tính tích cực, chủ động, sáng tạo của người học
"Tích cực" trong phương pháp dạy học tích cực được dùng với nghĩa là hoạt động, chủ động, trái nghĩa với không hoạt động, thụ động chứ không dùng theo nghĩa trái với tiêu cực
Phương pháp dạy học tích cực hướng tới việc hoạt động hóa, tích cực hóa hoạt động nhận thức của người học, nghĩa là tập trung vào phát huy tính tích cực của người học chứ không phải là tập trung vào phát huy tính tích cực của người dạy, tuy nhiên để dạy học theo phương pháp tích cực thì người dạy phải nỗ lực nhiều so với dạy theo phương pháp thụ động Đổi mới cách học: là phải đổi mới cách dạy, cách dạy chỉ đạo cách học, nhƣng ngược lại thói quen học tập người học cũng ảnh hưởng tới cách dạy của người dạy
Chẳng hạn, có trường hợp người học đòi hỏi cách dạy tích cực hoạt động nhưng người dạy chưa đáp ứng được, hoặc có trường hợp người dạy hăng hái áp dụng phương pháp dạy học tích cực nhưng không thành công vì người học chưa thích ứng, vẫn quen với lối học tập thụ động
Học tập tích cực là tích cực nhận thức, ham hiểu biết, có ý chí cố gắng trong quá trình lĩnh hội kiến thức, học tập tích cực tạo ra hứng thú, sinh ra tính tƣ duy độc lập và từ đó hình thành nên khả năng sáng tạo của người học Tính tích cực là một phẩm chất vốn có của con người, bởi vì để tồn tại và phát triển con người luôn phải chủ động, tích cực cải biến môi trường tự nhiên, cải tạo xã hội, vì vậy, hình thành và phát triển tính tích cực xã hội là một trong những nhiệm vụ chủ yếu của giáo dục
Tính tích cực học tập về thực chất là tính tích cực nhận thức, đặc trƣng bởi sự ham hiểu biết, cố gắng trí lực và có nghị lực cao trong quá trình chiếm lĩnh tri thức, tính tích cực nhận thức trong hoạt động học tập liên quan trước hết với động cơ học tập Động cơ đúng tạo ra hứng thú, hứng thú là tiền đề của tự giác, hứng thú và tự giác là hai yếu tố tạo nên tính tích cực, tính tích cực sản sinh nếp tƣ duy độc lập, suy nghĩ độc lập là mầm mống của sáng tạo Ngƣợc lại, phong cách học tập tích cực độc lập sáng tạo sẽ phát triển tự giác, hứng thú, bồi dƣỡng động cơ học tập Tính tích cực học tập biểu hiện ở những dấu hiệu nhƣ:
Hăng hái trả lời các câu hỏi của giáo viên, bổ sung các câu trả lời của bạn, thích phát biểu ý kiến của mình trước vấn đề nêu ra;
Nêu lên thắc mắc, đòi hỏi giải thích cặn kẽ những vấn đề chƣa đủ rõ;
Chủ động vận dụng kiến thức, kĩ năng đã học để nhận thức vấn đề mới; tập trung chú ý vào vấn đề đang học;
Kiên trì hoàn thành các bài tập, không nản trước những tình huống khó khăn…
Tính tích cực học tập thể hiện qua các cấp độ từ thấp lên cao nhƣ:
Bắt chước: gắng sức làm theo mẫu hành động của thầy, của bạn…
Tìm tòi: độc lập giải quyết vấn đề nêu ra, tìm kiếm cách giải quyết khác nhau về một số vấn đề…
Sáng tạo: tìm ra cách giải quyết mới, độc đáo, hữu hiệu
1.2.3 Vai trò của dữ liệu đa phương tiện trong công tác học tích cực
Công nghê thông tin nói chung, dữ liệu đa phương tiện nói riêng ngày càng trở nên hết sức quan trong công tác dạy và học, đặc biệt là trong công tác học tích cực
Nâng cao đƣợc chất lƣợng dạy và học: thì trong đó phải có sử dụng hình ảnh, âm thanh, video để trích dẫn, làm dẫn chứng hay minh họa cụ thể của một vấn đề cho một bài giảng làm cho bài giảng thêm sinh động và tăng tính thuyết phục, lôi cuốn người học Tuy nhiên cung không quá lạm dụng việc sử dụng dữ liệu đa phương tiện trong quá trình giảng dạy, điều đó sẽ làm phá vỡ đi cấu trúc trọng tâm chính của vấn đề cần truyền đạt và người học khó nắm được vấn đề
Như vậy, việc sử dụng dữ liệu đa phương tiện trong công tác học tích cực là rất cần thiết, nhưng chèn hình ảnh, âm thanh và video ra sao là do người dạy lựa chọn tùy thuộc vào nội dung bài giảng, tùy thuộc vào thời gian giảng và đối tƣợng người học.
Kho học liệu tại Học viện Báo chí và Tuyên truyền
Kho học liệu của Học viện Báo chí và Tuyên truyền là một kho dữ liệu chứa dữ liệu khoa học của Học viện, kho học liệu của Học viện có đội ngũ cán bộ chuyên môn cao, trang thiết bị hiện đại, dữ liệu phong phú, đa dạng
Học viện không ngừng tuyển dụng, đào tạo, nâng cao trình độ khoa học cho các cán bộ, không ngừng sửa chữa, nâng cấp trang thiết bị máy móc hiện đại phục phụ cho việc tra cứu, tìm hiểu, lấy tƣ liệu của đội ngũ Cán bộ, Giảng viên, Học viên của Học viện
Dữ liệu trong kho học liệu luôn đƣợc cập nhật, bổ sung, để đảm bảo tính mới, tính đầy đủ, tính phong phú và đa dạng, từ đó đáp ứng kịp thời cho công tác dạy và học tại Học viện
1.3.1 Kho dữ liệu bài giảng
Hiện nay, có nhiều các hiểu khác nhau về kho dữ liệu, nhƣng ta có thể định nghĩa kho dữ liệu như sau: Kho dữ là tập hợp các dữ liệu định hướng theo chủ đề, đƣợc tích hợp lại có tính phiên bản theo thời gian và kiên định đƣợc dùng cho việc hỗ trợ việc tạo quyết định quản lý
Tên gọi của bốn thuộc tính “định hướng theo chủ đề”, “được tích hợp lại”, “có tính phiên bản theo thời gian” và “kiên định” ở trên đã cung cấp một số nét cơ bản nhất về đặc trƣng của kho dữ liệu
Kho dữ liệu bài giảng: là tập hợp các bài giảng có cấu trúc, thường sử dụng với mục đích dạy học, nghiên cứu khoa học…Ta có thể chia thành hai loại kho dữ liệu nhƣ sau:
Kho dữ liệu đơn ngôn ngữ: là một kho dữ liệu lưu trữ bài giảng trong một ngôn ngữ
Kho dữ liệu đa ngôn ngữ: là một kho dữ liệu lưu trư các bài giảng, các bài giảng có thể đƣợc viết bằng các ngôn ngữ khác nhau Các kho dữ liệu đa ngôn ngữ được định dạng bằng cách so sánh các thành phần tương ứng giữa các ngôn ngữ này
Các kho dữ liệu bài giảng có ý nghĩa hết sức quan trọng trong vấn đề giảng dạy, học thống kê, tuy nhiên việc xây dựng một kho dữ liệu tốt không hề đơn giản, trong đó làm sao đảm đƣợc tính nhất quán cho dữ liệu gán nhãn trên toàn bộ kho dữ liệu
1.3.2 Năng lực truy cập thông tin trên Intrernet của Học viện
Chiến lƣợc phát triển kinh tế xã hội nói chung, chiến lƣợc phát triển khoa học công nghệ nói riêng là việc tiếp cận và áp dụng những thành tựu khoa học tiên tiến trên thế giới để bắt kịp với trình độ phát triển chung của các nước trong khu vực và trên thế giới Để làm đƣợc điều này chúng ta phải sẵn sàng tiếp cận đƣợc công nghệ mới, tri thức mới
Ngày nay, Internet là một kho dữ liệu khổng lồ, giàu tài nguyên, Thông tin trên các trang Web rất đa dạng, phong phú về nội dung và hình thức Một thách thức đặt ra là khả năng khai thác và sử dụng thông tin trong kho dữ liệu khổng lồ ấy làm sao có hiệu quả cao nhất, để làm đƣợc điều này chúng ta phải đào tạo học sinh, sinh viên, học viên, người học khi tốt nghiệp ra trường có những kỹ năng và kiến thức để làm chủ thế giới thông tin Vậy, năng lực truy cập thông tin trên Internet của người dạy và người học là một trong những vấn đề cấp thiết cần được quan hàng đầu, cần đƣợc đào tạo, bồi dƣỡng, tuyển dụng đội ngũ Giảng viên có trình độ công nghệ thông tin cao
Những năm về trước, khi ngành công nghệ thông tin bắt đầu có ở Việt Nam, hạ tầng cơ sở thấp, năng lực sử dụng công nghệ thông tin còn rất hạn chế Tuy nhiên những năm gần đây khi ngành công nghệ thông tin bắt đầu phát triển và mở rộng tại Việt Nam, hạ tầng cơ sở bắt đầu lớn mạnh, nhờ có những lớp bồi dƣỡng, tình thần tự tìm tòi, học hỏi của các thầy cô và cán bộ trong trường mà khả năng sử dụng công nghệ thông tin và năng lực truy cập Internet của thầy cô ngày càng tốt hơn
1.3.3 Nguồn thông tin của Gốm sứ cổ truyền trong công tác đào tạo của Học viện
Hiện nay, nguồn thông tin của Gốm sứ cổ truyền trong công tác đào tạo của Học viện chủ yếu lấy từ kho học liệu của Học viện, Ngoài ra nguồn thông tin còn đƣợc thu thập và trích lọc từ kho dữ liệu các bài báo, kho dữ liệu các Video về gốm sứ mà là sản phẩm bài tập, bài kiểm tra thực tế của sinh viên, học viên của Học viện
1.3.4 Nhu cầu về cơ sở dữ liệu thông tin đa phương tiện
Nắm vững nhu cầu về CSDL thông tin đa phương tiện, đáp ứng kịp thời, chính xác là một trong những nhiệm vụ quan trọng trong công tác đào tạo tại Học viện
Ngày nay, khoa học xã hội ngày càng phát triển, các chuyên đào tạo trong Học viện ngày càng nhiều thì nhu cầu về cơ sở dữ liệu thông tin đa phương tiện ngày càng đa dạng và phong phú hơn.
Kết luận
Trong thời kỳ công nghiệp hóa, hiện đại hóa, ngành Công nghệ thông tin đang trong đà phát triển mạnh, việc sử dụng dữ liệu đa phương tiện, áp dụng hình ảnh, âm thanh, video vào trong công tác đào tạo tại Học viện Báo chí và Tuyên truyền nói riêng, công tác giảng dạy và đào tạo nói chung là một nhu cầu cần thiết.
Chương 2: KHAI PHÁ DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU LIÊN QUAN TỚI GỐM SỨ CỔ TRUYỀN
Kiến trúc cơ sở dữ liệu văn bản
Kiến trúc: là một hệ thống xác định cấu trúc của nó, các thành phần đƣợc hệ thống xác định, chức năng mỗi thành phần được mô tả, các mối quan hệ và tương tác giữa các thành phần này đƣợc định nghĩa Đặc tả về kiến trúc cho các hệ thống phần mềm đò hỏi phải xác định rất nhiều đơn thể với các giao diện và mối quan hệ qua lại giữa dòng điều khiển xuyên suốt hệ thống Có 3 cách tiếp cận khác nhau:
Dựa trên các thành phần: các thành phần của chúng đƣợc định nghĩa cùng với mối tương quan giữa chúng Như vậy, DBMS gồm một số thành phần, mỗi thành phần cung cấp một số chức năng vận hành nào đó Tương tác có trật tự và có hệ thống giữa chúng cung cấp toàn bộ chức năng của hệ thống Đây là tiếp cận mong muốn nếu mục tiêu đối tƣợng là thiết kế và cài đặt hệ thống đang xem xét Ngƣợc lại sẽ rất khó khăn khi cần xác định chức năng của hệ thống bằng cách xem các thành phần của nó
Dựa trên chức năng: các nhóm người được sử dụng được xác định và các chức năng mà hệ thống đƣợc thực hiện cho mỗi nhóm đƣợc định nghĩa Đặc tả hệ thống loại này điển hình là mô tả cấu trúc phân cấp của các nhóm người sử dụng Kết quả là tạo ra một kiến trúc hệ thống phân cấpvới các giao diện đƣợc định nghĩa rõ ràng giữa các chức năng và các tầng khác nhau
Dựa trên dữ liệu: các kiểu dữ liệu khác nhau sẽ đƣợc định nghĩa, và bộ khung kiến trúc đƣợc đặc tả nhằm nhằm định nghĩa các đơn vị chức năng sẽ tiếp nhận hoặc sử dụng dữ liệu trên những góc độ khác nhau Bởi dữ liệu là tài nguyên chính mà DBMS cần quản lý, cách tiếp cận này đƣợc ƣa chuộng đối với hoạt động tiêu chuẩn hoá Ƣu điểm của tiếp cận trên dữ liệu là tầm quan trong chủ chốt đã đƣợc đặt vào tài nguyên dữ liệu Trên quan điểm của của hệ quản trị CSDL, điều này rất có ý nghĩa bởi vì tài nguyên căn bản mà DBMS quản lý là dữ liệu Tuy nhiên chúng ta không thể đặc tả đầy đủ một kiến trúc trừ khi mô đun chức năng cũng đƣợc mô tả
Cả ba cách tiếp cận trên điều phải đƣợc sử dụng khi ta định nghĩa một mô hình kiến trúc, trong đó mỗi góc độ ta sẽ tập trung vào các khía cạnh khác nhau của mô hình kiến trúc, kiến trúc ANSI/SPARC thuộc vào nhóm phương pháp dựa vào tổ chức dữ liệu, nó cho phép ba hình ảnh về dữ liệu:
Khung nhìn ngoài: là cách nhìn của người sử dụng, kể cả lập trình viên;
Khung nhìn trong: là cách nhìn của hệ thống;
Khung nhìn khái niệm: là cách nhìn của công ty hay xí nghiệp
Computer Computer Computer Computer Computer
Hình 2.1 Kiến trúc ANSI/SPARC
Lƣợc đồ trong: là lƣợc đồ ở mức thấp nhất của kiến trúc, là mức xử lý phần định nghĩa và tổ chức vật lý của dữ liệu Vị trí của dữ liệu trong thiết bị lưu trữ, cơ chế truy nhập đƣợc sử dụng là những vấn đề đƣợc cập nhật ở mức này
Lược đồ ngoài: là tập khung nhìn của từng người sử dụng biểu thị cho phần CSDL mà người dùng có thể truy cập cũng như mối liên hệ giữa các dữ liệu người dùng có thể thấy được Nhiều người sử dụng có thể dùng chung một khung nhìn
Lƣợc đồ khái niệm: là lƣợc đồ nằm giữa lƣợc đồ ngoài và lƣợc đồ trong, là ý nghĩa khái niệm của CSDL
2.1.2 Các chức năng trong cơ sở dữ liệu văn bản
CSDL văn bản cũng có một số chức năng chính như: Lưu trữ, truy câp, tổ chức và xử lý
Lưu trữ trên đĩa và có thể chuyển đổi từ CSDL này sang CSDL khác, ta có thể sử dụng các hệ quản trị CSDL nhỏ nhƣ Excel, Access, MySQL, ProrgraSQL, hay SQL Server, Oracle
Truy cập dữ liệu phụ thuộc vào yêu cầu và mục đích của người sử dụng Ở mức cục bộ dữ liệu đƣợc truy cập ngay chính trong CSDL nhằm xử lý dữ liệu bên trong của chính nó Khi mục đích yêu cầu vƣợt ra ngoài CSDL ta cần có sự cập nhật giữa các CSDL với nhau
Tổ chức CSDL văn bản phụ thuộc vào mô hình cơ sở dữ liệu, phụ thuộc vào đặc điểm riêng của từng ứng dụng cụ thể
Trong nhiều trường hợp cần xử lý, truy vấn dữ liệu theo yêu cầu và mục đích khác nhau, ta phải truy vấn cùng với các phép toán, phát biểu CSDL để kết xuất ra yêu cầu của việc xử lý.
Kiến trúc cơ sở dữ liệu văn bản liên quan tới Gốm sứ cổ truyền Việt Nam
2.2.1 Nội dung liên quan tới gốm sứ cổ truyền
Gốm sứ bát tràng: là tên gọi cho các loại đồ gốm đƣợc sản xuất tại làng Bát tràng thuộc xã Bát tràng, huyện Gia lâm, Hà nội Theo nghĩa Hán Việt, chữ Bát nghĩa là Bát ăn của nhà sƣ, chữ tràng có nghĩa là “cái sân lớn” là mảng đất dành riêng cho chuyên môn Để làm gốm sứ người chọn phải qua các khâu xử lý và pha chế đất, tạo dáng, tạo hoa văn, phủ men và cuối cùng là nung sản phẩm
Chọn đất: điều quan trong đầu tiên để hình thành nên các lo gốm là nguồn đất sét làm gốm
Xử lý, pha chế đất: trong đất nguyên liệu thường có tạp chất, ngoài ra tùy thuộc vào yêu cầu của từng loại gốm khác nhau mà có những cách pha chế khác nhau để tạo ra sản phẩm phù hợp
Tạo dáng: phương pháp tạo dáng cổ truyền của người làng Bát tràng là làm bằng tay trên bàn xoay Trong khâu tạo dáng, người thợ gốm Bát tràng, sử dụng phổ biến lối “vuốt tay, be chạch” trên bàn xoay Ngày nay, theo yêu cầu sản xuất gốm công nghệ hay mĩ nghệ, nghệ nhân gốm có thể đắp nặn một sản phẩm mẫu để đổ khuôn thạch cao phục phụ cho việc sản xuất hàng loạt
Phơi sấy và sửa hàng mộc: tiến hành phơi hàng mộc sao cho khô, không bị nứt nẻ, không làm thay đổi hình dạng của sản phẩm Biện pháp tối ƣu mà lâu nay người dân Bát trang vẫn sử dụng là hong khô hiện vật trên giá và để nơi thoáng mát Ngày nay nhiều người đã sử dụng sấy hiện vật trong lò sấy, tăng nhiệt độ từ từ để nước bốc hơi dần Sau khi sản phẩm đã định hình cần đem
“ủ vóc” và sửa lại cho hoàn chỉnh
Quá trang trí hoa văn và phủ men: Để trang trí hoa văn người thợ gốm Bát tràng vẽ trực tiếp lên nền mộc các văn họa tiết, thợ vẽ gốm phải có tay nghề cao, hoa văn học tiết phải hài hòa với giáng gốm
Tráng men: khi sản phẩm mộc đã hoàn chỉnh, người thợ gốm có thể nung sơ bộ sản phẩm ở nhiệt độ thấp, rồi sau đó mới đem tráng men hoặc dùng ngay sản phẩm mộc hoàn chỉnh đó trực tiếp tráng men lên trên rồi mới nung Kỹ thuật tráng men có nhiều hình thức nhƣ phun men, dội men lên bề mặt cốt gốm cỡ lớn, nhúng men đối với loại gốm nhỏ, nhƣng thông dụng nhất là tráng men ngoài sản phẩm, gọi là “kim men”, và khó hơn là hình thức “quay men” và “đúc men”
Quá trình nung: khi công việc chuẩn bị đã hoàn tất thì đốt lò trở thành khâu quyết định thành cộng hay quyết định của một mẻ gốm, việc nung gốm theo nguyên tác nâng cao dần nhiệt độ lò đến nhiệt độ cao nhất, khi gốm chin thì hạ dần nhiệt độ lò
Những đặc điểm của gốm Bát Tràng: Hầu hết, đồ gốm Bát Tràng đƣợc sản xuất theo lối thủ công, thể hiện rõ rệt tài năng sáng tạo của người thợ lưu truyền qua nhiều thế hệ Do tính chất của các nguồn nguyên liệu tạo cốt gốm và việc tạo dáng đều làm bằng tay trên bàn xoay, cùng với việc sử dụng các loại men khai thác trong nước theo kinh nghiệm nên đồ gốm Bát Tràng có nét riêng là cốt đầy, chắc và khá nặng, lớp men trắng thường ngả mầu ngà, đục
Dựa vào ý nghĩa sử dụng, có thể phân chia loại hình của đồ gốm Bát Tràng nhƣ sau:
Đồ gốm gia dụng: Bao gồm các loại đĩa, chậu hoa, âu, thạp, ang, bát, chén, khay trà, ấm, điếu, nậm rƣợu, bình vôi, bình, lọ, choé và hũ
Đồ gốm dùng làm đồ thờ cúng: Bao gồm các loại chân đèn, chân nến, lƣ hương, đỉnh, đài thờ, mâm gốm và kiếm Trong đó, chân đèn, lư hương và đỉnh là những sản phẩm có giá trị đối với các nhà sưu tầm đương đại vì lẽ trên nhiều chiếc có minh văn cho biết rõ họ tên tác giả, quê quán và năm tháng chế tạo, nhiều chiếc còn ghi khắc cả họ và tên của những người đặt hàng Đó là một nét đặc biệt trong đồ gốm Bát tràng
Đồ trang trí: Bao gồm mô hình nhà, long đình, các loại tƣợng nhƣ tƣợng nghê, tượng ngựa, tượng Di Lặc, tượng Kim Cương, tượng hổ, tượng voi, tượng người ba đầu, tượng đầu khỉ mình rắn và tượng rồng
Trang trí: Thế kỉ 14–15: Hình thức trang trí trên gốm Bát Tràng bao gồm các kiểu nhƣ khắc chìm, tô men nâu theo kĩ thuật gốm hoa nâu thời Lý–Trần, kết hợp với chạm nổi và vẽ men lam
Gốm Bát Tràng có 5 dòng men đặc trƣng đƣợc thể hiện qua mỗi thời kì khác nhau để tạo nên những sản phẩm đặc trƣng khác nhau: men lam xuất hiện khởi đầu ở Bát Tràng với những đồ gốm có sắc xanh chì đến đen sẫm; men nâu thể hiện theo phong cách truyền thống và đƣợc vẽ theo kĩ thuật men lam; men trắng ngà sử dụng trên nhiều loại hình đồ gốm từ thế kỉ 17 đến thế kỉ 19, men này mỏng, màu vàng ngà, bóng thích hợp với các trang trí nổi tỉ mỉ; men xanh rêu đƣợc dùng kết hợp với men trắng ngà và nâu tạo ra một đòng Tam thái rất riêng của Bát Tràng ở thế kỉ 16–
17 và men rạn là dòng men chỉ xuất hiện tại Bát Tràng từ cuối thế kỉ 16 và phát triển liên tục qua các thế kỉ 17–19
Hình 2.2 Chân đèn gốm tráng men lam, loại men nổi tiếng của Bát Tràng Gốm sứ Chu đậu: gốm Chu Đậu-Mỹ Xá, còn đƣợc biết đến là gốm Chu Đậu, là gốm sứ cổ truyền Việt Nam đã đƣợc sản xuất tại vùng mà nay thuộc làng Chu Đậu và làng Mỹ Xá, thuộc các xã Minh Tân và Thái Tân, huyện Nam Sách, tỉnh Hải Dương Loại gốm sứ này thường được nhắc đến với tên gốm Chu Đậu là do lần đầu tiên người ta khai quật được các di tích của dòng gốm này ở Chu Đậu Sau này, khi khai quật tiếp ở Mỹ Xá (làng bên cạnh Chu Đậu) thì người ta phát hiện ra khối lượng di tích còn đa dạng hơn và có một số nước men người ta không tìm thấy trong số các di tích khai quật đƣợc tại Chu Đậu, Gốm sứ Chu Đậu là dòng gốm nổi tiếng vì màu men và họa tiết thuần Việt Nó đã từng xuất khẩu sang nhiều nước châu Âu
Năm 1997, sau khi tìm đƣợc rất nhiều gốm Chu Đậu trong con tàu đắm ở Cù Lao
Chàm (Nghệ an) của người Bồ Đào Nha, dòng gốm này mới được biết đến và nổi tiếng, tại Mỹ Xá có gia phả dòng họ 14 đời có ghi câu "Tổ tiên lấy nghề nung bát làm nghiệp" Mới đây, các nhà khảo cổ đã khẳng định bà Bùi Thị Hý là tổ nghề gốm Chu Đậu, dòng gốm sứ này có thể đã đƣợc hình thành và phát triển trong khoảng từ thế kỷ 13 đến thế kỷ 18 Có nguồn nói, nó bị hủy diệt do chiến tranh Lê- Mạc cuối thế kỷ 16
Hình 2.3 Hai bình Âm dương gốm Chu đậu
Gốm sứ Phủ lãng: Làng gốm Phù Lãng thuộc xã Phù Lãng, huyện Quế Võ, tỉnh Bắc Ninh, cách Hà Nội khoảng 60 km và cách sông Lục đầu khoảng 4 km Phù Lãng nằm bên bờ sông Cầu và có nhiều bến đò ngang suốt ngày chở khách qua lại Địa danh Phù Lãng có thể có từ cuối thời Trần đầu thời Lê, vào thời kỳ này, Phù Lãng có 3 thôn: Trung thôn, Thƣợng thôn, Hạ thôn
Gốm Phù Lãng tập trung vào 3 loại hình:
Gốm dùng trong tín ngưỡng (lư hương, đài thờ, đỉnh );
Gốm gia dụng (lọ, bình, chum, vại, bình vôi, ống điếu );
Gốm trang trí (bình, ấm hình thú nhƣ ngựa, voi )
Khai phá dữ liệu văn bản
Khai phá dữ liệu văn bản: là một quá trình trích chọn ra các tri thức mới, có giá trị và tác động đƣợc đang tiềm ẩn trong các văn bản để sử dụng các tri thức này vào việc tổ chức thông tin tốt hơn nhằm hỗ trợ người dùng Ta có kiến trúc điển hình của hệ thống khai phá dữ liệu sau:
Cơ sở dữ liệu Các kho chứa dữ Kho dữ liệu liệu khai thác
Làm sạch dữ liệu và tích hợp dữ liệu Lọc dữ liệu Phục phụ cơ sở dữ liệu hoặc kho dữ liệu
Giao diện đồ họa người dùng Đánh giá mẫu
Thành phần khai phá dữ liệu
Hình 2.5 Mô hình kiến trúc hệ thống khai phá dữ liệu văn bản
Về bản chất của khai phá dữ liệu văn bản là sự kết hợp của khai phá dữ liệu và xử lý ngôn ngữ tự nhiên, quá trình khai phá dữ liệu văn bản là cụ thể hóa quá trình khai phá dữ liệu đối với dữ liệu văn bản, với giả thiết đã xác định đƣợc: một là bài toán khai phá dữ liệu văn bản, hai là miền dữ liệu văn bản thuộc miền ứng dụng, quá trình khai phá dữ liệu văn bản thực hiện qua các bước sau:
Thu thập dữ liệu văn bản thuộc miền ứng dụng, cụ thể ở đây là các bài báo trên Web liên quan tới gốm sứ Việt nam
Biểu diễn dữ liệu văn bản thu thập đƣợc sang khuôn dạng phù hợp với bài toán khai phá văn bản
Lựa chọn tập dữ liệu đầu vào cho bài toán khai phá dữ liệu
Thực hiện thuật toán khai phá dữ liệu đối với tập dữ liệu đã đƣợc lựa chọn để tìm ra các mẫu, các tri thức
Thực hiện khai thác sử dụng các mẫu, các tri thức nhận đƣợc từ quá trình khai thác văn bản vào thực tiễn hoạt động Để khai phá dữ liệu văn bản người ta sử dụng một vài bài toán khai phá điển hình nhƣ: Tìm kiếm, phân tích ngữ nghĩa, phân cụm, phân lớp, trích trọn đặc trƣng, tóm tắt văn bản…
Bài toán trích rút quan hệ: là một trong những bài toán quan trọng trong lĩnh vực khai phá tri thức mang tầm vóc lớn, vì ứng dụng của nó rất đa dạng Ngoài việc làm giàu thêm lượng thông tin, nó còn được xem là một phương pháp hiệu quả để đưa ra phương pháp xử lý cho các hệ thống như: hệ thống hỏi đáp, xây dựng cơ sở tri thức, phát hiện ảnh qua đoạn văn bản…
Các phương pháp trích rút quan hệ ngữ nghĩa đã được đề xuất khá phong phú, từ phương pháp học thống kê, có giám sát dựa trên dữ liệu đã gán nhãn, hay các phương pháp dựa trên luật học bán giám sát… Để rút trích quan hệ ngữ nghĩa trong văn bản ta có thể tham khảo và áp dụng một số phương pháp Phương pháp DIPRE: Năm 1988, Sergey Brin đã giới thiệu phương pháp học bán giám sát, đặt tên là DIPRE, cho việc trích rút quan hệ ngữ nghĩa Phương pháp này được thử nghiệm để trích mối quan hệ “tác giả” và “ cuốn sách”, với tập dữ liệu ban đầu khoảng 5 ví dụ cho mỗi mẫu quan hệ Hệ thống DIPRE mở rộng tập ban đầu thành một danh sách khoảng 1500 cuốn sách
Phương pháp DIRPE có thể được mô tả như sau: Đầu vào: Tập các mẫu quan hệ S= {}, tập dữ liệu D; Đầu ra: Tập R các quan hệ trích rút đƣợc
Bước 1 RS Tập đích đƣợc khởi tạo từ tập mồi S Tập mẫu quan hệ S có thể là rất nhỏ
Tìm tất cả các xuất hiện trong mẫu quan hệ của tập dữ liệu D;
Dựa vào tập câu đã tìm đƣợc, tiến hành tìm các mẫu quan hệ giữa các thành phần của mẫu quan hệ ban đầu, Sergey Brin định nghĩa ban đầu rất đơn giản, bằng việc giữ lại m ký tự trước thành phần mẫu quan hệ đầu tiên, giữ lại phía sau thành phần thứ hai n ký tự, và k ký tự nằm giữa hai thành phần này là m Bằng một phương pháp đơn giản để giữ lại các phần đầu, phần giữa và phần cuối phổ biến (Xuất hiện nhiều lần trong dữ liệu) Kết quả nhận được biểu diễn dưới dạng: o [1, phần đầu, phần cuối, phần giữa], thì Tác giả đứng trước sách o [0, phần đầu, phần cuối, phần giữa], thì tác giả đứng sau sách
Từ tập mẫu mới thu nhận đƣợc ta có thể trích rút các cặp quan hệ mới trong tập dữ liệu D, bổ sung các cặp quan hệ thu đƣợc vào R;
Bước 5 Khi R đủ lớn thì dừng lại, ngược lại quay lại bước 2 để tìm những cặp quan hệ và mẫu mới
Snowboll: là hệ thống trích rút mối quan hệ dựa trên một tập nhỏ dữ liệu mẫu quan hệ làm nhân, Trong quá trình thực hiện mẫu và tập quan hệ mới đƣợc sinh ra cần đánh giá chất lƣợng Giải thuật đƣợc thực nghiệm trên mối quan hệ “tổ chức-địa điểm”, thể hiện trụ sở chính của tổ chức có vị trí thuộc “địa điểm” với mẫu quan hệ ban đầu nhƣ Microsoft-Redmond, IBM-Armonk, Boeing-seatile, Intel –Santa Santa clara
Nội dung cơ bản của phương pháp Snowball Đầu vào: Một tập văn bản D (tập huấn luyện); tập nhân mẫu quan hệ d ban đầu S gồm các cặp mẫu quan hệ nào đó Mỗi cặp quan hệ gồm hai thực thể A và B có quan hệ dạng: hay , nhƣ vậy S= {}; Đầu Ra: Tập R là các quan hệ rút trích đƣợc;
Bước 1: Tìm sự xuất hiện của các cặp quan hệ trong dữ liệu R=S;
Với mỗi cặp quan hệ trong S, tìm trong D tất cả các câu có chứa cả A và B Tiến hành phân tích, chọn lọc và rút trích các mẫu, một câu khớp với biểu thức *A*B* thì cụm từ đứng trước A gọi là Trái, cụm từ đứng giữa A và B gọi là Giữa và cụm từ đứng sau B gọi là Phải
Bước 2: Tìm sự xuất hiện của các thực thể trong dữ liệu Tiến hành phân cụm tập mẫu, Snowball sử dụng hàm Match để tính độ tương đồng giữa các mẫu và xác định ngưỡng tương đồng tsin cho việc gom cụm nhằm làm giảm số lượng các mẫu cũng như làm cho mẫu có tính khái quát hơn Độ tương đồng giữa hai mẫu đƣợc biểu diễn bởi hàm Match (mẫu 1, mẫu 2):
Match(mẫu1, mẫu2) = (wTrái1,wTrái2)+(wGiữa1.wGiữa2)+(wPhải1.wPhải2)
Các mẫu sau khi tìm thấy đƣợc dùng để trích rút các cặp quan hệ mới trong D, sau đó đối chiếu từng cặp quan hệ mới tìm thấy với tập R để kiểm tra chất lƣợng của mẫu, từ đó chọn mẫu mới có độ chính xác cao, cặp quan hệ mới thuộc một trong các trường hợp sau:
Positive: Nếu đã nằm trong tập R;
Negative: Nếu chỉ có đúng một trong hai (A’, hoặc B’) xuất hiện trong tập R;
Unknown: nếu , cả hai đều không xuất hiện trong tập R Tập Unknown đƣợc xem là tập các quan hệ mới trong vòng lặp sau
Snowball có độ chính xác của từng mẫu dựa trên số Positve và Negative của nó và chọn ra N mẫu có điểm cao nhất
Bước 4: Tìm các Mẫu quan hệ D mới
Với mỗi mẫu trong danh sách tốp N thu nhận lại đƣợc bổ sung vào tập mẫu để trích rút tập R’ các cặp quan hệ mới trong tập dữ liệu D Bổ sung các tập quan hệ vào R: R=R hợp R’; để làm tăng tính chính xác cho hệ thống, các cặp trong quan hệ R’ đƣợc đánh giá để lựa chọn ra M cặp đƣợc đánh giá tốt nhất và M cặp này đƣợc dùng làm mẫu quan hệ cho quá trình rút mẫu kế tiếp, Hệ thống tiếp tục quay lại bước 1 Quá trình trên tiếp tục lặp cho đến khi Hệ thống không tìm được cặp mới hoặc lặp theo số lần mà ta xác định trước Sau đây là thủ tục sinh mẫu mới của phương pháp Snowball:
Sub GenerateTuples (Patterns) Foreach text_segment in corpus
(1) {, }=CreateOccurence (text_segment);
(2) sim = Match (, p);
CandidateTuples[TC] Patterns [PBest] = SimBest;
Bảng 2.1 Thủ tục sinh mẫu mới của phương pháp Snowball
Dựa vào hai phương pháp trên, ta có thể thiết kế thử nghiệm một hệ thống CSDL dạng hỏi đáp các loại gốm sứ cổ truyền Việt nam và tác giả bài báo, ví dụ nhƣ sau:
Mối quan hệ Phần đầu của mẫu quan hệ Phần cuối của mẫu quan hệ
Gốm sứ Bát tràng Hồ Chí Minh
Gốm sứ Chu đậu Nam cao
Bảng 2.2 Một số ví dụ về mẫu quan hệ
Mối quan hệ Mẫu tổng quát
gốm sứ của
gốm sứ của
Bảng 2.3 Một số mẫu tổng quát
Câu hỏi Xử lý câu hỏi và rút ra câu trả lời
Rút ra mẫu và Tuples
Hình 2.6 Mô hình hệ thống CSDL dạng hỏi đáp
Tập quan hệ mẫu mồi
Tập các trang web chứa tập quan hệ mẫu
Tập câu chứa quan hệ mẫu
Sinh quan hệ mẫu mới
Tập quan hệ mẫu mới
Hình 2.7 Mô tả quá trình trích rút quan hệ nghữ nghĩa
KHAI THÁC CƠ SỞ DỮ LIỆU VỀ GỐM SỨ CỔ TRUYỀN
Hạ tầng công nghệ thông tin tại Học viện
Hiện nay hạ tầng công nghệ thông tin tại Học viện Báo chí và Tuyên truyền có các thiết bị CNTT nhƣ:
Máy chủ: đặt tại trung tâm thông tin khoa học của Học viện;
Các cáy tính bộ phân đƣợc đƣa vào sử dụng ở các phòng, ban, phòng học;
Máy in, máy quét, máy photocopy đƣợc trang bị đầy đủ tại các phòng, ban, Camera giám sát đƣợc lắp đặt ở các phòng học
Hệ thống mạng được kết nối với đường truyền có băng thông lớn
Có đầy đủ trang thiết bị cho các hệ thống báo cháy, hệ thống điều hòa nhiệt độ, hệ thống khóa, bảo mật cao.
Tuy nhiên do điều kiện kinh tế còn hạn chế, hạ tầng công nghệ thông tin tại Học viện thiếu nhiều những trang thiết bị hiện đại, việc nâng cấp, sửa chữa trang thiết bị kịp thời để phục vụ tốt hơn nhu cầu dạy và học còn chậm Đây là vấn đề quan trong cần đƣợc Học viện quan tâm, để thực hiện tốt công tác đào tạo, nghiên cứu khoa học của Học viện trong thời kỳ hội nhập hiện nay và trong tương lai.
Một số môn học liên quan tới Gốm sứ cổ truyền
Hình ảnh Gốm sứ cổ truyền của một nước là sự thể hiện một phần rất lớn nền văn hóa của một nước, chính vì vậy ta phải bảo vệ, tôn tạo và phát triển ngành gốm sứ cổ truyền Để làm đƣợc điều này ngoài các bộ phận, các cơ quan có liên quan tới việc bảo vệ, tôn tạo và phát triển gốm sứ, ngành giáo dục cũng phải chú trong nhiều hơn nữa các môn học có liên qua nhƣ:
Chuyên ngành Vật liệu và Công nghệ Vật liệu Xây dựng;
Cấu trúc và tính chất của vật liệu Silicat;
Công nghệ Vật liệu Chịu lửa;
Thiết kế chi tiết của cơ sở dữ liệu văn bản liên quan tới Gốm sứ cổ truyền
3.3.1 Công cụ Olap trong SQL Server 2005
OLAP: là một kỹ thuật sử dụng các thể hiện dữ liệu đa chiều gọi là các khối nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu trong kho dữ liệu, OLAP tạo khối cho dữ liệu bằng các bảng chiều và bảng sự kiện, cung cấp khả năng thực hiện các truy vấn và phân tích cho các ứng dụng máy khách
Trong khi kho dữ liệu lưu trữ dữ liệu cho phân tích, thì OLAP là kỹ thuật cho phép các ứng dụng máy khách truy xuất hiệu quả dữ liệu này, OLAP cung cấp nhiều lợi ích cho người phân tích như:
Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định hướng và khám phá dữ liệu;
Cung cấp một ngôn ngữ truy vấn, phân tích;
Dữ liệu được tính toán trước đối với các truy vấn thường xuyên, nhằm làm cho thời gian trả lời nhanh đối với các truy vấn đặc biệt
Cung cấp các công cụ mạnh, giúp người dùng tạo các khung nhìn mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt Ứng dụng OLAP: OLAP đƣợc đặt ra để xử lý các truy vấn liên quan đến lƣợng dữ liệu rất lớn mà hệ thống OLTP sẽ không thể cho kết quả hoặc sẽ mất rất nhiều thời gian
Dịch vụ OLAP: là một máy phục vụ tầng giữa, phục vụ cho phân tích xử lý trực tuyến, hệ thống dịch vụ OLAP là một công cụ mạnh trong việc xây dựng các khối đa chiều của dữ liệu cho phân tích và cung cấp khả năng truy xuất nhanh đến thông tin khối cho các máy khách
Các đặc điểm của dịch vụ OLAP:
Dễ sử dụng: Bằng cách cung cấp các giao diện người dùng và các trợ giúp thực hiện
Linh động: Mô hình dữ liệu mạnh cho định nghĩa khối và lưu trữ
Các khối có thể ghi:
Kiến trúc có thể co dãn: Cung cấp một sự đa dạng các kịch bản lưu trữ và giải pháp tự động đối với “hội chứng bùng nổ dữ liệu” mà gây khó chịu cho các kỹ thuật OLAP
Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu
Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ các ứng dụng tuỳ ý
Các mô hình lưu trữ hỗ trợ OLAP:
Mô hình Olap đa chiều
Mô hình OLAP đa chiều lưu trữ dữ liệu cơ sở và thông tin tổng hợp (là các độ đo đƣợc tính toán từ các bảng) trong các cấu trúc đa chiều gọi là các khối Các cấu trúc này được lưu bên ngoài cơ sở dữ liệu data mart hoặc kho dữ liệu
Lưu trữ các khối trong cấu trúc OLAP đa chiều là tốt nhất cho các truy vấn tổng hợp dữ liệu thường xuyên mà cần thời gian hồi đáp nhanh
Mô hình OLAP đa chiều cho phép thực hiện các truy vấn phân tích dữ liệu tốt nhất vì các đặc điểm sau:
Thông tin tổng hợp và dữ liệu cơ sở được lưu trữ trong cấu trúc đa chiều
Các thao tác kết, là một trong những thao tác tốn chi phí nhất của mô hình quan hệ, thì không cần thiết
OLAP đa chiều sử dụng các thuật toán nén dữ liệu cho phép lưu trữ với ít không gian hơn
OLAP đa chiều sử dụng chỉ mục bitmap cho hiệu quả thực thi tốt hơn
OLAP đa chiều lấy dữ liệu trong khối rất nhanh bằng cách sử dụng các xử lý truy vấn tốc độ cao và lưu dữ liệu Thông tin nhận được từ khối và các bảng OLAP cơ sở chỉ đƣợc truy xuất thông tin chi tiết
OLAP đa chiều không xử dụng cơ chế khoá vì dữ liệu là chỉ đọc
OLAP đa chiều có thể được nạp trước vào bộ nhớ chính
Dữ liệu có thể dễ dàng sao chép đến client cho phân tích không trực tuyến (off-line)
Mô hình OLAP quan hệ:
Mô hình OLAP quan hệ: lưu trữ dữ liệu cơ sở và thông tin tổng hợp trong các bảng quan hệ Các bảng này được lưu trữ trong cùng cơ sở dữ liệu như là các bảng kho dữ liệu
Lưu trữ các khối trong cấu trúc OLAP quan hệ là tốt nhất cho các truy vấn dữ liệu không thường xuyên Lưu trữ dữ liệu trong cấu trúc OLAP quan hệ cung cấp các lợi ích sau:
OLAP quan hệ cho phép xây dựng khối tự động tạo chỉ mục
OLAP quan hệ ánh xạ các tổng hợp có sẵn từ kho dữ liệu OLAP quản lý đƣợc phép xử dụng các tổng hợp có sẵn để tổng hợp mà không cần tính toán lại cho mỗi truy vấn
OLAP quan hệ tạo đòn bẩy cho hệ quản trị cơ sở dữ liệu quan hệ nhằm cho các nhà quản trị hệ thống duy trì nó hiệu quả hơn
OLAP quan hệ hỗ trợ Microsoft SQL Server, Oracle, Access và Open Database Connectivity (ODBC)
Mô hình OLAP lai là sự kết hợp giữa OLAP đa chiều và OLAP quan hệ
Lưu trữ các khối trong cấu trúc OLAP đa chiều là tốt nhất cho các truy vấn tổng hợp dữ liệu thường xuyên dựa trên một lượng lớn dữ liệu cơ sở Lợi ích của việc lưu trữ trong cấu trúc OLAP lai là:
Lấy dữ liệu trong khối nhanh hơn bằng cách sử dụng xử lý truy vấn tốc độ cao của OLAP đa chiều
Tiêu thụ ít không gian lưu trữ hơn OLAP đa chiều
Tránh trùng lắp dữ liệu
Kiến trúc khối của OLAP: Đối tƣợng chính của OLAP là khối, một thể hiện đa chiều của dữ liệu chi tiết và tổng hợp Một khối bao gồm một nguồn dữ liệu, các chiều, các độ đo và các phần dành riêng, Các khối được thiết kế dựa trên yêu cầu phân tích của người dùng
Một kho dữ liệu có thể hỗ trợ nhiều khối khác nhau nhƣ khối Bán hàng, khối Bảng kiểm kê,…
Dữ liệu nguồn của một khối chỉ ra nơi chứa kho dữ liệu cung cấp dữ liệu cho khối
Các chiều đƣợc ánh xạ từ các thông tin của các bảng chiều trong kho dữ liệu vào các mức phân cấp, ví dụ nhƣ chiều Địa lý thì gồm các mức nhƣ Lục địa, Quốc gia, Tỉnh-Thành phố Các chiều có thể đƣợc tạo một cách độc lập và có thể chia sẻ giữa các khối nhằm xây dựng các khối dễ dàng và để chắc chắn rằng thông tin tổng hợp cho phân tích luôn ổn định Ví dụ, nếu một chiều chia sẻ một phân cấp sản phẩm và đƣợc sử dụng trong tất cả các khối thì cấu tạo của thông tin tổng hợp về sản phẩm sẽ ổn định giữa các khối sử dụng chiều đó
Bình hoa gốm Phù Lãng hiện đại
2.2.2 Các chức năng cần thiết đối với cơ sở dữ liệu văn bản gốm sứ
Cơ sở dữ liệu văn bản gốm sứ là một trong những cơ sở dữ liệu văn bản quan trong việc truy cập, lưu trữ, tổ chức và xử lý phục phụ cho công tác học tập, nghiên cứu, duy trì và phát triển nền văn hóa của dân tộc Việt Nam Cơ sở dữ liệu văn bản gốm sứ phải là CSDL có các chức năng cần thiết sau:
Có thể truy cập đƣợc đƣợc CSDL;
Có thể tìm kiếm thông tin cần thiết liên quan tới các văn bản về gốm sứ;
Có thể lấy đƣợc các thông tin khi tìm thấy;
Có thể hiển thị thông tin và sử dụng đƣợc thông tin khi tìm thấy;
Có thể cập nhật thông tin mới
2.3 Khai phá dữ liệu văn bản
Khai phá dữ liệu văn bản: là một quá trình trích chọn ra các tri thức mới, có giá trị và tác động đƣợc đang tiềm ẩn trong các văn bản để sử dụng các tri thức này vào việc tổ chức thông tin tốt hơn nhằm hỗ trợ người dùng Ta có kiến trúc điển hình của hệ thống khai phá dữ liệu sau:
Cơ sở dữ liệu Các kho chứa dữ Kho dữ liệu liệu khai thác
Làm sạch dữ liệu và tích hợp dữ liệu Lọc dữ liệu Phục phụ cơ sở dữ liệu hoặc kho dữ liệu
Giao diện đồ họa người dùng Đánh giá mẫu
Thành phần khai phá dữ liệu
Hình 2.5 Mô hình kiến trúc hệ thống khai phá dữ liệu văn bản
Về bản chất của khai phá dữ liệu văn bản là sự kết hợp của khai phá dữ liệu và xử lý ngôn ngữ tự nhiên, quá trình khai phá dữ liệu văn bản là cụ thể hóa quá trình khai phá dữ liệu đối với dữ liệu văn bản, với giả thiết đã xác định đƣợc: một là bài toán khai phá dữ liệu văn bản, hai là miền dữ liệu văn bản thuộc miền ứng dụng, quá trình khai phá dữ liệu văn bản thực hiện qua các bước sau:
Thu thập dữ liệu văn bản thuộc miền ứng dụng, cụ thể ở đây là các bài báo trên Web liên quan tới gốm sứ Việt nam
Biểu diễn dữ liệu văn bản thu thập đƣợc sang khuôn dạng phù hợp với bài toán khai phá văn bản
Lựa chọn tập dữ liệu đầu vào cho bài toán khai phá dữ liệu
Thực hiện thuật toán khai phá dữ liệu đối với tập dữ liệu đã đƣợc lựa chọn để tìm ra các mẫu, các tri thức
Thực hiện khai thác sử dụng các mẫu, các tri thức nhận đƣợc từ quá trình khai thác văn bản vào thực tiễn hoạt động Để khai phá dữ liệu văn bản người ta sử dụng một vài bài toán khai phá điển hình nhƣ: Tìm kiếm, phân tích ngữ nghĩa, phân cụm, phân lớp, trích trọn đặc trƣng, tóm tắt văn bản…
Bài toán trích rút quan hệ: là một trong những bài toán quan trọng trong lĩnh vực khai phá tri thức mang tầm vóc lớn, vì ứng dụng của nó rất đa dạng Ngoài việc làm giàu thêm lượng thông tin, nó còn được xem là một phương pháp hiệu quả để đưa ra phương pháp xử lý cho các hệ thống như: hệ thống hỏi đáp, xây dựng cơ sở tri thức, phát hiện ảnh qua đoạn văn bản…
Các phương pháp trích rút quan hệ ngữ nghĩa đã được đề xuất khá phong phú, từ phương pháp học thống kê, có giám sát dựa trên dữ liệu đã gán nhãn, hay các phương pháp dựa trên luật học bán giám sát… Để rút trích quan hệ ngữ nghĩa trong văn bản ta có thể tham khảo và áp dụng một số phương pháp Phương pháp DIPRE: Năm 1988, Sergey Brin đã giới thiệu phương pháp học bán giám sát, đặt tên là DIPRE, cho việc trích rút quan hệ ngữ nghĩa Phương pháp này được thử nghiệm để trích mối quan hệ “tác giả” và “ cuốn sách”, với tập dữ liệu ban đầu khoảng 5 ví dụ cho mỗi mẫu quan hệ Hệ thống DIPRE mở rộng tập ban đầu thành một danh sách khoảng 1500 cuốn sách
Phương pháp DIRPE có thể được mô tả như sau: Đầu vào: Tập các mẫu quan hệ S= {}, tập dữ liệu D; Đầu ra: Tập R các quan hệ trích rút đƣợc
Bước 1 RS Tập đích đƣợc khởi tạo từ tập mồi S Tập mẫu quan hệ S có thể là rất nhỏ
Tìm tất cả các xuất hiện trong mẫu quan hệ của tập dữ liệu D;
Dựa vào tập câu đã tìm đƣợc, tiến hành tìm các mẫu quan hệ giữa các thành phần của mẫu quan hệ ban đầu, Sergey Brin định nghĩa ban đầu rất đơn giản, bằng việc giữ lại m ký tự trước thành phần mẫu quan hệ đầu tiên, giữ lại phía sau thành phần thứ hai n ký tự, và k ký tự nằm giữa hai thành phần này là m Bằng một phương pháp đơn giản để giữ lại các phần đầu, phần giữa và phần cuối phổ biến (Xuất hiện nhiều lần trong dữ liệu) Kết quả nhận được biểu diễn dưới dạng: o [1, phần đầu, phần cuối, phần giữa], thì Tác giả đứng trước sách o [0, phần đầu, phần cuối, phần giữa], thì tác giả đứng sau sách
Từ tập mẫu mới thu nhận đƣợc ta có thể trích rút các cặp quan hệ mới trong tập dữ liệu D, bổ sung các cặp quan hệ thu đƣợc vào R;
Bước 5 Khi R đủ lớn thì dừng lại, ngược lại quay lại bước 2 để tìm những cặp quan hệ và mẫu mới
Snowboll: là hệ thống trích rút mối quan hệ dựa trên một tập nhỏ dữ liệu mẫu quan hệ làm nhân, Trong quá trình thực hiện mẫu và tập quan hệ mới đƣợc sinh ra cần đánh giá chất lƣợng Giải thuật đƣợc thực nghiệm trên mối quan hệ “tổ chức-địa điểm”, thể hiện trụ sở chính của tổ chức có vị trí thuộc “địa điểm” với mẫu quan hệ ban đầu nhƣ Microsoft-Redmond, IBM-Armonk, Boeing-seatile, Intel –Santa Santa clara
Nội dung cơ bản của phương pháp Snowball Đầu vào: Một tập văn bản D (tập huấn luyện); tập nhân mẫu quan hệ d ban đầu S gồm các cặp mẫu quan hệ nào đó Mỗi cặp quan hệ gồm hai thực thể A và B có quan hệ dạng: hay , nhƣ vậy S= {}; Đầu Ra: Tập R là các quan hệ rút trích đƣợc;
Bước 1: Tìm sự xuất hiện của các cặp quan hệ trong dữ liệu R=S;
Với mỗi cặp quan hệ trong S, tìm trong D tất cả các câu có chứa cả A và B Tiến hành phân tích, chọn lọc và rút trích các mẫu, một câu khớp với biểu thức *A*B* thì cụm từ đứng trước A gọi là Trái, cụm từ đứng giữa A và B gọi là Giữa và cụm từ đứng sau B gọi là Phải
Bước 2: Tìm sự xuất hiện của các thực thể trong dữ liệu Tiến hành phân cụm tập mẫu, Snowball sử dụng hàm Match để tính độ tương đồng giữa các mẫu và xác định ngưỡng tương đồng tsin cho việc gom cụm nhằm làm giảm số lượng các mẫu cũng như làm cho mẫu có tính khái quát hơn Độ tương đồng giữa hai mẫu đƣợc biểu diễn bởi hàm Match (mẫu 1, mẫu 2):
Match(mẫu1, mẫu2) = (wTrái1,wTrái2)+(wGiữa1.wGiữa2)+(wPhải1.wPhải2)
Các mẫu sau khi tìm thấy đƣợc dùng để trích rút các cặp quan hệ mới trong D, sau đó đối chiếu từng cặp quan hệ mới tìm thấy với tập R để kiểm tra chất lƣợng của mẫu, từ đó chọn mẫu mới có độ chính xác cao, cặp quan hệ mới thuộc một trong các trường hợp sau:
Positive: Nếu đã nằm trong tập R;
Negative: Nếu chỉ có đúng một trong hai (A’, hoặc B’) xuất hiện trong tập R;
Unknown: nếu , cả hai đều không xuất hiện trong tập R Tập Unknown đƣợc xem là tập các quan hệ mới trong vòng lặp sau
Snowball có độ chính xác của từng mẫu dựa trên số Positve và Negative của nó và chọn ra N mẫu có điểm cao nhất
Bước 4: Tìm các Mẫu quan hệ D mới
Với mỗi mẫu trong danh sách tốp N thu nhận lại đƣợc bổ sung vào tập mẫu để trích rút tập R’ các cặp quan hệ mới trong tập dữ liệu D Bổ sung các tập quan hệ vào R: R=R hợp R’; để làm tăng tính chính xác cho hệ thống, các cặp trong quan hệ R’ đƣợc đánh giá để lựa chọn ra M cặp đƣợc đánh giá tốt nhất và M cặp này đƣợc dùng làm mẫu quan hệ cho quá trình rút mẫu kế tiếp, Hệ thống tiếp tục quay lại bước 1 Quá trình trên tiếp tục lặp cho đến khi Hệ thống không tìm được cặp mới hoặc lặp theo số lần mà ta xác định trước Sau đây là thủ tục sinh mẫu mới của phương pháp Snowball:
Sub GenerateTuples (Patterns) Foreach text_segment in corpus
(1) {, }=CreateOccurence (text_segment);
(2) sim = Match (, p);
CandidateTuples[TC] Patterns [PBest] = SimBest;
Bảng 2.1 Thủ tục sinh mẫu mới của phương pháp Snowball