Một số vấn đề chọn lọc của công nghệ thông tin và truyền thông

Các chủ đề chính không hạn chế của Hội thảo • Tin học quản lý • Mã nguồn mở • Công nghệ đa phương tiện, mô phỏng • Giáo dục điện tử, đào tạo từ xa • Công nghệ điện tử và viễn thông • Đại

Trang 1

KỶ YÉU HỘI THẢO QUÓC GIA HƯNG YÊN, 19-20 THÁNG 8 NĂM 2010

MỘT SỐ VẤN ĐỀ CHỌN LỌC CỦA CÔNG NGHỆ THÔNG TIN VÀ

Trang 3

H Ộ I THẢO QUỐC GIA LẦN T H Ứ XIII

M Ộ T SỐ VẤN ĐÈ CH Ọ N LỌC CỦA

C Ô N G NGHỆ THÔNG TIN VÀ TR U Y È N TH ÔNG

C hủ đề: Các công n g h ệ tỉnh toán h iện đại

H ư n g Yen, 19-20/08/2010

T H Ô N G B Á O

Hội thảo Quốc gia lần thứ XIII "Một số vấn đề chọn lọc của Công nghệ thông tin

và Truyền thông" do Viện Công nghệ thông tin - Viện Khoa học và Công nghệ Việt Nam

và Đại học Sư phạm Kỹ thuật Hưng Yên tổ chức tại Khoái Châu, Hưng Yên từ ngày 19 đến ngày 20 tháng 8 năm 2010 Hội thảo là diễn đàn để các nhà khoa học và quản lý trong

cả nước chia sẻ kinh nghiệm nghiên cứu, triển khai trong lĩnh vực Công nghệ thông tin và truyền thông Đặc biệt Hội thảo cũng là môi trường để những người làm công tác nghiên cứu khoa học trẻ; những nghiên cứu sinh, học viên cao học có điều kiện để trao đổi, tìm kiếm sự tài trợ hợp tác

Các chủ đề chính (không hạn chế) của Hội thảo

• Tin học quản lý

• Mã nguồn mở

• Công nghệ đa phương tiện, mô phỏng

• Giáo dục điện tử, đào tạo từ xa

• Công nghệ điện tử và viễn thông

• Đại học Sư phạm Kỹ thuật Hưng Yên

Các hệ thống tích hợpCác hệ thống tính toán di độngThực tại ảo

Công nghệ phần mềm

Xử lý ảnh và kỹ thuật VideoCNTT trong Kinh tế- Kỹ thuật

Cơ sở toán học của tin học

Trang 4

Liên hệ đăng ký tham dự

• Đỗ Năng Toàn Viện CNTT - Viện KH&CN Việt Nam

Thòi hạn đăng ký báo cáo

Đăng ký đại biểu

Quy cách chuẩn bị báo cáo xem chi tiết lại Website: http://www.utehv.edu.vn

BAN TỔ CHỨC

Trưởng ban

Trang 5

Nguyễn Hoàng Hòa

Nguyễn Quang Hưng

Ngô Hùng Mạnh

Nguyễn Hữu Quỳnh

Nguyễn Minh Quý

Nguyễn Văn Tám

Huỳnh Quyết Thẳng

Nguyễn Thị Lê Thu

VNPT Hưng Yên Khoa CNTT - ĐH Thái Nguyên Đại học Công nghiệp Hà Nội Đại học Công nghệ- Đại học QGHN Đại học Sư phạm Kỹ thuật Hưng Yên

Sở TT &Truyền thông Hưng Yên

Bộ Thông tin & Truyền thông

Sờ Khoa học- Công nghệ Hưng Yên Đại học Điện lực

Đại học Sư phạm Kỹ thuật Hưng Yên

Sở GD&ĐT Hưng Yên Đại học Bách khoa Hà Nội Viện Công nghệ thông tin

Ngô Văn Quyết

Ngô Quốc Tạo

Viện Công nghệ thông tin

Viện Công nghệ thông tinĐại học Sư phạm Kỹ thuật Hưng YênViện Công nghệ thông tin

Viện Công nghệ thông tin Đại học KHTN Tp Hồ Chí Minh Đại học Công nghệ -ĐHQGHN Đại học Công nghệ -ĐHQGHN Viện Toán học

Đại học Công nghệ -ĐHQGHN Viện Công nghệ ứiông tin Đại học Hàng hải

Đại học Khoa học tự nhiên

Trang 6

Vũ Đình Hòa Đại học Sư phạm 1 Hà Nội

Trang 7

C Á C Đ Ơ N VỊ T À I T R Ọ H Ộ I T H Ả O C N T T 2010

V iện K h o a học v à C ông nghệ V iệt N am

V iện C ô n g n g h ệ T hông tin- V iện K hoa học v à C ông nghệ V iệt N am

T rư ờ n g Đ ại học Sư phạm K ỹ thuật H ư ng Y ên

K hoa C ô n g ng h ệ thông tin - T rường Đại học C ông nghệ - Đại học Quốc

G ia H à NỘI

T rư ờ n g Đ ại học B á ch K hoa H à Nội

T rư ờ n g Đ ại học cần T hơ

T rư ờ n g Đ ại học K h o a học H uế

T rư ờ n g Đ ại học L ạc H ồng

T rư ờ n g Đ ại h ọ c N ha T rang

T rư ờ n g Đ ại học Sư phạm K ỹ thuật N am Đ ịnh

Trưòrng C ao đ ẳn g Sư P hạm T rung ư ơ n g

K h o a C ô n g n g h ệ th ô n g tin- T rường Đ ại học C ông N ghiệp H à N ội

K h o a C ô n g n g h ệ th ô n g tin- T rường Đại học Đ iện L ực

K h o a C ô n g n ghệ th ô n g tin- T rườ ng Đại học Thái N guyên

K lioa C ô n g n g h ệ th ô n g tin- T rường Đại học K hoa học tự nhiên Tp Hồ

C hí M in h

K lìoa C ô n g n g h ệ th ô n g tin- T rường Đ ại học Sư phạm H à N ội 2

K h o a C ô n g n g h ệ th ô n g tin- T rường Đại học T hủ D ầu M ột

K h o a C ô n g n g h ệ th ô n g tin- T rường Đại học Sư phạm K ỹ T huật Vinh

K h o a C ô n g n g h ệ th ô n g tin - H ọc V iện K ỹ th u ật Q uân sự

K h o a C ô n g n g h ệ th ô n g tin- H ọc viện C ông nghệ B ư u chính V iễn thông

T ru n g tâm T in h ọ c- B ư u điện Hải P hòng

T ru n g tâ m C ô n g n g h ệ th ô n g tin - V ăn phò n g T W Đ ảng

T ập đ o àn V iễn th ô n g qu ân đ ội V iettel - C h i n h án h H ư ng Y ên

C ông ty V iễn th ô n g H ư n g Y ên và V inaphone H ư n g Y ên

C ông ty C ổ p h ầ n tru y ền th ô n g tru y ền h ìn h qu ố c g ia H à N ộ i (H T M )

Trang 9

M ột số vẩn đề chọn lọc cùa C ông nghệ thông tin và truyền thông, Hưng Yên, 19-20 tháng 08 nâm 2 0 Ĩ0

LỜI NÓ I Đ ẦU

Hội thảo Quốc gia "Một sổ vấn đề chọn lọc của Công nghệ thông tin ” được khởi

xướng theo sáng kiến của Viện Công nghệ Thông tin thuộc Viện Khoa học và Công nghệ Việt nam, đến nay đã qua hơn 10 lần tổ chức

Hội thảo Quốc gia "Một sổ vấn đề chọn ỉọc pủa Công nghệ thông tin ” lần thứ I được

tổ chức từ ngày 5 đến 7 tháng 8 năm 1997 tại Đại học Sư phạm Hà Nội II, Đại Lải, Vĩnh

Phúc Hội thảo được tổ chức dưới sự phối hợp của: Viện Công nghệ thông tin, Đại học

Quốc gia Hà Nội, Đại học Sư phạm Hà Nội II.

Kể từ đó đến nay, hàng năm cứ mỗi độ thu sang Viện Công nghệ thông tin- Viện Khoa học và Công nghệ Việt Nam lại phối hợp với một trong các trường Đại học trong nước để

tổ chức Hội thảo Quốc gia "Một số vẩn đề chọn lọc của Công nghệ thông tin

Với các chủ để khác nhau, hội thảo Quốc Gìa."Một số vấn đề chọn lọc của Công nghệ

thông tin ” đã thực sự trở thành diễn đàn nhằm trao đổi các kết quả nghiên cứu và triển khai

ứng dụng công nghệ thông tin của các nhà khoa học, đặc biệt là các nhà khoa học trẻ trên mọi miền đất nước

Hội thảo lần thứ XIII với chủ đề “Cóc công nghệ tính toán hiện đạĩ' được Viện Công

nghệ thông tin phối họp với Đại học Sư phạm Kỹ thuật Hưng Yên tổ chức tại Hưng Yên từ ngày 19-20 tháng 8 năm 2010

Hcm 500 đại biểu và khách mòd từ mọi miền của đất nước đã tham dự Hội thảo lần thứ mười ba này Các đại biểu đã nghe và thảo luận gần 150 báo cáo khoa học theo các nội dung:

Các hệ tíiống thông minh

Trang 10

Một sổ vấn đề chọn ¡ọc cùa Công nghệ thông lin và truyền thông, Hưng Yên, 19-20 tháng 08 năm 2010

Với sự tham gia đông đảo của các nhà khoa học trong và ngoài nước cùng với số lượng lớn báo cáo khoa học gửi tới Hội thảo đã khẳng định ý nghĩa thiết thực và tầm vóc

quốc gia của Hội thảo "Một sổ vấn đề chọn lọc của Công nghệ thông tin

Các đại biểu đánh giá cao sự nhiệt tình của các đơn vị tham gia tổ chức Hội thảo, đặc biệt là cơ sở đăng cai; Đại học Sư Phạm Kỹ thuật Hưng Yên và đơn vị chủ quản và điều hành chương trình - Viện Công nghệ thông tin

Trong phiên bế mạc Hội thảo lần thứ XIII, Ban Tổ Chức đã trao cờ cho Đại học cần Thơ, là đơn vị đăng cai tổ chức Hội thào lần thứ XIV tại Thành phố cần Thơ

Các công trình được in trong tập kỷ yếu này đã được báo cáo, thảo luận tại Hội thảo và sau đó đã được phản biện nghiêm túc

Ban tổ chức Hội thảo xin chân thành cảm on các đcm vi sau đây đã tài trợ kinh phí cho hoạt động của Hội thảo:

Trường Đại học Sư phạm Kỹ thuật Hưng Yên

Viện Công nghệ Thông tin- Viện Khoa học và Công nghệ Việt Nam

Khoa Công nghệ thông tin - Trường Đại học Công nghệ - Đại học Quốc Gia

Hà Nội

Trường Đại học Bách Khoa Hà Nội

Trường Đại học cần Thơ

Trưòmg Đại học Khoa học Huế

Trường Đại học Lạc Hồng

Trưòng Đại học Nha Trang

Trường Đại học Sư phạm Kỹ thuật Nam Định

Trường Cao đẳng Sư Phạm Trung ư ơ ng

Khoa Công nghệ thông tin- Trường Đại học Công Nghiệp Hà Nội

Khoa Công nghệ thông tin- Trường Đại học Điện Lực

Khoa Công nghệ thông tin- Trưòng Đại học Thái Nguyên

Khoa Công nghệ thông tin- Trường Đại học Khoa học tự nhiên Tp Hồ chí Minh

Trang 11

Một s ổ vấn đề chọn lọc của C ông nghệ thông lin và truyền thông, Hưng Yên, ¡9-20 tháng 08 năm 2010

• Tập đoàn Viễn thông quân đội Viettel - Chi nhánh Hưng Yên

• Công ty Viễn thông Hưng Yên và Vinaphone Hưng Yên

• Công ty Cổ phần truyền thông truyền hình quốc gia Hà Nội (HTM)

• Công ty Cổ phần điện tử tin học FSC Hà Nội

• Công ty Cổ phần tư vấn xây dựng và thưcmg mại Thái Dương

• Công ty Cổ phần và thương mại NBT Hưng Yên

Hà Nội, ngày 19 tháng 06 năm 2011

Ban Biên tập

Trang 12

D A N H S Á C H C Á C P H Ả N B IỆ N

giáo Trung ương

học Quốc gia Hà Nội

chính Viễn thông

Trang 13

25 Hoàng Chí Thành PGS.TS Đại học Công nghệ- Đại

học Quốc gia Hà Nội

Trang 15

M ột s ố vẩn đề chọw ỉọc cùa Công nghệ thông tin và truyền thông, Hưng Yên, 19-20 tháng 0 8 năm 20ỈỒ

MỤC LỤC

A COMPARATIVE ANALYSIS OF TECHNIQUES FOR PREDICTING ACADEMIC PERFORMANCE

ĐẢNG CÂU VÂN TIN TRÊN CÁC QUAN HỆ VÀ x ừ LÝ CÂU VÂN TIN TRÊN BẢNG

Như, Nguyễn Xuân Huy

BIẺU DIÊN C ơ SỜ CÙA HỆ SINH ÁNH XẠ ĐÓNG

D ự BẢO NẺ RÂY THEO THỜI GIAN

GIẢI BÀI TOÁN LẬP LỊCH JOB SHOP BẰNG THUẬT TOÁN DI TRUYỀN

HỆ THỐNG GỢI Ý TIN TỨC NEWSARD

Nguyễn Thụy Mai Trâm, Tạ Thúc Nhu

Trang 16

Một s ố vấn đề chọn lọ c cùa Công nghệ thông tin và truyền thông, Hưng Yên, 19-20 tháng 08 năm 2010

MÔ PHÓNG MỘT SÓ TINII HUỐNG GIAO THÔNG ĐÔ THỊ D ự A TRÊN MÔ HÌNH ĐA TÁC TỪ

MÔI QUAN HỆ GIỮA N G Ừ NGHĨA CÚA CHƯƠNG TRÌNH LOGIC DIỄN GIẢI VÀ CHƯƠNG TRÌNH

LOGIC DẠNG TUYÊN

MỘT CÁCH TIÉP CẬN TRONG HỎ TRỢ THU THẬP DỪ LIỆU T ự ĐỘNG

Nguyễn Duy Linh

MỘT GIẢI PHÁP CẢI TIÉN THUẬT TOÁN BEEMAN TRONG MÔ PHÓNG ĐỘNG L ự c PHÂN TỬ

MỘT PHƯƠNG PHÁP MÓI TIÈN x ử LÝ GIÁ TRỊ THIẾU

MỘT PHƯƠNG PHÁP TRÍCH RÚT CÂU TRONG VĂN BÀN TIẺNG VIỆT s ử DỤNG LUẬT KẾT HỢP

MỘT PHƯƠNG PHÁP x ừ LÝ KÉT QUẢ TÌM KIÊM TRÊN WEB

MỘT SỔ CÀI TIÊN NÂNG CAO Tốc Đ ộ x ừ LÝ CÚA PHƯƠNG PHÁP MÃ HÓA s ố HỌC

Trang 17

Một số vấn để chọn lọc cùa Công nghệ thông tin và truyền thông, Hung Yên, 19-20 tháng 08 năm 2 0 Ỉ0

NGHIÊN c ú u BA CHÉ Đ ộ ĐIÊU KHIÊN ON/OFF, PID, FUZZY VÀ ỨNG DỤNG TRONG ĐIÈU

KHIÊN MÔ HÌNH LÒ NHIỆT

NGHIÊN CỬU MÔ HÌNH GIÁM SÁT TR ựC TUYÉN HỆ THỐNG MẠNG PHÂN TÁN QUY MÔ LỚN

PHÁT HIỆN CHÁY S ừ DỤNG CAMERA THÔNG THƯỜNG TRONG ĐIÊU KIỆN ÁNH SÁNG

MÔI TRƯỜNG YÉU

PHÁT HIỆN LUẬT KẾT HỢP SPORADIC TUYỆT ĐỐI HAI NGƯỠNG MỜ

PHÉP DỊCH CHUYÊN L ư ợ c Đ ồ KHỐI VÀ VẤN ĐÊ BIÊU DIỄN BAO ĐÓNG, KIIOÁ TRONG

MÔ HÌNH D ử LIỆU DẠNG KHỐI

REGULARIZATION FOR A COMMON SOLUTION OF A SYSTEM OF NONLINEAR ILL-POSED

EQUATIONS WITH PERTURBATIVE DATA

SO SÁNH CẨU TRÚC PROTEIN SỪ DỤNG MÔ HÌNH TỐNG QUÁT

SO SÁNH VÀ ĐÁNH GIÁ MỘT s ố GIAO THỨC ĐỊNH TUYÉN ĐIỀU KHIÊN THEO YÊU CẢU TRÊN

MẠNG MANET

TIÊP CẬN CHIA MIỀN TỚI CÁC BÀI TOÁN VỀ MẶT PHÂN CÁCH

Trang 18

Một s ố vấn đề chọn lọc của Công nghệ thông tin và truvền thông, Hưng Yên, 19-20 tháng 08 năm 2010

Nguyễn Thị Hoàng Lan

XÂY DỤNG GIẢI PHÁP BẢO MẬT BIOPKI VÀ ÚÌMG DỤNG ĐẺ BẢO M ẬT HỆ NHẬN

VÈ PHÉP BIÉN ĐỔI HỆ SINH ÁNH XẠ ĐÓNG

VÊ PHƯƠNG PHÁP PHÂN NGƯỠNG ẢNH THÍCH NGHI S Ừ DỤNG TẬP MỜ LOẠI 2

TMUẬT TOÁN HIỆU QUẢ KHAI PHÁ TẬP MỤC LỢl ÍCH CAO TRÊN DÒNG DỮ LIỆU

Trang 19

M ật sổ vắn đề chọn Ịọc của C ông nghệ thông tin và truyền thông, Hưng Yên, ỉ 9-20 thảng 08 năm 2 0 ỉ 0

A METHOD FOR DATA MINING

IN INCOMPLETE INFORMATION SYSTEMS

Hoang Thi Lan Giao’, Nguyen Thi Lan Anh^

(1) Department o f IT, College o f Sciences, H ue University, Vietnam

(2) Department o f Informatics, College o f Pedagogy, H ue University, Vietnam

To deal with missing attribute values in incomplete information systems,

G.Busse used the characteristic relation instead o f the indiscernibility relation.

Based on this relation and the information theory, in this paper, we propose an

algorithm to fin d a reduct o f an incomplete decision table and the other-

HLEM algorithm- to induce rules from it.

Keywords; missing attribute value, characteristic relation, rough entropy, reduct, rule induction

1 Introduction

In a data set, there are usually some redundant attributes, which are not essential for knowledge discovering Hence, eliminating these attributes to simplify and hasten the data mining process is an important request In other words, following rough set approach, we need to find a reduct of an information system or decision table

However, in real life, data sets may have missing attribute values Missing attribute values are the attribute values o f corresponding case which cannot be specified So, information systems (or decision tables) containing missing attribute values are incomplete information systems (or decision tables, respectively) There are two types of missing attribute values: lost values and do not care conditions [1,2,3,4] Lost values are the attribute values were originally known but currently they are not specified because of many reasons Do not care conditions are ineffective attribute values in the classification of the case they belong to

To solve the missing attribute value problem, G Busse initiated the method: extending the indiscernibility relation to characteristic relation In this paper, we will use this relation to construct one algorithm finding decision rules in incomplete decision table Besides, using concept o f entropy in information theory, we will also propose an heuristic

Trang 20

2 Data preprocessing in Incom plete Decision Tables

2.1 Characteristic relations and set approximations

In the incomplete decision table DT = (U, CuD ), with an attribute a e c and ve Va

is an value of a for some cases, let t = (a, v) be an attribute-value pair and then block o f t,

denoted by [t], is a set o f all cases from Ư that for attribute a has v alue V o r *.

Incomplete decision tables are described by characteristic relations instead of indiscemibility relations [3],[4],[5],[6], so equivalence classes are replaced by

characteristic sets For DT = (U, C u D ), B c c , characteristic set K b ( x ) o f X is defined:

If DT is a complete decision table, R(B) is clearly indiscernibility relation IND(B),

so it is an extension of IND(B) in incomplete information system R(B) is reflexive but- in general- is not symmetric or transitive

Let U/R(B) denote the family set {Kb(x), xeU } Characteristic sets in U/R(B) constitute a covering of u, i.e, for every xe u, we have that K b(x) and ỊJ /íg (x ) = Ơ

a Singleton approximation: lower and upper approximations are sets o f singletons

from Ư sastisfying some properties

A singleton B-lower approximation of X is defined as:

Một số vấn đề chọn ỉọc của Công nghệ thông tin và truvển thông, Hưng Yên, ỉ 9-20 thảng 08 năm 2 0 ỉ 0

Trang 21

c Concept approximations', are defined by replacing universe u from the definitions

of subset approximations by a concept X

A concept B-lower approximation o f X is:

of subset B-upper approximation and it is the smallest set which includes X

Among the three approximations, the concept B-lower approximations are the most suitable for inducing rules [1,2]

In case of complete decision table, three approximations are the same But this property is not true for incomplete decision table

Obviously, there may be many reducts o f c and the intersection o f all reducts of c

M ột số vấn đề chọn lọc của Câng nghệ thông tin và truyền thông, Hung Yên, ¡9-20 tháng 08 năm 2 0 Ỉ0

Trang 22

Một sổ vấn đề chọn lọc của Công nghệ thẬng tin và truyền thông, Hưng Yên, ĩ 9-20 thảng 08 nãm 2 0 ỉ 0

From (*) and (**) we can conclude that P ={Temp, Headache, Ache} is a reduct of C

2.3 Rough Entropy and significance of attributes

Trang 23

M ột số vấn đ ề chọn lục cùa C ông n g h ệ thông.Hn và truyền thông, H ưng Yên, I9-2Ỡ thảng 0 8 năm 2 0 1 0

Theorem 2.1

Let DT = (U, C uD ) be an incomplete decision table Then P c c is a reduct of c in

DT iff p is the smallest set which satisfies E(P) = E(PuD)

Proof:

p is a reduct of c

o (U, P uD ) is independent and U/R(P) = U/R(PuD)

o Vc e p, U/R(P\{c}) ^ U/R(P\{c}uD) and U/R(P) = U/R(PwD)

p is minimum and E(P) = E(PuD) (equivalence property)

Using rough entropy of knowledge, we can define the significance o f an attribute

Definition 2.4

Let DT = (U, C uD ) be an incomplete decision table The significance o f c in c,

denoted sigC\{c)(c), as: ' ( 4 ) - £ ( c \ D)

Then, ceC is indispensable in c iff: sigC\{c}(c) >0 and

C o r e (C ) = { : e c | i 7 g c \ H ( c ) > o } ,

Definition 2.5

Let DT = (U, C uD ) be an incomplete decision table, P cC , ceC\P The significance

of c about p, denoted sigP(c), as:

sig,{c) = E [p u D )- E { P u {c}u D)

2.4 Algorithm based on rough entropy for computing reduct

Let DT = (U, C uD ) be an incomplete decision table We will find a rcduct of c by starting out with Core(C) (because it is the intersection of all reducts of C), choosing theattribute in C\Core(C) to add to this Core until we have E(Corc(C)) = E(Core(C) uD ).Then, eliminating all the dispensable attributes in this Core, we will have one reduct of c

Trang 24

The time complexity of this algorithm is O(m^n^), where m is the cardinality of c

and n is the cardinality of Ư

Trang 25

M ột sổ vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Hưng Yên ỉ 9-20 tháng 08 năm 2 0 Ỉ0

=> E (PuD ) = 1 + log3 E(P)

- sigp(a3) = E(PuD)- E(Pu{a3}uD) = E(PuD)- E(ai,a2,,a3}uD)

=> Select as; P:= {ai,32,3 3}

=i> E(P) = ^ = E(PuD )

P = {ai, 32, 3 3} is 3 reduct of C in DT

The decision t3ble sfter reducing - DT’ = (U, P uD ) - is shown by Tsb 2

Table 2- The incomplete decision system after reducing of Table 1

3 Rule induction in incom plete decision tables

HLEM, proposed by us, is the extension o f LEM2 o f G.Busse In general, LEM2 computes 3 local covering and then converts it into a decision rule set [2,3], In HLEM

Trang 26

redundant attribute-value pairs in the former T to get a suitable minimum complex The some below concepts are defined to describe the HLEM algorithm.

Let DT= (U, C uD ) be an incomplete decision table, V be a nonempty lower or upper approximation of a concept whose decision value is w

Let T be a set of attribute-value pairs, T = {t = (a, v)}, denote [T’]= p |[/]

leT

Then, V depends on T iff 0 [r] c F

T is a minimal complex of V if V depends on T and there is not proper subset T ’ of

T such that V depends on T’

A minimal complex T of V is a predecessor of a decision rule matching with some cases in [T],

Let T be a nonempty family of nonempty sets o f attribute-value pairs T is a local

covering of V iff T satisfies the below conditions:

Each member T of T is a minimal complex of V

^Tet[T] = V and X is minimal,i.e the cardinality o f t is as small as possible

Hence, T is the smallest set of minimal complexes totally covering the approximation V of someconcept X; in other words, T is a set of predecessors (conditions)

of the decision rule set covering V

The HLEM algorithm which is presented below can be used to find T

6 Select xe G such that Kc(x) c V and |ATc(^)| is maximum;

M ột số vẩn đề chọn lọc cùa Cõng nghệ thông tin và truvền thông, Hưng Yên, 19-20 tháng 08 năm 2010

Trang 27

M ột số vấn đề chọn lọc của Công nghệ thông tỉrĩ và truyền thông, Hưng Yên, Ĩ9-20 tháng 08 năm 2010

(Temp,Very-high) Since [r\(i} ]= { 2 ,6 } c F , we have T = {(Headachc,Yes),

(Nausea,Yes)} With t = (Headache,Yes), the block of [ r \ {/}]= {2,4,5,6}cX V and with t

((Nausea,Yes), the block o f [ r \ {/}] = {2,6}c , we have T = {(Hcadache,Ycs)} is the minimal complex of V

Because G = {4}^^0, let continue to compute another minimal complcx of V Selecting case 4, performing the Repeat loop, we have T = {(Temp, High),(Nausea,Yes)}

After two iterations of the WHILE loop, G is empty, t = {{(Headache,Yes)},{(Temp, High), (Nausea,Yes)}} Clearly, we cannot drop any o f minimal complexes from

X The set of decision rules describing V contains the following rules:

• (Headache,Yes)->(Flu,Yes)

• (Temp, High) a (Nausea,Yes)-> (Fla,Yes)

Let n be the cardinality of V, m be the cardinality o f C The time complexity of WHILE loop (line 4-16) is 0(n).The computational complexities for selecting x (line 6),

Trang 28

M ột số vắn đề chọn ỉọc của Công nghệ thông tin và truyền thõng, Hưng Yên, ỉ 9-20 tháng 08 nầm 20 ĩ 0

[2]

4 C onclusions

In this paper, the algorithm which is used to find one reduct of an incomplete decision table was presented By this way, we can simplify the data set, i.e eliminate some redundant attributes Then, applying HLEM, we will have a rule set o f incomplete decision table Using two algorithms help us reduce the time complexity o f rule inducing process and in some cases, the quality of the rule set is better than using LEM2

References

[1] Grzymala-Busse J., “Rough Set Strategies to Data with Missing Attribute Values”, Proceedings of the Workshop on Foundations and New Directions in Data Mining, associated with the third IEEE International Conference on Data Mining, November 19-22, Melbourne, FL, USA, 2003, pages 56-63

Grzymala-Busse J., “Data with Missing Attribute Values: Generalization of Indiscemibility Relation and Rule Induction”, Transactions on Rough Sets, Lecture Notes in Computer Science Journal Subline, Springer-Verlag, vol.l,

Hoàng Thị Lan Giao, Nguyễn Thị Lan Anh, “ For Inducing Rules in Incomplete Decision Table” (in Vietnamese), Research, Development and Application on Information & Communication Technology, No 21, 2009, pages 69-75

Liang, J and Xu, z., “The Algorithm on Knowledge Reduction in Incomplete Information Systems”, International Journal o f Uncertainty, Fuzziness and Knowledge-Based Systems, Vol 10, No 1, 2002, pages 95-103

Skowron, A and Zhong, N., “Rough Sets in KDD”, Tutorial Notes, 2000

Skowron, A., “Rough Sets and Boolean Reasoning”, Granular computing: an

Trang 29

BẢNG CÂU VẤN TIN TRÊN CÁC QUAN HỆi

.

VÀ XỬ LÝ CÂU VÁN TIN TRÊN BẢNG

Lê Huy Thập

Viện Công nghệ thông tín, Viện Khoa học và Công nghệ Việt Nam

Câu vấn tin đại số quan hệ được thể hiện bằng một bảng gọi là bảng truy vẩn.

Các tiêu đề hàng và cột sẽ là tên các quan hệ cơ sở, các quan hệ trung gian

hoặc kết qủa thực hiên câu vấn tin Các cell sẽ là các toán tử để thực hiện các

phép toán đại sổ quan hệ nhằm sinh ra các quan hệ trung gian Cùng với tiêu

đề hàng, cột ta sẽ gắn một trọng sổ để chi chi phi xử lý phép toán trên quan hệ đó; các cell (i, j) cũng được gán trọng sổ để chỉ chi phí chuyển sổ liệu từ toán

tử ì đến toán tử j Minh họa xử lý câu vẩn tin bằng bảng trũy vẩn sẽ được thực hiện cho việc lập lịch truy vẩn trên cây toán tử đường ổng, tức là phân chia các toán tử cho các bộ xử lý để thời gian trả lời truy vẩn nhỏ nhất.

Khi đã có bảng thể hiện câu vẩn tin, chúng ta d ễ dàng dùng các thuật toán xử

lý mảng để xử lý câu vẩn tin.

1 Định nghĩa và cách thể hiện câu vấn tin bằng bảng

Để thể hiện câu vấn tin SQL bằng bảng trước hết chúng ta chuyển nó sang câu vấn tin đại số quan hệ, sau đó thể hiện câu vấn tin này trên bảng

Ví dụ 1-1 Cho hệ CSDL quan hệ bao gồm: EMP(ENO, ENAME , TITLE) ; PROJ(PNO , PNAME, BUDGET, LOC) và ASG(ENO, PNO , RESP , DUR)

Để đơn giản về mặt ký hiệu chúng ta thay: E = EMP, A = ASG, p = PROJ

Cho câu hỏi: “Hãy cho biết danh sách tên các nhân viên, trừ J.Doe đã làm cho dự

án “CAD/CAM” trong thời gian 12 tháng hoặc hai mươi bốn tháng?”

Câu tmy vấn SQL là: “SELECT ENAME FROM A, E, PWHERE A.ENO = E.ENO AND A.PNO = P.PNO AND ENAME “J.Doe” AND P.PNAME = “CAD/CAM ” AND (DƯR=12 OR DUR=24)”

M ộ t s ố vấn đ ề chọn lọc của C ông nghệ thông tin và truyền thông, Hưng Yên, 19-20 tháng 08 năm 2 0 Ỉ0

Trang 30

Một số vắn đề chọn lọc của Công nghệ thông tin và truvền thông, Hưng Yên, 19-20 tháng 08 năm 2010

truy vấn dạng đại số quan hệ là: “7tpNAME(ơDUR=i2 V DUR=24(ƠPNAME = ”cad/cam”( ơename

1.1 Bảng truy vấn dạng đại số quan hệ

Bảng truy vấn dạng đại số quan hệ là bảng được dùng để thể hiện câu vấn tin dạng đại số quan hệ

1.2 Thể hiện bảng vấn tin đại sổ quan hệ

Bảng vấn tin dạng đại số quan hệ của câu vấn tin được xây dựng hư sau:

1 Nhóm các hàng-cột đầu tiên là được gọi là nhóm cơ sở, tiêu đề của mỗi hàng - cột biểu thị cho một quan hệ được lưu trong cơ sờ dữ liệu

2 Nhóm thứ hai gồm các hàng - cột trung gian biểu thị một quan hệ trung gian được sinh ra bởi phép toán quan hệ sau WHERE

3 Nhóm cuối cùng gồm các hàng - cột kết quả sau SELECT

4 Các phép toán để sinh ra quan hệ trung gian là tiêu đề cột nằm trong các cell của cột tương ứng:

Với phép toán đơn ngôi, nó chỉ có mặt một lần trong hang, còn hai ngôi, nó có mặt hai lần trong hàng

”CAD/CAM"R3 , R5 = ƠDUR=12 V dur=24R4 , Rô = TĩpNAME R5 thì bảng truy vấn tương ứng vơi câu vấn tin đại số ở ví dụ 1-1 theo định nghĩa sẽ được biểu diễn ờ bảng 1-1

Trang 31

Để đơn giản chúng ta sẽ đánh số hàng - cột bời số thứ tự theo thứ tự xuất hiện của chúng.

ơ e N A M E /”J.D oc ” a PNAME = "CAD/CAM” A DUR=12 V DUR=24

Bảng 2.1

A) 0PNO p ở hàng 5 nên các hàng này có thể gộp lại vào cột 6, và khi đó toán tử tại cột 6 sẽ là: ơ(D U R=12 V DUR=24) A (PNAME = "CAD/CAM” ) A ( ƠENAME * "j.D oc”), và đánh sổ lại ta được bảng 2-1

2.2 Thay đổi các phép toán trong cell

Các phép toán trong cell nếu có thể thì thay bởi phép toán để dễ và giảm chi phí

xử lý.

V í dụ 2-2 Trong bảng 2-1 chúng ta có thể giao hoán cột 2 <-> cột 3, cột 4 l à tích Đề-các của hai hàng 1 và 3, cột 5 là k ế t quả phép nối © p n o a e n o của hàng 2 và hàng 4, cột 6

l à k ể t quả chọn Ơ E N A M E * ”J.Doe” A PNAME = ’’CAD/CAM" A DUR=I2 V DUR=24, và cuối cùng cột 7 l à k ế t

quả chiểu TĨPNAME của cột 6 Cuối cùng ta được bảng 2-2.

Trang 32

M ột sổ vần đề chọn ĩọc của Công nghệ thông tin và truvền thông, Hưng Yên, 19-20 ĩháng 08 năm 2010

Nhận xét Do các hàng trong bảng có thể giao hoán để được các bảng truy vấn khác nhau Như vậy chúng ta sẽ có nhiều bảng truy vấn khác nhau từ đó có thể tìm ra bảng truy vấn tốt nhất theo một tiêu chuẩn nào đó [3], [4], [5]

Định nghĩa 2.3-2 Giả sử có p bộ xử lý, một phân hoạch Ipw thành p lớp F i , F p ,

là chia các hàng - cột Ipw thành p lớp F i , F p , với lớp Fk do bộ xử lý thứ k thực thi

Tải trên Ipw được xác định bởi

^ = max max [ Z + z

Trang 33

M ột số vấn đề chọn lọc cùa Cóng nghệ thông tin và truyền thông, Hưng Yên 19-20 thảng 08 năm 2010

Ví dụ 2.3-1 Liệt kê danh sách tên các nhân viên, với chức vụ là “Manager” đang tham gia một dự án nào đó Câu lệnh SQLsẽ là:

SELECT ENAME FROM E, A WHERE E.ENO = A.ENO AND A.RSP = “Manager”

Câu lệnh trong đại số quan hệ sẽ là: 7ĩ p N A M E ( a R e s p = " M a n a g e r ” (E0ENoA))

Kí hiệu Ri= E 0 en o A , R 2 = ƠResp = ’’Manager” Ri, R3 = 7i:pnameR2 Bảng truyvấn 2-3

Giả sử: Xử lý tại E (hàng 1) hết 3 đơn vị và chuyển dữ liệu đến thực hiên phép toán

E 0 e n o A là 4 đơn vị Xử lý tại A (hàng 2) hết 2 đơn vị và chuyển dữ liệu đến thực hiên

gian chuyển dữ liệu đến thực hiên phép toán Ơ R esp = "M anager” hết 1 đơn vị Xử lý phép toán

ơ R csp = "Manager” hết 5 đơn vị và chuyển dữ liệu đến thực hiên phép toán Ơ Rcsp = ’’Manager” hết 1 đơn vị Xử lý phép toán TCpNAME hết 7 đơn vị

Trang 34

luỊ = (Í2 + C23) + (t4 + ceíUs+celUs) = (2 + l)+(5 + 1 + 1) = 10 là tải trên F2

L 3 = ts + C 5 4 = 7 + 1 = 8 là tải trên F 3

2.3.2 Các phép gộp và tách hàng - cột

Tìm một phân hoạch (F¡, Fp) của Ipw, gom các toán tử (các hàng) vào các lớp

(Fklk=i p sao cho L ở công thức (2.3-2) là nhỏ nhất.

Định nghĩa 2.3-3 Ta nói hàng ì có liên kết với hàngý nếu cellụỶ 0 hoặc tìm được một dãy

Định nghĩa 2.3-4 phép Gop(i,j)

Gộp hàng i với hàngỹ được sử dụng để gộp hai hàng - cột / và j trong tập F*tạo ra hàng

- cột m cũng thuộc như sau:

i Trọng số hàng mới m: - ti + tj.

ii Nếu / và j đã liên kết với những hàng nào thì m sẽ liên kết với những hàng đó.

Định nghĩa 2.3-5 Phép Tach(ỉ,j) Tách liên kết hàng i với hàngỹ được sử dụng để bỏ liên

kết của hàng / và hàngỹ trong tập F*như sau: Nếu hàng i và hàngy thuộc tập Fk, đưa hàngỹ

2.3.3 Loại bỏ cell có trọng số lớn

Định nghĩa 2.3-6 Cellij của Ipw toán tử được gọi là có trọng số lớn nếu

Nghĩa ià chi phí truyền giữa hai toán tử / và j lớn hơn chi phí xử lý tại một trong hai

toán tử Giải pháp tốt trong trường hợp này là gộp cả hai toán tử này cho một bộ xử lý sẽ giảm được chi phí truyền [4], [5]

Định nghĩa 2.3-7 Một Ipw được gọi là không giảm riếu X và F là các tập các hàng có liên

Thuật toán TienXuLy dưới đây sẽ loại bỏ các cell có trọng số lớn trong Ipw

M ột số vấn đề chọn lọc cùa Công nghệ thông tin và truvền thông, Hưng Yên, 19-20 tháng 08 năm 2010

Trang 35

M ột số vấn đề chọn lọc của Công nghệ thông tin và truvển thông, Hưng Yên, 19-20 tháng 08 năm 2010

Định nghĩa 2.3-9 Một ĩpw được gọi là Ipw(B, p) nếu nó là một Ipw liên kết chặt, sử dụng

tối đa p bộ xử lý và thời gian trả lời tối đa là B Nghĩa là, nếu (Fi, Fp) là một Ipw(B, p)

thì; L = max = maxf y (/, + y c e l l )] < 5

Định nghĩa 2.3-10 Cho ỉpw, một hàng của ỉpw được gọi là hàng cơ sở nếu nó được sử

dụng biểu diễn một quan hệ cơ sờ trong câu vấn tin SQL

Một hàng của Ipw được gọi là hàng dẫn xuất cấp m ộ t nếu các hàng liên kết với nó

là các hàng cơ sở và có thể có một hàng không là hàng cơ sở

Trang 36

thì Ipw S ’ được tạo từ s bằng cách đổi chỗ rj và r¡ cũng là Ipw(B, p) [4], [5'.

B ổ đề 2.3-2 Nếu tồn tại một Ipw (B, p) thì cũng tồn tại một Ipw (B, p) khác sao cho:

i/ Nếu hai hàng m, Kj bị gộp thì hai hàng m, rj.j cũng bị gộp

iị/ Neu cạnh (m, rj) bị cắt thì cạnh (m, rj+i) cũng bị cắt.

Gọi s là số lớn nhất các hàng cơ sở có thể được gộp với hàng dẫn xuất cấp một m

mà chi phí sau khi gộp không vượt quá cận B Nghĩa là từ 5 ta có / + t <B ■

While (tồn tại một hàng dẫn xuất cấp một m) và (số-nhát- cắt <p - 1)

Gọi r ¡ , Kd là d số hàng con của hàng m sao cho: tri<tr 2 ^ ^trd ;

Chọn s < d sao cho s là giá trị lớn nhất thoả mãn t + ■ < B

Return phân hoạch liên kết chặt ( F ¡ , Fp);

Chúng ta sẽ tìm một Ipw truy vấn liên kết chặt tối mi bằng cách thực hiện thuật toán

Bp_Schedule nhiều lần, bắt đầu tìr giá trị B được đặt bằng cận dưới của thời gian trà lời

Sau đó mỗi bước tăng dần B cho đến khi thuật toán Bp_Schedule cho ra lời giải hợp lý

M ột sồ vấn đ ề chọn lọc của Công nghệ thông tin và truyền thông, H ưng Yên, 19-20 tháng 08 năm 2010

Trang 37

M ật số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Hưng Yên, 19-20 tháng 08 năm 2010

Dựa vào các bô đê 2.3-1 và 2.3-2 ta chọn cận B ban đâu là max( w , R,„a.x)- Giả

thiết trọng số celỉij=0 với V// nên từ nhận xét 2 chúng ta có:

Gỉa sử Fi là lớp đượốtạo bởi thifât t^án Bp_sỉfhediile Ta gọi hàng liền kề kị của lớp

Fị là một hàng có trọng số nhỏ nhất trệng tất cả các hàng không thuộc Fi nhưng lại nối tới

một hàng trong Fị Gọi Bị = Tai(Fị) + tki' Mỗi lần lặp thành công thuật toán thì nhóm chứa các hàng gộp sẽ lổti lên và khi đó giá trị mà B sẽ tăng là = min I <i<pBi.

Sử dụng các bổ đề 2.3-1 và 2.3-2 ta có bổ đề sau:

B ổ đề 2.3-3 B* = mini <i<pBi là một cận dưới của thời gian trả lời tối ưu Từ đây ta có

thuật toán để tìm phân hoạch liên kết chặt có maxiđ^(Tai(Fị)) nhỏ nhất.

Thuật toán 2.3-2 Thuật toán BalancedCuís

Output: Phân hoạch liên kết chặt (Fi, ,Fp) sao cho mỵx.\<i<pTai(Fi) nhỏ nhất.

2.3.4 Một số thuật toán giải H EU RISTIC

Thuật toán phân chia công việc.

Giả sử có p bộ xử lý, và tập các công việc JOBS = {xi xn} có thời gian thực hiện

lần lượt là {ti, tn} tương ứng Công việc Xi phải được thực hiện trọn vẹn trên bộ xử lýbất kỳ với thời gian tj Giả sử có p bộ xừ lý

Trang 38

M ột số vấn đ ề chọn ¡ọc của C ông nghệ thông tin và truvển thông, H ưng Yên, ¡9 -2 0 tháng 08 năm 2 0 1 0

Thuật toán Dividing-BalancedCuts

Thuật toán LocalCuts

Input: Ipw toán tử đã qua tiền xử lý, tham sọ ớf>l.

Do While <Còn hàng thứ cap m có hàng con j>

Iftj > aCj„ Then

Tach(j, m)

Else

GopO, m)

End I f

Trang 39

M ột sổ vấn đề chọn lọc của Công nghệ thông tin và truvên thong, Hung Yên, 19-20 tháng 08 năm 2010

Thuật toán LocalCiits chỉ xem xét sử dụng toán tử gộp hay tách một hàng cơ sở vào

Ta có kết quả là phân hoạch Ipw như sa\x:Fi = {4,9} với tải 21, p 2 = {5,10} tải 16, Fỉ=

{6,11.12,12} tải \ 1, F4=^{ 15 } tải ì ì , F5 = { 14 16 } tải 11, Fö = { 3,7,8 } tải 26, Fj =

Trang 40

K ết luận

Việc thể hiện các câu vấn tin bằng bảng tạo ra khả năng xử lý nó tốt hơn Khi đã có bảng thể hiện câu vấn tin, chúng dễ dàng dùng các thuật toán xử lý mảng để xử lý câu vấn tin Duyệt bảng vẩn tin được thực hiện trên các trọng số hàng và nội dung các cell là cách làm quen thuộc và dễ dàng cho các lập trình viên Các thuật giải Heuristic để ỉập lịch tối

ưu, cân bằng tải tối ưu, cũng hoàn toàn được xử lý trên mảng câu truy vấn

Tài liêu tham khảo•

[1] Barry Wlkingson, Michael Allen, “Parallel Programming, Technique and Applications Using Netwworked Workstations and Parallel Computers”, Prentice Hall New Jersey, 1999

’2] Seyed H Roo, “Parallel processing and Parallel Algorithms, Theory and Coputation”, Springer 1999

‘3] Đoàn Văn Ban, Nguyễn Mậu Hân, “Xử lý song song và phân tán”, NXB Khoa học và kỹ thuật, Hà Nội 2006

[4] Lê Huy Thập, “Cơ sở lý thuyết song song”, NXB THÔNG TIN VÀ TRUYỀN THÔNG, 2010, 300 p

[5] Japan Information Processing Development Corporation, Central Academy of Information Technology, “Internal Design And Programming”, 1978

[6] ĐỒ Xuân Lôi, “Cấu trúc dữ liệu và giải thuật”, NXB Khoa học và Kỹ thuật, 1996

M ột số vẩn đề chọn lọc của Cóng nghệ thông tin và tntvền thõng, Hưng Yên, 19-20 thảng 08 năm 2010

Định dạng
Số trang	402
Dung lượng	17,58 MB