Các chủ đề chính không hạn chế của Hội thảo • Tin học quản lý • Mã nguồn mở • Công nghệ đa phương tiện, mô phỏng • Giáo dục điện tử, đào tạo từ xa • Công nghệ điện tử và viễn thông • Đại
Trang 1KỶ YÉU HỘI THẢO QUÓC GIA HƯNG YÊN, 19-20 THÁNG 8 NĂM 2010
MỘT SỐ VẤN ĐỀ CHỌN LỌC CỦA CÔNG NGHỆ THÔNG TIN VÀ
Trang 3H Ộ I THẢO QUỐC GIA LẦN T H Ứ XIII
M Ộ T SỐ VẤN ĐÈ CH Ọ N LỌC CỦA
C Ô N G NGHỆ THÔNG TIN VÀ TR U Y È N TH ÔNG
C hủ đề: Các công n g h ệ tỉnh toán h iện đại
H ư n g Yen, 19-20/08/2010
T H Ô N G B Á O
Hội thảo Quốc gia lần thứ XIII "Một số vấn đề chọn lọc của Công nghệ thông tin
và Truyền thông" do Viện Công nghệ thông tin - Viện Khoa học và Công nghệ Việt Nam
và Đại học Sư phạm Kỹ thuật Hưng Yên tổ chức tại Khoái Châu, Hưng Yên từ ngày 19 đến ngày 20 tháng 8 năm 2010 Hội thảo là diễn đàn để các nhà khoa học và quản lý trong
cả nước chia sẻ kinh nghiệm nghiên cứu, triển khai trong lĩnh vực Công nghệ thông tin và truyền thông Đặc biệt Hội thảo cũng là môi trường để những người làm công tác nghiên cứu khoa học trẻ; những nghiên cứu sinh, học viên cao học có điều kiện để trao đổi, tìm kiếm sự tài trợ hợp tác
Các chủ đề chính (không hạn chế) của Hội thảo
• Tin học quản lý
• Mã nguồn mở
• Công nghệ đa phương tiện, mô phỏng
• Giáo dục điện tử, đào tạo từ xa
• Công nghệ điện tử và viễn thông
• Đại học Sư phạm Kỹ thuật Hưng Yên
Các hệ thống tích hợpCác hệ thống tính toán di độngThực tại ảo
Công nghệ phần mềm
Xử lý ảnh và kỹ thuật VideoCNTT trong Kinh tế- Kỹ thuật
Cơ sở toán học của tin học
Trang 4Liên hệ đăng ký tham dự
• Đỗ Năng Toàn Viện CNTT - Viện KH&CN Việt Nam
Thòi hạn đăng ký báo cáo
Đăng ký đại biểu
Quy cách chuẩn bị báo cáo xem chi tiết lại Website: http://www.utehv.edu.vn
BAN TỔ CHỨC
Trưởng ban
Trang 5Nguyễn Hoàng Hòa
Nguyễn Quang Hưng
Ngô Hùng Mạnh
Nguyễn Hữu Quỳnh
Nguyễn Minh Quý
Nguyễn Văn Tám
Huỳnh Quyết Thẳng
Nguyễn Thị Lê Thu
VNPT Hưng Yên Khoa CNTT - ĐH Thái Nguyên Đại học Công nghiệp Hà Nội Đại học Công nghệ- Đại học QGHN Đại học Sư phạm Kỹ thuật Hưng Yên
Sở TT &Truyền thông Hưng Yên
Bộ Thông tin & Truyền thông
Sờ Khoa học- Công nghệ Hưng Yên Đại học Điện lực
Đại học Sư phạm Kỹ thuật Hưng Yên
Sở GD&ĐT Hưng Yên Đại học Bách khoa Hà Nội Viện Công nghệ thông tin
Ngô Văn Quyết
Ngô Quốc Tạo
Viện Công nghệ thông tin
Viện Công nghệ thông tinĐại học Sư phạm Kỹ thuật Hưng YênViện Công nghệ thông tin
Viện Công nghệ thông tin Đại học KHTN Tp Hồ Chí Minh Đại học Công nghệ -ĐHQGHN Đại học Công nghệ -ĐHQGHN Viện Toán học
Đại học Công nghệ -ĐHQGHN Viện Công nghệ ứiông tin Đại học Hàng hải
Đại học Khoa học tự nhiên
Trang 6Vũ Đình Hòa Đại học Sư phạm 1 Hà Nội
Trang 7C Á C Đ Ơ N VỊ T À I T R Ọ H Ộ I T H Ả O C N T T 2010
V iện K h o a học v à C ông nghệ V iệt N am
V iện C ô n g n g h ệ T hông tin- V iện K hoa học v à C ông nghệ V iệt N am
T rư ờ n g Đ ại học Sư phạm K ỹ thuật H ư ng Y ên
K hoa C ô n g ng h ệ thông tin - T rường Đại học C ông nghệ - Đại học Quốc
G ia H à NỘI
T rư ờ n g Đ ại học B á ch K hoa H à Nội
T rư ờ n g Đ ại học cần T hơ
T rư ờ n g Đ ại học K h o a học H uế
T rư ờ n g Đ ại học L ạc H ồng
T rư ờ n g Đ ại h ọ c N ha T rang
T rư ờ n g Đ ại học Sư phạm K ỹ thuật N am Đ ịnh
Trưòrng C ao đ ẳn g Sư P hạm T rung ư ơ n g
K h o a C ô n g n g h ệ th ô n g tin- T rường Đ ại học C ông N ghiệp H à N ội
K h o a C ô n g n g h ệ th ô n g tin- T rường Đại học Đ iện L ực
K h o a C ô n g n ghệ th ô n g tin- T rườ ng Đại học Thái N guyên
K lioa C ô n g n g h ệ th ô n g tin- T rường Đại học K hoa học tự nhiên Tp Hồ
C hí M in h
K lìoa C ô n g n g h ệ th ô n g tin- T rường Đ ại học Sư phạm H à N ội 2
K h o a C ô n g n g h ệ th ô n g tin- T rường Đại học T hủ D ầu M ột
K h o a C ô n g n g h ệ th ô n g tin- T rường Đại học Sư phạm K ỹ T huật Vinh
K h o a C ô n g n g h ệ th ô n g tin - H ọc V iện K ỹ th u ật Q uân sự
K h o a C ô n g n g h ệ th ô n g tin- H ọc viện C ông nghệ B ư u chính V iễn thông
T ru n g tâm T in h ọ c- B ư u điện Hải P hòng
T ru n g tâ m C ô n g n g h ệ th ô n g tin - V ăn phò n g T W Đ ảng
T ập đ o àn V iễn th ô n g qu ân đ ội V iettel - C h i n h án h H ư ng Y ên
C ông ty V iễn th ô n g H ư n g Y ên và V inaphone H ư n g Y ên
C ông ty C ổ p h ầ n tru y ền th ô n g tru y ền h ìn h qu ố c g ia H à N ộ i (H T M )
Trang 9M ột số vẩn đề chọn lọc cùa C ông nghệ thông tin và truyền thông, Hưng Yên, 19-20 tháng 08 nâm 2 0 Ĩ0
LỜI NÓ I Đ ẦU
Hội thảo Quốc gia "Một sổ vấn đề chọn lọc của Công nghệ thông tin ” được khởi
xướng theo sáng kiến của Viện Công nghệ Thông tin thuộc Viện Khoa học và Công nghệ Việt nam, đến nay đã qua hơn 10 lần tổ chức
Hội thảo Quốc gia "Một sổ vấn đề chọn ỉọc pủa Công nghệ thông tin ” lần thứ I được
tổ chức từ ngày 5 đến 7 tháng 8 năm 1997 tại Đại học Sư phạm Hà Nội II, Đại Lải, Vĩnh
Phúc Hội thảo được tổ chức dưới sự phối hợp của: Viện Công nghệ thông tin, Đại học
Quốc gia Hà Nội, Đại học Sư phạm Hà Nội II.
Kể từ đó đến nay, hàng năm cứ mỗi độ thu sang Viện Công nghệ thông tin- Viện Khoa học và Công nghệ Việt Nam lại phối hợp với một trong các trường Đại học trong nước để
tổ chức Hội thảo Quốc gia "Một số vẩn đề chọn lọc của Công nghệ thông tin
Với các chủ để khác nhau, hội thảo Quốc Gìa."Một số vấn đề chọn lọc của Công nghệ
thông tin ” đã thực sự trở thành diễn đàn nhằm trao đổi các kết quả nghiên cứu và triển khai
ứng dụng công nghệ thông tin của các nhà khoa học, đặc biệt là các nhà khoa học trẻ trên mọi miền đất nước
Hội thảo lần thứ XIII với chủ đề “Cóc công nghệ tính toán hiện đạĩ' được Viện Công
nghệ thông tin phối họp với Đại học Sư phạm Kỹ thuật Hưng Yên tổ chức tại Hưng Yên từ ngày 19-20 tháng 8 năm 2010
Hcm 500 đại biểu và khách mòd từ mọi miền của đất nước đã tham dự Hội thảo lần thứ mười ba này Các đại biểu đã nghe và thảo luận gần 150 báo cáo khoa học theo các nội dung:
Các hệ tíiống thông minh
Trang 10Một sổ vấn đề chọn ¡ọc cùa Công nghệ thông lin và truyền thông, Hưng Yên, 19-20 tháng 08 năm 2010
Với sự tham gia đông đảo của các nhà khoa học trong và ngoài nước cùng với số lượng lớn báo cáo khoa học gửi tới Hội thảo đã khẳng định ý nghĩa thiết thực và tầm vóc
quốc gia của Hội thảo "Một sổ vấn đề chọn lọc của Công nghệ thông tin
Các đại biểu đánh giá cao sự nhiệt tình của các đơn vị tham gia tổ chức Hội thảo, đặc biệt là cơ sở đăng cai; Đại học Sư Phạm Kỹ thuật Hưng Yên và đơn vị chủ quản và điều hành chương trình - Viện Công nghệ thông tin
Trong phiên bế mạc Hội thảo lần thứ XIII, Ban Tổ Chức đã trao cờ cho Đại học cần Thơ, là đơn vị đăng cai tổ chức Hội thào lần thứ XIV tại Thành phố cần Thơ
Các công trình được in trong tập kỷ yếu này đã được báo cáo, thảo luận tại Hội thảo và sau đó đã được phản biện nghiêm túc
Ban tổ chức Hội thảo xin chân thành cảm on các đcm vi sau đây đã tài trợ kinh phí cho hoạt động của Hội thảo:
Trường Đại học Sư phạm Kỹ thuật Hưng Yên
Viện Công nghệ Thông tin- Viện Khoa học và Công nghệ Việt Nam
Khoa Công nghệ thông tin - Trường Đại học Công nghệ - Đại học Quốc Gia
Hà Nội
Trường Đại học Bách Khoa Hà Nội
Trường Đại học cần Thơ
Trưòmg Đại học Khoa học Huế
Trường Đại học Lạc Hồng
Trưòng Đại học Nha Trang
Trường Đại học Sư phạm Kỹ thuật Nam Định
Trường Cao đẳng Sư Phạm Trung ư ơ ng
Khoa Công nghệ thông tin- Trường Đại học Công Nghiệp Hà Nội
Khoa Công nghệ thông tin- Trường Đại học Điện Lực
Khoa Công nghệ thông tin- Trưòng Đại học Thái Nguyên
Khoa Công nghệ thông tin- Trường Đại học Khoa học tự nhiên Tp Hồ chí Minh
Trang 11Một s ổ vấn đề chọn lọc của C ông nghệ thông lin và truyền thông, Hưng Yên, ¡9-20 tháng 08 năm 2010
• Tập đoàn Viễn thông quân đội Viettel - Chi nhánh Hưng Yên
• Công ty Viễn thông Hưng Yên và Vinaphone Hưng Yên
• Công ty Cổ phần truyền thông truyền hình quốc gia Hà Nội (HTM)
• Công ty Cổ phần điện tử tin học FSC Hà Nội
• Công ty Cổ phần tư vấn xây dựng và thưcmg mại Thái Dương
• Công ty Cổ phần và thương mại NBT Hưng Yên
Hà Nội, ngày 19 tháng 06 năm 2011
Ban Biên tập
Trang 12D A N H S Á C H C Á C P H Ả N B IỆ N
giáo Trung ương
học Quốc gia Hà Nội
học Quốc gia Hà Nội
chính Viễn thông
Trang 1325 Hoàng Chí Thành PGS.TS Đại học Công nghệ- Đại
học Quốc gia Hà Nội
học Quốc gia Hà Nội
học Quốc gia Hà Nội
Trang 15M ột s ố vẩn đề chọw ỉọc cùa Công nghệ thông tin và truyền thông, Hưng Yên, 19-20 tháng 0 8 năm 20ỈỒ
MỤC LỤC
A COMPARATIVE ANALYSIS OF TECHNIQUES FOR PREDICTING ACADEMIC PERFORMANCE
ĐẢNG CÂU VÂN TIN TRÊN CÁC QUAN HỆ VÀ x ừ LÝ CÂU VÂN TIN TRÊN BẢNG
Như, Nguyễn Xuân Huy
BIẺU DIÊN C ơ SỜ CÙA HỆ SINH ÁNH XẠ ĐÓNG
D ự BẢO NẺ RÂY THEO THỜI GIAN
GIẢI BÀI TOÁN LẬP LỊCH JOB SHOP BẰNG THUẬT TOÁN DI TRUYỀN
HỆ THỐNG GỢI Ý TIN TỨC NEWSARD
Nguyễn Thụy Mai Trâm, Tạ Thúc Nhu
Trang 16Một s ố vấn đề chọn lọ c cùa Công nghệ thông tin và truyền thông, Hưng Yên, 19-20 tháng 08 năm 2010
MÔ PHÓNG MỘT SÓ TINII HUỐNG GIAO THÔNG ĐÔ THỊ D ự A TRÊN MÔ HÌNH ĐA TÁC TỪ
MÔI QUAN HỆ GIỮA N G Ừ NGHĨA CÚA CHƯƠNG TRÌNH LOGIC DIỄN GIẢI VÀ CHƯƠNG TRÌNH
LOGIC DẠNG TUYÊN
MỘT CÁCH TIÉP CẬN TRONG HỎ TRỢ THU THẬP DỪ LIỆU T ự ĐỘNG
Nguyễn Duy Linh
MỘT GIẢI PHÁP CẢI TIÉN THUẬT TOÁN BEEMAN TRONG MÔ PHÓNG ĐỘNG L ự c PHÂN TỬ
MỘT PHƯƠNG PHÁP MÓI TIÈN x ử LÝ GIÁ TRỊ THIẾU
MỘT PHƯƠNG PHÁP TRÍCH RÚT CÂU TRONG VĂN BÀN TIẺNG VIỆT s ử DỤNG LUẬT KẾT HỢP
MỘT PHƯƠNG PHÁP x ừ LÝ KÉT QUẢ TÌM KIÊM TRÊN WEB
MỘT SỔ CÀI TIÊN NÂNG CAO Tốc Đ ộ x ừ LÝ CÚA PHƯƠNG PHÁP MÃ HÓA s ố HỌC
Trang 17Một số vấn để chọn lọc cùa Công nghệ thông tin và truyền thông, Hung Yên, 19-20 tháng 08 năm 2 0 Ỉ0
NGHIÊN c ú u BA CHÉ Đ ộ ĐIÊU KHIÊN ON/OFF, PID, FUZZY VÀ ỨNG DỤNG TRONG ĐIÈU
KHIÊN MÔ HÌNH LÒ NHIỆT
NGHIÊN CỬU MÔ HÌNH GIÁM SÁT TR ựC TUYÉN HỆ THỐNG MẠNG PHÂN TÁN QUY MÔ LỚN
PHÁT HIỆN CHÁY S ừ DỤNG CAMERA THÔNG THƯỜNG TRONG ĐIÊU KIỆN ÁNH SÁNG
MÔI TRƯỜNG YÉU
PHÁT HIỆN LUẬT KẾT HỢP SPORADIC TUYỆT ĐỐI HAI NGƯỠNG MỜ
PHÉP DỊCH CHUYÊN L ư ợ c Đ ồ KHỐI VÀ VẤN ĐÊ BIÊU DIỄN BAO ĐÓNG, KIIOÁ TRONG
MÔ HÌNH D ử LIỆU DẠNG KHỐI
REGULARIZATION FOR A COMMON SOLUTION OF A SYSTEM OF NONLINEAR ILL-POSED
EQUATIONS WITH PERTURBATIVE DATA
SO SÁNH CẨU TRÚC PROTEIN SỪ DỤNG MÔ HÌNH TỐNG QUÁT
SO SÁNH VÀ ĐÁNH GIÁ MỘT s ố GIAO THỨC ĐỊNH TUYÉN ĐIỀU KHIÊN THEO YÊU CẢU TRÊN
MẠNG MANET
TIÊP CẬN CHIA MIỀN TỚI CÁC BÀI TOÁN VỀ MẶT PHÂN CÁCH
Trang 18Một s ố vấn đề chọn lọc của Công nghệ thông tin và truvền thông, Hưng Yên, 19-20 tháng 08 năm 2010
Nguyễn Thị Hoàng Lan
XÂY DỤNG GIẢI PHÁP BẢO MẬT BIOPKI VÀ ÚÌMG DỤNG ĐẺ BẢO M ẬT HỆ NHẬN
VÈ PHÉP BIÉN ĐỔI HỆ SINH ÁNH XẠ ĐÓNG
VÊ PHƯƠNG PHÁP PHÂN NGƯỠNG ẢNH THÍCH NGHI S Ừ DỤNG TẬP MỜ LOẠI 2
TMUẬT TOÁN HIỆU QUẢ KHAI PHÁ TẬP MỤC LỢl ÍCH CAO TRÊN DÒNG DỮ LIỆU
Trang 19M ật sổ vắn đề chọn Ịọc của C ông nghệ thông tin và truyền thông, Hưng Yên, ỉ 9-20 thảng 08 năm 2 0 ỉ 0
A METHOD FOR DATA MINING
IN INCOMPLETE INFORMATION SYSTEMS
Hoang Thi Lan Giao’, Nguyen Thi Lan Anh^
(1) Department o f IT, College o f Sciences, H ue University, Vietnam
(2) Department o f Informatics, College o f Pedagogy, H ue University, Vietnam
To deal with missing attribute values in incomplete information systems,
G.Busse used the characteristic relation instead o f the indiscernibility relation.
Based on this relation and the information theory, in this paper, we propose an
algorithm to fin d a reduct o f an incomplete decision table and the other-
HLEM algorithm- to induce rules from it.
Keywords; missing attribute value, characteristic relation, rough entropy, reduct, rule induction
1 Introduction
In a data set, there are usually some redundant attributes, which are not essential for knowledge discovering Hence, eliminating these attributes to simplify and hasten the data mining process is an important request In other words, following rough set approach, we need to find a reduct of an information system or decision table
However, in real life, data sets may have missing attribute values Missing attribute values are the attribute values o f corresponding case which cannot be specified So, information systems (or decision tables) containing missing attribute values are incomplete information systems (or decision tables, respectively) There are two types of missing attribute values: lost values and do not care conditions [1,2,3,4] Lost values are the attribute values were originally known but currently they are not specified because of many reasons Do not care conditions are ineffective attribute values in the classification of the case they belong to
To solve the missing attribute value problem, G Busse initiated the method: extending the indiscernibility relation to characteristic relation In this paper, we will use this relation to construct one algorithm finding decision rules in incomplete decision table Besides, using concept o f entropy in information theory, we will also propose an heuristic
Trang 202 Data preprocessing in Incom plete Decision Tables
2.1 Characteristic relations and set approximations
In the incomplete decision table DT = (U, CuD ), with an attribute a e c and ve Va
is an value of a for some cases, let t = (a, v) be an attribute-value pair and then block o f t,
denoted by [t], is a set o f all cases from Ư that for attribute a has v alue V o r *.
Incomplete decision tables are described by characteristic relations instead of indiscemibility relations [3],[4],[5],[6], so equivalence classes are replaced by
characteristic sets For DT = (U, C u D ), B c c , characteristic set K b ( x ) o f X is defined:
If DT is a complete decision table, R(B) is clearly indiscernibility relation IND(B),
so it is an extension of IND(B) in incomplete information system R(B) is reflexive but- in general- is not symmetric or transitive
Let U/R(B) denote the family set {Kb(x), xeU } Characteristic sets in U/R(B) constitute a covering of u, i.e, for every xe u, we have that K b(x) and ỊJ /íg (x ) = Ơ
a Singleton approximation: lower and upper approximations are sets o f singletons
from Ư sastisfying some properties
A singleton B-lower approximation of X is defined as:
Một số vấn đề chọn ỉọc của Công nghệ thông tin và truvển thông, Hưng Yên, ỉ 9-20 thảng 08 năm 2 0 ỉ 0
Trang 21c Concept approximations', are defined by replacing universe u from the definitions
of subset approximations by a concept X
A concept B-lower approximation o f X is:
of subset B-upper approximation and it is the smallest set which includes X
Among the three approximations, the concept B-lower approximations are the most suitable for inducing rules [1,2]
In case of complete decision table, three approximations are the same But this property is not true for incomplete decision table
Obviously, there may be many reducts o f c and the intersection o f all reducts of c
M ột số vấn đề chọn lọc của Câng nghệ thông tin và truyền thông, Hung Yên, ¡9-20 tháng 08 năm 2 0 Ỉ0
Trang 22Một sổ vấn đề chọn lọc của Công nghệ thẬng tin và truyền thông, Hưng Yên, ĩ 9-20 thảng 08 nãm 2 0 ỉ 0
From (*) and (**) we can conclude that P ={Temp, Headache, Ache} is a reduct of C
2.3 Rough Entropy and significance of attributes
Trang 23M ột số vấn đ ề chọn lục cùa C ông n g h ệ thông.Hn và truyền thông, H ưng Yên, I9-2Ỡ thảng 0 8 năm 2 0 1 0
Theorem 2.1
Let DT = (U, C uD ) be an incomplete decision table Then P c c is a reduct of c in
DT iff p is the smallest set which satisfies E(P) = E(PuD)
Proof:
p is a reduct of c
o (U, P uD ) is independent and U/R(P) = U/R(PuD)
o Vc e p, U/R(P\{c}) ^ U/R(P\{c}uD) and U/R(P) = U/R(PwD)
p is minimum and E(P) = E(PuD) (equivalence property)
Using rough entropy of knowledge, we can define the significance o f an attribute
Definition 2.4
Let DT = (U, C uD ) be an incomplete decision table The significance o f c in c,
denoted sigC\{c)(c), as: ' ( 4 ) - £ ( c \ D)
Then, ceC is indispensable in c iff: sigC\{c}(c) >0 and
C o r e (C ) = { : e c | i 7 g c \ H ( c ) > o } ,
Definition 2.5
Let DT = (U, C uD ) be an incomplete decision table, P cC , ceC\P The significance
of c about p, denoted sigP(c), as:
sig,{c) = E [p u D )- E { P u {c}u D)
2.4 Algorithm based on rough entropy for computing reduct
Let DT = (U, C uD ) be an incomplete decision table We will find a rcduct of c by starting out with Core(C) (because it is the intersection of all reducts of C), choosing theattribute in C\Core(C) to add to this Core until we have E(Corc(C)) = E(Core(C) uD ).Then, eliminating all the dispensable attributes in this Core, we will have one reduct of c
Trang 24The time complexity of this algorithm is O(m^n^), where m is the cardinality of c
and n is the cardinality of Ư
Trang 25M ột sổ vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Hưng Yên ỉ 9-20 tháng 08 năm 2 0 Ỉ0
=> E (PuD ) = 1 + log3 E(P)
- sigp(a3) = E(PuD)- E(Pu{a3}uD) = E(PuD)- E(ai,a2,,a3}uD)
=> Select as; P:= {ai,32,3 3}
=i> E(P) = ^ = E(PuD )
P = {ai, 32, 3 3} is 3 reduct of C in DT
The decision t3ble sfter reducing - DT’ = (U, P uD ) - is shown by Tsb 2
Table 2- The incomplete decision system after reducing of Table 1
3 Rule induction in incom plete decision tables
HLEM, proposed by us, is the extension o f LEM2 o f G.Busse In general, LEM2 computes 3 local covering and then converts it into a decision rule set [2,3], In HLEM
Trang 26redundant attribute-value pairs in the former T to get a suitable minimum complex The some below concepts are defined to describe the HLEM algorithm.
Let DT= (U, C uD ) be an incomplete decision table, V be a nonempty lower or upper approximation of a concept whose decision value is w
Let T be a set of attribute-value pairs, T = {t = (a, v)}, denote [T’]= p |[/]
leT
Then, V depends on T iff 0 [r] c F
T is a minimal complex of V if V depends on T and there is not proper subset T ’ of
T such that V depends on T’
A minimal complex T of V is a predecessor of a decision rule matching with some cases in [T],
Let T be a nonempty family of nonempty sets o f attribute-value pairs T is a local
covering of V iff T satisfies the below conditions:
Each member T of T is a minimal complex of V
^Tet[T] = V and X is minimal,i.e the cardinality o f t is as small as possible
Hence, T is the smallest set of minimal complexes totally covering the approximation V of someconcept X; in other words, T is a set of predecessors (conditions)
of the decision rule set covering V
The HLEM algorithm which is presented below can be used to find T
6 Select xe G such that Kc(x) c V and |ATc(^)| is maximum;
M ột số vẩn đề chọn lọc cùa Cõng nghệ thông tin và truvền thông, Hưng Yên, 19-20 tháng 08 năm 2010
Trang 27M ột số vấn đề chọn lọc của Công nghệ thông tỉrĩ và truyền thông, Hưng Yên, Ĩ9-20 tháng 08 năm 2010
(Temp,Very-high) Since [r\(i} ]= { 2 ,6 } c F , we have T = {(Headachc,Yes),
(Nausea,Yes)} With t = (Headache,Yes), the block of [ r \ {/}]= {2,4,5,6}cX V and with t
((Nausea,Yes), the block o f [ r \ {/}] = {2,6}c , we have T = {(Hcadache,Ycs)} is the minimal complex of V
Because G = {4}^^0, let continue to compute another minimal complcx of V Selecting case 4, performing the Repeat loop, we have T = {(Temp, High),(Nausea,Yes)}
After two iterations of the WHILE loop, G is empty, t = {{(Headache,Yes)},{(Temp, High), (Nausea,Yes)}} Clearly, we cannot drop any o f minimal complexes from
X The set of decision rules describing V contains the following rules:
• (Headache,Yes)->(Flu,Yes)
• (Temp, High) a (Nausea,Yes)-> (Fla,Yes)
Let n be the cardinality of V, m be the cardinality o f C The time complexity of WHILE loop (line 4-16) is 0(n).The computational complexities for selecting x (line 6),
Trang 28M ột số vắn đề chọn ỉọc của Công nghệ thông tin và truyền thõng, Hưng Yên, ỉ 9-20 tháng 08 nầm 20 ĩ 0
[2]
4 C onclusions
In this paper, the algorithm which is used to find one reduct of an incomplete decision table was presented By this way, we can simplify the data set, i.e eliminate some redundant attributes Then, applying HLEM, we will have a rule set o f incomplete decision table Using two algorithms help us reduce the time complexity o f rule inducing process and in some cases, the quality of the rule set is better than using LEM2
References
[1] Grzymala-Busse J., “Rough Set Strategies to Data with Missing Attribute Values”, Proceedings of the Workshop on Foundations and New Directions in Data Mining, associated with the third IEEE International Conference on Data Mining, November 19-22, Melbourne, FL, USA, 2003, pages 56-63
Grzymala-Busse J., “Data with Missing Attribute Values: Generalization of Indiscemibility Relation and Rule Induction”, Transactions on Rough Sets, Lecture Notes in Computer Science Journal Subline, Springer-Verlag, vol.l,
Hoàng Thị Lan Giao, Nguyễn Thị Lan Anh, “ For Inducing Rules in Incomplete Decision Table” (in Vietnamese), Research, Development and Application on Information & Communication Technology, No 21, 2009, pages 69-75
Liang, J and Xu, z., “The Algorithm on Knowledge Reduction in Incomplete Information Systems”, International Journal o f Uncertainty, Fuzziness and Knowledge-Based Systems, Vol 10, No 1, 2002, pages 95-103
Skowron, A and Zhong, N., “Rough Sets in KDD”, Tutorial Notes, 2000
Skowron, A., “Rough Sets and Boolean Reasoning”, Granular computing: an
Trang 29BẢNG CÂU VẤN TIN TRÊN CÁC QUAN HỆi
.
VÀ XỬ LÝ CÂU VÁN TIN TRÊN BẢNG
Lê Huy Thập
Viện Công nghệ thông tín, Viện Khoa học và Công nghệ Việt Nam
Câu vấn tin đại số quan hệ được thể hiện bằng một bảng gọi là bảng truy vẩn.
Các tiêu đề hàng và cột sẽ là tên các quan hệ cơ sở, các quan hệ trung gian
hoặc kết qủa thực hiên câu vấn tin Các cell sẽ là các toán tử để thực hiện các
phép toán đại sổ quan hệ nhằm sinh ra các quan hệ trung gian Cùng với tiêu
đề hàng, cột ta sẽ gắn một trọng sổ để chi chi phi xử lý phép toán trên quan hệ đó; các cell (i, j) cũng được gán trọng sổ để chỉ chi phí chuyển sổ liệu từ toán
tử ì đến toán tử j Minh họa xử lý câu vẩn tin bằng bảng trũy vẩn sẽ được thực hiện cho việc lập lịch truy vẩn trên cây toán tử đường ổng, tức là phân chia các toán tử cho các bộ xử lý để thời gian trả lời truy vẩn nhỏ nhất.
Khi đã có bảng thể hiện câu vẩn tin, chúng ta d ễ dàng dùng các thuật toán xử
lý mảng để xử lý câu vẩn tin.
1 Định nghĩa và cách thể hiện câu vấn tin bằng bảng
Để thể hiện câu vấn tin SQL bằng bảng trước hết chúng ta chuyển nó sang câu vấn tin đại số quan hệ, sau đó thể hiện câu vấn tin này trên bảng
Ví dụ 1-1 Cho hệ CSDL quan hệ bao gồm: EMP(ENO, ENAME , TITLE) ; PROJ(PNO , PNAME, BUDGET, LOC) và ASG(ENO, PNO , RESP , DUR)
Để đơn giản về mặt ký hiệu chúng ta thay: E = EMP, A = ASG, p = PROJ
Cho câu hỏi: “Hãy cho biết danh sách tên các nhân viên, trừ J.Doe đã làm cho dự
án “CAD/CAM” trong thời gian 12 tháng hoặc hai mươi bốn tháng?”
Câu tmy vấn SQL là: “SELECT ENAME FROM A, E, PWHERE A.ENO = E.ENO AND A.PNO = P.PNO AND ENAME “J.Doe” AND P.PNAME = “CAD/CAM ” AND (DƯR=12 OR DUR=24)”
M ộ t s ố vấn đ ề chọn lọc của C ông nghệ thông tin và truyền thông, Hưng Yên, 19-20 tháng 08 năm 2 0 Ỉ0
Trang 30Một số vắn đề chọn lọc của Công nghệ thông tin và truvền thông, Hưng Yên, 19-20 tháng 08 năm 2010
Với ký hiệu K là phép chiếu, ơ phép chọn và © phép nối thì một trong những câu
truy vấn dạng đại số quan hệ là: “7tpNAME(ơDUR=i2 V DUR=24(ƠPNAME = ”cad/cam”( ơename
”J.Doe” (P©PN o (E 0 en O A)))))”
1.1 Bảng truy vấn dạng đại số quan hệ
Bảng truy vấn dạng đại số quan hệ là bảng được dùng để thể hiện câu vấn tin dạng đại số quan hệ
1.2 Thể hiện bảng vấn tin đại sổ quan hệ
Bảng vấn tin dạng đại số quan hệ của câu vấn tin được xây dựng hư sau:
1 Nhóm các hàng-cột đầu tiên là được gọi là nhóm cơ sở, tiêu đề của mỗi hàng - cột biểu thị cho một quan hệ được lưu trong cơ sờ dữ liệu
2 Nhóm thứ hai gồm các hàng - cột trung gian biểu thị một quan hệ trung gian được sinh ra bởi phép toán quan hệ sau WHERE
3 Nhóm cuối cùng gồm các hàng - cột kết quả sau SELECT
4 Các phép toán để sinh ra quan hệ trung gian là tiêu đề cột nằm trong các cell của cột tương ứng:
Với phép toán đơn ngôi, nó chỉ có mặt một lần trong hang, còn hai ngôi, nó có mặt hai lần trong hàng
Ký hiệu: R| = E © E N o A , R2 = Ri ©PNOP» R3 = ƠENAM E ^ ”J.Doe”R2 , R4 = ƠPNAME =
”CAD/CAM"R3 , R5 = ƠDUR=12 V dur=24R4 , Rô = TĩpNAME R5 thì bảng truy vấn tương ứng vơi câu vấn tin đại số ở ví dụ 1-1 theo định nghĩa sẽ được biểu diễn ờ bảng 1-1
Trang 31Để đơn giản chúng ta sẽ đánh số hàng - cột bời số thứ tự theo thứ tự xuất hiện của chúng.
ơ e N A M E /”J.D oc ” a PNAME = "CAD/CAM” A DUR=12 V DUR=24
Bảng 2.1
A) 0PNO p ở hàng 5 nên các hàng này có thể gộp lại vào cột 6, và khi đó toán tử tại cột 6 sẽ là: ơ(D U R=12 V DUR=24) A (PNAME = "CAD/CAM” ) A ( ƠENAME * "j.D oc”), và đánh sổ lại ta được bảng 2-1
2.2 Thay đổi các phép toán trong cell
Các phép toán trong cell nếu có thể thì thay bởi phép toán để dễ và giảm chi phí
xử lý.
V í dụ 2-2 Trong bảng 2-1 chúng ta có thể giao hoán cột 2 <-> cột 3, cột 4 l à tích Đề-các của hai hàng 1 và 3, cột 5 là k ế t quả phép nối © p n o a e n o của hàng 2 và hàng 4, cột 6
l à k ể t quả chọn Ơ E N A M E * ”J.Doe” A PNAME = ’’CAD/CAM" A DUR=I2 V DUR=24, và cuối cùng cột 7 l à k ế t
quả chiểu TĨPNAME của cột 6 Cuối cùng ta được bảng 2-2.
Trang 32M ột sổ vần đề chọn ĩọc của Công nghệ thông tin và truvền thông, Hưng Yên, 19-20 ĩháng 08 năm 2010
Nhận xét Do các hàng trong bảng có thể giao hoán để được các bảng truy vấn khác nhau Như vậy chúng ta sẽ có nhiều bảng truy vấn khác nhau từ đó có thể tìm ra bảng truy vấn tốt nhất theo một tiêu chuẩn nào đó [3], [4], [5]
Định nghĩa 2.3-2 Giả sử có p bộ xử lý, một phân hoạch Ipw thành p lớp F i , F p ,
là chia các hàng - cột Ipw thành p lớp F i , F p , với lớp Fk do bộ xử lý thứ k thực thi
Tải trên Ipw được xác định bởi
^ = max max [ Z + z
Trang 33M ột số vấn đề chọn lọc cùa Cóng nghệ thông tin và truyền thông, Hưng Yên 19-20 thảng 08 năm 2010
Ví dụ 2.3-1 Liệt kê danh sách tên các nhân viên, với chức vụ là “Manager” đang tham gia một dự án nào đó Câu lệnh SQLsẽ là:
SELECT ENAME FROM E, A WHERE E.ENO = A.ENO AND A.RSP = “Manager”
Câu lệnh trong đại số quan hệ sẽ là: 7ĩ p N A M E ( a R e s p = " M a n a g e r ” (E0ENoA))
Kí hiệu Ri= E 0 en o A , R 2 = ƠResp = ’’Manager” Ri, R3 = 7i:pnameR2 Bảng truyvấn 2-3
Giả sử: Xử lý tại E (hàng 1) hết 3 đơn vị và chuyển dữ liệu đến thực hiên phép toán
E 0 e n o A là 4 đơn vị Xử lý tại A (hàng 2) hết 2 đơn vị và chuyển dữ liệu đến thực hiên
gian chuyển dữ liệu đến thực hiên phép toán Ơ R esp = "M anager” hết 1 đơn vị Xử lý phép toán
ơ R csp = "Manager” hết 5 đơn vị và chuyển dữ liệu đến thực hiên phép toán Ơ Rcsp = ’’Manager” hết 1 đơn vị Xử lý phép toán TCpNAME hết 7 đơn vị
Trang 34luỊ = (Í2 + C23) + (t4 + ceíUs+celUs) = (2 + l)+(5 + 1 + 1) = 10 là tải trên F2
L 3 = ts + C 5 4 = 7 + 1 = 8 là tải trên F 3
2.3.2 Các phép gộp và tách hàng - cột
Tìm một phân hoạch (F¡, Fp) của Ipw, gom các toán tử (các hàng) vào các lớp
(Fklk=i p sao cho L ở công thức (2.3-2) là nhỏ nhất.
Định nghĩa 2.3-3 Ta nói hàng ì có liên kết với hàngý nếu cellụỶ 0 hoặc tìm được một dãy
Định nghĩa 2.3-4 phép Gop(i,j)
Gộp hàng i với hàngỹ được sử dụng để gộp hai hàng - cột / và j trong tập F*tạo ra hàng
- cột m cũng thuộc như sau:
i Trọng số hàng mới m: - ti + tj.
ii Nếu / và j đã liên kết với những hàng nào thì m sẽ liên kết với những hàng đó.
Định nghĩa 2.3-5 Phép Tach(ỉ,j) Tách liên kết hàng i với hàngỹ được sử dụng để bỏ liên
kết của hàng / và hàngỹ trong tập F*như sau: Nếu hàng i và hàngy thuộc tập Fk, đưa hàngỹ
2.3.3 Loại bỏ cell có trọng số lớn
Định nghĩa 2.3-6 Cellij của Ipw toán tử được gọi là có trọng số lớn nếu
Nghĩa ià chi phí truyền giữa hai toán tử / và j lớn hơn chi phí xử lý tại một trong hai
toán tử Giải pháp tốt trong trường hợp này là gộp cả hai toán tử này cho một bộ xử lý sẽ giảm được chi phí truyền [4], [5]
Định nghĩa 2.3-7 Một Ipw được gọi là không giảm riếu X và F là các tập các hàng có liên
Thuật toán TienXuLy dưới đây sẽ loại bỏ các cell có trọng số lớn trong Ipw
M ột số vấn đề chọn lọc cùa Công nghệ thông tin và truvền thông, Hưng Yên, 19-20 tháng 08 năm 2010
Trang 35M ột số vấn đề chọn lọc của Công nghệ thông tin và truvển thông, Hưng Yên, 19-20 tháng 08 năm 2010
Định nghĩa 2.3-9 Một ĩpw được gọi là Ipw(B, p) nếu nó là một Ipw liên kết chặt, sử dụng
tối đa p bộ xử lý và thời gian trả lời tối đa là B Nghĩa là, nếu (Fi, Fp) là một Ipw(B, p)
thì; L = max = maxf y (/, + y c e l l )] < 5
Định nghĩa 2.3-10 Cho ỉpw, một hàng của ỉpw được gọi là hàng cơ sở nếu nó được sử
dụng biểu diễn một quan hệ cơ sờ trong câu vấn tin SQL
Một hàng của Ipw được gọi là hàng dẫn xuất cấp m ộ t nếu các hàng liên kết với nó
là các hàng cơ sở và có thể có một hàng không là hàng cơ sở
Trang 36thì Ipw S ’ được tạo từ s bằng cách đổi chỗ rj và r¡ cũng là Ipw(B, p) [4], [5'.
B ổ đề 2.3-2 Nếu tồn tại một Ipw (B, p) thì cũng tồn tại một Ipw (B, p) khác sao cho:
i/ Nếu hai hàng m, Kj bị gộp thì hai hàng m, rj.j cũng bị gộp
iị/ Neu cạnh (m, rj) bị cắt thì cạnh (m, rj+i) cũng bị cắt.
Gọi s là số lớn nhất các hàng cơ sở có thể được gộp với hàng dẫn xuất cấp một m
mà chi phí sau khi gộp không vượt quá cận B Nghĩa là từ 5 ta có / + t <B ■
While (tồn tại một hàng dẫn xuất cấp một m) và (số-nhát- cắt <p - 1)
Gọi r ¡ , Kd là d số hàng con của hàng m sao cho: tri<tr 2 ^ ^trd ;
Chọn s < d sao cho s là giá trị lớn nhất thoả mãn t + ■ < B
Return phân hoạch liên kết chặt ( F ¡ , Fp);
Chúng ta sẽ tìm một Ipw truy vấn liên kết chặt tối mi bằng cách thực hiện thuật toán
Bp_Schedule nhiều lần, bắt đầu tìr giá trị B được đặt bằng cận dưới của thời gian trà lời
Sau đó mỗi bước tăng dần B cho đến khi thuật toán Bp_Schedule cho ra lời giải hợp lý
M ột sồ vấn đ ề chọn lọc của Công nghệ thông tin và truyền thông, H ưng Yên, 19-20 tháng 08 năm 2010
Trang 37M ật số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Hưng Yên, 19-20 tháng 08 năm 2010
Dựa vào các bô đê 2.3-1 và 2.3-2 ta chọn cận B ban đâu là max( w , R,„a.x)- Giả
thiết trọng số celỉij=0 với V// nên từ nhận xét 2 chúng ta có:
Gỉa sử Fi là lớp đượốtạo bởi thifât t^án Bp_sỉfhediile Ta gọi hàng liền kề kị của lớp
Fị là một hàng có trọng số nhỏ nhất trệng tất cả các hàng không thuộc Fi nhưng lại nối tới
một hàng trong Fị Gọi Bị = Tai(Fị) + tki' Mỗi lần lặp thành công thuật toán thì nhóm chứa các hàng gộp sẽ lổti lên và khi đó giá trị mà B sẽ tăng là = min I <i<pBi.
Sử dụng các bổ đề 2.3-1 và 2.3-2 ta có bổ đề sau:
B ổ đề 2.3-3 B* = mini <i<pBi là một cận dưới của thời gian trả lời tối ưu Từ đây ta có
thuật toán để tìm phân hoạch liên kết chặt có maxiđ^(Tai(Fị)) nhỏ nhất.
Thuật toán 2.3-2 Thuật toán BalancedCuís
Output: Phân hoạch liên kết chặt (Fi, ,Fp) sao cho mỵx.\<i<pTai(Fi) nhỏ nhất.
2.3.4 Một số thuật toán giải H EU RISTIC
Thuật toán phân chia công việc.
Giả sử có p bộ xử lý, và tập các công việc JOBS = {xi xn} có thời gian thực hiện
lần lượt là {ti, tn} tương ứng Công việc Xi phải được thực hiện trọn vẹn trên bộ xử lýbất kỳ với thời gian tj Giả sử có p bộ xừ lý
Trang 38M ột số vấn đ ề chọn ¡ọc của C ông nghệ thông tin và truvển thông, H ưng Yên, ¡9 -2 0 tháng 08 năm 2 0 1 0
Thuật toán Dividing-BalancedCuts
Thuật toán LocalCuts
Input: Ipw toán tử đã qua tiền xử lý, tham sọ ớf>l.
Do While <Còn hàng thứ cap m có hàng con j>
Iftj > aCj„ Then
Tach(j, m)
Else
GopO, m)
End I f
Trang 39M ột sổ vấn đề chọn lọc của Công nghệ thông tin và truvên thong, Hung Yên, 19-20 tháng 08 năm 2010
Thuật toán LocalCiits chỉ xem xét sử dụng toán tử gộp hay tách một hàng cơ sở vào
Ta có kết quả là phân hoạch Ipw như sa\x:Fi = {4,9} với tải 21, p 2 = {5,10} tải 16, Fỉ=
{6,11.12,12} tải \ 1, F4=^{ 15 } tải ì ì , F5 = { 14 16 } tải 11, Fö = { 3,7,8 } tải 26, Fj =
Trang 40K ết luận
Việc thể hiện các câu vấn tin bằng bảng tạo ra khả năng xử lý nó tốt hơn Khi đã có bảng thể hiện câu vấn tin, chúng dễ dàng dùng các thuật toán xử lý mảng để xử lý câu vấn tin Duyệt bảng vẩn tin được thực hiện trên các trọng số hàng và nội dung các cell là cách làm quen thuộc và dễ dàng cho các lập trình viên Các thuật giải Heuristic để ỉập lịch tối
ưu, cân bằng tải tối ưu, cũng hoàn toàn được xử lý trên mảng câu truy vấn
Tài liêu tham khảo•
[1] Barry Wlkingson, Michael Allen, “Parallel Programming, Technique and Applications Using Netwworked Workstations and Parallel Computers”, Prentice Hall New Jersey, 1999
’2] Seyed H Roo, “Parallel processing and Parallel Algorithms, Theory and Coputation”, Springer 1999
‘3] Đoàn Văn Ban, Nguyễn Mậu Hân, “Xử lý song song và phân tán”, NXB Khoa học và kỹ thuật, Hà Nội 2006
[4] Lê Huy Thập, “Cơ sở lý thuyết song song”, NXB THÔNG TIN VÀ TRUYỀN THÔNG, 2010, 300 p
[5] Japan Information Processing Development Corporation, Central Academy of Information Technology, “Internal Design And Programming”, 1978
[6] ĐỒ Xuân Lôi, “Cấu trúc dữ liệu và giải thuật”, NXB Khoa học và Kỹ thuật, 1996
M ột số vẩn đề chọn lọc của Cóng nghệ thông tin và tntvền thõng, Hưng Yên, 19-20 thảng 08 năm 2010