Kỷ yếu hội thảo quốc gia Hưng Yên: Một số vấn đề chọn lọc của công nghệ thông tin và truyền thông

179 11 0
Kỷ yếu hội thảo quốc gia Hưng Yên: Một số vấn đề chọn lọc của công nghệ thông tin và truyền thông

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Kỷ yếu hội thảo quốc gia Hưng Yên Một số vấn đề chọn lọc của công nghệ thông tin và truyền thông giới thiệu đến các bạn những nội dung về cơ sở toán học của tin học, tin học quản lý, công nghệ đa phương tiện, mô phỏng, công nghệ điện tử và viễn thông, công nghệ tri thức và tính toán mềm,... Hy vọng đây là tài liệu tham khảo hữu ích cho các bạn.

KỶ YÉU HỘI THẢO QUÓC GIA HƯNG YÊN, 19-20 THÁNG NĂM 2010 MỘT SỐ VẤN ĐỀ CHỌN LỌC CỦA CƠNG NGHỆ THƠNG TIN VÀ TRUN t h n g NHÀ XUẤT BẢN KHOA HỌC KỸ THUẬT HÀ NỘI-2011 H Ộ I THẢO QUỐC GIA LẦN T H Ứ XIII M Ộ T SỐ VẤN ĐÈ CHỌN LỌC CỦA CÔ N G NGHỆ THÔNG TIN VÀ TRUYÈN THÔNG C hủ đề: Các cơng n g h ệ tỉnh tốn đại H n g Yen, 19-20/08/2010 THÔNG BÁO Hội thảo Quốc gia lần thứ XIII "Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông" Viện Công nghệ thông tin - Viện Khoa học Công nghệ Việt Nam Đại học Sư phạm Kỹ thuật Hưng Yên tổ chức Khoái Châu, Hưng Yên từ ngày 19 đến ngày 20 tháng năm 2010 Hội thảo diễn đàn để nhà khoa học quản lý nước chia sẻ kinh nghiệm nghiên cứu, triển khai lĩnh vực Công nghệ thông tin truyền thông Đặc biệt Hội thảo môi trường để người làm công tác nghiên cứu khoa học trẻ; nghiên cứu sinh, học viên cao học có điều kiện để trao đổi, tìm kiếm tài trợ hợp tác Các chủ đề (khơng hạn chế) Hội thảo • Tin học quản lý • Mã nguồn mở Các hệ thống tích hợp • Công nghệ đa phương tiện, mô Thực ảo • Giáo dục điện tử, đào tạo từ xa Cơng nghệ phần mềm • Cơng nghệ điện tử viễn thơng • Xử lý ngơn ngữ • Cơng nghệ tri thức tính tốn mềm • Các hệ thống nhúng • Cơng nghệ mạng mạng khơng dây Các quan đồng tổ chức • Đại học Sư phạm Kỹ thuật Hưng Yên • Viện CNTT - Viện KH&CN Việt Nam Các hệ thống tính tốn di động Xử lý ảnh kỹ thuật Video CNTT Kinh tế- Kỹ thuật < Cơ sở toán học tin học Liên hệ đăng ký tham dự • Đỗ Năng Tồn Viện CNTT - Viện KH&CN Việt Nam Email dntoan@ioit.ac.vn ĐT\ (043) 7567935, 0913-583240, Fox: (043) 756 4217 • Phạm Minh Chuẩn, ĐHSP Kỹ thuật Hưng Yên Email: chuanpm@utehy.edu.vn ĐT: (03213) 775075,0983-081120, Fax: (0321) 3713 015 Thòi hạn đăng ký báo cáo • Tồn văn báo cảo: 30/06/20ỉ • Chấp nhận báo cáo: 15/07/2010 Đăng ký đại biểu • Hội nghị phỉ: 100 OOOđồng (miễn phỉ sinh viên tham gia báo cáo) • Ban Tổ chức giúp liên hệ chỗ ăn, cho đại biểu dự Hội thảo Quy cách chuẩn bị báo cáo xem chi tiết lại Website: http://www.utehv.edu.vn http://www.ioit.ac.vn BAN THƯ KÝ HỘI THẢO Truởng ban Đỗ Năng Toàn Các ủy viên Phạm Minh Chuẩn Trần Quang Diệu Phạm Ngọc Hưng Viện Công nghệ thông tin Đại học Sư phạm Kỹ thuật Hưng Yên Viện Công nghệ thông tin Đại học Sư phạm Kỹ thuật Hưng Yên BAN TỔ CHỨC Trưởng ban Trần Trung Đại học Sư phạm Kỹ thuật Hưng Yên Phó trưởng ban Trưcmg Ngọc Tuấn Đại học Sư phạm Kỹ thuật Hưng n Các ủy viên Ngơ Thanh Bình Đại học Sư phạm Kỹ thuật Hưng Yên Nguyễn Văn Bình Phạm Việt Bình Ngơ Kim Dung Nguyễn Việt Hà Nguyễn Đình Hân Nguyễn Hồng Hịa Nguyễn Quang Hưng Ngơ Hùng Mạnh Nguyễn Hữu Quỳnh Nguyễn Minh Quý Nguyễn Văn Tám Huỳnh Quyết Thẳng Nguyễn Thị Lê Thu VNPT Hưng Yên Khoa CNTT - ĐH Thái Nguyên Đại học Công nghiệp Hà Nội Đại học Công nghệ- Đại học QGHN Đại học Sư phạm Kỹ thuật Hưng Yên Sở TT &Truyền thông Hưng Yên Bộ Thông tin & Truyền thông Sờ Khoa học- Công nghệ Hưng Yên Đại học Điện lực Đại học Sư phạm Kỹ thuật Hưng Yên Sở GD&ĐT Hưng Yên Đại học Bách khoa Hà Nội Viện Công nghệ thơng tin BAN CHƯƠNG TRÌNH Trưởng ban Vũ Đức Thi Viện Cơng nghệ thơng tin Pìiỏ trưởng ban Đặng Quang Á Ngô Văn Quyết Ngô Quốc Tạo Viện Công nghệ thông tin Đại học Sư phạm Kỹ thuật Hưng n Viện Cơng nghệ thơng tin Các ủy viên Đồn Văn Ban Lê Hồi Bắc Nguyễn Ngọc Bình Bùi Thế Duy Phan Thị Hà Dương Hồ Sỹ Đàm Đặng Hữu Đạo Lê Quốc Định Dương Anh Đức Đặng Văn Đức Trần Hành Nguyễn Thúc Hải Nguyễn Mậu Hân Viện Công nghệ thơng tin Đại học KHTN Tp Hồ Chí Minh Đại học Công nghệ -ĐHQGHN Đại học Công nghệ -ĐHQGHN Viện Tốn học Đại học Cơng nghệ -ĐHQGHN Viện Cơng nghệ ứiông tin Đại học Hàng hải Đại học Khoa học tự nhiên Viện Công nghệ ứiông tin Đại học Lạc Hồng Đại học Bách khoa Hà Nội Đại học Huế Vũ Đình Hịa Nguyễn Đình Hóa Nguyễn Xn Huy Phan Huy Khánh Hoàng Kiếm Lương Chi Mai Nguyễn Văn Mạnh Trần Đức Minh Trần Văn Lăng Phạm Thế Long Nguyễn Huy Lợi Vũ Duy Lợi Phùng Văn n Nguyễn Hoàng Phương Từ Minh Phương Nguyễn Hồng Quang Lê Văn Sơn Hồng Chí Thành Trần Thiên Thành Lê Mạnh Thạnh Lê Quyết Thắng Nguyễn Đình Thuân Nguyễn Thanh Thủy Hà Quang Thuỵ Trịnh Nhật Tiến Nguyễn Thanh Tùng Phan Thị Tươi Hồ Tường Vinh Đại học Sư phạm Hà Nội Viện CNTT - ĐHQG Hà Nội Viện Công nghệithông tin Đại học Bách khoa Đà Nang Đại học CNTT Tp Hồ Chí Minh Viện Cơng nghệ thơng tin Đại học Bách khoa Hà Nội Đại học Đà Lạt Đại học Lạc Hồng Học viện Kỹ thuật quân Đại học Sư phạm Hà Nội Trung tâm Tin học - VPTW Văn phịng Chính phủ TT Tin học Bộ Y tế Học viện Công nghệ BCVT Viện Tin học Pháp ngữ - IFI Đại học Sư phạm Đà Nang ĐH Khoa học Tự nhiên - ĐHQG Hà Nội Đại học Quy Nhem Đại học Khoa học Huế Đại học Cần Thơ Đại học Nha Trang Đại học Bách khoa Hà Nội Đại học Công nghệ - ĐHQG Hà Nội Đại học Công nghệ -ĐHQGHN Viện Công nghệ thông tin Đại học Bách khoa-Tp Hồ Chí Minh Viện Tin học Pháp ngữ - IFI C Á C Đ Ơ N VỊ TÀ I TR Ọ H Ộ I TH Ả O C N TT 2010 V iện K h o a học C ông nghệ V iệt N am V iện C ô n g nghệ T hông tin- V iện K hoa học C ông nghệ V iệt N am T rườ ng Đ ại học Sư phạm K ỹ thuật H ưng Y ên K hoa C ô n g nghệ thông tin - T rường Đại học C ông nghệ - Đại học Quốc G ia H NỘI T rườ ng Đ ại học B ách K hoa H Nội T rườ ng Đ ại học cần T hơ T rườ ng Đ ại học K hoa học H uế T rườ ng Đ ại học L ạc H ồng T rườ ng Đ ại học N T rang T rư ng Đ ại học Sư phạm Kỹ thuật N am Đ ịnh Trưòrng C ao đẳng Sư P hạm Trung n g K hoa C ô n g nghệ th ô n g tin- T rường Đại học C ông N ghiệp Hà N ội K hoa C ô n g nghệ th ô n g tin- T rường Đại học Đ iện Lực K hoa C ô n g nghệ th ô n g tin- T rường Đại học Thái N guyên K lioa C ô n g nghệ th ô n g tin- Trường Đại học K hoa học tự nhiên Tp Hồ Chí M inh K lìoa C n g nghệ th n g tin- T rường Đại học Sư phạm H N ội K hoa C ô n g n g h ệ th ô n g tin- Trường Đại học T hủ D ầu M ột K hoa C ô n g nghệ th ô n g tin- T rường Đại học Sư phạm K ỹ T huật Vinh K hoa C ô n g n g h ệ thông tin - H ọc V iện K ỹ thuật Q uân K hoa C ô n g n g h ệ th ô n g tin- H ọc viện C ơng nghệ B u V iễn thông T rung tâm T in học- B u điện Hải Phịng T rung tâm C ơng n g h ệ th ôn g tin - V ăn phòng T W Đ ảng T ập đ o àn V iễn th ô n g quân đội V iettel - C hi nhánh H ưng Y ên C ông ty V iễn th ô n g H ng Y ên V inaphone H ng Y ên C ông ty Cổ p h ần truyền thông truyền hình quốc g ia H N ội (H T M ) C ông ty C ổ phần điện tử tin học FSC Hà N ội C ông ty Cổ phần tư vấn xây dựng thư ng m ại Thái D ương C ông ty C ổ p h ần thư ng m ại N B T H ưng Y ên Một số vẩn đề chọn lọc cùa Công nghệ thông tin truyền thông, Hưng Yên, 19-20 tháng 08 nâm Ĩ0 LỜI NÓI ĐẦU Hội thảo Quốc gia "Một sổ vấn đề chọn lọc Công nghệ thông tin ” khởi xướng theo sáng kiến Viện Công nghệ Thông tin thuộc Viện Khoa học Công nghệ Việt nam, đến qua 10 lần tổ chức Hội thảo Quốc gia "Một sổ vấn đề chọn ỉọc pủa Công nghệ thông tin ” lần thứ I tổ chức từ ngày đến tháng năm 1997 Đại học Sư phạm Hà Nội II, Đại Lải, Vĩnh Phúc Hội thảo tổ chức phối hợp của: Viện Công nghệ thông tin, Đại học Quốc gia Hà Nội, Đại học Sư phạm Hà Nội II Kể từ đến nay, hàng năm độ thu sang Viện Công nghệ thông tin- Viện Khoa học Công nghệ Việt Nam lại phối hợp với trường Đại học nước để tổ chức Hội thảo Quốc gia "Một số vẩn đề chọn lọc Công nghệ thông tin Với chủ để khác nhau, hội thảo Quốc Gìa."Một số vấn đề chọn lọc Cơng nghệ thông tin ” thực trở thành diễn đàn nhằm trao đổi kết nghiên cứu triển khai ứng dụng công nghệ thông tin nhà khoa học, đặc biệt nhà khoa học trẻ miền đất nước Hội thảo lần thứ XIII với chủ đề “Cóc cơng nghệ tính tốn đạĩ' Viện Công nghệ thông tin phối họp với Đại học Sư phạm Kỹ thuật Hưng Yên tổ chức Hưng Yên từ ngày 19-20 tháng năm 2010 Hcm 500 đại biểu khách mòd từ miền đất nước tham dự Hội thảo lần thứ mười ba Các đại biểu nghe thảo luận gần 150 báo cáo khoa học theo nội dung: Các hệ tíiống thơng minh Cơ sở tốn học tin học Mã nguồn mở Tin học quản lý Giáo dục điện tử, đào tạo từ xa Công nghệ đa phương tiện, mô Xử lý ngôn ngữ Công nghệ điện tử viễn thông Các hệ thống nhúng Cơng nghệ tri thức tính tốn mềm Các hệ thống tích hợp Cơng nghệ mạng mạng khơng dây Thực ảo Công nghệ phần mềm Xừ lý ảnh kỹ thuật Video Một sổ vấn đề chọn ¡ọc cùa Công nghệ thông lin truyền thông, Hưng Yên, 19-20 tháng 08 năm 2010 Với tham gia đông đảo nhà khoa học nước với số lượng lớn báo cáo khoa học gửi tới Hội thảo khẳng định ý nghĩa thiết thực tầm vóc quốc gia Hội thảo "Một sổ vấn đề chọn lọc Công nghệ thông tin Các đại biểu đánh giá cao nhiệt tình đơn vị tham gia tổ chức Hội thảo, đặc biệt sở đăng cai; Đại học Sư Phạm Kỹ thuật Hưng Yên đơn vị chủ quản điều hành chương trình - Viện Cơng nghệ thơng tin Trong phiên bế mạc Hội thảo lần thứ XIII, Ban Tổ Chức trao cờ cho Đại học cần Thơ, đơn vị đăng cai tổ chức Hội thào lần thứ XIV Thành phố cần Thơ Các cơng trình in tập kỷ yếu báo cáo, thảo luận Hội thảo sau phản biện nghiêm túc Ban tổ chức Hội thảo xin chân thành cảm on đcm vi sau tài trợ kinh phí cho hoạt động Hội thảo: Trường Đại học Sư phạm Kỹ thuật Hưng Yên Viện Công nghệ Thông tin- Viện Khoa học Công nghệ Việt Nam Khoa Công nghệ thông tin - Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội Trường Đại học Bách Khoa Hà Nội Trường Đại học cần Thơ Trưòmg Đại học Khoa học Huế Trường Đại học Lạc Hồng Trưòng Đại học Nha Trang Trường Đại học Sư phạm Kỹ thuật Nam Định Trường Cao đẳng Sư Phạm Trung ơng Khoa Công nghệ thông tin- Trường Đại học Công Nghiệp Hà Nội Khoa Công nghệ thông tin- Trường Đại học Điện Lực Khoa Công nghệ thơng tin- Trưịng Đại học Thái Ngun Khoa Cơng nghệ thông tin- Trường Đại học Khoa học tự nhiên Tp Hồ chí Minh Khoa Cơng nghệ thơng tin- TrưỊTig Đại học Sư phạm Hà Nội Klioa Công nghệ thông tin- Trường Đại học Thủ Dầu Một Khoa Công nghệ thông tin- Trường Đại học Sư phạm Kỹ Thuật Vinh Khoa Công nghệ thông tin - Học Viện Kỹ thuật Quân Khoa Công nghệ thông tin- Học viện Công nghệ Bưu Viễn thơng Trung tâm Tin học- Bưu điện Hải Phịng Trung tâm Cơng nghệ thơng tin - Văn phòng TW Đảng 10 Một sổ vấn đề chọn lọc Công nghệ thông lin truyền thông, Hưng n, ¡9-20 tháng 08 năm 2010 • • Tập đồn Viễn thông quân đội Viettel - Chi nhánh Hưng Yên Công ty Viễn thông Hưng Yên Vinaphone Hưng Yên • Cơng ty Cổ phần truyền thơng truyền hình quốc gia Hà Nội (HTM) • Cơng ty Cổ phần điện tử tin học FSC Hà Nội • • • Cơng ty Cổ phần tư vấn xây dựng thưcmg mại Thái Dương Công ty Cổ phần thương mại NBT Hưng Yên Và nhiều cá nhân khác Ban ChưoTig trìnli xin chân thành cảm ơn phản biện đóng góp nhiều ý kiến quý báu góp phần nâng cao chất lượng tập kỷ yếu Hội thảo Xin trân trọng giới thiệu với đông đảo bạn đọc mong tiếp tục nhận ý kiến đóng góp hình thức hoạt động Hội thảo nội dung khoa học báo cáo Hà Nội, ngày 19 tháng 06 năm 2011 Ban Biên tập II Một sổ vấn đề chọn lọc Công nghệ thông tin truyền thổng, Hưng Yên, Ỉ9-20 thảng 08 năm 20ĩ Định nghĩa 2.1 (Bộ liệu vô hiệu -disabled data tuple [5]) Xét tập mục X Bộ liệu Tị vô hiệu DB X, Tị có giá trị thiểu mục thuộc X Ký hiệu Dis(X) tập tất Ti DB vô hiệu X Định nghĩa 2.2 (Cơ sở liệu hữu hiệu - valid database [5]) Đặt vDBx^DB-Dis(X) vDBx gọi CSDL hữu hiệu đổi với X DB Từ định nghĩa Bộ liệu vô hiệu định nghĩa Cơ sở liệu hữu hiệu trên, Ragel Cremilleux định nghĩa lại khái niệm Độ hỗ trợ Độ tin cậy luật kết hợp R: X=>Y sau Định nghĩa 2.3 (Độ hỗ trợ Độ tin cậy [5]) Ký hiệu cibx^JY tập tất giao tác CSDL giao tác DB chứa X uY Độ hỗ trợ sup(R) Độ tin cậy conf(R) luật kết hợp R: X=>Y đại lượng xác định sau: sup{R) = dbX kjY vDBXkjY conf (R) = dbx^Y db - D is{Y )ndb^ (1) ■ lực lượng tập hợp Những luật kết hợp khai phá từ CSDL nhỏ thường không thật hấp dẫn Để tránh khai phá luật CSDL nhỏ, người sử dụng quy định giá trị tối thiểu minRep cho độ đại diện Định nghĩa 2.4 (Độ đại diện [5]) Độ đại diện tập mục X DB, ký hiệu bằngi?ej3(X^, làtỷsố R e p [ x ) = vDB, DB (2) Dựa RAR, Ragel and Cremilleux đề xuất phương pháp gán trị cho giá trị thiếu có tên MVC [6] Trước hết, MVC sử dụng RAR phát luật kết hợp Sau đó, MVC sử dụng luật thích hợp số luật phát gán trị cho giá trị bị thiếu liệu Nếu liệu có nhiều giá trị thiếu, giá trị thiếu khơi phục phương pháp tniy hồi, lặp lại nhiều lần thuật toán Để khôi phục giá trị thiếu với độ xác cao, MVC sử dụng luật có độ tin cậy cao Tuy nhiên, nhiều trường hợp, việc rõ ràng dẫn đến khơng tìm luật thích hợp q trình gán giá trị cho giá trị bị thiếu khơng thực Ví dụ; Xét CSDL nhỏ cho Bảng l Cho ngưỡng tối thiểu minSup = 60%, minConf = 60% minRep = 70% MVC thực thuật toán khai phá luật kết hợp RAR tạo luật, Ai=>Bi, Bi=>Ci,Bi=>Ai Ci=>Bi, với độ tin cậy 100%, 85.7%, 100%, and 85.7% MVC khôi phục giá trị thiếu T03, T07 T09 Tuy nhiên, MVC không khôi phục giá trị thiếu TIO khơng có luật kết hợp thích hợp Tỷ lệ giá trị thiếu khôi phục 4/6 166 Một S ỡ vấn đề chọn lọc Công nghệ thông tin truyền thông Hưng Yên, ỉ 9-20 tháng 08 năm ĩ TID TOI T02 T03 T04 T05 T06 T07 T08 T09 TIO A 1 1 1 1 Thc tính B C 1 1 1 1 1 D 1 2 3 2 1 1 Bảng i- CSDL ví dụ Thuật tốn k-láng giềng gần k-NN Phương pháp sử dụng k liệu gần liệu có giá trị thiếu láng giềng gần (k-Nearest Neighbours) để ước lượng giá trị thiếu Trường hợp k=l dược gọi phương pháp láng giềng gần Thuật toán k-NN bao gồm bước sau [10]; 1.Với liệu /i có chứa giá trị thiếu; Với liệu Ij không chứa giá trị thiếu; S.Tính tốn khoảng cách distance(Ii,Ij) li /,■; 4.Lựa chọn k liệu gần li (k láng giềng gần nhất) /,•; 5.Thay giá trị thiếu I\ giá trị trung bình (trường hợp thuộc tính định lượng) hay giá trị xuất thường xuyên (truờng hợp thuộc tính định tính) sổ giá trị thuộc tính tương ứng Ả:-láng giềng gần Số láng giềng gần k thường chọn 10 lớn hơn, (theo [10]) Đe xác định láng giềng gần cần có độ đo khoảng cách liệu Trong tính tốn thực nghiệm (mục 5), chúng tơi sử dụng khoảng cách sau đây, (xem [10]) Cho hai liệu Ii=(xii,Xi2 ,Xi,„) Ij=(xji,Xj2, ,XjJ CSDL có m thuộc tính X i,X 2, BChoảng cách /i ỉj công thức: ni distanceự , ỉ j ) = 'ỵ^ dístance{Xn^, Xj!^) *=' , dỉstance(xik,xjij tính phụ thuộc vào loại thuộc tính - Nếu Xk thuộc tính định lượng neu (;c.^ thieu) V thieu) distance{Xịi^,Xjị^) = ■ 167 Một sổ vẩn đề chọn lọc Công nghệ thông tin truyền thông, Hưng Yên, 19-20 thảng 08 năm 2010 với r hiệu số maximum minimum giá trị biết X i, - NếuX* thuộc tính định tính í o neuxn=x, distance{Xịi^ >^ i ) = •! I neu (x.^ í* thieu) V ( Xji^ thieu) Ví dụ; Cho hai liệu I ] = ( x a , x j , x i ,x j , x j 5) = (100.2, ? , no, yes, 51.8), I2=(X2I.X22X23,X24.X25)= (102.6, yes, yes, yes, ?) Giả sử maximum minimum giá trị biết thuộc tính định lượng Xj 100.2 - 102.6 distanceil^ , ! ^) - — ^ ^ hl + 1+ 0+1 = 3.39 102.6 96.4 Khi Theo [9, 10], k-NN phương pháp xử lý giá trị thiếu hiệu quả, thường sử dụng, u điểm k-NN là: - Có thể gán giá trị thiểu cho thuộc tính số lẫn thuộc tính biểu tượng với độ xác cao - Khơng cần phải xây dựng mơ hình dự đốn giá trị cho thuộc tính có liệu thiếu, (chẳng hạn phương trình hồi quy định, ), mà sử dụng tập liệu sẵn cho Do đó, thuật tốn k-láng giềng gần dễ dàng áp dụng cho việc dự đoán giá trị thiếu thuộc tính nào, cần lựa chọn metric thích hợp tính tốn khoảng cách liệu Phương pháp k-NN cho phép xử lý giá trị thiếu trường hợp có nhiều giá trị thiếu liệu Hạn chế chủ yếu phương pháp k-NN để xác định k liệu tương tự nhất, thuật tốn phải tìm kiếm tồn tập liệu Việc trở thành khơng khả thi tập liệu có kích thước lớn, tình thường gặp phải khai phá liệu Thuật toán xử lý giá trị thiếu HMVI Mục trình bày phương pháp xử lý giá trị thiếu HMVI, sử dụng phối hợp kỹ thuật khai phá luật kết hợp CSDL khơng đầy đủ trình bày mục với thuật toán k-NN Đầu tiên, HMVI thực việc chuyển CSDL ban đầu thành CSDL giao tác Sau tiến hành khai phá luật kết hợp mạnh từ CSDL giao tác Sau có tập luật kết hợp mạnh, HMVI lựa chọn tập F bao gồm luật thích hợp cho việc gán trị cho giá trị thiếu sau: với liệu X có giá trị thuộc tính thiếu, HMVI so sánh giá trị thuộc tính biết cùa X với tiền tố luật kết hợp Nếu giá trị biết X tạo thành tập tiền tổ luật kết hợp R nhập R vào tập F Khi tất luật kiểm tra, so sánh với dừ liệu X, thuật toán thu 168 M ột số vắn đề chọn lọc cùa Công nghệ thông tin truyền thông, Hưng Yên, ¡9-20 tháng 08 năm 2010 tập F gồm luật mạnh có tiền tố chứa giá trị biết X Các luật thuộc F sử dụng để gán trị cho giá trị bị thiếu Nếu tập F khác rỗng, giá trị thiếu X thay giá trị trung bình (khi thuộc tính định lượng) hay mod (khi thuộc tính định tính) giá trị kết luận luật tương thích thuộc tập F Trường hợp F tập rỗng, giá trị thiếu X ước lượng phương pháp k-láng giềng gần Hình mô tả bước thực HMVI Chuyển đổi CSDL ban đầu thành CSDL Hình I- Sơ đồ khối thuật toán gán giá trị thiếu HMVI Tira code HMVI sau: HMVI (Độ hỗ trợ Minsupp, Độ tin cậy Minconfidence) giao tác Khai phá tập mục thường xuyên (FI) với độ hỗ trợ Minsupp Khai phá luật kết hợp (AR) với độ tin cậy Minconfidence Với mồi giao tác X, có giá trị thuộc tính thiếu Với luật R tập luật kết hợp (AR) So sánh tiền tố R với giá trị biết X Nếu tiền tố R thuộc X (tập giá trị biết X) thi bổ sung R vào tập F Nếu F Nếu giá trị thiếu X giá trị rời rạc thay Mod giá trị kết luận luật thuộc F 10 Nếu giá trị thiếu X giá trị liên tục thay trung bỉnh giá trị kết luận luật thuộc F 11 Trường hợp ngược lại 12 Gán trị cho giá trị thiếu X thuật toán k-láng giềng gần Tính tốn thực nghiệm Để đánh giá hiệu HMVI, thực tính tốn thực nghiệm hai CSDL chuẩn lấy từ kho liệu UCI [12], Vote Credit Card Vote có 435 ghi, 17 thuộc tính; Credit Card bao gồm 690 ghi 15 thuộc tính Cả hai CSDL khơng có giá trị thiếu Các tính tốn thực nghiệm tiến hành sau Đầu tiên, thực chèn liệu thiếu vào thuộc tính CSDL cách xóa cách ngẫu nhiên số giá trị Tỷ lệ giá trị xóa thay đổi từ 10% đến 70% với gia số 10% Với CSDL bị làm thiếu giá trị thuộc tính, thực xử lý giá trị thiếu phương pháp HMVI phương pháp k-láng giềng gần nhất, sau so sánh 169 Một số vấn đề chọn lọc cùa Công nghệ thông tin truvền thông, Hưng Yên, Ĩ9-20 tháng os nam 20Ỉ0 CSDL thu với CSDL ban đầu Để khai phá khai phá luật kết hợp sử dụng thuật toán FP-tree với ngưỡng minsupp =0.3 minconfidence = 0.60 Đối với phương pháp k-láng giềng gần nhất, số láng giềng chọn 10 phương pháp HMVI lập trình Visual C++ 6.0 thực máy 2.53 GHz với nhớ 0.99 GB môi trường Window XP 2005 Dựa kết tính tốn, chúng tơi thu các nhận xét sau v ề phụ thuộc độ xác vào số lượng giá trị thiếu CSDL: Đối với hai phương pháp HMVI k-NN, độ xác giá trị thiếu ước lượng giảm dần số lượng giá trị thiếu tăng dần, (Hình 2) Tuy nhiên, độ xác HMVI cao nhiều so với độ xác k-NN v ề phụ thuộc độ xác vào độ tin cậy sử dụng HMVI: Độ xác giá trị thiểu ước lượng cao độ tin cậy tối thiểu minconfidence quy định cao (Hình 3) Điều hợp lý, độ tin cậy quy định cao, luật khai phá mạnh, khả dự đoán xác giá trị thiếu chúng lớn v ề phụ thuộc độ xác vào độ hỗ trợ sử dụng HMVI: Độ xác giá trị thiểu ước lượng không phụ thuộc vào minsupp quy định (Hình 4) Chỉ có số luật khai phá tăng lên minsupp giảm (một điều dễ hiểu) So sánh thời gian xử lý giá trị thiếu HMVI k-NN; HMVI hiệu k-NN thời gian xử lý giá trị thiểu, (Hình 5) CSDLVOTE CSDL CREDIT CARD 100 i: à truvền thông, Hưng Yên ỉ 9-20 tháng OS năm ỉ CSDL CREDIT CARD CSDL VOTE 1ỈI0 ì-i I o ãũ A ♦ ^0 1^ ^ ■ Y có cơng thức : num ber o ĩ tuples containing both _ A an d B S u p p o r íịX = > Y ) = - =— =^-í-— =— 2.= - =— = -t it iL il o t '_ t H Ị)ÍC S Luật kết hợp sử dụng khai phá liệu văn dạng áp dụng luật kết hợp để phân loại văn Trong báo này, chúng tơi áp dụng luật kếthợp để tính mục thường xuyên ( frequency items) kết hợp cácthuậtngữlàcáctập mục thường xuyên (frequency itemsets) thông qua độ hỗ trợ luật kết hợp Chúng áp dụng thuật toán Apriori cải tiến câu văn kiểm tra để tính luật kết hợp thuật ngữ câu văn kiểm tra theo giá trị minsupp ( độ hỗ trợ cực tiểu ) Tiếp theo sử dụng thuật tốn ES đề trích rút câu theo độ hỗ trợ cực tiểu minsupp 175 Một số vấn đề chọn lọc Công nghệ thông Un truyền thông, Hưng Yên, ỉ 9-20 tháng 08 năm ỉ Hình 1- Mơ hình tốn trích rút câu T rút câu sử dụng luật kết họp 3.1 Mơ hình chủ đề ( Topic Model) Do đặc điểm tiếng Việt khó khăn việc tách từ, đỏ, nghiên cứu này, chúng tơi áp dụng mơ hình chủ đề [4] để xây dựng tập thuật ngữ theo chủ đề khác Đầu tiên, xây dựng tập văn huấn luyện phân loại theo chủ đề, với chủ đề tập huấn luyện riêng D = {dị,d.;^, d^} Trong ; D tập luyện, di văn có chủ đề Với chủ đề, xây dựng tập thuật ngữ tương ứng T= (2) 3.2 Tính độ hỗ trợ thuật ngữ Độ hỗ trợ thuật ngữ biểu thị tần suất xuất thuật ngữ câu tập văn huấn luyện, ta coi mồi thuật ngữ mục ( item ) câu giao dịch, độ hỗ trợ thuật ngữ tính tổng giao dịch chứa thuật ngữ tổng giao dịch _ s u N, (3) p Trong : P N Ặ tj): Số câu chứa thủật ngữ tj Ns : Tổng số câu tập huấn luyện 3.4 Tính giá trị câu Trong văn kiểm tra c, trước tính độ quan trọng câu, văn tách thành tập câu ~ Luật kết hợp áp dụng để xác định thuật ngữ thường xuyên kết hợp với câu (frequency itemsets) Ngưỡng minsupp sử dụng để tính giá trị câu Neu ngưỡng minsupp nhỏ giá trị câu lớn Luật kết hợp đề cập biểu thị khả kết hợp thuật ngữ câu mô thủ tục transQ Giá trị câu tính tổng độ hộ trợ thuật ngữ câu độ tương hồ mặt thông tin thuật ngữ câu theo công thức (4) )f (& ) = í je S c Ậ J p p 176 ) + IM(Wj I , E 5c ) Một số vẩn để chọn lọc Công nghệ thông tin truyền thông, Hưng Yên, 19-20 thcing 08 năm 2010 Ví dụ: Câu “Cho đến thời điểm này, Internet xuất tương đối nhiều website bàn hack crack giới trẻ Việt Nam lập nên” Các thuật ngữ câu = {Internet, website, hack, crack } Độ hỗ trợ thuật ngừ câu tính dựa vào cơng thức(3) cho bảng sau Các mục ĐỘ hỗ trợ Internet 82% W e b site 94% H a ck 47% C rack 24% B ản g 1- Đ ộ hỗ trự thuật ngữ Già sử trích rút câu với ngưỡng minsupp =30%, thuật ngữ “crack” khơng tính vào tập mục thường xuyên độ tương hồ thuật ngừ câu biểu thị kliả xuất đồng thời thuật ngữ câu sở liệu = Do đó, giá trị câu ( the weight of sentence ) tính sau «^(5c) =0.82+0.94+0.47= 2.23 Thủ tục trans(minsupp) mô tả sau For ea c h term Wj in Sck ] f supp(wj)< minsupp then r e m o v e Wj number o f sentences in traning set that a p p ea r o f a ll Wj in num ber o f total o f sentences in traning set W(Sc, ) = Y , s (w ,) + M/(w, I w G S c ,) 177 Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, Hưng Yên, ỉ 9-20 tháng 08 năm 20Ỉ0 3.5 Trích rút câu Gọi m số câu trích rút từ văn kiểm tra c m câu trích rút có giá trị cao Thuật tốn ES mơ tả thuật tốn tính giá trị câu dựa luật kết hợp trích rút m câu từ văn kiểm tra c Input C: is test document, minsupp; m: number o f sentence fo r extracting Output F.extracted sentences: L Initialization S^0, F^0; Sentence segmentation S ^{Sc,,Sc2, Sc, } Calculating weight o f sentence for each sentence ( Scj ) e trans( minsupp); Extracting sentence For i= l to k Shorting descending sentence by W(Sck) W hile (number o f sentence < m ) F ^S c, ; T nghiệm đánh giá kết Dựa vào phưong pháp đề xuất chúng tơi tiến hành thử nghiệm vói chủ đề khác nhau: thể thao, văn hóa, kinh tế, cơng nghệ Các văn thuộc chủ đề thu thập từ trang web tiếng Việt http://www.vnexpress.net Rất khó để so sánh phương pháp mà đề xuất với phương pháp có trước đây, vi tiếng Việt chưa có phương pháp chuẩn cho trích rút câu Vì lý này, chúng tơi so sánh phương pháp trích rút câu chúng tơi đề xuất với phương pháp trích rút câu thực người (Human) hệ thống tóm tắt Online http://smmy.com dựa việc trích rút số câu quan trọng văn Tuy nhiên, hệ thống tóm tắt Online chủ yếu sử diing cho tiếng Anh, chúng tơi sử dụng văn kiểm tra được lấy từ nguồn http://news.bbc.co.uk Văn kiểm tra dịch tiếng Việt áp dụng phương pháp chúng tơi đề xuất để trích rút câu so sánh với hệ thống tóm tắt smmy.com Prcssion phương pháp đánh giá truyền thống tíĩứi bởi: 178 Một sổ vấn đề chọn lọc Cơng nghệ thơng tín truvền thơng, Hưng n, 19-20 tháng 08 năm 2010 Precision = correct correct + wrong Trong đó: correct số câu trích rút chuyên gia (human) hệ thống, wrong số câu trích rút hệ thống khơng chuyên gia trích rút Compression rate 60% 40% 20% Method 80% Smmy.com 7 8 Ours Human Bảng 1- Đánh giá phương pháp trích rút câu vói phương pháp khác K ết luân • Bài báo trinh bày phương pháp trích rút câu dựa luật kết hợp mơ hình chủ đề để tính tốn độ quan trọng câu q trình trích rút - trình hệ thống tóm tắt văn tiếng Việt tự động Dựa câu trích rút, chúng tơi tiếp tục rút gọn câu để làm cho hệ thống tóm tắt nén tốt mặt không gian, cô đọng mặt nội dung ngữ nghĩa Do tiếng Việt có đặc điểm tương đối giống với tiếng Trung ( 80% tiếng Việt từ Hán Việt) tiếng Nhật, tiếng Hàn, nên phương pháp áp dụng tốt với tiếng Việt, chắn áp dụng tốt với tiếng Trung, tiếng Nhật, tiếng Hàn Tài liệu tham khảo [1] Đồ Phúc, Nghiên cứu ứng dụng tập phổ biến luật kết hợp vào tốn phân loại văn tiếng Việt có xem xét ngữ nghĩa Trung tâm phát triển công nghệ thông tin, ĐHQG-HCM Tạp chí phát triển KH-CN Tập Sổ 2-2006 Dipanjan Das and Andre F.T Martins (2007) A Survey on Automatic Text Summarization Chin-Yew Lin and Eduard Hovy “The Potential and Limitations of Automatic Sentence Extraction for Summarization” In Proceedings of the HLT-NAACL 2003 Workshop on Automatic Summarization, May 30 to June 1, 2003, Edmonton,Canada [4] Hongyan Jing and Kathleen R McKcown “Cut and paste based text summarization” In Proceedings of the 1st Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-2000), pages 178-185,2000 Mark Steyvers and Tom Griffiths, “Probabilistic Topic Models” 179 Mót só van dé chon loe cúa Cóng nghé thóng tin va truyén thóng, Hung Yén, 19-20 tháng 08 nam 2010 [6] 7] [8] [9] 10] 11] 12] [13] 14] [15] 180 Thanh, Le Ha; Quyet, Thang Huynh; Chi, Mai Luong “ A Primary Study on Summarization of Documents in Vietnamese” Proceedings of the First World Congress of the International Federation for Systems Research Nov 14-17, 2118, Kobe, Japan Dwi H.Widyantoro and John Yen, “A Fuzzy Similarity Approach in text Classification Task” Department of computer Science Texas A&M University College Station , TX 77844-3112 Minh, Le Nguyen; Shimazu, Akira; Xuan, Hieu Phan; Tu, Bao Ho; Horiguchi, Susumu “ Sentence Extraction with Support Vector Machine Ensemble” Proceedings of the First World Congress of the International Federation for Systems Research Nov 14-17, 2119, Kobe, Japan, Symposium K Han, Y Song, and H Rim KU “Text Summarization System for DUC 2003” In Document Understanding Conference Draft Papers, pages 118-121, 2003 C.-Y Lin “Improving Summarization Performance by Sentence Compression” - A Pilot Study In Proceedings of the International Workshop on Information Retrieval with Asian Language, pages 1-8, 2003 C.-Y Lin and E Hovy “The Potential and Limitations of Automatic Sentence Extraction for Summarization” In Text Summarization: Proceedings of the NLT-NAACL Workshop, pages 73-80, 2003 J Carbonell and J Goldstein “The use of MMR, diversitybasedreranking for reordering documents and producing Summaries” In Proceedings of the ACM SIGIR conference on Research and Development in Information Retrieval, pages 335-336, 1998 K Han, Y Song, and H Rim KU “Text Summarization System for DUC 2003” In Document Understanding Conference Draft Papers, pages 118-121, 2003 Rakesh Agrawal - Ramakrishnan Srikant Fast Algorithms for Mining Association Rules IBM Almadén Research Center 650 Harry Road, San Jose, CA 95120 Huang - Kecman - Kopriva Kenel Based Algorithms for Mining Huge Data Sets Supervied, Semi -supervised, and unsupervised Learning 2006 ... Đại học nước để tổ chức Hội thảo Quốc gia "Một số vẩn đề chọn lọc Công nghệ thông tin Với chủ để khác nhau, hội thảo Quốc Gìa. "Một số vấn đề chọn lọc Cơng nghệ thông tin ” thực trở thành diễn... đề chọn lọc cùa Công nghệ thông tin truyền thông, Hưng Yên, 19-20 tháng 08 nâm Ĩ0 LỜI NÓI ĐẦU Hội thảo Quốc gia "Một sổ vấn đề chọn lọc Công nghệ thông tin ” khởi xướng theo sáng kiến Viện Công. .. thứ XIII "Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông" Viện Công nghệ thông tin - Viện Khoa học Công nghệ Việt Nam Đại học Sư phạm Kỹ thuật Hưng Yên tổ chức Khoái Châu, Hưng Yên từ

Ngày đăng: 20/05/2021, 01:55

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan