1. Thut toỏn chuyn i kiu ch Thut toỏn ny nhn din v chuyn i mt vn bn Ting Vit t cỏc kiu nhp vn bn (VN6909, VN1258, VNI, TCNV3, VIETWARE) sang nh dng unicode vn6909. Thut toỏn: u vo: chui vn bn cn chuyn i kiu u ra: Chui vn bn ó c chuyn v nh dng unicode vn6909 Ni dung: o Nhn din kiu ch ca on vn bn a vo (1) o Chuyn sang nh dng unicode vn6909 (2) Thut toỏn (1) u vo: chui vn bn cn nhn dng u ra: Kiu gừ ca chui vn bn ú Ni dung: o Khai bỏo mng cỏc chui ký t c bit s dng khỏc nhau ca cỏc loi kiu gừ ó c nhn din nh trờn. o m tn xut trựng ca vn bn so vi cỏc bng mó ó khai bỏo o Mó c nhn din l mó cú s ký t trựng nhiu nht vi bng mó ó khai bỏo. Vớ d mng khai bỏo sau õy dựng nhn dng kiu nhp vn bn theo TCVN3 string[] tcvn3 ={ "à", "ả", "", "á", "ạ", "ằ", "ẳ", "ẵ", "ắ", "ầ" , "ẹ", "ò", "ồ", "ổ", "ủ", "ữ", "ứ", "ì", "ỉ", "ĩ" , "ị", "ỵ", "Aà", "Aả", "A", "Aá", "Aạ", "Ăằ", "Ăẳ" , "Ăẵ", "Ăắ", "Ăặ", "Âầ", "Âẩ", "Âẫ", "Âấ", "Âậ", "Eè" , "Eẻ", "Eẽ", "Eé", "Eẹ", "Êề", "Êể", "Êễ", "Êế", "Êệ" , "Oò", "Oỏ", "Oõ", "Oó", "Oọ", "Ôồ", "Ôổ", "Ôỗ", "Ôố" , "Ôộ", "Ơờ", "Ơở", "Ơỡ", "Ơớ"\, "Ơợ", "Uù", "Uủ", "Uũ" , "Uú", "Uụ", "Ưừ", "Ưử", "Ưữ", "Ưứ", "Ưự", "Iì", "Iỉ" , "Iĩ", "Ií", "Iị", "Yỳ", "Yỷ", "Yỹ", "Yý", "Yỵ", "â" , "ă", "ê", "đ", "ô", "ơ","", "Â", "Ă", "Ê", "Đ", "Ô" , "Ơ","Ư" }; Thuận toán (2) • Đầu vào: chuỗi văn bản cần chuyển mã và mã của văn bản đã được nhận dạng từ thuật toán (1) • Đầu ra: Chuỗi văn bản đã được chuyển mã • Nội dung: o Khai báo mảng các ký tự mã nguồn (theo nhận diện) và mã đích (vn6909) o Lặp lại tất cả từng ký tự trong văn bản gốc o Thay thế ký tự ở mã nguồn bằng ký tự ở mã đích o Trả về kết quả là mã đã chuyển. Ví dụ mảng ký tự mã nguồn của TCVN3 private char[] TCVN3_CHAR = { '\u00FC', '\u00FB', '\u00FE', '\u00FA', '\u00F9', '\u00F7', '\u00F6', '\u00F5', '\u00F8', '\u00F1', '\u00F4', '\u00EE', '\u00EC', '\u00EB', '\u00EA', '\u00ED', '\u00E9', '\u00E7', '\u00E6', '\u00E5', '\u00E8', '\u00E1', '\u00E4', '\u00DE', '\u00D8', '\u00D6', '\u00D4', '\u00D3', '\u00D2', '\u00D5', '\u00CF', '\u00CE', '\u00D1', '\u00C6', '\u00BD', '\u00BC', '\u00AB', '\u00BE', '\u00CB', '\u00C9', '\u00C8', '\u00C7', '\u00CA', '\u00B6', '\u00B9', '\u00AD', '\u00A6', '\u00AC', '\u00A5', '\u00F2', '\u00DC', '\u00AE', '\u00A8', '\u00A1', '\u00F3', '\u00EF', '\u00E2', '\u00BB', '\u00E3', '\u00DF', '\u00DD', '\u00D7', '\u00AA', '\u00D0', '\u00CC', '\u00B7', '\u00A9', '\u00B8', '\u00B5', '\u00A4', '\u00A7', '\u00A3', '\u00A2' }; 2. Trích lọc văn bản từ các định dạng khác nhau Việc trích lọc nội dung văn bản phụ thuộc vào định dạng tệp tin mà người dùng định nghĩa cho phép nhận diện. Các tệp tin này phải được khai báo trước và có cách đọc cũng như trích lọc khác nhau. Ứng dụng này định hướng để đọc nội dung từ các loại văn bản sau đây: • Tệp tin văn bản Microsoft Word với các phiên bản 2003 và 2007 tương đương với phần mở rộng .doc và .docx • Tệp tin văn bản Microsoft Power Point với các phiên bản 2003 và 2007 tương đương với phần mở rộng .ppt và .pptx • Tệp tin văn bản Microsoft Excel với các phiên bản 2003 và 2007 tương đương với phần mở rộng .xls và .xlsx • Tệp tin văn bản với định dạng pdf • Tệp tin html với các phần mở rộng html, htm và nội dung html từ địa chỉ web Thuật toán trích lọc văn bản từ tệp tin có định dạng HTML • Đầu vào: Tệp tin văn bản với định dạng HTML • Đầu ra: văn bản hoàn toàn gồm các kí tự • Nội dung: o Đọc nội dung văn bản đưa về định dạng chuỗi các ký tự. o Hủy bỏ dòng trắng không được hiển thị trên HTML. o Hủy bỏ khoảng trắng tab. o Hủy bỏ các ký tự trắng liên tiếp trong HTML. o Hủy bỏ thẻ HEAD. o Hủy bỏ tất cả JavaScript. o Thay thế các ký tự đặc biệt như &, <, >, "… o Kiểm tra xem có ngắt dòng (<br>) hoặc khoản (<p>). o Bước cuối cùng, loại bỏ tất cả các thẻ HTML và trả về hoàn toàn là các ký tự. Thuật toán chuyển từ tệp tin văn Microsoft Word về dạng văn bản. • Đầu vào: Tệp tin văn bản với định dạng .doc, .docx • Đầu ra: văn bản hoàn toàn gồm các kí tự • Nội dung: o Khai báo đối tượng Microsoft.Office.Interop.Word.Document o Sử dụng phương thức ActiveWindow.Selection.WholeStory() để đọc nội dung của văn bản. o Nội dung văn bản text sẽ được khai thác qua thuộc tính Content.Text; Thuật toán chuyển từ tệp tin văn Microsoft Power Point về dạng văn bản. • Đầu vào: Tệp tin văn bản với định dạng .ppt, .pptx • Đầu ra: văn bản hoàn toàn gồm các kí tự o Khai báo đối tượng Microsoft.Office.Interop.PowerPoint.Presentation o Duyệt qua từng trang trình diễn Duyệt qua từng đối tượng textbox trang Lấy nội dung văn bản thêm vào dữ liệu đã lấy o Trả lại kết quả đã trích xuất được Thuật toán chuyển từ nội dung từ địa chỉ URL về dạng văn bản. • Đầu vào: nội dung của văn bản được lưu trên web thông qua địa chỉ URL • Đầu ra: văn bản hoàn toàn gồm các kí tự o Khai báo đối tượng WebClient dùng để khai thác dữ liệu qua các trang web. o Tải nội dung HTML từ địa chỉ web về và lưu vào một chuỗi ký tự o Xử lý loại bỏ các ký tự định dạng HTML như phần trích lọc HTML o Trả lại kết quả đã được loại bỏ định dạng Thuật toán đọc hình ảnh từ văn bản Microsoft Word. • Đầu vào: Tệp tin văn bản với định dạng .doc, .docx • Đầu ra: mảng các hình ảnh o Khai báo đối tượng Document dùng để đọc nội dung văn bản Word. o Duyệt qua tất cả các hình vẽ có trên tệp tin đã đọc Khai báo đối tượng Clipboard để chép nội dung hình ảnh đã được đọc rồi sau đó ghi vào đối tượng hình ảnh Bitmap. Lưu dữ liệu vào mảng các hình ảnh o Trả lại kết quả là mảng các hình ảnh . thế các ký tự đặc biệt như &, <, >, "… o Kiểm tra xem có ngắt dòng (<br>) hoặc khoản (<p>). o Bước cuối cùng, loại bỏ tất cả các thẻ HTML và trả về hoàn toàn là các ký. bản từ các định dạng khác nhau Việc trích lọc nội dung văn bản phụ thuộc vào định dạng tệp tin mà người dùng định nghĩa cho phép nhận diện. Các tệp tin này phải được khai báo trước và có cách đọc. dung từ các loại văn bản sau đây: • Tệp tin văn bản Microsoft Word với các phiên bản 2003 và 2007 tương đương với phần mở rộng .doc và .docx • Tệp tin văn bản Microsoft Power Point với các phiên