1. Trang chủ
  2. » Cao đẳng - Đại học

Xây dựng quy trình và thuật toán để phân loại tài liệu TBT

12 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Trong bài viết này trình bày bài toán Phân loại Tài liệu TBT, mà có hai công việc chính (quy trình phân loại và thuật toán thực hiện), được xem như là một trong các thành phần cần thiết trong quá trình phát một Hệ thông minh. Quy trình phân loại này trải qua các bước trong một tiến trình xử lý thống nhất và có các đặc trưng giống như của một thuật toán.

KHOA HỌC - ỨNG DỤNG XÂY DỰNG QUY TRÌNH VÀ THUẬT TOÁN ĐỂ PHÂN LOẠI TÀI LIỆU TBT  ThS NGUYỄN MINH ĐẾ (*) TÓM TẮT Trong báo trình bày tốn Phân loại Tài liệu TBT, mà có hai cơng việc (quy trình phân loại thuật toán thực hiện), xem thành phần cần thiết trình phát Hệ thơng minh Quy trình phân loại trải qua bước tiến trình xử lý thống có đặc trưng giống thuật toán Bài báo đưa hai phương pháp để phân loại tài liệu TBT, gồm có hai hướng chính: theo mơ hình phân loại tài liệu TBT theo nội dung tài liệu TBT Mơ hình phân loại tài liệu xây dựng theo mơ hình Taxonomy phân cấp việc phân cấp sử dụng bảng/khung phân loại cho trước Phương pháp phân loại tài liệu TBT theo nội dung thực theo quy trình xử lý thống có sử dụng hai kỹ thuật: mơ hình N-Gram tính trọng số TF-IDF Từ khóa: Chỉ số phân loại (CSPL), mơ hình Taxonomy, phân loại tài liệu theo mơ hình, phân loại tài liệu theo nội dung, mơ hình N-Gram, trọng số TF-IDF SUMMARY In this paper, we present the problem of TBT Document Classification, which has two major tasks (classification process and executive algorithm), which is considered as one of essential components in developing a Smart System This classification process has steps in a unified process, and it has characteristics as an algorithm This paper proposes two methods for TBT Document Classification, these two methods consist of two main directions: according to the model of TBT Document Classification; and according to the content of TBT documents The model of Document Classification will be constructed in hierarchical Taxonomy model, and this hierarchy will be based on given classification tables/frames The method of content-based TBT Document Classification is performed in a unified treatment process, with two techniques: N-Gram model; and TF-IDF weighting Key words: Categorical Indicator (CI); Taxonomy Model; Document Classification according to the model; Document Classification according to the content; N-Gram model; TF-IDF weight Mở đầu Phân loại tài liệu TBT công việc quan trọng để phục vụ hỗ trợ cho mục tiêu đề tài “Nghiên cứu xây dựng Hệ hỏi đáp thông minh cho thông tin Hàng rào Kỹ thuật Thương mại (TBT) tỉnh Long An” Mục tiêu đề tài “Nghiên cứu xây dự ỏi đáp thông minh TBT Long An”, chia làm thành phần nhỏ cần phải xây dựng Các thành phần rời rạc độc lập với nhau, có tồn liên kết cần thiết để tạo thành chỉnh thể hệ thống Sự liên kết tổ chức thành hệ thống có cấu trúc tương tự phân tán, nghĩa cho phép có thiếu vắng số thành phần bên hệ thống hoạt động Hệ thống để phân loại tài liệu có hai cơng việc cần phải xây dựng: Quy trình phân loại; Phương pháp hỗ trợ việc phân loại Quy trình phân loại tài liệu công việc cần thiết để định hình bước phải thực Tiếp theo, phải xây dựng hệ thố ối ưu để dẫn nội dung thực định hướng cho chương trình máy tính thực thi Quy trình phân loại tài liệu cần phải xây dựng trước tiên Sau đó, từ quy trình phân loại có xác định phương TẠP CHÍ KINH TẾ - CƠNG NGHIỆP 64 KHOA HỌC - ỨNG DỤNG pháp thực cụ thể Phương pháp thực chia làm hai loại: thủ cơng tin học hóa (chương trình máy tính) Chương trình máy tính cần có thuật tốn để xác định hoạt động cần phải thực theo thứ tự trước sau ẽ xây dựng theo mơ hình từ thuật toán tổng quát thuật toán chi tiế ất đa cấp bậc lồng ghép lại, có liên kết lại với nhau, có đặc trưng riêng thành phần thiết kế, xây dựng qua phiên khác Bài trước tiên đề nghị quy trình thống để phân loại tài liệu TBT có tiến trình xác định Quy trình có số đặc tính đặc trưng thuật tốn: Tính xác định; Tính hữu hạn; Tính kết quả; Tính phổ dụng; Tính hình thức Bài đưa phương pháp phân loại tài liệu TBT thuật toán cần thiết để thực Phương pháp phân loại theo hướng: Hướng theo mơ hình phân loại tài liệu TBT; Hướng theo nội dung tài liệu TBT Các thuật tốn chia làm hai nhóm tương ứng để thực cho phương pháp phân loại phù hợp Phần lại sau: Phần 2, phần trình bày thành phần phân loại tài liệu theo mơ hình phân cấp Taxonomy; Phần 3, trình bày quy trình phân loại tài liệu TBT phương pháp thực hiện; Phần 4, trình bày thuật toán để phục vụ cho phương pháp thực quy trình phân loại tài liệu TBT; Phần 5, trình bày kết kết luận Các thành phần Phân loại tài liệu theo mô hình phân cấp Taxonomy Phân loại tài liệu xem việc dựa vào dấu hiệu giống khác để phân chia, xếp tài liệu theo trật tự định Khung/bảng phân loại cấu trúc có việc phân loại thu gọn phản ánh vào giản đồ, bảng biểu (Scheme, Table) định theo nguyên tắc phân loại cho trước Một Taxonomy mô tả với gốc O, nút (gồm nút gốc O) thực thể giới thực Giữa nút Taxonomy có quan hệ: Một mối quan hệ đặc biệt gọi is subclassificationof (nếu hướng liên kết từ nút lên nút cha); is superclassification of hướng liên kết từ nút cha xuống nút Quan hệ chuyển thành hướng đối tượng tương ứng chặt chẽ sau: is subclass of (lớp con); is superclass of (lớp cha) Hình Cây phân cấp lớp thú dạng phân cấp Taxonomy Hình ảnh cấu trúc phân cấp Taxonomy Taxonomy gồm có nút gốc/lớp cha O (lớp thú), O có lớp/nút là: Bộ linh trưởng; Bộ ăn thịt; Bộ guốc chẵn Lớp/Nút Bộ linh trưởng có lớp/nút Họ khỉ Lớp/Nút Bộ ăn thịt có lớp/nút Họ mèo Lớp/Nút Bộ guốc chẵn có lớp/nút Họ lạc đà Chỉ số tài liệu hiệu phản ánh đặc trưng riêng tài liệu, bao gồm nhiề hiệu thể nội dung khác tài liệu Chỉ số thiết lập theo tiêu chuẩn TẠP CHÍ KINH TẾ - CÔNG NGHIỆP 65 KHOA HỌC - ỨNG DỤNG CSPL cụ thể, mà dựa vào số ICS HS hiệu phân loại đầy đủ thường ghi vị trí cụ thể, thơng thường phía trang tên tài liệu góc bên phải phía phiếu mơ tả cho tài liệu Sau phân loại tài liệu cần xếp tài liệu cách khoa học, cách xếp theo sau: Thời gian; Mẫu tự; Tính chất Danh mục tài liệu bảng liệt kê cách hệ thống tài liệu thu thập Nhờ vào danh mục mà thực xếp, quản lý tra cứu tài liệu cách nhanh chóng Danh mục tài liệu có tính chất sau: Cụ thể; Chính xác; Cập nhật thường xuyên Tài liệu phải lưu trữ vào vị trí định để cần truy cập nhanh chóng,và cần phải làm bảng liệt kê cách hệ thống tài liệu Nhờ vào danh mục mà xếp, quản lý tra cứu tài liệu nhanh chóng Lưu trữ điện tử sử dụng không để lưu trữ tài liệu điện tử (thu cách nhập liệu quét tài liệu) mà để tạo thư viện loại tập tin khác nhau: tập tin âm thanh, tập tin, hình ảnh… Phần trung tâm hệ thống lưu trữ điện tử kho lưu trữ điện tử Kho lưu trữ điện tử hệ thống lưu trữ có cấu trúc tài liệu điện tử Việc xây dựng kho lưu trữ điện tử hội để làm tài liệu khả nhanh chóng tìm thấy tài liệu cần thiết Biên mục tài liệu công việc quan trọng cần phải thực nhận tài liệu cụ thể Biên mục tài liệu thực việc thu thập thông tin tổng quát quan trọng tài liệu: nhan đề (tiêu đề), tác giả, nhà xuất bản/quốc gia, năm xuất bản, tóm tắt Mỗi thơng tin xem vùng thơng tin tài liệu Mỗi tài liệu có thơng tin tổng quát đặc trưng riêng, nên tài liệu có vùng thơng tin khác nhau, xét tài liệu TBT có vùng thơng tin sau: i Vùng nhan đề [tài liệu] minh xác trách nhiệm ii Vùng sản phẩm iii Vùng địa xuất iv Vùng thời gian v Vùng chi tiết vật chất tài liệu vi Vùng tài liệu kèm theo vii Vùng tóm tắt viii Vùng mã số/ký hiệu Tài liệu TBT phải chuyển thành dạng bản: văn giấy tài liệu điện tử (file liệu) trình bày mơ hình lưu trữ tài liệu điện tử (tập tin liệu) Cấu trúc lưu trữ dạng thư mục có phân cấp (cây Taxonomy), bao gồm thư mục tập tin tài liệu Một tài liệu TBT thu vùng thơng tin trên, có thơng tin hữu dụng sử dụng để phân loại tài liệu: Chuyên mục; Quốc gia/Khu vực; Cơ quan/tổ chức phi phủ có thẩm quyền trách nhiệm; Khung phân loại Sản phẩm; Sản phẩm; Mã ký hiệu Sáu thông tin xem lớp để phân loại tài liệu TBT Như vậy, thư mục lưu trữ có lớp tương ứng, Mơ hình phân loại tài liệu: i Lớp cấp 0, Chuyên mục gồm có thư mục tương ứng với chuyên mục phân chia từ trước ii Lớp cấp 1, Quốc gia/Khu vực gồm có thư mục tương ứng với Quốc gia/Khu vực Mỗi thư mục Quốc gia/Khu vực sử dụng tên viết tắt có ký tự TẠP CHÍ KINH TẾ - CÔNG NGHIỆP 66 KHOA HỌC - ỨNG DỤNG iii Lớp cấp 2, Cơ quan/Tổ chức gồm có thư mục tương ứng với Cơ quan /Tổ chức Mỗi thư mục Cơ quan /Tổ chức sử dụng tên viết tắt thức Cơ quan /Tổ chức iv Lớp cấp 3, Khung phân loại gồm có thư mục tương ứng với Khung phân loại Mỗi thư mục Khung phân loại (chủ yếu khung/bảng HS ICS) v Lớp cấp 4, Sản phẩm gồm có thư mục tương ứng với Sản phẩm Mỗi thư mục Sản phẩm sử dụng ký hiệu theo quy định Khung phân loại cho trước vi Lớp cấp 5, Mã/Số ký hiệu tập tin tài liệu TBT Mỗi tập tin có tên Mã/Số ký hiệu Quy trình phân loại tài liệu TBT phương pháp thực 3.1 Tài liệu TBT đa số tồn dạng: văn giấy; liệu điện tử (chủ yếu tập tin loại: văn kiểu text; văn kiểu pdf…) Đối với dạng tài liệu sử dụng quy trình xử lý giống nhau, tất tài liệu TBT phải chuyển sang dạng tập tin thực tiếp quy trình phân loại Cơng tác biên mục phân loại tài liệu khâu quan trọng quy trình phân loại tài liệu TBT Tài liệu sau thừa nhận để đưa vào phân loại phải trải qua q trình xử lý chun mơn nghiệp vụ hồn chỉnh đưa vào phục vụ Mỗi tài liệu bổ sung vào phải nhân phụ trách công tác bổ sung lựa chọn phương pháp phù hợp cho Tài liệu bắt đầu nhập vào phải trải qua tất khâu xử lý quy định trước công tác biên mục phân loạ đề cập đến phương pháp xử lý thủ công phương pháp xử lý nghiệp vụ tin học hóa (chương trình máy tính) Khi tài liệu bắt đầu đưa vào quy trình phải qua tác vụ phận nghiệp vụ đăng ký tổng quát, đăng ký cá biệt cho tài liệu, đóng dấu xác nhận vào bắt đầu tiến hành công tác biên mục, phân loại, lưu trữ Quy trình phải thực qua bước, có tổng cộng bước Các bước thực có liên tục khơng bỏ bước thực Bước thực trước phải thực xong hồn tất chuyển qua bước Từng bước thực thủ cơng có hỗ trợ phần mềm máy tính 3.2 Các bước thực mơ tả chi tiết Sáu bước để phân loại tài liệu TBT: B1: Nhận tài liệu TBT thực việc kiểm tra mặt số lượng, chất lượng tài liệu B2: Đăng ký tài liệu Sổ đăng ký tổng quát/cá biệt B3: Xác định dạng tài liệu TBT • Nếu: Dạng tài liệu điện tử (tập tin) thực B4 • Nếu: Dạng tài liệu giấy o Chuyển dạng tài liệu sang dạng tài liệu điện tử (tập tin) o Thực B4 B4: Thực thủ tục hành có (sao chép, đóng dấu chủ quyền, lập báo cáo, …) B5: Thực tác vụ biên mục phân loại tài liệu tả; Mẫu danh mục tài liệu; Mơ hình phân loại qua lớp (theo CSPL) theo nội dung tài liệu • B5.1: Mơ tả tài liệu • B5.2: Lập đề mục (lập danh mục tài liệu TBT có) • B5.3: Phân loại (xác định CSPL) TẠP CHÍ KINH TẾ - CƠNG NGHIỆP 67 KHOA HỌC - ỨNG DỤNG B6: Lưu trữ tài liệu xếp theo tiêu chí thích hợp • B6.1: Tạo thư mục (theo cấu trúc CSPL, theo Mơ hình lưu trữ tài liệu TBT) • B6.2: Sao chép liệu (theo cấu trúc Mơ hình lưu trữ tài liệu TBT) • B6.3: Sắp xếp (theo tiêu chí) BKT: Kết thúc Mơ tả chi tiết bước: B1: Nhận tài liệu TBT kiểm tra mặt số lượng chất lượng, thực thủ công đề tài liệu để vào Sổ (SĐKTQ/SĐKCB Bảng Bảng 2), có B2: Đăng ký tài liệu, đọ thể dùng phần mềm máy tính để hỗ trợ • Vào SĐKTQ, mẫu sổ Bảng Toàn tài liệu nhập vào phải ghi đầy vào Sổ ĐKTQ • Vào SĐKCB, mẫu sổ Bảng Sổ ĐKCB cung cấp thông tin cụ thể, chi tiết tài liệu nhập vào Tài liệu sau đăng ký tổng quát, đăng ký chi tiết vào sổ đăng ký riêng B3: Xác định dạng Tài liệu TBT, việc chuyển dạng tài liệu sang dạng tài liệu điện tử (tập tin) thực thủ cơng (có hỗ trợ phần mềm) B4: Thực thủ tục hành chính, thực thủ công B5: Thực tác vụ biên mục phân loại, gồm có bước • B5.1: Mơ tả tài liệu TBT theo Chuẩn biên mục mô tả tài liệu TBT, có vùng sử dụng phần mềm để thực • B5.2: Lập danh mục tài liệu TBT, theo mẫu Bảng • B5.3: Phân loại Xác định CSPL cho tài liệu TBT, thực thủ công nhờ phần mềm hỗ trợ qua bước mơ hình phân loại Mơ hình phân loại tài liệu TBT có lớp nên có khối mã/số Như vậy, CSPL có khối (Chuyên mục, Quốc gia, Cơ quan/Tổ chức, Khung phân loại, Sản phẩm, Ký hiệu) B6: Lưu trữ tài liệu xếp theo tiêu chí thích hợp, gồm có bước • B6.1: Tạo thư mục Theo mơ hình phân loại tài liệu TBT thư mục có cấp theo CSPL Thực cho CSPL từ trái sang phải, thư mục tương ứng với khối CSPL, thư mục chưa có tạo ra, có truy xuất vào lặp lại hết • Thư mục gốc chứa • chứa thư mục VNM • VNM chứa MH • MH chứa thư mục • có chứa thư mục 67.100.10 • Thư mục 67.100.10 có chứa tập tin G/TBT/N/VNM/78.*, đổi dấu “/” thành dấu “-” dấu khác Hình 2: Cấu trúc thư mục lưu trữ tài liệu TBT • B6.2: Sao chép liệu Có thể thực thủ cơng nhờ hỗ trợ phần mềm TẠP CHÍ KINH TẾ - CƠNG NGHIỆP 68 KHOA HỌC - ỨNG DỤNG • B6.3: Sắp xếp Theo tiêu chí chọn, thực thủ công nhờ hỗ trợ phần mềm BKT: Kết thúc Phương pháp phân loại tài liệu thuật toán 4.1 Phương pháp phân loại tài liệu TBT • Phân loại theo mơ hình phân loại Hướng tiếp cận là: Xác định CSPL; Tìm vị trí thích hợp cho nội dung tài liệu TBT Ngồi ra, việc phân loại tài liệu cịn theo hướng khác phân loại theo nội dung tài liệu Sau phân loại CSPL tài liệu TBT thiết lập sau thực tiếp việc lưu trữ tài liệu Tuy nhiên việc thiết lập CSPL việc lưu trữ tài liệu thực song song Thuật toán “Xây dựng CSPL lưu tài liệu” thực hai cơng việc đồng thời • Phân loại tài liệu theo nội dung tài liệu Số lượng tài liệu TBT gia tăng theo thời gian lưu trữ toàn tài liệu dạng văn Đa số phương pháp phân loại nội dung tài liệu theo số hướng chung: Máy học; Mơ hình xác suất thống kê; Giải thuật học tự động… Bài toán phân loại tài liệu dựa vào chủ yếu tình phân loại dựa CSDL có sẵn tài liệu TBT Thuật tốn phân loại thực phân loại toàn tập liệu xử lý trước thuộc CSDL tài liệu Quy trình chung cho phương pháp phân loại tài liệu theo nội dung: • Sắp xếp tài liệu theo tiêu chí xác định trước; • Xây dựng liệu để học; • Tiến hành học liệu; • Xử lý liệu có được; • Thu thập kết theo chủ đề; • Rút đặc trưng riêng biệt; • Kết hợp đặc trưng học với đặc trưng riêng biệt; • Phân loại đưa kết Để cung cấp số kỹ thuật xử lý cần thiết cho bước quy trình phân loại có nội dung kỹ thuật sau: o Quy trình xử lý tài liệu: nêu lên bước cần thiết để phân loại tài liệu o Phương pháp tách từ: kỹ thuật sử dụng phương pháp n-gram để lấy từ cần thiết o Phương pháp tính trọng số từ: kỹ thuật đếm từ văn o Cấu trúc biểu diễn tri thức RDF: cách để biểu diễn tri thức thu 4.2 Thuật toán phân loại tài liệu TBT Phân loại tài liệu theo mơ hình phân loại Do CSPL có cấu tạo từ khối nên có bước để xác định CSPL tương ứng với việc lưu trữ tài liệu Thuật tốn Xay_Dung_CSPL_Luu thực cơng việc chính: tạo CSPL lưu trữ tài liệu vị trí Dữ liệu đầu vào tài liệu TBT dạng văn xử lý theo tiêu chuẩn cho trước Kết thúc thuật tốn tài liệu định theo CSPL lưu trữ vị trí - Hàm Lay_ThuMuc (ThietBiLuu, ViTri) có tham số vào: thiết bị để lưu trữ tài liệu TBT F (ThietBiLuu); vị trí để lưu (ViTri) Hàm trả kết thư mục gốc dùng để chứa tài liệu TBT F TẠP CHÍ KINH TẾ - CƠNG NGHIỆP 69 KHOA HỌC - ỨNG DỤNG - Sáu hàm (Lay_So_Chuyen_Muc(), Lay_Quoc_Gia_Khu_Vuc(), Lay_Co_Quan_To_Chuc(), Lay_Khung_Phan_Loai(), Lay_Ma_San_Pham(), Lay_Ky_Hieu()) có tham số vào tập tin TBT F xử lý trả tương ứng cho sáu chuỗi (mã số chuyên mục, mã số quốc gia/khu vực, viết tắt quan/tổ chức, k hiệu Khung phân loại, k hiệu Sản phẩm, k hiệu tài liệu TBT) Thuật toán Xay_Dung_CSPL_Luu Function Xay_Dung_CSPL_Luu Input: F (Tập tin TBT); Output: CSPL TM TM  Lay_ThuMuc(ThietBiLuu, ViTri) CSPL “”// CSPL rỗng CSPL  Lay_So_Chuyen_Muc(F) Dua_Tai_Lieu_Vao(F, CSPL, TM) CSPL  CSPL Lay_Quoc_Gia_Khu_Vuc(F) Dua_Tai_Lieu_Vao(F, CSPL, TM) CSPL  CSPL + Lay_Co_Quan_To_Chuc(F) Dua_Tai_Lieu_Vao(F, CSPL, TM) CSPL  CSPL Lay_Khung_Phan_Loai(F) + “.” “.” + “.” + + + 10 Dua_Tai_Lieu_Vao(F, CSPL, TM) 11 CSPL  CSPL + “.” + Lay_Ma_San_Pham(F) 12 Dua_Tai_Lieu_Vao(F, CSPL, TM) 13 CSPL  CSPL + “.” + Lay_Ky_Hieu(F) 14 Dua_Tai_Lieu_Vao(F, CSPL, TM) 15 Bkt Kết thúc Thuật tốn Dua_Tai_Lieu_Vao thực cơng việc chính: đọc, phân tích CSPL, đưa tập tin đầu vào đến vị trí dựa thư mục đầu vào Thuật toán Dua_Tai_Lieu_Vao Input: F; CSPL; TM VT  Lay_Do_Dai(CSPL) //độ dài TTM  Lay_TenThuMuc(CSPL) Nếu TTM != “” Thì Chuyen_Tai_Lieu_Vao(F, TM) Bkt Kết thúc Ngược lại Tao_ThuMuc(TM, TTM) Bkt Kết thúc Giải thích hàm/thủ tục thuật tốn dưới: • Hàm Lay_Ky_Tu có tham số vào là: Vị trí (VT); Chuỗi gốc (CSPL) Hàm trả kết ký tự vị trí VT chuỗi gốc CSPL TẠP CHÍ KINH TẾ - CƠNG NGHIỆP 70 KHOA HỌC - ỨNG DỤNG • Hàm Lay_Chuoi có tham số vào là: Vị trí bắt đầu (VTD); Vị trí kết thúc (VTC); Chuỗi gốc (CSPL) Hàm trả kết chuỗi ký tự mà có bắt đầu vị trí VT lấy hết chuỗi gốc CSPL • Hàm Lay_TenThuMuc(CSPL) để lấy tên thư mục, TTM = “” thực việc đưa/sao chép tài liệu vào chỗ với thủ tục Chuyen_Tai_Lieu_Vao(F, TM), TTM != “” thực việc thủ tục Tao_ThuMuc(TM, TTM) • Thủ tục Tao_ThuMuc(TM, TTM) để kiểm tra xem TM tồn TTM chưa, chưa tạo mới, có bỏ qua Phân loại tài liệu theo nội dung tài liệu TBT Các kỹ thuật để thực nghiên cứu cơng trình Quy trình xử lý Hình 3: Quy trình xử lý tài liệu Trong đó: – Ngữ liệu huấn luyện: kho ngữ liệu thu thập từ nhiều tài liệu khác – Tiền xử lý: chuyển đổi tài liệu kho ngữ liệu thành hình thức phù hợp để phân loại/lớp – Vector : mã văn mơ hình trọng số – Trích chọn đặc trưng: loại bỏ từ (đặc trưng) không mang thông tin khỏi tài liệu nhằm nâng cao hiệu suất phân loại giảm độ phức tạp thuật toán huấn luyện – Thuật toán huấn luyện: Thủ tục huấn luyện phân lớp để tìm họ tham số tối ưu – Đánh giá: bước đánh giá hiệu suất (chất lượng) phân lớp/loại Phương pháp tách từ Phương pháp tách từ sử dụng mơ hình N-gram N-gram tần suất xuất củ tự (hoặc từ) liên tiếp có liệu – Với n = tính k tự, có thơng tin tần suất xuất nhiều chữ – Với n = 2, có khái niệm bigram Ví dụ: với chữ tiếng Anh, ‘th’,’he’,’in’,’an’,’er’ cặp k tự hay xuất Ngồi ra, ta biết thêm sau k tự ‘q’ phần lớn k tự ‘u’ – Với n = 3, có trigram Nhưng n lớn số trường hợp lớn nên thường sử dụng với n = 2, đơi lúc Ví dụ, với k tự tiếng Anh, tiếng Anh sử dụng 26 k tự, với n = số trường hợp 26, n = số trường hợp 262 = 676 trường hợp, n = có 17576 trường hợp TẠP CHÍ KINH TẾ - CƠNG NGHIỆP 71 KHOA HỌC - ỨNG DỤNG Hướng tiếp cận giải là: chia văn làm nhiều chuỗi; chuỗi gồm n từ; thường sử dụng n = Ví dụ, áp dụng phương pháp cho văn T = “dc gt de” thu từ từ đơn (dc; gt; de) từ ghép (dc gt; gt de) Vấn đề khó khăn xây dựng mơ hình ngơn ngữ N-gram: i Phân bố khơng đều: Mơ hình N-gram xây dựng theo cơng thức “xác suất thơ”, xuất phân bố không phân bố thưa tập văn huấn luyện dẫn đến ước lượng khơng xác kết thu khơng tốt Có nhiều câu văn mà xác suất 0, cụm N-gram chưa tồn liệu huấn luyện Để khắc phục tình trạng sử dụng phương pháp làm mịn ii Kích thước nhớ mơ hình ngơn ngữ: Số lượng cụm N-gram kích thước mơ hình ngơn ngữ tăng lên tùy theo kích thước tập văn huấn luyện Phương pháp làm mịn: có số loại khác (Chiết khấu-Discounting); Truy hồi (Back-off); Nội suy (Interpolation)) Trong khơng trình bày nội dung so sánh phương pháp làm mịn, mà trình bày Thuật tốn tách từ Đối với tài liệu TBT cụ thể lựa chọn kỹ thuật làm mịn theo dẫn riêng phù hợp với Thuật tốn Tach_Tu_Ngram lấy độ dài chuỗi n, tạo danh sách lưu trữ kq, tiếp lấy ký tự, số lượng ký tự lấy phụ thuộc vào tham số gram đầu vào, đưa chuỗi ký tự lấy vào kq để lưu trữ Thuật toán Tach_Tu_Ngram Function Tach_Tu_Ngram Input: self; statement; gram n  len(statement) kq[] // tạo mảng lưu kết IF n >= gram THEN For i in n kq = incre(kq[statement[i:i + gram]) Kết thúc Phương pháp tính trọng số từ Giải thuật: Bước 1: Loại bỏ từ tầm thường (stopword) Bước 2: Đếm tần suất xuất từ bước Bước 3: Tính trọng số từ theo cơng thức khung dưới: TẠP CHÍ KINH TẾ - CÔNG NGHIỆP 72 KHOA HỌC - ỨNG DỤNG Weightwi=tf*idf tf =Ns(t)/∑w idf =log(∑d/(d:t∈d)) Trongđó: Ns:Số lần xuất từ tài liệu ∑w:Tổng số từ tài liệu ∑d=tổng số tài liệu D : t ∈d:số tài liệu có chứa từ Cho văn gồm có 1000 từ, từ “Sản Phẩm” xuất 40 lần độ phổ biến Tf (“Sản Phẩm”) = 40 / 1000 = 0.04 Giả sử có 2000 tài liệu huấn luyện, có 400 tài liệu chứa từ “Sản Phẩm” Idf (“Sản Phẩm”) = log (2000 / 400) ≈ 0.699 Như vậy, với giá trị TF.IDF=tf*idf TF.IDF=0.04*0.699=0.028 Kết thảo luận Tài liệu TBT thu thập tăng theo thời gian, phân loại lưu trữ theo phương pháp xử lý trực tiếp liên tục (khi nhận tài liệu TBT thực việc xử lý phân loại) Tài liệu TBT có nội dung khác phân chia vào thể loại khác Bài đề nghị tài liệu TBT phải phân loại vào năm loại văn bản: Luật; Thông báo; Quy chuẩn; Tiêu chuẩn; Tranh chấp Số lượng tài liệu TBT thu thập 21706, phân bố theo loại: Luật (1347); Thông báo (10481); Quy chuẩn (146); Tiêu chuẩn (9692); Tranh chấp (40) Một tài liệu TBT sau thu thập qua bước trình bày nội dung phần Trong bước trình bày có bước quan trọng cần tập trung B5 B6 Hai bước bày dùng thuật toán để thực song song với B5 B6 có tác vụ chủ yếu sau: i Xác định tài liệu thuộc loại (Luật; Thông báo; Quy chuẩn; Tiêu chuẩn; Tranh chấp), phương pháp thực thủ công (đọc nội dung tài liệu, xác định loại văn tùy thuộc vào nhận biết chuyên môn người) ii Làm mẫu/phiếu biên mục tài liệu, phiếu thiết kế sẵn theo mẫu Bảng Bảng Công tác điền vào mẫu nhập thủ công thông qua chương trình máy tính Việc nhập giá trị vào tùy thuộc việc áp dụng thực tiễn, báo đề nghị số nguyên tắc cần phải tuân thủ Các nguyên tắc sau: o Phải ghi đầy đủ nội dung vào sổ o Ngày ghi số Ả Rập, tháng ghi số La Mã o Các số vào sổ phải liên tục, không nhảy số, quay lại giá trị ban đầu tùy theo quy định khung thời gian (thường năm) o Nếu tên tài liệu dài, ghi tóm lược chữ đầu chấm, ghi chữ đầu + chấm + chữ cuối iii Một tài liệu TBT có vùng: Nhan đề [tài liệu]; Sản phẩm; Địa xuất (Cơ quan/Tổ chức xuất bản); Thời gian (xuất bản; góp ý; hiệu lực); Chi tiết vật chất tài liệu (dạng/loại, dung TẠP CHÍ KINH TẾ - CƠNG NGHIỆP 73 KHOA HỌC - ỨNG DỤNG lượng/kích thước); Tài liệu kèm theo (tên, dung lượng/kích thước); Tóm tắt; Mã/số Ký hiệu tiêu chuẩn iv Việc phân loại tài liệu theo hướng: Hướng theo Mơ hình phân loại tài liệu TBT; Hướng theo Nội dung tài liệu TBT Hướng theo Mơ hình phân loại áp dụng Thuật tốn Xay_Dung_CSPL_Luu Thuật tốn có cơng việc quan trọng xác định CSPL Xác định CSPL thực theo cách tiếp cận: thủ công (đọc tài liệu dị tìm bảng/khung phân loại); phát triển thuật tốn v Thuật tốn xác định CSPL có sử dụng thuật toán hỗ trợ: Lay_So_Chuyen_Muc(); Lay_Quoc_Gia_Khu_Vuc(); Lay_Co_Quan_To_Chuc(); Lay_Khung_Phan_Loai(); Lay_Ma_San_Pham(); Lay_Ky_Hieu() Sáu thuật toán xây dựng riêng qua phiên phát triển khác vi Tạo thư mục, trước tiên kiểm tra thư mục thích hợp tồn bỏ qua, chưa tồn thực thi Phương pháp thực thủ cơng phát triển chương trình hỗ trợ vii Sao chép liệu việc xếp thực song song đồng thời với nhau, thực c ng với phương pháp thực (thủ công phát triển chương trình hỗ trợ) Nếu bỏ qua chi phí thực bước B1, B2, B3, B4 chi phí thực cịn có B5 B6 bước nhỏ bên Chi phí thời gian thực thực tế phụ thuộc vào việc triển khai lập trình cho bước B5 B6 Cho CSDL TBT có số lượng tài liệu bước xử lý gia tăng sau: Bảng 4: Số lượng tài liệu TBT số bước thực tương ứng Số lượng Số bước Số lượng Số bước 1000 6000 2000 12000 4000 24000 8000 48000 16000 32000 64000 128000 96000 192000 384000 768000 Phụ lục bảng biểu Bảng 1: Mẫu Sổ đăng ký tổng quát Ngày STT Tựa (tiêu đề) Số 4.1 4.2 Nguồn 6.1 6.2 6.3 6.4 6.5 Bảng | Mẫu Sổ đăng ký cá/chuyên biệt Quốc gia tựa Ghi khác Chi phí Sao hụp Tổng số Tặng Nguồn cung cấp Trao đổi STT Mua Ngày Xuất Cơ quan / Tổ chức Năm 4.1 4.2 Chi phí Số vào SĐKTQ Phụ TẠP CHÍ KINH TẾ - CƠNG NGHIỆP 74 KHOA HỌC - ỨNG DỤNG Bảng 3: Mẫu danh mục tài liệu TBT STT Ngày Chuyên mục Quốc gia Cơ quan / Tổ chức Sản phẩm Số vào SĐKTQ Ký hiệu Tài liệu tham khảo [1] Customs Cooperation Council (WCO) (1983), Cơng ước Quốc tế Hệ thống hài hịa mơ tả mã hàng hóa (Cơng ước HS), Brussels [2] Cao Đức Tư (2011), Nghiên cứu mơ hình ngơn ngữ N-gram ứng dụng toán thêm dấu cho tiếng Việt không dấu”, Đại học Công nghệ thông tin, Đại học Thái Nguyên [3] (2005), International Classification for Standards (6th ed.)”, International Organization for Standardization, Switzerland [4] (2017), Nghiên cứu xây dựng Hệ hỏi đáp thông minh cho thông tin Hàng rào Kỹ thuật Thương mại (TBT) tỉnh Long An”, Trường Đại học Kinh tế Công nghiệp Long An [5] Trần Cao Đệ, Phạm Nguyên Khang, Phân loại văn với máy học vector hỗ trợ định, Trường đại học Cần Thơ [6].Trần Thị Thu Thảo, Vũ Thị Chinh, Xây dựng hệ thống phân loại tài liệu tiếng Việt, Khoa Công nghệ Thông tin, Trường Đại học Lạc Hồng : 17/10/2017 : 27/10/2017 TẠP CHÍ KINH TẾ - CƠNG NGHIỆP 75 ... thực tiếp quy trình phân loại Cơng tác biên mục phân loại tài liệu khâu quan trọng quy trình phân loại tài liệu TBT Tài liệu sau thừa nhận để đưa vào phân loại phải trải qua q trình xử lý chun mơn... 4, trình bày thuật toán để phục vụ cho phương pháp thực quy trình phân loại tài liệu TBT; Phần 5, trình bày kết kết luận Các thành phần Phân loại tài liệu theo mô hình phân cấp Taxonomy Phân loại. .. chủ yếu tình phân loại dựa CSDL có sẵn tài liệu TBT Thuật tốn phân loại thực phân loại toàn tập liệu xử lý trước thuộc CSDL tài liệu Quy trình chung cho phương pháp phân loại tài liệu theo nội

Ngày đăng: 16/02/2022, 09:34

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w