Tập mẫu đóng vai trò quan trọng trong quá trình huấn luyện. Khi miền trị của các thuộc tính trong tập mẫu huấn luyện là chưa thuần nhất, việc làm thuần nhất tập huấn luyện là bắt buộc. Đại số gia tử là một công cụ hữu ích để làm thuần nhất tập huấn luyện, bằng cách chuyển miền dữ liệu của thuộc tính chưa thuần nhất thành miền dữ liệu chứa các giá trị ngôn ngữ hay định lượng các giá trị ngôn ngữ về các giá trị kinh điển.
TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 14, Số (2019) MỘT PHƢƠNG PHÁP ĐỊNH LƢỢNG GIÁ TRỊ NGÔN NGỮ CHO TẬP MẪU HUẤN LUYỆN TRONG ĐIỀU KIỆN HẠN CHẾ Lê Văn Tƣờng Lân Khoa Công nghệ Thông tin, Trường Đại học Khoa học, Đại học Huế Email: lvtlan@yahoo.com Ngày nhận bài: 01/7/2019; ngày hoàn thành phản biện: 02/7/2019; ngày duyệt đăng: 02/7/2019 TĨM TẮT Tập mẫu đóng vai trị quan trọng trình huấn luyện Khi miền trị thuộc tính tập mẫu huấn luyện chưa nhất, việc làm tập huấn luyện bắt buộc Đại số gia tử công cụ hữu ích để làm tập huấn luyện, cách chuyển miền liệu thuộc tính chưa thành miền liệu chứa giá trị ngôn ngữ hay định lượng giá trị ngôn ngữ giá trị kinh điển Trong trình nhất, cần phải biết giá trị min, max miền trị kinh điển, thực tế, nhiều lúc ta chưa biết cụ thể giá trị min, max thuộc tính xét Trong báo này, xây dựng cách thức để định lượng giá trị ngôn ngữ miền giá trị *min, max] mà biết đoạn *1, 2+ chúng Từ khố: Tập mẫu huấn luyện, Giá trị ngơn ngữ, Cây định mờ I ĐẶT VẤN ĐỀ Cho tập huấn luyện, tất mẫu tập có chung cấu trúc, gồm cặp , thuộc tính đại diện cho lớp ta gọi thuộc tính dự đốn hay thuộc tính phân lớp Bài tốn phân lớp tốn tìm quy tắc xếp đối tượng vào lớp cho dựa tập mẫu huấn luyện Có nhiều phương pháp tiếp cận tốn phân lớp: Hàm phân biệt tuyến tính Fisher, Nạve Bayes, Logistic, Mạng nơ-ron, Cây định, … phương pháp định phương pháp phổ biến tính trực quan, dễ hiểu hiệu [2, 18] Trong giới thực, liệu nghiệp vụ đa dạng chúng lưu trữ để phục vụ nhiều cơng việc khác nhau, nhiều thuộc tính miền giá trị trước lưu trữ tồn nhiều thuộc tính có miền trị chưa [5, 7, 8, 12] Khi thuộc tính chưa xuất tập mẫu huấn luyện, 35 Một phương pháp định lượng giá trị ngôn ngữ cho tập mẫu huấn luyện điều kiện hạn chế thuật toán học để xây dựng chưa thể tiến hành Do đó, cần phải tiền xử lý liệu để có tập mẫu huấn luyện Vấn đề đặt ta phải xử lý để có kết khả quan Ví dụ 1: Cho bảng liệu DIEUTRA lưu trữ tình hình mua máy tính xách tay khách hàng công ty bảng 1, cần chọn mẫu huấn luyện để xây dựng định cho việc dự đoán khách hàng mua máy hay khơng Bảng 1: Tập mẫu có thuộc tính với liệu khơng qn (LươngTháng) NơiSống NgànhHọc KinhTế GiaĐình LƣơngTháng MáyTính T.Phố Luật Chưa tốt 45 Khơng NơngThơn Luật Chưa tốt Thấp Khơng T.Phố CNTT Chưa tốt 52 Có T.Phố LịchSử Trung bình 20 Có T.Phố LịchSử Khá Cao Có NơngThơn LịchSử Khá Cao Khơng NơngThơn CNTT Khá Rất cao Có T.Phố Luật Trung bình 35 Khơng T.Phố Luật Khá 100 Có T.Phố LịchSử Trung bình 50 Có NơngThơn Luật Trung bình Rất cao Có NơngThơn CNTT Trung bình Ít thấp Có T.Phố CNTT Chưa tốt 55 Có NơngThơn LịchSử Trung bình 50 Khơng Trong thời gian qua, đại số gia tử nhiều nhóm tác giả ngồi nước nghiên cứu có kết đáng kể, đặc biệt lập luận xấp xỉ số toán điều khiển *1, 6, 11-17, 21+ Việc sử dụng đại số gia tử để xử lý giá trị ngôn ngữ miền liệu chưa cho kết tích cực *6, 8+ Trong ví dụ 1, miền trị thuộc tính LươngTháng Bảng theo giá trị ngơn ngữ là: {Ít cao, Thấp, Khả cao, Ít thấp, Cao, Cao, Rất cao, Ít thấp, Rất cao, Khả cao, Rất cao, Ít thấp, Khả cao, Khả cao} hay miền trị sau định lượng giá trị là: {45, 24, 52, 34, 64, 64, 79, 35,100, 50, 79, 40, 55, 50} với miền trị kinh điển thuộc tính LươngTháng tập mẫu xác định Dom(LươngTháng ) = [min, max] =[20,100] Cây định sau huấn luyện hình 36 TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 14, Số (2019) Ngành học Luật CNTT Lương Tháng >=79 Nơi Sống Có Nơng thơn h2> >hp hp+1< p Chuyển giá trị số giá trị ngôn ngữ [8] Để chuyển giá trị số giá trị thuộc *0,1+, ta có hàm IC: Dom(Ai) *0,1+ xác định sau: - Nếu LDAi = DAi Dom(Ai) ta có: IC()= 1 max max , với Dom(Ai) = [min, max+ miền trị kinh điển Ai - Nếu DAi , LDAi Dom(Ai) ta có IC() = {*(maxLV)}/max, với LDAi = [minLV, maxLV+ miền trị ngôn ngữ Ai 38 TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 14, Số (2019) Nếu chọn tham số W độ đo tính mờ cho gia tử cho max 1 (maxLV) 1.0 ({*(maxLV)}/max) max Hàm ngƣợc hàm định lƣợng ngữ nghĩa [8] Cho đại số gia tử X=(X, G, H, ), hàm định lượng ngữ nghĩa X k: [0,1]X gọi hàm ngược hàm theo mức k xác định: a[0,1], k(a) = xk aI(xk), với xkXk Cho đại số gia tử X=(X, G, H, ), hàm định lượng ngữ nghĩa X, k hàm ngược , ta có: (1) xkXk, k((xk)) = xk (2) a I(xk), bI(yk), xk k yk, a < b k(a) khả WLươngTháng = 0.6, fm(thấp) = 0.4, fm(cao) = 0.6, fm(rất) = 0.35, fm(hơn) = 0.25, fm(khả năng) = 0.20, fm(ít) = 0.20 Miền trị ngơn ngữ {Ít cao, Thấp, Khả cao, Ít thấp, Cao, Cao, Rất cao, Ít thấp, Rất cao, Khả cao, Rất cao, Ít thấp, Khả cao, Khả cao} IC() = {0.45, 0.24, 0.52, 0.34, 0.64, 0.64, 0.79, 0.35, 1, 0.50, 0.79, 0.4, 0.55, 0.50} Biết đoạn có miền trị *1, 2] = [30, 65+ tương ứng với miền trị ngôn ngữ *LV1, LV2] = [Ít thấp, Hơn cao+ Hãy định lượng giá trị ngơn ngữ cho LươngTháng Ta có: fm(rất thấp) = 0.35 x 0.4 = 0.14, fm(hơn thấp) = 025 x 0.4 = 0.10, fm(ít thấp) = 0.2 x 0.4 = 0.08, fm(khả thấp) = 0.2 x 0.4 = 0.08 Vì thấp < thấp < thấp < khả thấp < thấp nên: I(rất thấp) = [0, 0.14], I(hơn thấp) = [0.14, 0.24], I(khả thấp) = [0.24, 0.32], I(ít thấp) = [0.32, 0.4] fm(rất cao) = 0.35 x 0.6 = 0.21, fm(hơn cao) = 0.25 x 0.6 = 0.15, fm(ít cao) = 0.2 x 0.6 = 0.12, fm(khả cao) = 0.2 x 0.6 = 0.12 Vì cao < khả cao < cao < cao < cao nên : I(ít cao) = [0.4, 0.52], I(khả cao) = [0.52, 0.64], I(hơn cao) = [0.64, 0.79], I(rất cao) = [0.79, 1] B1: Tính có giá trị ngơn ngữ đoạn [Ít thấp, Hơn cao] Ít thấp = IC(Ít cao)(2-1)+1 = 0.4(65-30)+30=44 Ít cao = IC(Ít cao)(2-1)+1 = 0.52(65-30)+30=48 Khả cao = IC(Khả cao)(2-1)+1 = 0.64(65-30)+30=52 B2: Tính có giá trị ngôn ngữ đoạn [Hơn cao, Rất cao] Hơn cao = 2*IC(Khả cao)/IC(Hơn cao) = 65 * 0.64 / 0.52 = 80 Rất cao = 2*IC(Hơn cao)/IC(Rấ cao) = 80 * 0.79 / 0.64 = 99 B3: Tính có giá trị ngơn ngữ đoạn [Rất thấp, Ít thấp] Khả thấp = 1*IC(Ít thấp)/IC(Khả thấp) = 30 * 0.32 / 0.4 = 24 Hơn thấp = 1*IC(Khả thấp)/IC(Hơn thấp) = 24 * 0.24 / 0.32 = 18 Rất thấp = 1*IC(Hơn thấp)/IC(Rất thấp) = 18 * 0.14 / 0.24 = 10 Vậy miền trị sau định lượng giá trị là: {48, 18, 52, 30, 80, 80, 99, 30, 99, 52, 99, 30, 52, 52} Cây định sau huấn luyện hình 41 Một phương pháp định lượng giá trị ngôn ngữ cho tập mẫu huấn luyện điều kiện hạn chế Ngànhhọc LịchSử Luật CNTT Lƣơng tháng Nơi sống Có Nơng thơn =80 Khơng Khơng Có T.Phố Có Hình Cây định tạo sau định lượng thuộc tính nhờ biết đoạn [min, max] toàn IC() Định lƣợng giá trị ngôn ngữ biết đoạn [min, max] nhƣng chƣa xác định đƣợc toàn IC() Cho thuộc tính khơng Ai, lúc ta có Dom(Ai) = DAi LDAi giá trị biên *min, max+ miền trị kinh điển DAi Ai khơng xác định, mà ta tìm đoạn *1, 2] tương ứng giá trị ngôn ngữ *LV1, LV2] LDAi tức (LV1) = IC(1) (LV2) = IC(2) Lúc ta phải tìm giá trị IC(i) cịn lại tức IC(i) thỏa IC(i) < IC(1) IC(i) > IC(2) 1 max nằm [1, 2+ với quy tắc max nên tất 2 này, tức IC() = với 1 Do xây dựng ĐSGT để Do IC() = định lượng giá trị cho chúng Theo phương pháp xây dựng ĐSGT nêu mục II, ta thấy tính mờ giá trị đại số gia tử đoạn *0,1+ họ đoạn giá trị có độ dài tạo thành phân hoạch *0,1+ Phân hoạch ứng với giá trị có độ dài từ lớn mịn độ dài lớn vơ hạn độ dài đoạn phân hoạch giảm dần Hơn nữa, giá trị ngôn ngữ tập thứ tự tuyến tính nên ta chia đoạn tương ứng thành phân hoạch nhỏ nhằm xác định lại độ dài đoạn *0, (i)] hay [(i), 1+ để từ có xác định giá trị rõ cho giá trị ngôn ngữ Đây điểm để tính IC() khơng nằm đoạn *1, 2] cách phân chia liên tiếp đoạn để xác định IC(i) tương ứng Vậy ta có giải thuật sau B1: Xây dựng ĐSGT miền *1, 2+ để tính IC() tương ứng cho giá trị đoạn *1, 2] 42 TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 14, Số (2019) B2: Tính lại phân hoạch cho IC() sau : Nếu i < 1 : - Phân hoạch đoạn [0, (1)] thành [0, (i)] [(i), (1)] - Tính fm(hi) ~ fm(h1) x I(1) fm(h1) = fm(h1) - fm(hi) Nếu i > 2 : - Phân hoạch đoạn *(2), 1] thành [(2), (i)] [(i), 1] - Tính fm(hi) ~ fm(h2) x I(2) fm(h2) = fm(h2) - fm(hi) Tính giá trị IC(i) i vị trí i Gán vị trí i có thành vị trí tiếp tục tính lùi với giá trị cịn lại với i < 1 hay gán vị trí i có thành vị trí tiếp tục tính tiến với giá trị lại với i > 2 B3: Thực định lượng giá trị ngôn ngữ với cách tính mục biết tồn IC() Tính giải thuật: Do tất phân hoạch không vượt khỏi đoạn xét |fm(h1)| hay |fm(h2| nên không làm phá vỡ phân hoạch có đoạn *0,1+, I(1)>0 I(2) >khả WLươngTháng = 0.4, fm(thấp) = 0.4, fm(cao) = 0.6, (rất) = 0.35, (hơn) = 0.25, (khả năng) = 0.20, (ít) = 0.20 Lúc ta có: fm(rất thấp) = 0.35 x 0.4 = 0.14, fm(ít thấp) = 0.2 x 0.4 = 0.08, fm(khả thấp) = 0.2 x 0.4 = 0.08 Vì thấp < thấp < thấp < khả thấp < thấp nên: I(rất thấp) = [0, 0.14], I(hơn thấp) = [0.14, 0.24], I(khả thấp) = [0.24, 0.32], I(ít thấp) = [0.32, 0.4] fm(rất cao) = 0.35 x 0.6 = 0.21, fm(hơn cao) = 025 x 0.6 = 0.15, fm(ít cao) = 0.2 x 0.6 = 0.12, fm(khả cao) = 0.2 x 0.6 = 0.12 Vì cao < khả cao < cao < cao < cao nên: I(ít cao) = [0.4, 0.52], I(khả cao) = [0.52, 0.64], I(hơn cao) = [0.64, 0.79], I(rất cao) = [0.79, 1].DOM(LươngTháng)= ,48, Thấp, 53, Rất thấp, Cao, 80, Rất cao, 30, 80, 50, Rất cao, Ít thấp, 55, 50} Chọn 1 = 80 XLươngTháng Num(LươngTháng), IC() = {0.36, 0.24, 0.46, _, 0.64, 1, _, 0, 1, 0.40, _, 0.32, 0.50, 0.40} Ngànhhọc LịchSử Luật CNTT Lƣơng tháng >=79 Nơi Sống Có Hơn cao nên ta phân hoạch đoạn *0.79,1+ tương ứng |I(lớn)| Như ta có: fm(Rất cao) ~ fm(Hơn cao) x I(Hơn cao) = 0.21 x 0.79 = 0.17 Nên I(Hơn cao) = [0.79, 0.96], I(Rất cao) = *0.96, 1+ Do Rất cao = 97 Rất thấp < Hơn thấp nên ta phân hoạch đoạn *0, 0.14+ tương ứng |I(thấp)| fm(Rất thấp) ~ fm(Hơn thấp) x I(Hơn thấp) = 0.14 x 0.14 = 0.02 Nên I(Hơn thấp) = [0.02, 0.14], I(Rất thấp) = *0, 0.02+ Do Rất thấp = 44 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 14, Số (2019) B3: Tính lại IC() với *1, 2] = [4, 97] Lúc ta có: IC() = {0.47, 0.24, 0.52, 0, 0.64, 0.81, 1, 0.27, 0.81, 0.49, 1, 0.40, 0.54, 0.49} Vậy thuộc tính LươngTháng sau định lượng có giá trị là: {48, 26, 52, 4, 64, 79, 97, 29, 79, 50, 97, 41, 54, 50} Cây định sau huấn luyện hình VI KẾT LUẬN Bài báo đánh giá tính phức tạp liệu huấn luyện chọn từ liệu nghiệp vụ, phân tích tính đa dạng miền trị thuộc tính đồng thời tính phức tạp định lượng giá trị ngơn ngữ Trên sở đại số gia tử, việc xem xét tính hiệu làm giá trị cho thuộc tính chưa mẫu theo giá trị ngôn ngữ hay theo giá trị kinh điển, báo cách thức để xác định giá trị rõ cho giá trị ngôn ngữ điều kiện hạn chế, để từ ta huấn luyện định phù hợp với thực tế TÀI LIỆU THAM KHẢO [1] Nguyễn Cát Hồ Lý thuyết tập mờ Công nghệ tính tốn mềm, Tuyển tập giảng Trường thu hệ mờ ứng dụng (2006) [2] Nguyễn Cát Hồ Cơ sở liệu mờ với ngữ nghĩa đại số gia tử, Bài giảng trường Thu - Hệ mờ ứng dụng, Viện Toán học Việt Nam (2008) [3] Nguyễn Công Hào, Nguyễn Cát Hồ, Một cách tiếp cận xấp xỉ liệu sở liệu mờ, Tạp chí Tin học Điều khiển học (2006) [4] Lê Văn Tường Lân Một cách tiếp cận chọn tập mẫu huấn luyện định dựa đại số gia tử, Hội nghị Quốc gia lần thứ VI nghiên cứu ứng dụng Công nghệ Thông tin (FAIR), Nhà xuất Khoa học tự nhiên Công nghệ (2013) [5] A.K Bikas, E M Voumvoulakis and N D Hatziargyriou Neuro-Fuzzy Decision Trees for Dynamic Security Control of Power Systems, Department of Electrical and Computer Engineering, Greece (2008) [6] Chida, A Enhanced Encoding with Improved Fuzzy Decision Tree Testing Using CASP Templates, Computational Intelligence Magazine, IEEE (2012) [7] [Chang, Robin L P Pavlidis Fuzzy Decision Tree Algorithms, Man and Cybernetics, IEEE (2007) [8] Dorian, P Data Preparation for Data Mining, Morgan Kaufmann (1999) [9] Daveedu R A., Jaya Suma G, Lavanya Devi G Construction of Fuzzy Decision Tree using Expectation Maximization Algorithm, International Journal of Computer Science and Management Research (2012) [10] Fernandez A., Calderon M., Barrenechea E Enhancing Fuzzy Rule Based Systems in Multi-Classication Using Pairwise Coupling with Preference Relations, EUROFUSE 45 Một phương pháp định lượng giá trị ngôn ngữ cho tập mẫu huấn luyện điều kiện hạn chế Workshop Preference Modelling and Decision Analysis, Public University of Navarra, Pamplona, Spain (2009) [11] FA Chao Li, Juan sun, Xi-Zhao Wang Analysis on the fuzzy filter in fuzzy decision trees, Proceedings of the Second International Conference on Machine Learxung and Cybernetics (2003) [12] Kavita Sachdeva, Madasu Hanmandlu, Amioy Kumar Real Life Applications of Fuzzy Decision Tree, International Journal of Computer Applications (2012) [13] Hesham A Hefny, Ahmed S Ghiduk, Ashraf Abdel Wahab Effective Method for Extracting Rules from Fuzzy Decision Trees based on Ambiguity and Classifiability, Universal Journal of Computer Science and Engineering Technology, Cairo University, Egypt (2010) [14] Ho Tu Bao Introduction to knowledge discovery and data mining, Institute of Information Technology National Center for Natural Science (2000) [15] Ho N C and Nam H V An algebraic approach to linguistic hedges in Zadeh's fuzzy logic, Fuzzy Sets and Systems, vol.129, pp.229-254 (2002) [16] Moustakidis, S Mallinis, G ; Koutsias, N ; Theocharis, J.B ; Petridis, V SVM-Based Fuzzy Decision Trees for Classification of High Spatial Resolution Remote Sensing Images, Geoscience and Remote Sensing, IEEE (2012) [17] Oleksandr Dorokhov, Vladimir Chernov Application of the fuzzy decision trees for the tasks of alternative choices, Transport and Telecommunication Institute, Lomonosova, Latvia , Vol.12, No (2011) A METHOD TO DETERMINE THE LINGUISTIC VALUES IN THE LIMITED CONDITIONS OF TRAINING DATA SET Le Van Tuong Lan Faculty of Information Technology, University of Sciences, Hue University Email: lvtlan@yahoo.com ABSTRACT Sample training data set plays an important role in the training process When the value of the attribute domain may be value or linguistics, we need a method to homogenise sample training data set Hedge algebra is a useful tool to make the training set homogeneous by changing the values of mixed domain to homogeneous data domain that only contains linguistics or values In the process of homogeneous data domain, we have to know the values min, max However, in reality, we not know the values min, max exactly In this paper, we present a 46 TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 14, Số (2019) method to determine the linguistic values when we only know the sub values [ 1, 2] without knowing the values [min, max] exactly Keywords: Fuzzy decision tree, linguistic values, training data set Lê Văn Tƣờng Lân sinh năm 1974 thành phố Huế Ơng tốt nghiệp cử nhân chun ngành Tốn – Tin học Trường Đại học Khoa học, Đại học Huế năm 1996 thạc sĩ chuyên ngành Công nghệ thông tin Trường Đại học Bách khoa Hà Nội, năm 2002 Hiện Nghiên cứu sinh Trường Đại học Khoa học, Đại học Huế, chuyên ngành Khoa học máy tính Ơng cơng tác khoa Cơng nghệ thông tin, Trường Đại học Khoa học, Đại học Huế từ năm 1996 đến Lĩnh vực nghiên cứu: Khai phá liệu, công nghệ phần mềm 47 Một phương pháp định lượng giá trị ngôn ngữ cho tập mẫu huấn luyện điều kiện hạn chế 48 ... Không 37 Một phương pháp định lượng giá trị ngôn ngữ cho tập mẫu huấn luyện điều kiện hạn chế Việc nhờ ý kiến chuyên gia lúc thực ta tận dụng hết thông tin lưu trữ tập mẫu huấn luyện Trong báo... miền trị sau định lượng giá trị là: {48, 18, 52, 30, 80, 80, 99, 30, 99, 52, 99, 30, 52, 52} Cây định sau huấn luyện hình 41 Một phương pháp định lượng giá trị ngôn ngữ cho tập mẫu huấn luyện điều. .. Trung bình 50 Khơng 43 Một phương pháp định lượng giá trị ngôn ngữ cho tập mẫu huấn luyện điều kiện hạn chế Tập mẫu có thuộc tính LươngTháng chưa nhât nên ta phải giá trị cho LươngTháng Ta có: