0

Đánh giá hiệu năng xác suất dừng mạng thông tin vệ tinh chuyển tiếp hai chiều sử dụng mã fountain

11 27 0
  • Đánh giá hiệu năng xác suất dừng mạng thông tin vệ tinh chuyển tiếp hai chiều sử dụng mã fountain

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Tài liệu liên quan

Thông tin tài liệu

Ngày đăng: 26/10/2020, 00:43

Nội dung bài viết đánh giá hiệu năng xác suất dừng mạng thông tin vệ tinh chuyển tiếp hai chiều sử dụng mã fountain. Để hiểu rõ hơn mời các bạn tham khảo chi tiết nội dung bài viết. Đánh Giá Hiệu Năng Xác Suất Dừng Mạng Thông Tin Vệ Tinh Chuyển Tiếp Hai Chiều Sử Dụng Mã Fountain Đặng Thế Hùng∗ , Trần Trung Duy† , Lê Chu Khẩn† Đỗ Quốc Trinh∗ ∗ Học Viện Kỹ Thuật Qn Sự Học Viện Cơng Nghệ Bưu Chính Viễn Thơng Email: danghung8384@gmail.com, trantrungduy@ptithcm.edu.vn.com, lckhan@ptithcm.edu.vn, trinhdq@mta.edu.vn † Tóm tắt—Trong báo này, nghiên cứu đánh giá hiệu xác suất dừng (Outage Probability - OP) cho mạng thông tin vệ tinh chuyển tiếp hai chiều (two-way relaying) sử dụng mã Fountain Trong mơ hình nghiên cứu, hai thiết bị mặt đất truyền thông với thông qua thiết bị vệ tinh đóng vai trị nút chuyển tiếp trung gian Để giảm số khe thời gian truyền liệu, kỹ thuật mã hoá mạng ba-pha (three-phase network coding) áp dụng Chúng đưa biểu thức tính xác suất dừng hệ thống kênh truyền Shadowed-Rician Cuối cùng, biện luận nhận xét cho kết phân tích trình bày nhằm nêu lên đặc tính hệ thống Từ khóa—Thơng tin vệ tinh, chuyển tiếp hai chiều, xác suất dừng, mã Fountain I GIỚI THIỆU Trong thời gian gần đây, lĩnh vực thông tin vệ tinh nhận ý đặc biệt từ nhà nghiên cứu nước quốc tế khả cung cấp dịch vụ cho hệ thống cố định di động mặt đất [1] Ưu điểm truyền thông vệ tinh khả cung cấp dịch vụ với vùng bao phủ rộng, nên phù hợp ứng dụng quảng bá định vị Công nghệ vô tuyến dựa vào thơng tin vệ tinh (satellite communications) có khả cung cấp hình thức liên lạc cần thiết, cho phép việc thực trao đổi thông tin nhanh chóng, liên tục, ổn định phạm vi địa lý rộng triển khai với điều kiện địa hình phức tạp khác Liên lạc qua thông tin vệ tinh nhằm hỗ trợ việc sử dụng cơng nghệ phát triển có, cụ thể mạng tế bào (cellular networks), mạng diện rộng (wide area networks), mạng Internet, truyền hình hội nghị (video teleconferencing), ứng dụng rộng rãi nguồn thông tin quan trọng trình chia sẻ thơng tin, phục vụ nhiều lĩnh vực đời sống, xã hội thương mại, quân sự, y tế, giáo dục Một vệ tinh sử dụng lặp (repeater) tần số vô tuyến, cung cấp trạm chuyển tiếp (relay station) máy phát máy thu Để liên lạc thông qua vệ tinh, trước tiên máy phát chuyển đổi tín hiệu (dữ liệu, âm thanh, hình ảnh, ) thành tín hiệu điện từ Dữ liệu phát đến vệ tinh sử dụng khuếch đại công suất cao thiết 152 kế ănten để hướng tín hiệu phía vệ tinh Do đó, yêu cầu độ tin cậy, ổn định, đáp ứng chất lượng dịch vụ, chia sẻ sử dụng hiệu tài nguyên tần số liên lạc thông tin vệ tinh quan trọng việc kết nối kênh thông tin đường lên xuống mạng Xuất phát từ đặc điểm trên, có nhiều cơng trình cơng bố liên quan đến thơng tin vệ tinh nhiều góc độ khác Cụ thể, cơng trình [2], tác giả đánh giá hiệu xác suất dừng (Outage Probability OP) hệ thống chuyển tiếp hai chặng thông qua vệ tinh Cụ thể, thiết bị mặt đất gửi liệu đến thiết bị mặt đất khác khoảng cách địa lý xa, nhờ vào chuyển tiếp vệ tinh Các tác giả cơng trình [3] nghiên cứu hệ thống chuyển tiếp lai ghép vệ tinh mặt đất (Hybrid Satellite-Terrestrial Relay Systems), trạm chuyển tiếp triển khai để giúp vệ tinh chuyển tiếp liệu đến đầu cuối mặt đất Trong tài liệu [4], mơ hình truyền liệu nhiều người dùng di động trạm cố định mặt đất thông qua vệ tinh nghiên cứu phân tích Tài liệu [5] giới thiệu mơ hình truyền thơng vệ tinh hai chiều (two-way satellite communication), vệ tinh GEO (Geostationary Earth Orbit) đóng vai trò nút chuyển tiếp AF (Amplify-and-Forward) trung gian cho hai thiết bị mặt đất muốn gửi liệu đến Thật vậy, kỹ thuật truyền thông hai chiều giúp hệ thống giảm bớt số khe thời gian truyền, nâng cao tốc độ liệu giảm thời gian trễ Các tác giả báo số [6] phát triển mơ hình truyền thơng vệ tinh hai chiều [5] với trạm mặt đất trang bị nhiều ănten Cơng trình [7] đề xuất kỹ thuật điều chế vi sai (differential modulation) ứng dụng chuyển tiếp hai chiều sử dụng vệ tinh Trong cơng trình [8], phương pháp ước lượng kênh truyền trạm mặt đất đề xuất nhằm áp dụng hiệu cho mơ hình chuyển tiếp vệ tinh hai chiều Tác giả báo [9] đưa giải pháp truyền chùm tia (beamforming) kỹ thuật vector kết hợp (combining vector) cho trạm nhiều ănten mặt đất Mã Fountain (Fountain Codes) [10] gần thu hút nhiều quan tâm cộng đồng nghiên cứu ưu điểm dễ triển khai thích ứng điều kiện kênh truyền khác Máy phát sử dụng mã Fountain phát số lượng gói tin mã hóa khơng giới hạn máy thu nhận đủ thông tin để khôi phục liệu gốc [11], [12] Như chứng minh cơng trình [12], lượng tiêu thụ thời gian truyền mạng sử dụng mã Fountain giảm đáng kể khả tích lũy thơng tin (information accumulation) đầu thu Các tác giả tài liệu [13] đề xuất mơ hình chuyển tiếp cộng tác sử dụng mã Fountain Trong mơ hình này, nút chuyển tiếp nhận đủ thông tin trở thành nguồn mới, tiếp tục truyền tin đích nút chuyển tiếp nút đích Các cơng trình [14], [15] nghiên cứu ứng dụng mã Fountain hệ thống thông tin vệ tinh Trong [14], tác giả thiết kế mơ hình lớp chéo (cross-layer) với mã Fountain LT (Luby Transform) mã LDPC (Low Density Parity Check) cho hệ thống quảng bá vệ tinh đa phương tiện Tài liệu [15] giới thiệu hai ứng dụng mã Fountain cho hệ thống thông tin vệ tinh, sử dụng thuật toán giải mã lặp mềm (soft iterative decoding algorithms) Trong báo này, đề xuất mạng thông tin vệ tinh chuyển tiếp hai chiều ba pha sử dụng mã Fountain Trong mơ hình này, hai nguồn (hai thiết bị mặt đất) gửi liệu cho với giúp đỡ vệ tinh Trong hai pha đầu tiên, hai nguồn gửi thông tin lên vệ tinh Tiếp theo, vệ tinh kết hợp (XOR) liệu nhận được, lúc gửi liệu đến hai nguồn Chúng đánh giá hiệu xác suất dừng (Outage Probability OP) hệ thống kênh truyền Shadowed-Rician biểu thức tốn học Phần cịn lại báo tổ chức sau: phần II, miêu tả mơ hình đề xuất ngun lý hoạt động mơ hình Trong phần III, chúng tơi đánh giá hiệu dừng mơ hình biểu thức toán học Phần IV cung cấp kết phân tích lý thuyết nhận xét, biện luận Cuối cùng, kết luận hướng phát triển báo đưa phần V II MÔ HÌNH HỆ THỐNG Hình 1, mơ tả chuyển tiếp hai chiều ba pha thơng tin vệ tinh Trong Hình 1, hai thiết bị mặt đất S1 S2 muốn gửi liệu cho Do khoảng cách vị trí địa lý, hai nguồn gửi liệu trực tiếp cho nhau, mà phải cần giúp đỡ hệ thống vệ tinh (ký hiệu R Hình 1) Cụ thể, nguồn S1 cần gửi liệu x1 đến nguồn S2 , ngược lại nguồn S2 muốn gửi liệu x2 đến nguồn S1 Giả sử, thiết bị S1 , S2 R sử dụng 01 ănten phát thu Theo phương thức chuyển tiếp thông thường, hệ thống phải cần 04 khe thời gian để truyền liệu Ví dụ, hai khe thời gian đầu S1 gửi x1 đến R, R chuyển tiếp x1 đến S2 Tương tự, hai khe thời gian kế tiếp, S2 gửi x2 đến R, R chuyển tiếp x2 đến S1 Như vậy, tốc độ truyền liệu hệ thống 02/04 (hai liệu bốn khe thời gian) Nhằm nâng cao tốc độ truyền liệu, để giảm thời gian truyền, đề xuất sử dụng kỹ thuật chuyển tiếp hai chiều ba pha sau: 153 Hình Mơ hình chuyển tiếp hai chiều ba pha thông tin vệ tinh khe thời gian đầu tiên, S1 gửi x1 đến R khe thời gian thứ hai, S2 gửi x2 đến R Nếu sau hai khe thời gian này, R giải mã thành công hai liệu x1 x2 , R XOR chúng lại để đạt x⊕ = x1 ⊕ x2 Kế tiếp, R quảng bá x⊕ đến S1 S2 khe thời gian thứ ba Nếu S1 giải mã thành công x⊕ , nút đạt liệu x2 cách XOR x⊕ với liệu S1 : x⊕ ⊕ x1 = x2 Một cách tương tự, S2 có x1 S2 giải mã thành cơng x⊕ Do đó, mơ hình đề xuất đạt tốc độ truyền liệu 02/03 (hai liệu ba khe thời gian) Xét truyền liệu S1 R khe thời gian thứ Tỷ số SNR (Signal-to-Noise Ratio) S1 R xác định sau: ψS1 →R = PS1 γS1 →R = ∆1 γS1 →R , σR (1) với PS1 công suất phát S1 , σR phương sai nhiễu cộng R, ∆1 = PS1 /σR , γS1 →R độ lợi kênh Shadowed-Rician S1 R Như đưa [3], [4], hàm mật độ xác suất (PDF: Probability Density Function) γS1 →R viết sau: ( ) m1 ( ) 2m1 b1 x fγS1 →R (x) = exp − 2b1 2m1 b1 + Ω1 2b1 ( ) Ω1 x ×1 F1 m1 ; 1; (2) 2b1 (2m1 b1 + Ω1 ) Trong cơng thức (2), Ω1 cơng suất trung bình thành phần LOS (Line Of Sight), 2b1 công suất trung bình thành phần đa đường (multi-path), m1 tham số đặc trưng Nakagami kênh truyền, F1 (.; ; ) hàm confluent hypergeometric [16] Như đưa tài liệu [12], [13], thời gian cần thiết để nút R nhận đủ lượng tin χ1 để khôi phục liệu gốc S1 xác định sau: χ1 χ1 t1 = = log2 (1 + ψS1 →R ) log2 (1 + ∆1 γS1 →R ) (3) Tiếp đến, ta xét khe thời gian thứ hai, S2 gửi x2 lên R Tỷ số SNR liên kết S2 → R tính sau: ψS2 →R = PS2 γS2 →R = ∆2 γS2 →R , σR với Ω2 cơng suất trung bình thành phần LOS, 2b2 cơng suất trung bình thành phần đa đường, m2 tham số đặc trưng Nakagami kênh truyền Do đó, thời gian cần thiết để R nhận đủ lượng tin χ2 nhằm khôi phục liệu gốc S2 χ2 χ2 t2 = = (6) log2 (1 + ψS2 →R ) log2 (1 + ∆2 γS2 →R ) Tiếp theo, ta xét đến truyền liệu x⊕ từ vệ tinh R đến hai trạm mặt đất S1 S2 khe thời gian thứ ba Cũng vậy, tỷ số SNR nhận S1 S2 ψR→S1 ψR→S2 ( ρ1 = (7) III XÁC SUẤT DỪNG HỆ THỐNG Trong phần này, xác suất dừng (OP) hệ thống định nghĩa phân tích Đầu tiên, ta định nghĩa xác suất dừng truyền liệu máy phát X máy thu Y xác suất mà thời gian truyền X Y lớn khoảng thời gian cho phép Với định nghĩa này, xác suất dừng liên kết S1 → R viết sau: (9) với τ1 thời gian trễ tối đa cho phép 154 χ1 τ1 (10) ) −1 ∆1 (11) Trong công thức (11), FγS1 →R (ρ1 ) hàm phân phối tích lũy (CDF) γS1 →R , xác định sau: ∫ ρ1 FγS1 →R (ρ1 ) = fγS1 →R (x) dx (12) Thay hàm PDF fγS1 →R (x) công thức (2) vào (12), sử dụng MATHEMATICA để tính tích phân, ta đạt giá trị OP1 Một cách tương tự, ta tính xác suất dừng truyền liệu S2 R khe thời gian thứ hai sau: ( ) OP2 = Pr (t2 > τ2 ) = Pr FγS2 →R (ρ2 ) ∫ ρ2 = fγS2 →R (x) dx, (13) với τ2 thời gian trễ tối đa cho phép, ( ρ2 = với PR công suất phát R, σS21 σS22 phương sai nhiễu cộng S1 S2 , ∆3 = PR /σS21 , ∆4 = PR /σS22 , γR→S1 γR→S2 độ lợi kênh truyền R S1 , R S2 Do đó, thời gian cần thiết để S1 S2 nhận đủ lượng tin χ3 để giải mã liệu x⊕ viết sau: χ3 χ3 t3 = = , log2 (1 + ψR→S1 ) log2 (1 + ∆3 γR→S1 ) χ3 χ3 = (8) t4 = log2 (1 + ψR→S2 ) log2 (1 + ∆3 γR→S2 ) OP1 = Pr (t1 > τ1 ) , với (4) với PS2 công suất phát S2 , ∆2 = PS2 /σR , γS2 →R độ lợi kênh truyền S2 R Tương tự, hàm PDF γS2 →R viết sau: ( ) m2 ( ) 2m2 b2 x exp − fγS2 →R (x) = 2b2 2m2 b2 + Ω2 2b2 ( ) Ω2 x ×1 F1 m2 ; 1; , (5) 2b2 (2m2 b2 + Ω2 ) PR γR→S1 = = ∆3 γR→S1 , σS21 PR γR→S2 = = ∆4 γR→S2 , σS22 Thay công thức (3) vào công thức (9), ta có: ) ( χ1 OP1 = Pr log2 (1 + ∆1 γS1 →R ) < τ1 = Pr (γS1 →R < ρ1 ) = FγS1 →R (ρ1 ) , χ2 τ2 ) −1 ∆2 (14) Tuy nhiên, ta lưu ý OP1 OP2 xác suất dừng R khe thời gian thứ thứ hai Đối với hệ thống đề xuất, ta định nghĩa xác suất dừng hệ thống xác suất mà hai nút S1 S2 bị dừng, hai nút bị dừng Thật vậy, OP hệ thống viết sau: OPht =1 − Pr (t1 ≤ τ1 ) × Pr (t2 ≤ τ2 ) × Pr (max (t3 , t4 ) ≤ τ3 ) =1 − (1 − OP1 ) × (1 − OP2 ) × OP3 , (15) Trong biểu thức (15), OP3 = Pr (max (t3 , t4 ) ≤ τ3 ) xác suất mà hai nút S1 S2 giải mã thành cơng x⊕ , đạt x2 x1 , τ3 thời gian trễ tối đa cho phép khe thời gian thứ ba Ta thấy (1 − OP1 ) × (1 − OP2 ) × P3 xác suất mà hai nút S1 S2 nhận liệu thành công Vì vậy, − (1 − OP1 ) × (1 − OP2 ) × P3 xác suất dừng hệ thống Bởi OP1 OP2 tính cơng thức (12) (13) nên tập trung tính OP3 Thực số phép biến đổi, ta đạt được: OP3 = Pr (max (t3 , t4 ) ≤ τ3 ) = Pr (t3 ≤ τ3 ) Pr (t4 ≤ τ3 ) = [1 − Pr (t3 > τ3 )] [1 − Pr (t4 > τ3 )] (16) Tiếp theo, thay công thức (8) vào (16), ta đạt được: [ ][ ] OP3 = − FγR→S1 (ρ3 ) − FγR→S2 (ρ3 ) ][ ] [ ∫ ρ3 ∫ ρ3 fγR→S1 (x) dx − fγR→S2 (x) dx , = 1− 10 0 (17) ( ρ3 = χ3 τ3 OPht với ) −1 ∆3 10 -1 (18) 10 -2 IV KẾT QUẢ LÝ THUYẾT Trong phần này, kết lý thuyết đưa nhằm đánh giá phân tích xu hướng hiệu hệ thống Để dễ dàng quan sát biến thiên xác xuất dừng hệ thống (OPht ) , ta giả sử rằng: m1 = m2 = m3 = m4 = m, b1 = b2 = b3 = b4 = b, Ω1 = Ω2 = Ω3 = Ω4 = Ω, ∆1 = ∆2 = ∆3 = ∆, χ1 = χ2 = χ3 = χ τ1 = τ2 = τ3 = τ Trong tất kết quả, tham số kênh truyền thiết lập sau: m = 10.1, b = 0.126 Ω = 0.835 [3], [6] Chúng tơi sử dụng phần mềm máy tính MATHEMATICA để tính giá trị OP1 , OP2 OP3 , sau đạt giá trị OPht dựa vào công thức (15) Để vẽ kết quả, sử dụng phần mềm MATLAB 10 10 -1 χ=1 χ = 1.5 χ=2 10 -3 10 15 20 25 ∆ (dB) Hình Xác suất dừng hệ thống vẽ theo ∆ (dB) τ = suất phát tồn hệ thống Do đó, để bảo đảm yêu cầu chất lượng dịch vụ tốc độ truyền liệu hệ thống nên thiết kế có độ trễ phù hợp, tăng cơng suất phát Hình vẽ xác suất dừng hệ thống OPht theo giá trị ∆ (dB) τ = Tương tự Hình 2, ta nhận thấy OPht giảm công suất phát thiết bị tăng Hơn nữa, lượng tin cần thiết để khôi phục liệu gốc χ lớn xác suất dừng hệ thống lớn Vậy nên, hiệu hệ thống phụ thuộc vào số lượng gói mã hóa nhận yêu cầu máy thu, đó, cần phải thiết kế hệ thống phù hợp bảo đảm độ tin cậy khả giải mã thành công liệu gốc OPht V KẾT LUẬN 10 -2 τ = 0.5 τ =1 τ = 1.5 10 -3 10 15 20 25 ∆ (dB) Hình Xác suất dừng hệ thống vẽ theo ∆ (dB) χ = Hình vẽ xác suất dừng hệ thống OPht theo giá trị ∆ (dB) χ = Ta thấy xác suất dừng giảm tăng ∆ (hay tăng công suất phát) Hơn nữa, thời gian trễ tối đa τ thấp OPht lớn Vậy nên, khả giải mã thành công liệu thiết bị đầu cuối phụ thuộc lớn vào thời gian trễ cho phép công 155 Trong báo này, đề xuất đánh giá hiệu hệ thống chuyển tiếp hai chiều thông tin vệ tinh, thông qua thông số xác suất dừng hệ thống Việc áp dụng kỹ thuật chuyển tiếp hai chiều ba pha giúp hệ thống giảm thời gian truyền, nâng cao tốc độ truyền dẫn Hơn nữa, tồn đánh đổi tốc độ truyền dẫn chất lượng dịch vụ tồn hệ thống Do đó, để bảo đảm hiệu hệ thống truyền dẫn cần thiết kế hệ thống có độ trễ số gói mã hóa yêu cầu nhận máy thu cách thích hợp để giải mã thành cơng liệu gốc Trong tương lai, tiếp tục phát triển mơ hình hệ thống báo với trạm mặt đất trang bị với nhiều ănten, đánh giá hiệu khác hệ thống tỷ lệ lỗi bít, dung lượng kênh trung bình, v.v LỜI CẢM ƠN Nghiên cứu tài trợ Học viện Cơng nghệ Bưu Viễn thơng sở thành phố Hồ Chí Minh năm 2019 với mã số 05-HV-2019-RD_VT2 TÀI LIỆU THAM KHẢO [1] B Evans, M Werner, E Lutz, M Bousquet, G E Corazza, G Maral, and R Rumeau, “Integration of satellite and terrestrial systems in future multimedia communications,” IEEE Wireless Commun., vol 12, no 5, pp 72–80, Oct 2005 [2] K Guo, D Guo, Y Huang, X Wang, and B Zhang, “Performance analysis of a dual-hop satellite relay network with hardware impairments,” in Proc of 25th Wireless and Optical Communication Conference (WOCC), Chengdu, China, May 2016, pp 1–5 [3] H Wu, Y Zou, W Cao, Z Chen, T A Tsiftsis, M R R Bhatnagar, and R C De Lamare, “Impact of hardware impairments on outage performance of hybrid satellite-terrestrial relay systems,” IEEE Access, vol 7, p 35103 – 35112, Mar 2019 [4] X Wu, M Lin, H Kong, Q Huang, J.-Y Wang, and P K Upadhyay, “Outage performance for multiuser threshold-based df satellite relaying,” IEEE Access, vol 7, pp 103 142 – 103 152, Jul 2019 [5] B Ji, Y Huang, H Wang, and L Yang, “Performance analysis of two-way relaying satellite mobile communication,” in Proc of 6th International ICST Conference on Communications and Networking in China (CHINACOM), Harbin, China, Aug 2011, p 1099 – 1103 [6] M K Arti and M R Bhatnagar, “Making two-way satellite relaying feasible: A differential modulation based approach,” IEEE Commun Lett., vol 18, no 7, p 1187 – 1190, Jul 2014 [7] M R Bhatnagar, “Making two-way satellite relaying feasible: A differential modulation based approach,” IEEE Trans Commun., vol 63, no 8, pp 2836 – 2847, Aug 2015 156 [8] M K Arti, “Two-way satellite relaying with estimated channel gains,” IEEE Trans Commun., vol 64, no 7, p 2808 – 2820, Jul 2016 [9] ——, “A novel beamforming and combining scheme for two-way af satellite systems,” IEEE Trans Veh Technol., vol 66, no 2, pp 1248 – 1256, Feb 2017 [10] D J C MacKay, “Fountain codes,” IEE Proceedings - Communications, vol 152, no 6, pp 1062–1068, Dec 2005 [11] J Castura and Y Mao, “Rateless coding for wireless relay channels,” IEEE Trans Wireless Commun., vol 6, no 5, pp 1638–1642, May 2007 [12] A F Molisch, N B Mehta, J S Yedidia, and J Zhang, “Performance of fountain codes in collaborative relay networks,” IEEE Trans Wireless Commun., vol 6, no 11, pp 4108 – 4119, Nov 2007 [13] T T Duy, A Anpalagan, and H Y Kong, “Multi-hop cooperative transmission using fountain codes over rayleigh fading channels,” J Commun Networks, vol 14, no 3, pp 267–272, Jun 2012 [14] W Zhenbang, W Zhenyong, G Xuemai, and G Qing, “Cross-layer design of lt codes and ldpc codes for satellite multimedia broadcast/multicast services,” Chinese Journal of Aeronautics, vol 26, no 5, pp 1269–1275, Oct 2013 [15] M Zhang, S Chan, and S Kim, “Soft iterative decoding algorithms for rateless codes in satellite systems,” Algorithms, vol 12, no 8, (151), Jul 2019 [16] I S Gradshteyn and I M Ryzhik, “Table of Intergals,” Series, and Products 7th ed Academic Press, 2007 Phân tích liệu số chiều lớn số phương pháp học máy Vũ Việt Vũ Viện Công nghệ Thông tin, Đại học Quốc gia Hà Nội Hà Nội, Việt Nam vuvietvu@vnu.edu.vn Lê Thị Kiều Oanh Khoa Công nghệ Thông tin Trường Đại học Kinh tế - Kỹ thuật Công nghiệp, Hà Nội, Việt Nam ltkoanh@uneti.edu.vn Abstract—Dữ liệu số chiều lớn thách thức trình xử lý thuật tốn khai phá liệu phát tri thức liệu Với bùng nổ Internet hệ thống sinh liệu mạng xã hội, báo chí, văn liệu sinh hàng ngày lớn Hơn loại liệu thường phi cấu trúc, số chiều lớn đòi hỏi phải có thuật tốn hiệu để xử lý Trong nghiên cứu này, tập trung vào thử nghiệm phân tích liệu số chiều lớn hay gặp thực tế (KDD’99, Dữ liệu văn bản) thuật toán học máy như: K-Means, DBSCAN, hay Support Vector Machine Kết thực nghiệm tiền đề cho nghiên cứu sâu lĩnh vực khai phá phân tích liệu với số chiều lớn Keywords—phân cụm, K-Means, DBSCAN, phân tích liêu, liệu số chiều lớn I GIỚI THIỆU Công nghệ thông tin lĩnh vực chủ chốt định đến phát triển kinh tế xã hội quốc gia Sự diện CNTT nhiều lĩnh vực đem lại hiệu lớn Cuộc cách mạng công nghiệp lần thứ diễn mạnh mẽ cách mạng liên qua đến CNTT với trụ cột nghiên cứu Trí tuệ nhân tạo, liệu lớn Internet vạn vật (IoT) Tại Việt nam nghiên cứu ứng dụng CNTT, Trí tuệ nhân tạo hệ thống xử lý liệu sôi động thu hút lượng lớn nhà nghiên cứu, chuyên gia, kỹ sư CNTT Hàng loạt ứng dụng CNTT đời hệ thống khai phá liệu phục vụ y tế, hệ thống giám sát an ninh mạng, camera thông minh, hệ thống khai phá liệu văn phân tích liệu cho thấy tầm quan trọng việc nghiên cứu ứng dụng công nghệ thông tin Trong báo nghiên cứu thực nghiệm số tập liệu số chiều lớn sử dụng thuật học máy K-Means [1,2], DBSCAN [3], hay Support Vector Machine (SVM) [4,7] Loại liệu thứ sử dụng liệu kiểu văn bản, loại liệu phi cấu trúc, cần biến đổi sang dạng vector số (sử dụng BoW, TF-IDF), liệu thứ hai sử dụng liệu tốn phát cơng mạng KDD’991 Cả hai loại liệu có nhiều ứng dụng thực tiễn lĩnh vực khai phá liệu phát tri thức toán an ninh mạng Dữ liệu số chiều lớn số nghiên cứu hiểu liệu có số lượng thuộc tính lớn khoảng 20 [3] Phần báo trình bày sau: phần II trình bày số thuật tốn học máy bản, phần III trình bày kết thực nghiệm cuối phần IV kết luận báo II MỘT SỐ THUẬT TOÁN HỌC MÁY CƠ BẢN Học máy lĩnh vực quan trọng Trí tuệ nhân tạo Các thuật toán học máy phát triển nhằm mục đích học từ liệu mẫu thu thực nghiệm Học máy có dạng học có giám sát, học khơng giám sát, học bán giám sát, học tăng cường Hai dạng học có giám sát học khơng giám sát Học có giám sát cần phải có tập mẫu để xây dựng mơ hình học cho toán dự đoán, phân lớp, nhận dạng,… Trong học không giám sát dựa vào tập liệu cho người sử dụng để phân tích cấu trúc, phân cụm, phát dị thường,… Trong phần chúng tơi trình bày hai thuật tốn khơng giám sát K-Means DBSCAN thuật tốn học có giám sát Support Vector Machine II.1 Thuật toán phân cụm K-Means Thuật toán K-Means thuật toán đời sớm được xếp hạng mười thuật toán hiệu dùng nhiều lĩnh vực khai phá liệu phát tri thức từ liệu [1] Ý tưởng thuật toán sau: với tập liệu với n điểm số cụm k cho trước, sử dụng hàm độ đo khoảng cách, thuật toán chia điểm vào k cụm cho hàm mục tiêu F sau đạt giá trị nhỏ nhất: 157 https://archive.ics.uci.edu/ml/index.php k n F   xi j   c j phải chứa điểm lõi Quá trình xây dựng cụm dừng lại khơng tìm thêm siêu cầu Khi ta thu điểm thuộc cụm gán nhãn cho chúng Chú ý số điểm liệu không thuộc cụm phải điểm lõi, điểm gọi điểm dị thường liệu Độ phức tạp thuật toán DBSCAN O(n2) O(nlogn) trường hợp dự liệu có số chiều nhỏ Thuật tốn DBSCAN sử dụng hai tham số MinPts ; hai thuật toán thực tế lựa chọn dựa tập liệu phân cụm Hình minh họa trình tìm kiếm cụm thuật toán DBSCAN j 1 i 1 Trong công thức cj trọng tâm cụm thứ j Thuật toán 1: Thuật toán K-Means; Input: Tập liệu X = {x1, x2,…,xn}, xiRn, số lượng cụm k, Output: k cụm X Begin - Lấy ngẫu nhiên k trọng tâm từ tập liệu X Repeat - Gán điểm x X vào cụm gần - Tính tốn lại trọng tâm cjcủa cụm: Until (Hàm F hội tụ - trọng tâm cụm không thay đổi nữa) End; Độ phức tạp thuật toán K-Means O(n.k) n số điểm liệu k số cụm liệu Đây thuật toán hiệu có độ phức tạp nhỏ.Tuy nhiên hạn chế thuật toán K-Means chất lượng phân cụm phụ thuộc vào việc lựa chọn k trọng tâm thuật tốn KMeans tìm cụm có dạng hình cầu II.2 Thuật tốn phân cụm DBSCAN Một thuật toán thu hút nhiều nhà nghiên cứu (có lẽ sau thuật tốn K-Means) quan tâm khoảng 20 năm trở lại thuật tốn phân cụm dựa mật độcó tên DBSCAN [3] Thuật toán đề xuất năm 1996 giáo sư Ester cộng Thuật toán DBSCAN có khả phát cụm có hình dạng khả phát dị thường sau trình phân cụm  p Hình Quá trình xây dựng cụm thuật tốn DBSCAN II.3 Thuật toán phân lớp Support Vector Machine Support Vector Machine (SVM), nghiên cứu giới thiệu Vapnik năm 1995 [4], phương pháp học có giám sát dựa lý thuyết thống kê sử dụng cho toán phân lớp nhận dạng đối tượng Ý tưởng thuật toán sau: cho tập huấn luyện biểu diễn không gian d chiều {x1, x2, …, xn}, khơng tính tổng qt, xét toán lớp, phần tử liệu xi thuộc hai lớp kí hiệu +1 -1 Phương pháp SVM tìm siêu phẳng tốt để chia điểm không gian thành hai lớp riêng biệt tương ứng lớp +1 lớp -1 Với liệu huấn luyện khơng gian d chiều hàm biểu diễn siêu phẳng đa thức d biến Chúng ta nghiên cứu trường hợp phương pháp SVM mục sau a) Trường hợp liệu phân tách tuyến tính Hình Ví dụ điểm lõi p với MinPts = Thuật toán DBSCAN dựa ý tưởng sở sau đây: cụm gồm điểm liệu có mật độ cao phân tách cụm vùng có mật độ thấp Thuật toán DBSCAN sử dụng hai tham số MinPts  DBSCAN đưa khái niệm điểm lõi (core) sau: với điểm liệu p bất kỳ, p gọi điểm lõi siêu cầu có tâm p với bán kính  có MinPts điểm liệu (xem hình 1) Với định nghĩa điểm lõi trên, trình xây dựng cụm thuật toán DBSCAN kết nối liên tục siêu cầu tạo nên từ điểm nằm siêu cầu cũ 158 wx+b>0 wx+b>0 wx+b=0 wx+b=0 wx+b
- Xem thêm -

Xem thêm: Đánh giá hiệu năng xác suất dừng mạng thông tin vệ tinh chuyển tiếp hai chiều sử dụng mã fountain,

Hình ảnh liên quan

II. MÔ HÌNH HỆ THỐNG - Đánh giá hiệu năng xác suất dừng mạng thông tin vệ tinh chuyển tiếp hai chiều sử dụng mã fountain
II. MÔ HÌNH HỆ THỐNG Xem tại trang 2 của tài liệu.
Hình 3 vẽ xác suất dừng hệ thống OPht theo giá trị của ∆ (dB) khiτ= 1 . Tương tự như Hình 2, ta nhận thấy rằngOP htgiảm khi công suất phát của các thiết bị tăng - Đánh giá hiệu năng xác suất dừng mạng thông tin vệ tinh chuyển tiếp hai chiều sử dụng mã fountain

Hình 3.

vẽ xác suất dừng hệ thống OPht theo giá trị của ∆ (dB) khiτ= 1 . Tương tự như Hình 2, ta nhận thấy rằngOP htgiảm khi công suất phát của các thiết bị tăng Xem tại trang 4 của tài liệu.
Hình 2. Xác suất dừng hệ thống vẽ theo ∆ (dB) khi χ= 1. Hình 2 vẽ xác suất dừng hệ thốngOP ht theo giá trị của ∆ (dB) khiχ= 1  - Đánh giá hiệu năng xác suất dừng mạng thông tin vệ tinh chuyển tiếp hai chiều sử dụng mã fountain

Hình 2..

Xác suất dừng hệ thống vẽ theo ∆ (dB) khi χ= 1. Hình 2 vẽ xác suất dừng hệ thốngOP ht theo giá trị của ∆ (dB) khiχ= 1 Xem tại trang 4 của tài liệu.
Hình 3. Xác suất dừng hệ thống vẽ theo ∆ (dB) khi τ= 1. suất phát của toàn hệ thống. Do đó, để bảo đảm yêu cầu chất lượng dịch vụ và tốc độ truyền dữ liệu thì hệ thống nên được thiết kế có độ trễ phù hợp, cũng như tăng công suất phát. - Đánh giá hiệu năng xác suất dừng mạng thông tin vệ tinh chuyển tiếp hai chiều sử dụng mã fountain

Hình 3..

Xác suất dừng hệ thống vẽ theo ∆ (dB) khi τ= 1. suất phát của toàn hệ thống. Do đó, để bảo đảm yêu cầu chất lượng dịch vụ và tốc độ truyền dữ liệu thì hệ thống nên được thiết kế có độ trễ phù hợp, cũng như tăng công suất phát Xem tại trang 4 của tài liệu.
Hình 1. Ví dụ về điểm lõi p với MinPts 5 - Đánh giá hiệu năng xác suất dừng mạng thông tin vệ tinh chuyển tiếp hai chiều sử dụng mã fountain

Hình 1..

Ví dụ về điểm lõi p với MinPts 5 Xem tại trang 7 của tài liệu.
Hình 4. Siêu mặt phân tách tuyến tính - Đánh giá hiệu năng xác suất dừng mạng thông tin vệ tinh chuyển tiếp hai chiều sử dụng mã fountain

Hình 4..

Siêu mặt phân tách tuyến tính Xem tại trang 8 của tài liệu.
Chúng ta có thể mô hình hóa ý tưởng trên đây bằng toán học như sau: Giả sử mọi điểm trong tập mẫu thỏa các ràng buộc:  - Đánh giá hiệu năng xác suất dừng mạng thông tin vệ tinh chuyển tiếp hai chiều sử dụng mã fountain

h.

úng ta có thể mô hình hóa ý tưởng trên đây bằng toán học như sau: Giả sử mọi điểm trong tập mẫu thỏa các ràng buộc: Xem tại trang 8 của tài liệu.
Hình 5 mô tả dữ liệu huấn luyện trong trường hợp có nhiễu. Trong hình 5, các điểm hình vuông (chẳng hạn thuộc lớp +1)  lại nằm vào lớp có điểm hình tròn (lớp -1) và ngược lại - Đánh giá hiệu năng xác suất dừng mạng thông tin vệ tinh chuyển tiếp hai chiều sử dụng mã fountain

Hình 5.

mô tả dữ liệu huấn luyện trong trường hợp có nhiễu. Trong hình 5, các điểm hình vuông (chẳng hạn thuộc lớp +1) lại nằm vào lớp có điểm hình tròn (lớp -1) và ngược lại Xem tại trang 9 của tài liệu.
Bảng 1. Kết quả thực nghiệm với K-Means và DBSCAN - Đánh giá hiệu năng xác suất dừng mạng thông tin vệ tinh chuyển tiếp hai chiều sử dụng mã fountain

Bảng 1..

Kết quả thực nghiệm với K-Means và DBSCAN Xem tại trang 10 của tài liệu.

Từ khóa liên quan