Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 85 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
85
Dung lượng
1,68 MB
Nội dung
I H C QU C GIA TP HCM TR NGă I H C BÁCH KHOA - NGUY NăPHỎă ỊNH NG D NGăCỄCăPH NGăPHỄPăVECTORăHịAă LO I B TINă NGăTRÙNGăTRONGăL NHăV C B T NG S N Chuyên ngành: H th ng thông tin Qu n Lý Mã s : 8340405 LU NăV NăTH CăS TP H CHÍ MINH, tháng 07 n m 2022 I H C QU C GIA TP HCM TR NGă I H C BÁCH KHOA - NGUY NăPHỎă ỊNH NG D NGăCỄCăPH NGăPHỄPăVECTORăHịAă LO I B TINă NGăTRÙNGăTRONGăL NHăV C B T NG S N Chuyên ngành: H th ng thông tin Qu n Lý Mã s : 8340405 LU NăV NăTH CăS TP H CHÍ MINH, tháng 07 n m β0ββ CỌNG TRỊNH C HOÀN THÀNH T I: TR NGă I H C BÁCH KHOA ậ HQG-HCM Cán b h ng d n khoa h c: TS Lê Lam S n Cán b ch m nh n xét 1: TS Lê Hoành S Cán b ch m nh n xét 2: PGS.TS Nguy n Tu n Lu n v n th c s đ c b o v t i Tr ngày 21 tháng 07 n m β0ββ ng ng i h c Bách Khoa, HQG Tp HCM Thành ph n H i đ ng đánh giá lu n v n th c s g m: Ch t ch h i đ ng: PGS.TS Tr n Minh Quang β Th kỦ: PGS.TS Lê H ng Trang GV ph n bi n 1: TS Lê Hoành S GV ph n bi n 2: PGS.TS Nguy n Tu n ng y viên: TS Phan Tr ng Nhân Xác nh n c a Ch t ch H i đ ng đánh giá LV vƠ Tr ngành sau lu n v n đư đ CH T CH H Iă NG ng Khoa qu n lý chuyên c s a ch a (n u có) TR NG KHOA KHOA H C VÀ K THU T MÁY TÍNH I H C QU C GIA TP.HCM TR NGă IăH CăBỄCHă KHOA C NGăHọAăXĩăH IăCH ăNGH Aă VI TăNAM căl pă- T ădoă- H nhăphúc NHI M V LU NăV NăTH CăS H tên h c viên: Nguy n Phú ình .MSHV: 1970580ầ NgƠy, tháng, n m sinh: 21/02/1995 .N i sinh: Thái Bìnhầ Chuyên ngƠnh: H th ng thông tin qu n lỦ Mư s : 8340405 I TểN TÀI: ng d ng ph ng pháp vector hóa đ lo i b tin đ ng trùng l nh v c B t đ ng s n (Vectorization Implementation in remove duplicate real estate listing description) II NHI M V VÀ N I DUNG: D li u tin đ ng công khai Internet ch a đ c công ty Propzy Vi t Nam khai thác hi u qu Cùng v i lƠ nhu c u phát tri n nhanh ngu n hƠng vƠ đ i ng đ i tác môi gi i Tác gi đ t nhi m v c n tìm ph ng pháp x lý d li u đ phân c m tin đ ng t danh sách tin đ ng Internet T đó, ti n đ đ a gi i pháp phân lu ng đ c i thi n quy trình phát tri n ngu n hàng k t n i môi gi i hi n t i công ty III NGÀY NH N NHI M V : 14/02/2022 IV NGÀY HOÀN THÀNH NHI M V : 21/07/2022 V CÁN B H NG D N: TS Lê Lam S n Tp HCM, ngày… tháng … n m 2022 CÁN B H NG D N CH NHI M B (H tên vƠ ch kỦ) TR MỌNă ĨOăT O (H tên vƠ ch kỦ) NG KHOA KHOA H C VÀ K THU T MÁY TÍNH (H tên vƠ ch kỦ) L IăC Mă N hoƠn thƠnh đ c Lu n v n th c s , xin đ c bi t bày t s c m kích t i Ti n S Lê Lam S n - Th y đư đ nh h ng, tr c ti p d n d t c v n cho su t th i gian th c hi n đ tài nghiên c u khoa h c Xin chân thành c m n nh ng khóa h c, tài li u vƠ ph ng pháp nghiên c u mà th y đư chia s trình h c Th c s t i tr ng ng th i, th y c ng lƠ ng i cho nh ng l i khun, khích l vƠ thúc đ y tơi su t th i gian th c hi n Lu n v n nƠy M t l n n a, xin g i l i c m n đ n Th y b ng t t c t m lòng s bi t n c a Tơi xin g i l i c m n chơn thƠnh đ n Th y cô khoa đư truy n đ t cho nh ng ki n th c n n t ng, lƠ c s đ phát tri n vƠ mƠi r a nh ng k n ng liên quan đ n h th ng thông tin ti n đ đ đ nh h ng cho s nghi p sau c a Tôi c ng mu n c m n anh ch công ty Propzy đư t o u ki n v m t d li u, thông tin, quy trình c th i gian đ tơi có th hoƠn thƠnh đ c Lu n v n nƠy Tôi c ng mu n bày t s c m kích sâu s c chân thành nh t dƠnh cho gia đình c a Khơng có tình u vô u ki n, s ng h t gia đình, tơi khơng ch c ti p t c đ c đ ng h c v n nh ngƠy hơm Trong q trình th c hi n lu n v n, dù có nhi u c g ng hoàn thi n nh ng kh n ng, th i gian đ c bi t kinh nghi m v phân tích cịn h n ch , nên lu n v n không th tránh kh i nh ng thi u sót Vì v y, tơi r t mong nh n đ c s góp Ủ chân thành t quỦ Th y Cơ, nh m b sung hồn thi n trình nghiên c u ti p theo Xin chân thành c m n i TịMăT T L nh v c B t đ ng s n m t sơn ch i h p d n v i r t nhi u đ i t ng tham gia S l ng kh ng l tin đ ng công khai Website rao bán m t m vàng ch a đ ng nhi u thông tin quan tr ng Ngu n d li u tin đ ng công khai ch a đ c công ty Propzy Vi t Nam khai thác hi u qu Cùng v i lƠ nhu c u phát tri n nhanh ngu n hƠng vƠ đ i ng đ i tác môi gi i Tác gi đ t nhi m v c n tìm ph ng pháp x lý d li u đ phân c m tin đ ng t danh sách tin đ ng Internet T đó, đ a gi i pháp phân lu ng đ c i thi n quy trình phát tri n ngu n hàng k t n i môi gi i hi n t i công ty Quy trình c i ti n bao g m hai đ xu t quan tr ng : - - Ph ng pháp x lý d li u tin đ ng vƠ phơn c m : thông qua l n ch y v i b d li u 1000 tin đ ng cho m i l n Tác gi xác đ nh t h p lo i Vector, ph ng pháp làm s ch vƠ ph ng pháp đo l ng hi u qu nh t, lƠ đ u vào cho gi i thu t phân c m DBSCAN T ti p t c th nghi m t c đ m c đ kh thi ch y ph ng pháp x lỦ tin đ ng vƠ phơn c m cho nh ng b d li u l n h n t 10,000 đ n 100,000 tin đ ng đ tìm ng ng kh thi ng d ng th c t Ph ng pháp phơn lo i k t qu : d a vào thông tin sau ph ng v n nh ng ng i th ng xuyên th c hi n vi c xác đ nh tin đ ng cá nhơn, môi gi i K t h p v i lƠ nh ng truy v n th c hi n h c s d li u hi n có c a công ty đ xác đ nh nhãn cho t ng c m tin đ ng đ u g i đ n nh ng b ph n phù h p đ nh n k t qu phân lo i Quy trình m i đ xu t giúp t ng t c đ , hi u su t chu n hóa quy trình hi n t i v phát tri n ngu n hàng môi gi i qua ngu n tin đ ng công khai ii ABSTRACT Real estate industry is always an attractive field which appeals many individuals A massive of property posting publicly on selling websites is a valuable source that contains a huge of importante information This publicly data source has not been utilized effectively by Propzy yet Along with that is the need of increasing number of property and brokerage partners, author sets the mission of this study is to figure out the methodology of processing data so as to conduct cluster analysis of property posting from the lists on the Internet By doing so, giving a classifying solution to improve the current seeking property and connecting brokerage partners process in Propzy The improvement process includes two important key points: - - Data processing methodology for public property posting and clustering analysis: after run times of 1000 rows-dataset for each time, the author determined the combination of vector type, cleaning method, measurement method and it’s suitable threshhold that are the most effectiveness This combination is the key parameters for the DBSCAN clustering algorithm After that, author figure out the speed and feasibility of the proposed method in order to find out the feasible range in reality by practical run for larger dataset from 10,000 to 100,000 rows of data Business rule for classified output: based on information when interviewing people who frequently and manually identify and classified of the property posting whether it from individuals or brokerage Along with this, author propose using logical queries from internal database to labelling every cluster of the output after the clustering process and provide it to the suitable stakeholder for the next execution The proposed will help saving time, increase the productivity and standardlize the current processes of seeking property and connecting brokerage partners process via publicly property postings iii L IăCAMă OAN Tôi xin cam đoan lu n v n đ tài “ ng d ng ph ng pháp Vector hóa đ lo i b tin đ ng trùng l nh v c B t đ ng s n” cơng trình nghiên c u mà b n thân th c hi n th i gian qua d i s h ng d n c a Ti n s Lê Lam S n D li u tin đ ng lƠ d li u công khai Internet, nh ng thông tin mƠ tơi phơn tích đ u đ m b o khách quan, trung th c vƠ ch a đ c cơng b d i b t kì hình th c Tơi xin ch u hồn tồn trách nhi m n u có s khơng trung th c thơng tin s d ng cơng trình nghiên c u H Chí Minh, ngày ầ tháng ầ n m β0ββ Tác gi Lu năv n Nguy năPhúă ình iv M CăL C PH N M CH U NG M U 1.1 LỦ hình thƠnh đ tài 1.2 M c tiêu 1.3 Gi i h n vƠ đ i t ng nghiên c u 1.4 ụ ngh a th c ti n 1.5 C u trúc Lu n v n CH NG β T NG QUAN 2.1 T ng quan v công ty Propzy 2.1.1 L ch s hình thành phát tri n β.1.β i d ch Covid nh ng u ch nh c a Propzy 2.1.3 Quy trình k t n i đ i tác phát tri n ngu n hàng 2.2 T ng quan v th tr ng b t đ ng s n t i Vi t Nam 11 2.3 T ng quan v th tr ng tin đ ng B t đ ng s n 12 2.3.1 T ng quan th tr ng 12 2.3.2 Các v n đ tin đ ng b t đ ng s n 13 2.4 T ng quan cách làm s ch d li u x lý ngôn ng ti ng Vi t 15 2.5 T ng quan ph ng pháp đo l ng đ gi ng c a v n b n 15 β.5.1 Ph ng pháp đo t ng đ ng d a m ng l β.5.β Ph ng pháp đo t ng đ ng d a v n b n 16 i 15 2.5.3 M t s nghiên c u liên quan khác 20 2.6 K thu t phân c m DBSCAN 21 β.6.1 nh ngh a gi i thu t phân c m 21 2.6.2 Các bi n th c a DBSCAN 25 CH NG γ PH 3.1 T ng quan ph NG PHÁP TH C HI N 26 ng pháp th c hi n 26 γ.1.1 Xác đ nh ph 3.1.2 ng d ng ph ng pháp phơn c m d li u tin đ ng 26 ng pháp l c c m tin vào c i ti n quy trình 29 γ.1.γ Theo dõi, đánh giá vƠ c i ti n ph v ng pháp, quy trình 29 CH NG TH C NGHI M VÀ K T QU TH C NGHI M 30 4.1 Xác đ nh ph ng pháp phơn c m phù h p 30 4.1.1 Làm s ch d li u 30 4.2 Vector hóa 33 4.β.1 Xác đ nh ph 4.2.2 ng pháp Vector vƠ thang đo phù h p 33 ng d ng gi i thu t DBSCAN 52 4.3 Th nghi m gi i thu t phân c m đ xu t v i b d li u l n 54 4.4 ng d ng c i ti n quy trình 56 4.4.1 Quy trình c i ti n đ xu t 56 4.4.2 Di n gi i quy trình 57 4.4.3 T ng k t v quy trình đ xu t 61 CH NG K T LU N VÀ KI N NGH 63 5.1 K t lu n 63 5.1.1 óng góp c a nghiên c u 63 5.1.2 H n ch c a nghiên c u 63 5.1.γ nh h ng nghiên c u t ng lai 64 TÀI LI U THAM KH O 65 vi Quy trình c i ti n s k t h p c a β quy trình c B i m chung c a c β quy trình đ u đ nh ng trang đ ng tin B t đ ng s n d a vào s l ng tin đ ng tìm th y đ xác đ nh đ i t ng tr c th c hi n th công b ng cách l c c liên l c 4.4.2 Di n gi i quy trình 4.4.2.1 Ph ngăphápăphơnăc mătinăđ ng Hình 29 Ph ng pháp phân c m tin đ ng Thơng qua nh ng phân tích trên, k t h p v i vi c s l ng tin đ ng trung bình phân khúc B t đ ng s n th c p t i Thành ph H Chí Minh trang đ ng tin l n m i ngày kho ng h n 10.000 tin đ ng7, ngày liên ti p s có kho ng γ0.000 tin đ ng đ c thu th p Tác gi đ xu t vi c phân c m phân lu ng tin đ ng s đ c th c hi n v i m i ngày m t l n Khi đó, thu t gi i s đ c d li u tin đ ng thu th p v t ngày g n nh t, sau x lý làm s ch m c đ c b n tr c đ c vector hóa thơng qua ph ng pháp Onehot B d li u Vector sau đ c phân c m thơng qua gi i thu t DBSCAN v i gi i thu t t đ ng tham s sau: - Ph ng pháp đo Cosine Ng ng Eps t i thi u: 0.5 Tiên Phong “L ng tin đ ng bán nhƠ đ t cu i n m t ng k l c” Internet: https://baoxaydung.com.vn/luong-tin-dang-ban-nha-dat-cuoi-nam-tang-ky-luc-319971.html 57 4.4.2.2 Quyătrìnhăxácăminhăđ iăt ng Trong quy trình m i, vi c l c tìm l c c m tin đ ng đ c th c hi n m t cách t đ ng thông qua thu t gi i đư đ K t qu đ u sau th c hi n phân c m s đ c t đ ng xác minh thêm v i logic d i Hình 30 Logic phân lo i xác minh đ i t 58 ng c trình bày ph n Vi c phân lu ng đ - c d a nh ng gi thuy t đ c tác gi ph ng v n ghi nh n nh sau: Ng i đ ng bán cá nhơn th ng đ ng tin m t ho c nhi u trang web th i m Các c m tin đ ng nƠy ch đ c p đ n nh t m t b t đ ng s n Ng i đ ng bán cá nhơn th ng ch dùng nh t m t s n tho i Môi gi i th ng đ ng nh ng tin có khu v c lân c n đ tìm ki m ngu n c u u tiên, c n phân lo i nh ng c m tin nghi c a cá nhân ch nhƠ đ ng vƠ nh ng tin thu c môi gi i d a vƠo u ki n Theo đó, ch nhà s nh ng s n tho i đ ng h n β c m tin, m i c m tin ch thu c v b t đ ng s n nh t Ng c l i s nhóm mơi gi i Sau phân lu ng đ i t - - iv o o iv o o ng, ti p t c so sánh v i c s d li u h th ng đ ki m tra, c th i nh ng c m tin cá nhân xác nh n li u s n tho i khu v c đ ng tin đư có h th ng: N u ch a có chuy n thơng tin đ n đ i phát tri n ngu n hƠng đ ti p t c quy trình N u đư có b qua tin đ ng i nh ng c m tin đ ng c a môi gi i xác th c s n tho i đ ng tin so v i s n tho i h th ng: N u ch a có chuy n thơng tin đ n đ i phát tri n môi gi i N u đư có s n tho i ki m tra khu v c đ ng tin c a mơi gi i có sát v i khu v c đ c đ ng tin b i s n tho i t ng ng N u có s khác bi t v m t khu v c chuy n nh ng thơng tin đ n lu ng phát tri n ngu n hàng Khu v c đ ng tin đ c đ nh ngh a theo u ki n cơng ty Ví d : qu n Bình Tân, qu n có th xem khu v c Quy trình m i nêu giúp t ng m c đ h p tác gi a hai nhóm h tr phát tri n ngu n hàng nhóm phát tri n tin đ ng Môi gi i sau th c hi n t o tài kho n h th ng s đ c chuy n ti p thông tin đ đ i phát tri n ngu n hàng h tr đ ng tin thay ch d ng l i b c t o tài kho n nh quy trình c 59 Contact Mobile Contact Name {786575099.0 {'Hồng Khôi } Nguyên'} AdsID [28613375 , 28608092] # Ads [13517665 {'Le Thi Ngoc Ha', {908875472.0, , 'B S Lê minh', 'Lê 912031038.0} 28612980, Hà'} 82031792] {908215300.0 {'H i'} } [61780968 ] Source {'batdongsan.co m.vn'} Title Street Bán nhƠ β.5 t m H m Xe H i 5m (4m x 15.5m) ng Tơn Qúy, Q.Tơn Qúy - G n Aeon Mall Tân Phú Bán nhƠ Th a Luông, Qu n Tơn Phú (4m x 10m) 40mβ Tr t L u {' ng Tơn QuỦ', ' ng Th a Luông'} Ward District Bedroom {'Ph ng {'Qu n Tơn {2.0, 4.0} Tân Quý'} Phú'} Toilet Price {2.0, 3.0} {'N/A'} Type Phone Check Zone Check MG NhƠ HXH Bùi ình Túy, Bình Th nh, l u, st, 4,5xβ0 CHDV thu nh p 70tr/tháng, 1β t γ LH:0912031038 {'dothi.net', {'Ph ng ng Bùi ình NhƠ HXH Bùi ình Túy, Bình Th nh, l u, {' {'Qu n Bình {nan, nan, {'10-15b', 'batdongsan.co 24', ng Nguy n st, 4,5xβ0 CHDV thu nh p 70tr/tháng, 1β t γ Túy', ' {nan, nan, 4.0} MG m.vn', 4.0} 'N/A'} 'Ph ng Th nh'} Gia Trí'} LH:0912031038 'chotot.com'} 25'} NhƠ hxh tr t γ l u nguy n gia trí pβ5 ,4,γ x 22 NHÀ BÁN: S 8i C xá Phú Bình, đ {'muaban.net'} L c Long Quơn, F.5, Q.11 ng Hình 31 K t qu hi n th cho ng {' ng C Xá Phú {'Ph Bình- L c Long 5'} Quân'} ng {'Qu n 11'} {nan} {nan} {'N/A'} CN Not in DB Not in DB Not in DB Not in DB Not in DB Not in DB i dùng sau ch y thu t gi i K t qu sau ch y gi i thu t phân c m logic phân lo i s đ c t ng h p g i cho hai đ i phát tri n ngu n hàng phát tri n mơi gi i v i thơng tin nh hình Trong ph n c t tơ vàng (Lo i, ki m tra s n tho i, ki m tra khu v c) giúp team xác đ nh thông tin v đ i t ng c n liên l c 60 4.4.3 T ng k t v quy trình đ xu t D a vào nh ng lý thuy t v Qu n tr quy trình kinh doanh cu n Fundamentals of Business Process Management c a Marlon Dumas c ng s [27], tác gi đ a phân tích nh ng thay đ i c a quy trình đ xu t d a lý thuy t v nh ng kinh nghi m tái thi t k (Redesign heuristics) vƠ đ a nh ng đánh giá u, nh c m d a góc đ Chi phí (cost), Ch t l ng (quality), Th i gian (time) vƠ linh ho t (flexibility) theo mơ hình Devil’s Quadrangle 4.4.3.1 Nh ng s thayăđ i v m t quy trình Quy trình đ xu t s tái thi t k t hai quy trình c , bao g m lo i c i ti n sau: - - - - T đ ng hóa (Automation): q trình tìm ki m, l c tin đ ng/đ i t ng ti m n ng đ c th c hi n th công quy trình c s tr nên t đ ng quy trình m i thơng Tích h p công vi c l i v i (Task composition): vi c tìm ki m tin đ ng vƠ cơng tìm ki m phát tri n mơi gi i đ c tích h p l i v i nhóm tìm ki m phân lo i tin đ ng Chu n hóa quy trình (Process specialization): Quy trình xác minh đ i t ng đ c tiêu chu n hóa th c hi n m t cách t đ ng, giúp tránh tr ng h p phân lo i ch y u d a vào c m nh n cá nhơn nh tr c đơy T i u hóa thơng tin giao ti p (Communication Optimization): Vi c đ a hai quy trình hi n h u vào chung m t quy trình m i nh m đ m b o có s trao đ i thơng tin gi a hai b ph n Sau môi gi i đ c t o tài kho n xong thơng tin c n chuy n sang đ i phát tri n ngu n nhƠ đ ti p t c vi c đ ng tin Quy trình phân lu ng c ng giúp đ i h tr phát tri n ngu n hàng môi gi i n m đ c tình tr ng thơng tin c a ng i đ ng tin b t đ ng s n đ c đ ng tin h th ng 4.4.3.2 uăđi m V i nh ng c i ti n quy trình m i s có nh ng u m sau: - - Th i gian: c hai b ph n s ti t ki m r t nhi u th i gian vi c tìm ki m thơng tin tin đ ng vƠ môi gi i b i thao tác gi đ c t đ ng hóa d ki n s t đ ng ch y ngày m t l n Ch t l ng: c m tin đ ng đ c x lý thông qua thu t gi i so sánh thông tin v i h th ng C s d li u đ cung c p thông tin c n thi t cho b ph n liên quan tr c h th c hi n liên l c B i d li u đ c k t n i v i qua nhi u ngu n vƠ đ m b o m t u ki n nên ch t l ng thông tin s cao h n cá nhân th c hi n th cơng Ngồi ra, s k t h p v m t quy trình 61 gi a hai b ph n giúp gi m thi u nh ng tr ng h p mâu thu n gi a hai bên (ch a t o môi gi i nh ng v n t o tin đ ng ho c gán sai cho môi gi i,ầ) 4.4.3.3 Nh đ tđ sau: - - căđi m c nh ng u m trên, quy trình m i s có nh ng m t nh c m nh Chi phí (Cost): Vi c ng d ng công ngh thông tin đ t đ ng hóa cơng vi c địi h i chi phí đ u t ban đ u cho h th ng h t ng công ngh c ng nh chi phí cho đ i ng ngu n l c tri n khai, b o d ng h th ng Càng nhi u nhu c u tính tốn s cƠng gia t ng chi phí ph n c ng đ đáp ng S linh ho t (flexible): Tr c ngu n hàng môi gi i đ n t nghi p v tìm ki m website d ng tin ch a đ c tr ng, ch lƠ quy trình thêm đ c th c hi n b i cá nhân t ng b ph n nên ng i dùng có nhi u s linh ho t vi c x lý Trong quy trình m i, v i l ng d li u phân lo i đ c đ y v v i s l ng l n, yêu c u c n ph i s đ c x lý hi u qu khn phép i u d n đ n làm thu h p l i ph m vi công vi c c a nh ng nhân viên b ph n 62 CH NGă5 K T LU N VÀ KI N NGH 5.1 K t lu n 5.1.1 óngăgópăc a nghiên c u Nghiên c u cung c p nh ng đánh giá v đ hi u qu c a t h p ph ng pháp Vector hóa, ph ng pháp đo l ng, m c đ làm s ch cho l nh v c phân tích d li u tin đ ng b t đ ng s n K t qu c a nghiên c u đ c ng d ng tr c ti p đ đ a m t quy trình c i ti n v n hành công ty thông qua vi c phân tách d li u thu th p phát tri n h th ng u ki n đ phân lu ng Quy trình m i đ c áp d ng s ti t ki m th i gian c a b ph n công ty vi c tìm ki m xác đ nh ngu n hƠng vƠ đ i tác Bên c nh đó, cịn t i u hóa vi c khai thác t ngu n thông tin môi tr ng công khai n i b doanh nghi p Ngoài ra, nh ng k t lu n tìm th y ti n đ ti p n i cho vi c l a ch n ph ng pháp phù h p bƠi toán liên quan đ n x lý ngôn ng t nhiên l nh v c B t đ ng s n 5.1.2 H n ch c a nghiên c u Vi c ch a đ c ng d ng th c t quy trình đ xu t vƠo mơi tr ng doanh nghi p n cho vi c đánh giá hi u su t, k t qu g p nhi u khó kh n C n nhi u h n nh ng ph n h i th c t c a ng i dùng đ c i thi n nh ng v n đ phát sinh liên quan đ n quy trình, gi i thu t phân c m cách th c phân lu ng Gi i h n ph n c ng s ch a t i u gi i thu t n cho vi c phân c m tin đ ng ch nên đ c th c hi n v i b d li u tin đ ng vòng γ ngƠy g n nh t (x p x 30.000 dòng d li u), d n đ n v n s có m t s tin thu c c m tin đ ng c a nh ng ngƠy tr c nên khơng đ c phân c m Riêng đ i v i ph n gi i thu t phân c m: - - Các ph ng pháp làm s ch, x lý d li u d c s d ng nghiên c u cịn thơ s , đ c bi t vi c xây d ng t n t vi t t t, t ghép, c m t B t ng S n,ầ có th s d ng nh ng gi i thu t cho k t qu t t h n V i gi i h n ngu n l c cho ph n đánh giá, t l d ng tính th c (True Positive) nghiên c u đ c đ nh ngh a m t cách x p x g n Ph n Vector hóa ch a s d ng ph ng pháp trích xu t, thu h p gi m chi u ma tr n đ giúp gi m b t tài nguyên, t i u hóa c n ch y v i b d li u l n h n 63 - 5.1.3 Gi i thu t phân c m DBSCAN đ c s d ng gi i thu t c n b n ch a đ c t i u v i đ ph c t p theo hƠm m ơy c ng lƠ u có th c n ph i c i thi n nhăh ng nghiên c uătrongăt ngălai Tham kh o ph ng pháp phân tách, gi m chi u d li u đ t ng t c đ gi i h n c a gi i thu t T i u hóa thu t gi i DBSCAN, ng d ng thêm ph ng pháp nh m đáp ng vi c phơn tích đ u vào d li u l n C i thi n ph ng pháp lƠm s ch, xây d ng b t n l nh v c B t đ ng s n x lý d li u thông qua mô hình máy h c đ có k t qu xác h n Xây d ng ph ng pháp đánh giá mang tính khách quan vƠ hi u qu h n 64 TÀI LI U THAM KH O [1] L H Son, L T Van and P T Vu “Aspect Analysis for Opinion Mining of Vietnamese Text,” in International Conference on Advanced Computing and Applications, Ho Chi Minh, Viet Nam, 2015 [2] P H Dang and C D Tuan, “Applying Skip-gram word estimation and SVMbased classification for opinion mining Vietnamese food places text reviews,” in Proceedings of the Fifth Symposium on Information and Communication Technology, Ha Noi, Viet Nam, Dec 2014 [3] A Minocha, N Singh and A Srivastava “Finding Relevant Indian Judgments using Dispersion of Citation Network,” in Proceedings of the 24th International Conference on World Wide Web, Florence, Italy, May 2015, pp 1085-1088 [4] A Mandal et al., “Measuring Similarity among Legal Court Case Documents,” in Proceedings of the 10th Annual ACM COMPUTE Conference, New York, USA, Nov 2017 [5] B Bengfort, R Bilbro and T Ojeda Applied Text Analysis with Python: Enabling Language-Aware Data Products with Machine Learning Sebastopol, CA: O’Reilly Media, 2018 [6] D Sarkar Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data Berkely, CA: Apress, 2016 [7] B Trstenjak, S Mikac and D Donko “KNN with TF-IDF based Framework for Text Categorization,” in 24th DAAAM International Symposium on Intelligent Manufacturing and Automation, Zadar, Croatia, 2013 [8] O Shahmirzadi, A Lugowski and K Younge “Text Similarity in Vector Space Models: A Comparative Study,” in International Conference On Machine Learning and Applications, Boca Raton, USA, Dec 2019, pp.659666 [9] S Y Lee “Document vectorization method using network information of words,” PLoS ONE, vol 14, pp 219-389, Jul 2019 [10] T Mikolov et al “Efficient Estimation of Word Representations in Vector Space,” in Proceedings of the International Conference on Learning Representations, Arizona, USA, Jan 2013 65 [11] Q Le and T Mikolov “Distributed Representations of Sentences and Documents,” in Proceedings of the 31st International Conference on Machine Learning, Beijing, China, May 2014, pp 1188-1196 [12] J Han and M Kamber Data Mining: Concepts and Techniques, Third edition Waltham, MA: Morgan Kaufmann, 2011 [13] M Erritali and Y Madani “An Approach of Semantic Similarity Measure between Documents Based on Big Data,” International Journal of Electrical and Computer Engineering, vol 6, pp 2454-2463, Oct 2016 [14] N T Hien, D H Phuc and V T Vinh “Vietnamese Sentence Similarity Based on Concepts,” in IFIP International Conference on Computer Information Systems and Industrial Management, Warsaw, Poland, Sep 2015 [15] P V Lien and P B Son “Information Extraction for Vietnamese Real Estate Advertisements,” in Fourth International Conference on Knowledge and Systems Engineering, Da Nang, Viet Nam, Sep 2012 [16] M Ester, H P Kriegel, J Sander and X Xu “A Density-Based Algorithm for Discovering Clustersbin Large Spatial Databases with Noise,” Kdd, vol 96, pp 226-231, 1996 [17] L Kaufma and P J Rousseeuw Finding Groups Data: An introduction to Cluster Analysis New Jersey, MA: John Wiley & Sons, 1990 [18] Y P Wu, J J Guo and X J Zhang “A linear DBSCAN algorithm based on LSH,” in Proceedings of the Sixth International Conference on Machine Learning and Cybernetics, Hong Kong, China, Aug 2007 [19] N H A Duy, T N M Thu and D T Nghi “Gi i thu t DBSCAN c i ti n cho phân c m t p d li u l n,” in H i th o qu c gia l n th XVII: M t s v n đ ch n l c c a Công ngh thông tin truy n thông- k L k, Viet Nam, Oct 2014 [20] S S Li “An Improved DBSCAN Algorithm Based on the Neighbor Similarity and Fast Nearest Neighbor Query,” in National Natural Science Foundation of China, China, Jan 2020 [21] Y H Li and A K Jain “Classification of Text Documents,” The Computer Journal, vol 41, pp 537-546, Jan 1998 66 [22] H C D Vu, D Dien, N L Nguyen and N Q Hung “A Comparative Study on Vietnamese Text Classification Methods,” in IEEE International Conference on Research, Innovation and Vision for the Future, Ha Noi, Viet Nam, Mar 2007 [23] Y S Lin, J Y Jiang and S J Lee “A Similarity Measure for Text Classification and Clustering,” IEEE Transactions on knowledge and Data Engineering, vol 26, pp 1575-1590, Jul 2014 [24] O Jafari et al., “A Survey on Locality Sensitive Hashing Algorithms and their Applications,” preprint arXiv:2102.08942, pp 1-18, Feb 2021 [25] J Leskovec, A Rajaraman and D U Jeffrey Mining of Massive Dataset United Kingdom: Cambridge University Press, Jul 2019 [26] P Kenvin and B Puskpak “Towards Lower Bounds on Number of Dimensions for Word Embeddings,” in Proceedings of the Eighth International Joint Conference on Natural Language Processing, Taiwan, 2017 [27] D Marlon, L R Marcello, M Jan and A J Hajo Fundamentals of Business Process Management Brisbane, Australia: Springer, 2013 67 PH L C L n ch y th 2: S l ng c p tin trùng t i ng Count Distinct Level clean lv1 lv2 lv3 ng Cosine 0.4: Vector type doc2vec doc2vec300 231 395 263 237 325 221 B ng 26 K t qu s l onehot 388 303 216 ng c p cosine ng tfidf wordcount 241 417 216 369 181 236 ng 0.4 - l n K t qu ch y l n th cho s l ng tin t ng đ ng v i l n ch y đ u tiên, ph ng pháp vector hóa ngo i tr Docβvec đ u cho s l ng tin nghi trùng gi m d n sau t ng l n th c hi n làm s ch d li u Chính xác tin trùng % accuracy lv1 lv2 lv3 doc2vec 52% 46% 38% doc2vec300 31% 51% 54% B ng 27 T l xác tin trùng theo ng T l xác tiên l n ch y β c ng cho k t qu t onehot 31% 40% 56% tfidf 50% 55% 66% wordcount 30% 33% 51% ng cosine 0.4 - l n ch y ng đ ng so v i l n ch y đ u m c làm s ch d li u th % Accuracy accumulate 0.03 0.06 0.12 0.2 0.3 0.4 doc2vec doc2vec300 100% 95% 83% 71% 52% 100% 93% 80% 67% 31% onehot 98% 93% 80% 64% 57% 31% B ng 28 T l xác tin trùng theo m c cosine lo i vector – l n ch y 68 tfidf wordcount 99% 96% 92% 79% 62% 50% 95% 92% 73% 62% 49% 30% m c làm s ch m c làm s ch d li u th % Accuracy accumulate 0.03 0.06 0.12 0.2 0.3 0.4 doc2vec doc2vec300 100% 99% 84% 71% 46% onehot 100% 94% 84% 72% 51% tfidf wordcount 98% 92% 83% 68% 59% 40% 97% 96% 93% 80% 68% 55% B ng 29 T l xác tin trùng theo m c cosine lo i vector – l n ch y 94% 93% 76% 66% 51% 33% m c làm s ch m c làm s ch d li u th % Accuracy accumulate 0.03 0.06 0.12 0.2 0.3 0.4 doc2vec doc2vec300 100% 93% 78% 59% 38% onehot 100% 90% 79% 70% 54% 99% 94% 90% 77% 66% 56% tfidf wordcount 100% 99% 95% 90% 72% 66% B ng 30 T l xác tin trùng theo m c cosine lo i vector – l n ch y 97% 95% 82% 75% 66% 51% m c làm s ch Chính xác c m tin đ ng % accuracy lv1 lv2 lv3 doc2vec 87% 83% 82% doc2vec300 64% 87% 90% onehot 95% 94% 93% B ng 31 T l xác c m tin đ ng theo ng tfidf wordcount 94% 91% 94% 92% 93% 92% ng cosine 0.4 - l n ch y m c làm s ch d li u th % Accuracy accumulate 0_0.03 0.03_0.06 0.06_0.12 0.12_0.2 0.2_0.3 0.3_0.4 doc2vec doc2vec300 onehot 100% 95% 93% 93% 87% 100% 93% 93% 93% 64% 98% 94% 93% 93% 94% 95% 69 tfidf wordcount 99% 96% 95% 93% 93% 94% 95% 94% 93% 93% 94% 91% B ng 32 T l xác c m tin theo m c cosine lo i vector – l n ch y m c làm s ch m c làm s ch d li u th % Accuracy accumulate 0.03 0.06 0.12 0.2 0.3 0.4 doc2vec doc2vec300 onehot 100% 100% 93% 92% 83% 100% 95% 94% 94% 87% 98% 95% 94% 94% 94% 94% B ng 33 T l xác c m tin theo m c cosine lo i vector – l n ch y tfidf wordcount 97% 96% 95% 93% 94% 94% 94% 95% 94% 94% 94% 92% m c làm s ch m c làm s ch d li u th % Accuracy accumulate 0.03 0.06 0.12 0.2 0.3 0.4 doc2vec doc2vec300 onehot 100% 98% 94% 93% 82% 100% 95% 94% 95% 90% 99% 97% 95% 93% 93% 93% B ng 34 T l xác c m tin theo m c cosine lo i vector – l n ch y 70 tfidf wordcount 100% 99% 95% 93% 93% 93% 97% 95% 93% 94% 93% 92% m c làm s ch PH NăLụăL CHăTRệCHăNGANG H tên: Nguy n Phú ình NgƠy, tháng, n m sinh: 21/02/1995 a ch liên l c: QUỄăTRỊNHă ĨOăT O N i sinh: Qu nh Châu, Qu nh Ph , Thái Bình 31 Trung M Tây, Khu Ph 6, Qu n 12, Thành ph H Chí Minh 2013 - 2017: Sinh viên khoa Qu n lý Công Nghi p, tr ng i h c Bách Khoa, HQG Tp H Chí Minh 2019 - 2022: H c viên cao h c ngành h th ng thông tin qu n lý, khoa KH KT Máy tính, tr ng i h c Bách Khoa, HQG Tp H Chí Minh Q TRÌNH CƠNG TÁC 06/2017 ậ 04/2018: Nhơn viên t v n tri n khai ph n m m, Công ty CP Gi i pháp Chu i cung ng Smartlog 06/2018 ậ 09/2018: Nhơn viên t v n tri n khai ph n m m, Công ty TNHH Tài Nguyên Tri Th c Vi t N ng 10/2018 ậ 01/2019: Nhân viên phân tích nghi p v ph n m m, Công ty CP DMSPro 04/2019 ậ 08/2019: Nhân viên phân tích d li u, Cơng ty TNHH Nin Sing Logistics 10/2019 ậ 03/2020: Nhân viên phân tích d li u, Công ty CP Foody 04/2020 ậ hi n t i: Chun viên phân tích d li u, Cơng ty TNHH Propzy Vi t Nam 71 ... - Các ph ng pháp Vector hóa Onehot, TF-IDF, WordCount: s d ng hàm t o Vector c a th vi n Sklearn Ph ng pháp Vector hóa Docβvec: Xơy d ng mơ hình t o Vector thông - qua hàm c a th vi n Gensim Các. .. l xác tin trùng c a t ng ph ng pháp v i m c cosine 0.4 ậ l n 36 B ng T l xác tin trùng theo m c cosine lo i vector m c làm s ch ậ l n 36 B ng T l xác tin trùng. .. thơng tin qu n lỦ Mư s : 8340405 I TểN TÀI: ng d ng ph ng pháp vector hóa đ lo i b tin đ ng trùng l nh v c B t đ ng s n (Vectorization Implementation in remove duplicate real estate listing