Phát hiện xâm nhập sử dụng XGBoost để lựa chọn tính năng với Logarithmic Autoencoder và Bidirectional LSTM

on .

Phát hiện xâm nhập sử dụng XGBoost để lựa chọn tính năng với Logarithmic Autoencoder và Bidirectional LSTM

CH1902033 - Nguyễn Trọng Minh Hồng Phước

Trong bối cảnh hiện nay, với sự bùng nổ của Công nghệ thông tin (CNTT) và các phụ trợ, cuộc sống của chúng ta đang diễn ra một giai đoạn biến đổi mạnh mẽ. Việc phát triển không ngừng này của các ngành trong CNTT này đã đặt ra một thách thức lớn, là làm thế nào để có thể duy trì sự cạnh tranh và thích ứng. Trong bối cảnh này, việc số hóa dữ liệu đang trở thành một vấn đề được đặt ưu tiên lên hàng đầu. Và đồng thời từ việc này cũng đang mở ra những cánh cửa lớn cho những kẻ tấn công tinh vi. Các kẻ tấn công và tên trộm thông tin ngày càng tinh nhuệ hơn, luôn tìm cách xâm nhập trái phép vào các hệ thống dùng để lưu trữ dữ liệu. Đáng nói là các kỹ thuật tấn công vào các hệ thống ngày ngày đang trở nên đa dạng và khó bị phát hiện. Những hệ thống nhận diện truyền thống dựa trên các quy tắc cố định đang dần trở nên yếu thế và thậm chí lạc hậu khi đối mặt với sự tinh vi của các loại tấn công hiện đại.


Với ý tưởng là sẽ kết hợp ưu điểm của hai nhóm phương pháp trong bài toán IDS: Nhóm phương pháp dựa trên máy học và Nhóm phương pháp dựa trên học sâu, đề tài chọn việc kết hợp chúng để tạo ra mẫu đặc trưng của dữ liệu hoạt động mạng có độ phân biệt cao như sau: Mẫu đặc trưng với độ phân biệt cao, được chọn lọc và đóng góp vào việc phân biệt các cuộc tấn công mạng và trạng thái bình thường, ít chịu ảnh hưởng của nhiễu. Học từ đặc trưng dựa vào các kỹ thuật DL cho phép học đặc trưng quan trọng từ dữ liệu mạng. Thực nghiệm được tôi thực hiện sử dụng CSDL của Đại học New Brunswick, Canada (NSL-KDD) cho thấy rằng phương pháp đề xuất vượt trội hơn các phương pháp hiện có đã được công bố.

Trân trọng.

ỨNG DỤNG CÔNG NGHỆ GIS VÀ VIỄN THÁM XÂY DỰNG BẢN ĐỒ TIỀM NĂNG LŨ QUÉT TỈNH QUẢNG TRỊ

on .

ỨNG DỤNG CÔNG NGHỆ GIS VÀ VIỄN THÁM XÂY DỰNG BẢN ĐỒ TIỀM NĂNG LŨ QUÉT TỈNH QUẢNG TRỊ

Trần Võ Tấn Tài, Lê Thị Thiệp, Nguyễn Thị Phương Quyên

Những năm gần đây, nhiều cơn bão, lũ lụt, các trận lũ quét cuốn trôi nhà cửa, tài sản, làm nhiều người thiệt mạng và gián đoạn hoạt động sản xuất, nhất là ở các tỉnh miền trung nước ta. Lũ quét được hình thành do tổng hợp nhiều nhân tố gây nên như: đặc điểm địa hình, kết cấu đất, lớp phủ thực vật, lượng mưa,... Diện tích rừng đầu nguồn bị suy giảm và biến đổi khí hậu làm cho lũ quét xảy ra thường xuyên và khó dự báo hơn. Vì vậy, công tác dự báo, phòng chống lũ quét đóng vai trò quan trọng trong việc giảm thiểu thiệt hại.

Hiện nay hệ thống thông tin địa lý và viễn thám được sử dụng rộng rãi trong nhiều lĩnh vực trong đó có cảnh báo thiên tai. Mục đích của việc nghiên cứu là kết hợp công nghệ viễn thám và GIS với chỉ số tiềm năng lũ quét (FFPI) phân vùng nguy cơ lũ quét tỉnh Quảng Trị.

Tỉnh Quảng Trị thuộc vùng Bắc Trung Bộ. Địa hình núi cao thấp dần từ Tây sang Đông; mưa tập trung theo mùa; mật độ sông suối dày đặc, độ dốc lớn; ngoài ra, diện tích rừng bị suy giảm ở một số khu vực do các hoạt động sinh hoạt động sinh hoạt của con người (khai thác gỗ, mở rộng nông nghiệp,...). Với các đặc điểm tự nhiên trên làm cho Quảng Trị là nơi dễ xảy ra lũ quét. Hơn nữa, kinh tế - xã hội tỉnh Quảng Trị đã có bước phát triển rất rõ rệt, tuy nhiên nền kinh tế còn phụ thuộc nhiều vào nông nghiệp, đời sống vẫn còn nhiều khó khăn. Vì vậy, những tác động từ lũ quét ảnh hưởng nặng nề đến đời sống người dân ở nhiều khía cạnh (tính mạng, tài sản, tinh thần,...).

Nội dung của nghiên cứu gồm: Để xây dựng bản đồ tiềm năng lũ quét tỉnh Quảng Trị tiến hành thu thập các dữ liệu và sử dụng phương pháp GIS và viễn thám để xử lí ảnh vệ tinh và phân cấp FFPI (Greg Smith, 2010) cho từng nhân tố thành phần: độ dốc, loại đất, hiện trạng sử dụng đất, độ tàn che rừng, lượng mưa phân bổ. Mỗi lớp dữ liệu sẽ được gán giá trị FFPI từ 1 đến 10, giá trị nhỏ nhất là 1, giá trị lớn nhất là 10. Mỗi thành phần được gắn vào mô hình có trọng số và chồng xếp để ra được bản đồ tiềm năng lũ quét. Giá trị nhỏ nhất là 1 tương ứng với khu vực ít chịu ảnh hưởng nhất và giá trị lớn nhất là 10 tương ứng với khu vực có tiềm năng xảy ra lũ quét cao nhất.

 

Bản đồ tiềm năng nguy cơ lũ quét tỉnh Quảng Trị được thành lập với 4 mức độ nguy cơ: rất cao, cao, trung bình, thấp. Kết quả phân vùng nguy cơ lũ quét trong tỉnh cho thấy trong 7 huyện và 2 thị xã, trong đó vùng có nguy cơ lũ quét cao hầu hết tại các huyện Đa Krông, Cam Lộ, Hướng Hoá, Hải Lăng. Tổng diện tích của các huyện nằm trong vùng lũ quét rất cao và cao chiếm hơn 20% tổng điện tích toàn tỉnh, đây là những huyện có địa hình núi cao, dốc lớn, phân cắt mạnh, điều kiện đi lại hết sức khó khăn và rất dễ bị cô lập, có nền thổ nhưỡng dạng đất xám nhưng chứa nhiều đất sét khó thấm nước, tán rừng thưa, lượng mưa trung bình tháng khá lớn. Cụ thề: Các huyện phía Tây Đa Krông (383,5 km2), Cam Lộ (30,1 km2), Hướng Hoá (259,8 km2) và vùng ven biển phía Đông Nam Hải Lăng (383,5 km2). Đối với các khu vực có nguy cơ thấp như là Vĩnh Linh, Gio Linh, phía Đông Bắc Cam Lộ, Triệu Phong, Quảng Trị.

Hiện tại, bản đồ đã cung cấp một đánh giá tương đối về các khu vực có nguy cơ xảy ra lũ quét. Tuy nhiên, độ chính xác của nó vẫn còn hạn chế do phụ thuộc chủ yếu vào dữ liệu có sẵn vì không có khả năng đo đạt thông tin thực tế. Nhưng vẫn cho cái nhìn tổng quát về các khu vực có thể xảy ra lũ quét trong tương lai nhằm thực hiện các biện pháp phòng chống và giảm nhẹ thiên tai, góp phần ổn định cuộc sống của cộng đồng.

Trân trọng.

Tích Hợp Phương Trình Mất Đất Phổ Dụng Cải Tiến Rusle Và Hệ Thống Thông Tin Địa Lí GIS Để Ước Tính Xói Mòn Đất Tại Tỉnh Daklak

on .

Tích Hợp Phương Trình Mất Đất Phổ Dụng Cải Tiến Rusle Và Hệ Thống Thông Tin Địa Lí GIS Để Ước Tính Xói Mòn Đất Tại Tỉnh Daklak

Lê Hoàng Phúc (20521762) - Đỗ Hữu Khánh Hưng (20521361) - Nguyễn Trần Lĩnh Đạt (20521173)

Xói mòn đất là một vấn đề nghiêm trọng ở tỉnh Đắk Lắk, Việt Nam. Để đánh giá mức độ xói mòn đất, chúng tôi đã tích hợp mô hình Revised Universal Soil Loss Equation (RUSLE) và hệ thống thông tin địa lý (GIS). Đắk Lắk là vùng tương đối phức tạp về mặt địa hình từ núi cao đến các cao nguyên, thung lũng. Rõ ràng, với đặc tính như vậy, việc áp dụng RUSLE cho vùng cần đặc biệt quan tâm tới hệ số LS và hệ số R vì sự phân bố độ cao địa hình phức tạp và lượng mưa theo mùa lớn dẫn đến tác động vô cùng lớn đến việc xảy ra xói mòn đất. Các hệ số khác như: K, R cũng có những đặc điểm mang tính địa phương rõ nét nếu so sánh với điều kiện nghiên cứu của phương trình RUSLE gốc. Vì thế, để có thể sử dụng công thức RUSLE, nghiên cứu áp dụng công thức của các tác giả Việt Nam đã công bố với các khu vực có điều kiện tương tự để tính toán hệ số R. Thiết lập cơ sở dữ liệu trong GIS:Với cách tiệm cận hệ thống theo từng thông số ảnh hưởng xói mòn. Để có thể tính toán xói mòn trên GIS, việc đầu tiên là xây dựng cơ sở dữ liệu. Các thông số của mô hình (các hệ số R, LS, K) được tính toán từ các dữ liệu đầu vào (các bản đồ). Trong nghiên cứu này mục tiêu đặt ra là tính toán, xây dựng bản đồ xói mòn đất tiềm năng, vậy chúng tôi cần phải tính toán các hệ số: R, LS, K. Từ đó dựa trên bản đồ hệ số R, bản đồ hệ số LS, bản đồ hệ số K để thành lập bản đồ xói mòn tiềm năng Đắk Lắk.

rusle

Kết quả nghiên cứu cho thấy rằng có sự biến động về mức độ xói mòn trên khắp địa bàn tỉnh, và những vùng có mức độ mất mát đất cao nhất chủ yếu tập trung ở phía Bắc và Đông Nam của tỉnh. Cụ thể, những khu vực có mức độ xói mòn đất cao nhất được xác định là ở phía Nam, đặc biệt là khu vực núi Chu Yang Sin và núi Chu Mu. Ngoài ra, ở phía Bắc, huyện Ea H'Leo cũng là một trong những khu vực nổi bật với mức độ mất mát đất do xói mòn đáng kể với lượng xói mòn có những nơi lên đến hơn 39.5 tấn/ha/năm.

rusle_result

Nghiên cứu cũng chỉ ra rằng các khu vực có địa hình tương đối bằng phẳng hoặc thấp trũng, kết hợp với lượng mưa phân tán trong mùa mưa, chiếm phần lớn diện tích tự nhiên của Tây Nguyên và không bị xói mòn nhiều, chiếm 77,34% tổng diện tích. Trong khi đó, địa hình đồi 11 núi, đặc biệt là khu vực có khả năng kháng xói mòn thấp, chiếm khoảng 18,47% diện tích tự nhiên, phần lớn nằm trên đồi, núi thấp hay rìa các cao nguyên. Các khu vực này có tiềm năng xói mòn trung bình chiếm khoảng 2,78% diện tích tự nhiên. Có thể thấy rằng ảnh hưởng của địa hình và mức độ mưa đối với xói mòn là lớn, đồng thời cần chú ý đến việc quản lý và bảo vệ đất ở những khu vực có tiềm năng xói mòn mạnh như đã phân tích. Những thông tin này sẽ là cơ sở để các quyết định trong quá trình qui hoạch sử dụng đất vùng miền núi, giúp giảm thiểu nguy cơ xói mòn và bảo vệ nguồn đất hiệu quả.

Nghiên cứu cũng nhấn mạnh về tầm quan trọng của việc đo lường và quản lý xói mòn để bảo vệ tài nguyên đất và nước. Trong bối cảnh thay đổi sử dụng đất trở thành vấn đề quan trọng ở Việt Nam, đặc biệt là ở các khu vực đồi núi, nghiên cứu này cung cấp thông tin lịch sử và dự báo xu hướng sử dụng đất tại Đắk Lắk trong 20 năm qua. Điều này giúp những người quản lý chính sách địa phương đưa ra quyết định đúng đắn, kết hợp phát triển kinh tế, xã hội và bảo vệ môi trường. Sử dụng mô hình RUSLE cải tiến và GIS, nghiên cứu này cung cấp công cụ hiệu quả để đánh giá xói mòn tiềm năng tại Đắk Lắk, đồng thời hỗ trợ quyết định chính sách và quản lý môi trường tại cấp địa phương.

Trân trọng.

Dự đoán các điểm sạt lở và bồi lắng trên Đồng bằng Sông Cửu Long bằng các mô hình học máy

on .

Dự đoán các điểm sạt lở và bồi lắng trên Đồng bằng Sông Cửu Long bằng các mô hình học máy

Võ Chơn Chánh (20521122) - Lê Thị Lan Anh (20521067) - Dương Thị Ngọc Anh (20521062)

Đặt vấn đề

Theo định nghĩa của Brunsden và Cruden, sạt lở đất là sự chuyển động dốc xuống của các mảnh vụn, đá hoặc vật liệu đất dưới tác dụng của lực hấp dẫn. Nó xảy ra khi động lực vượt quá lực cản do sự mất ổn định của các sườn đất hoặc đá tự nhiên. Độ dốc tự nhiên sẽ bị mất ổn định bởi các yếu tố tự nhiên và nhân tạo bao gồm sử dụng đất không hợp lý, sự mất trầm tích, lượng mưa lớn và kéo dài, đá bị phong hóa và nứt nẻ mạnh, xói mòn rãnh và bờ sông, động đất, do sự can thiệp của đất đá bề mặt và giải thích về đô thị không có quy hoạch (Woldearegay, 2013; Wubalem và Meten, 2020).

Sạt lở bờ sông là hệ quả của nhiều tác động khác nhau, từ yếu tố địa chất, địa mạo, thủy văn, khí hậu cho đến các yếu tố tác động từ con người. Với tác động của dòng triều, vùng nghiên cứu chịu chi phối bởi chế độ bán nhật triều không đều của biển Đông, biên độ triều lớn khoảng 2÷4 m. Với chế độ triều và biên độ triều như trên nên tốc độ truyền triều rất nhanh, tạo ra vận tốc dòng chảy lớn, đặc biệt tại cửa sông, gây ra xói lở đáy biển.

Ngoài ra, do ảnh hưởng của cấu tạo đường bờ và trầm tích hạt, với cấu tạo đường bờ biển chủ yếu là bùn sét và cát hạt mịn nên dưới tác động của sóng gió sẽ phá vỡ kết cấu bề mặt bờ nếu như thảm thực vật phủ bề mặt không. Do thành phần hạt rất mịn nên phần lớn vật liệu bờ sau khi bị phá vỡ sẽ chuyển thành bùn cát lơ lửng, dễ dàng bị sóng và dòng chảy ven bờ chuyển đi nơi khác. Do vậy, đường bờ biển rất dễ bị tổn thương nếu không có thảm phủ thực vật hoặc rừng ngập mặn bảo vệ.

Sạt lở xảy ra nghiêm trọng ở nhiều nơi trên thế giới. Ở khu vực Đông Nam Á, Đồng bằng Sông Cửu Long của Việt Nam đã và đang xảy ra hiện tượng sạt lở do chịu tác động kép từ biến đổi khí hậu, nước biển dâng; việc khai thác nguồn nước từ thượng nguồn; tác động từ chính sự phát triển nội tại của vùng. Những năm gần đây, tình trạng sạt lở hệ thống sông rạch, xói lở bờ biển đang diễn ra trên hầu hết các tỉnh, thành trong vùng với mức độ ngày càng trầm trọng và phức tạp hơn, gia tăng cả về phạm vi và cường độ.

Mục đích nghiên cứu này sẽ nghiên cứu mức độ sạt lở và bổi lắng quanh khu vực quanh các con sông và ven biển gây ảnh hưởng đến Đồng bằng Sông Cửu Long. Đồng thời tìm ra các yếu tố ảnh hưởng nhờ vào phương pháp định lượng là chủ yếu. Sử dụng các phương pháp định lượng chủ yếu là xoay quanh việc thống kê, tương quan và hồi quy để tìm hiểu các nguyên nhân ảnh hưởng đến sạt lở đất. Các phương pháp này có độ chính xác cao nhờ vào cơ sở toán học giúp xác định yếu tố ảnh hưởng dễ dàng hơn so với việc định tính.

Thông qua việc nghiên cứu này tạo ra mô hình máy học qua việc học tập bằng nhiều phương pháp khác nhau dự đoán các điểm sạc lở để thành lập bản đồ dự đoán sạc lở trong khu vực Đồng bằng Sông Cửu Long. Khu vực chúng tôi nghiên cứu được thể hiện qua Hình 1.

Phương pháp thực hiện

Các đối tượng bản đồ ở dạng vector (vùng, đường điểm) sẽ được trích xuất nhờ vào công cụ trong QGIS, sau đó sẽ được tính toán các khoảng cách và mức độ sạt lở. Sau đó chuẩn hóa các thuộc tính xuất ra định dạng excel để đưa vào phân tích khai phá dữ liệu.

Trong nghiên cứu này chúng tôi sử dụng 2 phương pháp định lượng là thống kê và tương quan kiểm chứng để tìm các yếu tố ảnh hưởng đến các khu vực bị sạt lở. Chia dữ liệu thành 2 phần (8:2), dữ liệu huấn luyện và kiểm tra sẽ lấy theo yếu tố ngẫu nhiên của thống kê.

Bên cạnh đó, các bản đồ ở dạng vector sẽ được raster hóa để dễ dàng cho việc chồng các bản đồ và tính toán trên vector để thành lập bản đồ dự đoán.

Đưa dữ liệu vào huấn luyện và tạo ra mô hình máy học dự đoán được các điểm sạc lỡ và lập được bản đồ dự đoán mức độ sạc lỡ. Phương pháp thực nghiệm như Hình 2.

Kết luận

Trong nghiên cứu này chúng tôi tập trung giải quyết được vấn đề chính là dự đoán lập bản đồ sạt lở và bồi lắng của Đồng Bằng Sông Cửu Long nhờ vào phân tích định lượng. Đồng thời tạo ra được mô hình dự đoán sạc lở với độ chính xác cao 0.89 của mô hình máy học Logistic Regression với 9 thuộc tính và phân loại thành 6 mức độ của sạt lở và bồi lắng.

Giải quyết được các vấn đề tính toán khoảng cách trong tọa độ và thực tế, phân loại thổ nhưỡng và truy xuất thông tin các map. Tuy nhiên vẫn còn hạn chế về dữ liệu sạc lỡ tại khu vực Đồng Bằng Sông Cửu Long vì lượng dữ liệu còn nên việc dự đoán vị trí sạc lỡ còn nhiều sai sót. Trong tương lai chúng tôi sẽ tiếp tục thu thập thêm các điểm sạc lỡ và tăng cường thêm dữ liệu để bản đồ dự đoán chính xác hơn.

Trân trọng.

Vector, Raster và bài toán dự đoán Land-use, Land-cover

on .

Vector, Raster và bài toán dự đoán Land-use, Land-cover

Phạm Quốc Cường (20521150) - Nguyễn Văn Chọn (20521138) - Lê Khánh Châu (20521125)

Hiện nay, hệ thống thông tin địa lý đang được áp dụng vào nhiều lĩnh vực đặc biệt là trong GIS (Geographic Information Systems). Có 2 loại dữ liệu thường được sử dụng xuyên suốt đối với các nhà nghiên cứu về ứng dụng GIS 3D đó là dạng dữ liệu vector và dạng dữ liệu raster.

Phương pháp vector có khả năng biểu diễn topology (tính chất không gian) rất mạnh mẽ. Các yếu tố topology như mối quan hệ đỉnh (nodes), cạnh (edges), và mặt (faces) hoặc vùng (polygons) giữa các đối tượng được bảo toàn và có thể được mô tả chính xác. Chẳng hạn như biểu diễn các mối quan hệ chứa đựng (hồ nước trong công viên), ranh giới quốc gia, các tuyến đường giao nhau,... Còn trong raster, dữ liệu được biểu diễn bằng lưới các ô vuông (pixel), và mỗi pixel chứa một giá trị tại một vị trí cụ thể. Thích hợp hơn cho việc biểu diễn dữ liệu liên tục như độ cao, màu sắc, nhiệt độ...

Trong bài nghiên cứu này chúng tôi tiến hành phân tích chi tiết về 2 loại dữ liệu trên, sau đó tiến hành thực nghiệm trong bài toán land use – land cover. Với mục tiêu chọn ra dữ liệu phù hợp để có thể dự đoán được mục đích sử dụng đất và độ che phủ đất trong các năm tiếp theo. Việc này cho phép đánh giá xu hướng phát triển đô thị, mở rộng nông nghiệp, suy thoái môi trường. Ngoài ra có thể cung cấp thêm thông tin về tình trạng sử dụng đất hiện tại trong khu vực. Hữu ích cho việc lập kế hoạch sử dụng đất và quản lý tài nguyên. Theo dõi tình hình thay đổi sử dụng đất theo thời gian.

Bước đầu thực nghiệm cho thấy dữ liệu vector cho ra kích thước file nhẹ và tốc độ tính toán nhanh hơn, biểu diễn chính xác về ranh giới hành chính, độ dốc của địa hình. Tuy nhiên lại không thể biểu diễn các chi tiết phức tạp mà phải cần đến dữ liệu raster. Chẳng hạn như biểu diễn các thông số về độ cao, các phân tích không gian hay các công trình có độ phức tạp cao. Dữ liệu raster còn thể hiện ưu thế khi có thể tận dụng các mô hình xử lý hình ảnh, thống kê, biểu diễn dữ liệu có nhiều thuộc tính. Nhưng đánh đổi bởi kích thước lớn, thời gian xử lý và khó biểu diễn được có ranh giới hành chính một cách chính xác. Sau cùng, chúng tôi áp dụng vào mô hình học máy để so sánh độ chính xác giữa hai bộ dữ liệu. Kết quả dữ liệu raster cho hiệu quả dự đoán cao hơn với độ chính xác là 90% ở mô hình KNN.

Từ những ưu và nhược điểm trên, chúng tôi đề xuất hướng nghiên cứu mới về sự kết hợp của 2 dạng dữ liệu này với kỳ vọng mô hình mới có thể sở hữu được đặc trưng ưu việt của cả 2 dạng dữ liệu. Đặc biệt là trong khuôn khổ bài toán land use – land cover đang rất được chú ý hiện nay.

Trân trọng.