Phát hiện thư rác tiếng Việt sử dụng các mô hình học sâu
Phát hiện thư rác tiếng Việt sử dụng các mô hình học sâu
210201001 - Ngô Thanh Bình
Ra đời từ những ngày đầu của mạng máy tính, trải qua nhiều nâng cấp và cải tiến, thư điện tử ngày nay vẫn là một phương thức trao đổi thông tin chính thức được sử dụng rộng rãi bởi các cá nhân và tổ chức trên toàn thế giới. Bên cạnh những lợi ích to lớn mà thư điện tử mang lại, thư điện tử cũng bị lạm dụng và sử dụng như một công cụ phục vụ cho các mục đích khác nhau trên môi trường mạng máy tính như gửi thư lừa đảo, thư nặc danh, thư quảng cáo, thư xin tài trợ. Những thư này người nhận không mong muốn nhận nên được gọi là thư rác hay SPAM. Để phân biệt với thư rác, thuật ngữ HAM được sử dụng để chỉ thư mà người nhận mong muốn nhận hay không phải thư rác. Thư rác thường gây cảm giác khó chịu khi người sử dụng nhận được chúng hoặc thậm chí gây ra những tổn hại nhất định cả về vật chất và tinh thần nếu người sử dụng trở thành mục tiêu của những kẻ lừa đảo. Chính vì vậy, nhiều giải pháp đã được phát triển để phát hiện thư rác hiệu quả hơn. Trong đó, các mô hình học máy cũng như các mô hình học sâu đã được ứng dụng để phát hiện thư rác và đạt được độ chính xác cao. Tuy nhiên, các mô hình này phần lớn đều được huấn luyện trên bộ dữ liệu tiếng Anh nên chỉ có khả năng phát hiện được thư rác tiếng Anh, chưa có bộ dữ liệu thư rác tiếng Việt để huấn luyện mô hình phát hiện thư rác tiếng Việt. Luận văn này trình bày việc xây dựng bộ dữ liệu thư rác tiếng Việt và ứng dụng các mô hình học sâu gồm CNN, BiLSTM và PhoBert để huấn luyện mô hình phát hiện thư rác tiếng Việt. Kết quả so sánh cho thấy, các mô hình học sâu này đều cho kết quả phát hiện thư rác tiếng Việt với độ chính xác cao. Kết quả huấn luyện cho thấy độ chính xác của các mô hình lần lượt là CNN 88.42%, BiLSTM 83.03% và PhoBert 86.47%.
Việc ứng dụng các mô hình học sâu trong phát hiện thư rác tiếng Việt giúp ngăn chặn thư rác hiệu quả hơn, giải quyết thêm các vấn đề còn tồn đọng như: thích ứng với các chiến thuật gửi thư rác mới hiệu quả hơn thông qua việc huấn luyện và cập nhật mô hình, có thể cá nhân hóa cho các người dùng khác nhau và có thể kết hợp với các hệ thống an ninh khác như hệ thống phát hiện mã độc, hệ thống phát hiện tấn công. Trong tương lai, hệ thống sẽ tiếp tục được cải tiến để ứng dụng trong các hệ thống phát hiện thư rác tiếng Việt.
Trân trọng.