NGÀNH CNTT TUYỂN SINH NHIỀU CHỈ TIÊU NGÀNH CNTT, CNTT VIỆT NHẬT VÀ KHOA HỌC DỮ LIỆU

Phát hiện lỗ hổng trên ứng dụng web sử dụng kỹ thuật phân tích động và thuật giải di truyền

on .

Phát hiện lỗ hổng trên ứng dụng web sử dụng kỹ thuật phân tích động và thuật giải di truyền

Ngô Khánh Khoa - CH1802047

Các trang web hiện nay tồn tại rất nhiều đầu vào để tương tác với ứng dụng và vô vàn các logic xử lý ở mỗi đầu vào. Do đó, việc kiểm tra và xử lý toàn bộ đầu vào tốn nhiều thời gian và công sức. Thông thường, việc kiểm tra đầu vào này sẽ được kiểm tra bởi các kỹ sư an ninh mạng, đánh giá an toàn thông tin. Công việc của họ là truy cập tất cả đầu vào có thể, thử nghiệm nhằm tìm kiếm điểm yếu của ứng dụng, từ đó thông báo cho người quản trị web có thể khắc phục lỗ hổng trước khi nó bị khai thác bởi kẻ xấu. Tuy nhiên, cách làm này phụ thuộc vào chuyên gia đánh giá và tốn nhiều thời gian. Phương pháp tiết kiệm hơn là dùng các công cụ rà quét tự động. Nhiệm vụ của chúng là từ các đầu vào có thể có, truyền các mã khai thác vào và kiểm tra phản hồi ứng dụng. Nếu phát hiện lỗ hổng, công cụ sẽ ghi nhận kết và và gửi cho người dùng công cụ để phân tích và vá kịp thời lỗ hổng.

Tuy rằng công cụ kiểm thử tự động có thể chạy được với gần như toàn bộ các ứng dụng web và tương đối dễ sử dụng, nhưng nó cũng có một số hạn chế đáng kể. Phương pháp này có thể phải sử dụng nhiều tài nguyên và thời gian thực thi phụ thuộc vào số lượng đầu vào của ứng dụng, và không kiểm tra được toàn bộ các đầu vào có thể gây ra lỗi. Điều này có thể làm lãng phí tài nguyên và giảm hiệu suất kiểm thử tự động. 

Để cải thiện việc này, một giải pháp có thể là sử dụng phương pháp thuật giải di truyền. Trong mô hình này, quá trình tiến hoá được thêm vào giữa giai đoạn chọn mã khai thác, giúp chọn lọc những mã khai thác phù hợp với đầu vào đang kiểm tra. Bằng cách kết hợp các mã khai thác tiềm năng với một đầu vào cụ thể với các mã khai thác khác có thể tạo ra điểm đột biến tại đầu vào đó, đi sâu vào các nhánh mã nguồn ứng dụng và truy cập đến các vị trí có thể tạo ra lỗi trên ứng dụng. Việc này giúp tăng cường hiệu quả của phương pháp kiểm thử tự động và giảm thiểu lãng phí tài nguyên.

Luận văn này sẽ tập trung nghiên cứu trên các ứng dụng web chạy ngôn ngữ PHP, và một trong những lỗ hổng bảo mật tiềm tàng của nó là lỗ hổng thực thi mã từ xa (RCE). Phương pháp kiểm thử tự động fuzzing sẽ được triển khai để tìm kiếm lổ hổng bảo mật trong ứng dụng web. Nhằm tăng cường chất lượng của quá trình fuzzing, thuật giải di truyền sẽ được thêm vào để xử lý mã khai thác phải thực hiện. Kết quả của nghiên cứu là mong muốn tìm cách giảm thiểu số lượng đầu vào cần xử lý trong quá trình fuzzing, đồng thời tăng khả năng tìm kiểm lỗ hổng bảo mật trên ứng dụng web.

Cụ thể hơn, công việc thực hiện sẽ là kết hợp thuật giải di truyền và công cụ webfuzz để cải thiện quá trình fuzzing. Các quá trình chọn lọc, tiến hoá của thuật giải sẽ được sử dụng để tạo ra các mã khai thác phù hợp với đầu vào đang kiểm tra, từ đó tạo ra các đột biến tại đầu vào đó. Việc sử dụng công cụ webfuzz sẽ giúp đưa ra các đầu vào ngẫu nhiên và đa dạng hơn, tăng khả năng tìm ra các lỗ hổng trong ứng dụng web.

Kết quả nghiên cứu giúp tăng cường khả năng phát hiện lỗ hổng của phương pháp phân tích động, đồng thời tăng cường hiệu suất và giảm thiểu thời gian và tài nguyên tiêu hao trong suốt quá trình thực thi mô hình.

Kết quả đạt được:

  • Thực hiện nghiên cứu và áp dụng phương pháp phân tích động sử dụng thuật giải di truyền trong việc đánh giá ứng dụng web mã nguồn mở và đạt được kết quả tăng độ bao phủ mã khi thực hiện fuzzing và tìm kiếm được các lỗ hổng RCE có tồn tại trong ứng dụng.
  • Trong quá trình tích luỹ, thu thập mã khai thác, luận văn đã tổng hợp được tập dữ liệu mã khai thác lỗi RCE. Tập dữ liệu này được sử dụng trong quá trình fuzzing của mô hình, đồng thời khi sử dụng trên các công cụ khác cũng đạt được kết quả tốt.
  • Kết quả đánh giá cũng được so sánh với công cụ fuzzing hộp đen wfuzz và ffuf và cho ra kết quả tích cực về hướng phát triển của fuzzing kết hợp thuật giải di truyền.

Trân trọng.

Rút trích quan hệ giữa các thực thể trong văn bản tiếng Việt

on .

Rút trích quan hệ giữa các thực thể trong văn bản tiếng Việt

Phạm Minh Mẫn - CH1802054

Rút trích quan hệ là một trong những bài toán quan trọng trong xử lý ngôn ngữ tự nhiên (NLP). Nó là bài toán con của bài toán trích xuất thông tin, được ứng dụng rộng rãi trong nhiều bài toán như sơ đồ tri thức, hỏi đáp tự động, tóm tắt văn bản,... Với sự phát triển không ngừng của dữ liệu, đặc biệt là dữ liệu dạng văn bản, bài toán này càng nhận được sự quan tâm hơn đối với các nhà nghiên cứu cả trong và ngoài nước. Tuy nhiên, số lượng các nghiên cứu về bài toán rút trích quan hệ trong văn bản tiếng Việt vẫn còn hạn chế so với các ngôn ngữ khác như tiếng Anh, tiếng Trung,… Do đó, luận văn nghiên cứu sâu hơn về đề tài này.

Về mặt thực tiễn, rút trích quan hệ có nhiều ứng dụng trong các lĩnh vực bao gồm:

- Khai phá dữ liệu từ Web (Web mining): nghiên cứu đối thủ cạnh tranh, rút trích tên người nổi tiếng, các sản phẩm đang thịnh hành, so sánh giá cả sản phẩm, phân tích tâm lý của khách hàng.

- Trí tuệ doanh nghiệp (Business intelligent): đánh giá thông tin thị trường từ các điều luật mới trong thị trường kinh doanh, các thông tin về chính trị giữa các nước...

Về mặt khoa học, nghiên cứu có những đóng góp sau:

- Nắm được tình hình nghiên cứu trong nước và trên thế giới, cũng như xu hướng phát triển của bài toán rút trích quan hệ và các bài toán có liên quan như đồng tham chiếu.

- Thảo luận, đánh giá các phương pháp rút trích quan hệ và phương pháp xử lý phân giải đồng tham chiếu, đồng thời đề xuất một số hướng phát triển tiếp theo của bài toán.

Luận văn đã đạt được những kết quả sau:

- Nắm được tổng thể về bài toán rút trích quan hệ, tình hình các nghiên cứu trong nước và trên thế giới, các xu hướng phát triển của bài toán rút trích quan hệ và các bài toán có liên quan như phân giải đồng tham chiếu.

- Trên cơ sở kế thừa và nghiên cứu các mô hình kết hợp dựa trên BERT để xử lý bài toán RE trong tiếng Việt, luận văn so sánh mô hình kết hợp dựa trên mô hình PhoBERT và XLM-RoBERTa [22] với mô hình đơn lẻ như PhoBERT. Từ đó, có thể thấy rằng phương pháp áp dụng các mô hình kết hợp cho kết quả tối ưu hơn so với phương pháp áp dụng mô hình đơn lẻ.

- Đề xuất, đánh giá phương pháp phân giải đồng tham chiếu mới cho văn bản tiếng Việt để phục vụ cho bài toán rút trích quan hệ với F1 dựa trên ba độ đo MUC, B3, CEAFe lần lượt đạt 66.50%, 82.70%, 76.26%.

- Xây dựng hệ thống demo cho bài toán RE trong văn bản tiếng Việt.

Tuy nhiên, ngoài các kết quả đạt được, luận văn vẫn còn một vài hạn chế sau:

- Chưa giải quyết bài toán mất cân bằng dữ liệu trong việc huấn luyện mô hình RE trong tiếng Việt.

- Chưa kết hợp kết quả của bài toán đồng tham chiếu vào hệ thống RE đã xây dựng.

Trân trọng.

Xây dựng hệ thống nhận diện biển số xe ô tô theo thời gian thực sử dụng công nghệ dữ liệu lớn

on .

Xây dựng hệ thống nhận diện biển số xe ô tô theo thời gian thực sử dụng công nghệ dữ liệu lớn

Bùi Thanh Phương - CH1902016

Có thể dễ dàng nhận thấy thành phố thông minh đang dần xuất hiện phổ biến tại các đô thị trên thế giới thông qua sự phát triển của lĩnh vực giao thông. Trong đó để xử lý các công việc về giao thông, cần phải có chương trình nhận diện biển số xe trước. Thêm vào đó, với lượng dữ liệu lớn ngày càng tăng, việc xử lý và phân tích dữ liệu đòi hỏi sự hỗ trợ từ các công cụ dữ liệu lớn và trí tuệ nhân tạo. Do đó, để tận dụng và tối ưu hóa nguồn tài nguyên có sẵn, đề tài nhắm tới mục tiêu đề xuất hệ thống và sử dụng mạng RetinaNet được huấn luyện bằng cách áp dụng thư viện xử lý dữ liệu lớn BigDL nhằm xác định biển số xe ô tô di chuyển trên đường thông qua máy tính nhúng Jetson nano kết nối với camera.

Kết quả đạt được:

  • Đề xuất hệ thống giao thông thông minh sử dụng công nghệ dữ liệu lớn để nhận diện biển số xe ô tô theo thời gian thực.
  • Áp dụng các phương pháp mạng học sâu để tăng độ chính xác nhận dạng biển số xe trên nền tảng dữ liệu lớn.
  • 2365 ảnh thô với nhiều kích thước, chất lượng khác nhau.
  • 1750 ảnh ô tô đã được gán nhãn dưới dạng VOC.
  • 30 tệp dữ liệu dạng video có chiều dài trung bình từ 30 giây đến 1 phút với đô phân giải từ Full HD đến 4K.
  • Tiện ích mở rộng trên trình duyệt để tải hình ảnh ô tô.

Trân trọng.

Phân loại hình ảnh mối hàn thép dựa trên công nghệ xử lý dữ liệu lớn

on .

Phân loại hình ảnh mối hàn thép dựa trên công nghệ xử lý dữ liệu lớn

Nguyễn Xuân Huy - CH2002007

Khuyết tật hàn là các lỗi được tạo ra do sai lệch về hình dáng bên ngoài, độ nặng và cấu trúc kim loại so với thiết kế trong quá trình làm việc của thợ hàn với máy hàn. Khuyết tật hàn có thể ảnh hưởng đến chất lượng và thẩm mỹ của mối hàn. Trong quá trình sản xuất và thi công thép tiền chế cho các công trình, nếu các khuyết tật mối hàn không được phát hiện sẽ không đảm bảo chất lượng và an toàn cho công trình, cũng như đe dọa tính mạng con người. Trong lĩnh vực gia công, có 2 cách kiểm tra khuyết tật mối hàn là kiểm tra phá hủy và kiểm tra không phá hủy. Kiểm tra phá hủy thường thực hiện trong các phòng thí nghiệm, trong khi kiểm tra không phá hủy thường được ưu tiên thực hiện trong quá trình sản xuất.

Có nhiều phương pháp kiểm tra không phá hủy để kiểm tra khuyết tật trong mối hàn như kiểm tra bằng sóng siêu âm (UT), kiểm tra bằng tia X (RT), kiểm tra bằng tia gamma (GT), kiểm tra bằng dòng điện xoay chiều (ET), và kiểm tra bằng phương pháp quang (VT). Lĩnh vực thị giác máy tính đang được ứng dụng trong các lĩnh vực y tế, an ninh, sản xuất kinh doanh, việc phân loại khuyết tật mối hàn dựa trên hình ảnh cũng có thể thực hiện bằng thị giác máy tính.

Dữ liệu hình ảnh về khuyết tật mối hàn rất đa dạng do quá trình sản xuất. Tuy nhiên, nghiên cứu ứng dụng phân loại khuyết tật mối hàn sử dụng các phương pháp học sâu cho bộ dữ liệu ngày càng lớn sẽ gặp rất nhiều thách thức. Một trong những thách thức lớn nhất đó là chất lượng hình ảnh khi thu thập từ camera hoặc điện thoại thông minh bị ảnh hưởng bởi góc chụp ảnh, độ sáng hoặc các mối hàn bị che khuất. Điều này dẫn đến việc có thể thiếu sót thông tin và làm giảm độ chính xác của mô hình phân loại. Bên cạnh đó, chi phí huấn luyện cho mô hình cũng là một thách thức khác. Một số phương pháp học sâu đòi hỏi một lượng lớn dữ liệu và thời gian để huấn luyện, và việc thu thập dữ liệu phù hợp cũng là một nguyên nhân khó khăn. Ngoài ra, việc xây dựng một mô hình phân loại khuyết tật mối hàn đáng tin cậy và chính xác có thể đòi hỏi sự cân nhắc kỹ lưỡng và công phu trong quá trình thu thập và xử lý dữ liệu.

Để giải quyết những thách thức trên, Luận văn này đề xuất một phương pháp phân hình ảnh mối hàn dựa trên công nghệ xử lý dữ liệu lớn. Phương pháp này sử dụng các mô hình dữ liệu đào tạo trước để học chuyển giao (LT) và dữ liệu đào tạo áp dụng phương pháp đào tạo song song phân tán. Nền tảng tập trung dữ liệu Apache Spark kết hợp thư viện BigDL giúp cho việc huấn luyện phát hiện khuyết tật mối hàn trở nên nhanh chóng và chính xác hơn.

Từ kết quả thực nghiệm 1 của bộ dữ liệu hàn nhiệt gồm 9,058 hình ảnh cho thấy, Trong tác vụ 3 class, mô hình EfficientNetB0 cho kết quả thấp nhất (0.4394, 0.2035 và 0.2683 cho các độ đo Accuracy, Macro F1-score và Weighted F1-score), trong khi ResNet101 và VGG16 cho kết quả tốt hơn. VGG16 cho kết quả tốt nhất trong 5 mô hình cài đặt (với 0.8230 Accuray, 0.8205 Macro F1-score và 0.8222 Weighted F1- score). Trong tác vụ 7 class, EfficientNB0 và VGG16 lần lượt cho kết quả không tốt đồng thời hiệu suất của các mô hình ở tác vụ 7 class thấp hơn khoảng 20% so với tác vụ 3 class.

Căn cứ kết quả thí nghiệm 2 có thể đánh giá thời gian trung bình huấn luyện mô hình từ xxx giây cho bộ dữ liệu 9,058 tấm ảnh cho huấn luyện song song phân tán trên mạng LAN so với xxx giây của qua VPN, độ chính xác đạt xx%. Với phương pháp Đồng bộ hóa Dữ liệu Song Song, Kết quả cho thấy rằng huấn luyện trên một GPU chỉ nhanh hơn một chút so với nhiều GPU (xxs / epoch so với xxs / epoch). Tuy nhiên, nếu huấn luyện mô hình với lượng dữ liệu lớn khả năng xử lý của 1 GPU thì việc sử dụng chỉ 1 GPU để huấn luyện có thể gây khó khăn và trở nên quá tải. Giải pháp hợp lý trong trường hợp này là sử dụng huấn luyện mô hình song song và phân tán dữ liệu. Đó là một trong những giải pháp tốt nhất để làm việc với dữ liệu lớn hiện nay.

Từ những kết quả này, ta có thể thấy rằng công nghệ xử lý dữ liệu lớn là một phương pháp phù hợp trong việc phân loại hình ảnh khuyết tật mối hàn thép. Việc áp dụng công nghệ này giúp tăng độ chính, giảm thời gian đáng kể xử lý đào tạo dữ liệu và giúp giảm chi phí đào tạo. Ngoài ra, phương pháp này chứng tỏ có hiệu quả và thiết thực trong ứng dụng thực tế.

Trân trọng.

Nghiên cứu hệ thống quản lý, tư vấn và chăm sóc sức khỏe tích hợp công nghệ blockchain

on .

Nghiên cứu hệ thống quản lý, tư vấn và chăm sóc sức khỏe tích hợp công nghệ blockchain

Lê Ngọc Hiển - CH1802007

Blockchain đang trong quá trình phát triển mạnh mẽ và hoàn thiện mình trở thành một công nghệ an toàn, đáng tin cậy về việc chia sẻ dữ liệu. Blockchain được ứng dụng vào nhiều lĩnh vực khác nhau như: Tài chính, quản lý chuỗi cung ứng, công nghiệp thực phẩm, IOT, y tế và chăm sóc sức khỏe…

Đề tài thử nghiệm xây dựng hệ thống quản lý, tư vấn, chăm sóc sức khỏe kết hợp với công nghệ blockchain (Hyperledger Fabric Blockchain) vào việc bảo mật hệ thống và truy cập dữ liệu giữa các đối tượng tham gia vào hệ thống (bệnh nhân, bác sĩ, dược sĩ, bệnh viện, nhà thuốc). Cùng với đó là thiết kế hệ thống theo kiến trúc Microservices kết hợp với các công nghệ hiện đại như Elastic Search, Azure Service Bus, Redis Cache giúp cải thiện hiệu năng khi tích hợp Blockchain và tăng độ tin cậy của hệ thống, cũng như hỗ trợ tối đa cho việc theo dõi và phân tích dữ liệu trên mạng lưới Blockchain.

Tổng quan đề tài đã đưa ra kiến trúc hệ thống phù hợp khi tích hợp công nghệ blockchain, các phương thức giao tiếp một cách hiệu quả giữa các dịch vụ trong kiến trúc Microservices. Từ đó cho ra những ưu nhược điểm và cách khắc phục cách khắc phục trong quá trình xây dựng và phát triển. Từ đó mở ra chiến lược phát triển hệ thống sau này mà vẫn đảm bảo được hiệu năng của hệ thống. Kèm theo đó đề tài cũng xây dựng một nghiệp vụ phù hợp trong hệ thống quản lý tư vấn chăm sóc sức khỏe trực tuyến, tạo nên sự thuận tiện và hiệu quả cho bệnh nhân.

Trân trọng.